AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2086 条
全部一手资讯X论文
标签「编码」清除
meng shao@shao__meng · 6月2日54

$10K Cursor Credits 到期了,很想念它 😄 5月放开用 Cursor,差不多用了 $2K,大致整理了 Cursor 使用体验: · 100% 时间都在用 Agent Windows,传统 IDE 界面没打开过 · 多模型切换用的很少,有🪜时用 GPT-5.5 多,没🪜时用 Composer 2.5 多,Composer 2.5 Fast 模式确实块,而且它很喜欢输出 Diagram 流程图 · Context 使用明细确实方便 · Cursor 的 Agent 输出界面默认不是 Markdown,也不支持拷贝为 Markdown,这一点有点不方便,我基本都要指定它输出到 Markdown 文件中 · Agent 界面右侧的扩展窗口比较好用,Terminal、Browser、File 和 Canvas 都有各自用处 最后的最后,还有一个小惊喜,5月份除了送 $10K Credits,还送了两个月 Ultra 订阅吗?

译用户邵猛在获得 Cursor 团队赠送的 $10K 额度及两个月 Ultra 订阅后,实际使用了约 $2 千美元。其使用体验显示,100% 的时间都在使用 Agent Windows 模式,很少进行多模型切换。模型选择上,有外网访问时偏好 GPT-5.5,否则常用 Composer 2.5,因其 Fast 模式速度快且喜欢输出 Diagram 流程图。优点在于 Context 使用明细清晰,但 Agent 输出界面默认非 Markdown 且不支持拷贝为 Markdown。此外,Agent 界面右侧的扩展窗口(Terminal、Browser、File、Canvas)被认为比较实用。

meng shao@shao__meng · 6月2日64

Lee Robinson 分享了四条「Agent 友好型代码库」原则:把信息放进代码、让 Agent 能自检、能查文档、能自动化巡检 一、源码必须是真相,或有一条 Agent 能走通的路径 内容要么在代码里,要么通过 MCP / CLI / Skill 让 Agent 能读到。 @leerob 用 Cursor 官网从 CMS 迁回 Markdown + 代码的案例说明——问题不是 CMS 本身,而是 抽象层在 Agent 时代成本极高。 官网迁回后的好处: · 统一用 Git · PR 链接即可分享 · 源码 + 编译/AI 翻译 · 对象存储 + 自研小工具 · 内容直接可见、可改 实践含义:若保留 CMS / 数据库 / 配置中心,必须为 Agent 补一条 可编程访问路径(MCP 读内容、CLI 导出、Skill 描述工作流),否则 Agent 只能猜,或依赖你口述。 二、Agent 必须能验证自己的工作 类型系统、快而好的测试、配置完善的 Linter。 Agent 会犯错;没有反馈闭环,错误只能等人眼发现。验证机制是 Agent 的 感官系统: · 类型: 编译期约束,减少「看起来对、跑起来错」 · 测试: 可执行的规格说明;快 = Agent 能频繁试、频繁改 · Linter: 风格与常见错误的自动守门员 三点都指向同一目标——让机器能独立判断「改对了没有」。Lee 在 CMS 迁移里用 @ browser 截图对比本地与生产,也是同一思路:用可观测结果验证,而非凭感觉。 实践含义: 若测试慢、 flaky、或无类型,Agent 的迭代会停在「 plausible 但未经检验」;投资验证基础设施,等于投资 Agent 产能。 三、精简有效的 AGENTS.md 每轮对话都带上;写该写的,别写模型已知的常识。 AGENTS.md 是 人类给 Agent 的压缩上下文,不是百科全书。模型已具备通用知识(测试常在 tests/、用 npm test 等),重复只会占 token、稀释重点。 更值得写的是: · 项目特有的架构决策、命名约定、禁区 · 「非显而易见」的入口(例如内容其实在某 CMS,需用某 CLI) · 提交/部署/分支策略等团队规则 Lee 还强调:用 Agent 在仓库里找东西,看能否按预期找到;若 Agent 总找不到 utils/helpers/misc.ts 这类路径,说明命名/结构需要为人和 Agent 共同 refactor。 好 AGENTS.md 像 入职第一天老员工口头交代的那几件事,不是 README 复读。定期让 Agent 做「找 X、改 Y」的探路,是检验文档是否有效的低成本方法。 四、自动化:让代码库在后台自我改进 自动 refactor 建议、安全扫描、可选的持续文档化——「睡着也在变好的代码库」。 Cursor 安全 Agent 博客 给出了可落地的形态: · Agentic Security Review:PR 级安全审查,可阻断 CI · Vuln Hunter:扫存量代码漏洞 · Anybump:依赖漏洞自动打补丁 + 跑测试 + 开 PR · Invariant Sentinel:每日检查安全/合规不变量是否漂移 共同架构:Webhook / PR 事件触发 → Cloud Agent + MCP 存状态、去重、统一输出 → Slack / PR 评论闭环。 这不是替代人工 Code Review,而是在 PR 量放大 5x 时补 coverage 和 consistency。静态分析 + CODEOWNERS 仍有用,但挡不住规模;Agent 自动化适合 重复、有规则、可验证 的任务(安全、依赖、文档漂移)。 实践含义: 从一条自动化开始(例如 PR 安全评论),验证噪音/召回后再加阻断、再扩到存量扫描;和第三条一样,验证机制越成熟,自动化越敢放权。 总结:四条原则的关系 1 可读的真相源 -> Agent 能读能改 -> 2 可验证 -> Agent 能自检 -> 3 AGENTS.md 补缺口 -> 4 自动化放大 -> 代码库持续变好 · 可读真相 — Agent 有材料可工作 · 可验证 — Agent 有标准判对错 · AGENTS.md — 补代码里写不下的上下文 · 自动化 — 把 1–3 固化成 24/7 流程 Lee 的 CMS 迁移($260、344 次 Agent 请求、3 天完成)说明:在 Agent 时代,删复杂度、把信息拉回代码,ROI 可以量化。 四条原则本质是同一策略——降低 Agent 的认知与验证成本,把 token 和人力花在产品价值上,而不是和抽象层搏斗。

译Lee Robinson 分享了四条构建适合AI智能体的代码库的原则:1. 源码应为真相或提供可读路径(如将内容从CMS迁移回代码);2. 智能体需能通过类型系统、测试和Linter验证工作;3. 维护精简有效的AGENTS.md文件,提供项目特有上下文;4. 设置自动化流程(如安全扫描)持续改进。他以Cursor官网迁移为例,该过程耗时3天,消耗344次Agent请求,花费$260,证明降低抽象层成本能带来可量化的投资回报。

meng shao@shao__meng · 6月2日78

Claude Code 核心开发者 @trq212 分享了一段高价值「人机结对编程中的 “理解验证” 工作流」 通过这份工作流 Skill,让 Coding Agent 结束工作时,人类对问题、方案和影响都有可复述、可辩护的掌握,一起拆解看看。 https://gist.github.com/ThariqS/1389dcdff9eba4789887a2211370f06b 核心定位:AI 扮演「高效且睿智的教师」 成功标准不只是「任务完成」,更要看人类是否真正理解整场会话,与常见 agent 模式的差异: · 每步增量教学,过关才进入下一阶段 · 先让用户复述,再补缺口 · 清单 + 测验 + 演示理解 才算结束 三条理解轴(清单应覆盖) 1. 问题域 · 是什么问题 · 为何会出现(根因、历史、分支路径) · 曾有哪些取舍路线 2. 方案域 · 做了什么、为何这样解 · 设计决策与 trade-off · 边界情况与失败模式 3. 语境域 · 改动在系统/业务里意味着什么 · 会影响谁、什么流程、什么风险 反复追问 why → 更深层的 why,同时覆盖 what / how。强调:问题理解不到位,方案理解往往是假的。 操作流程(可执行的节拍) 1. 做完一小步 只推进一个可验收的小单元(例如:定位根因、选定方案、改一处逻辑),不要一口气跨多个阶段。 2. 先让用户复述 在进入下一步之前,请用户用自己的话说明:这一步在解决什么、为什么这样做、还有什么不确定。这是诊断,不是考试前的泄题。 3. 按缺口补课 根据复述找空洞:补动机、补业务逻辑、补边界与分支;可按需要切换抽象层级(例如 ELI5 / ELI14 /「像实习生那样讲」)。 4. 小范围验证 用开放题或多选题检查是否真懂;若用选择题,打乱正确选项顺序,且在用户提交答案之前不公布对错。 5. 过关才前进 同一阶段需在高层(为何要做)和低层(怎么做、边界在哪)都确认后,才进入下一阶段。 6. 同步更新清单 在 running 的 Markdown 里勾选或补充:问题 / 方案 / 语境三个维度下,用户应掌握的具体条目。 7. 必要时绑到真实材料 理解若依赖实现细节,贴相关代码片段,或一起用调试器走一遍,避免「听懂了但对着 diff 仍说不清」。 8. 收工条件 会话结束前,清单上的每一项都需用户表现出已掌握(能复述、能答题、能解释 trade-off),而不是由 agent 单方面总结一句「你应该懂了」。 设计意图(为啥在 Anthropic 内部被推崇) · 对抗「智能体黑箱」:长会话里人类容易变成审批按钮;增量确认把认知负荷摊到全程。 · 把 tacit knowledge 外显化:分支、否决方案、边缘 case 往往只存在于 agent 上下文里,清单强制沉淀。 · 可审计的学习:对团队负责人或后来的自己,「当时为什么这么改」有迹可循。 · 与产品风险对齐:懂 impact 才谈得上 responsible shipping,而不只是 merge。 实操要点(落地时注意) · 清单是活文档:随会话演进增删项,不是一次性大纲。 · 测验要变式:避免背答案;多选题需轮换正确选项位置。 · 层级要交替:同一主题在动机 <-> 实现 <-> 边界之间切换,防止只会背概念或只会跟 diff。 · 会话可拉长:这是刻意的——深度理解优先于速度。

译Anthropic 核心开发者分享了一套用于 Claude Code 的「理解验证」工作流。该工作流将 AI 定位为“高效且睿智的教师”,成功标准不仅是完成任务,更是确保人类对问题、方案及影响有可复述、可辩护的掌握。它通过增量教学、用户复述、清单+测验等方式,围绕问题域、方案域和语境域三条轴线展开,具体包含8个可执行步骤,强调在进入下一阶段前需确认用户已真正理解。此工作流旨在对抗长会话中人类易沦为“审批按钮”的“智能体黑箱”问题,强制沉淀决策上下文,实现可审计的深度理解。

Baidu Inc.@Baidu_Inc · 6月2日44

We're doing a live walkthrough of MeDo 3.0 this Friday at 9:00 AM UTC+8! @Medo_CodeFree will cover what's changed, how it works, and a few things you can build with it. 🧵 Tune in here ↓

译我们将于本周五北京时间上午9点直播演示 MeDo 3.0! @Medo_CodeFree 将介绍其变化、工作原理以及你可以用它构建的一些东西。 🧵 点击此处观看 ↓

OpenCode@opencode · 6月2日25

our team is addicted to little frank guess what model it is

译我们的团队对 little frank 上瘾了 猜猜这是什么模型

OpenAI Developers@OpenAIDevs · 6月2日35

Customer call today. New product workflow tomorrow. Proaction is a 5-person team building fleet management software with Codex across sales demos, support follow-ups, marketing assets, and engineering work.

译今天与客户通话。明天开始新的产品工作流程。 Proaction是一个5人团队,他们使用Codex构建车队管理软件,涵盖销售演示、客户支持跟进、营销资产和工程工作。

Rohan Paul@rohanpaul_ai · 6月2日75

🎯 Andrej Karpathy on how to learn.

译🎯 Andrej Karpathy 谈如何学习。

ginobefun@hongming731 · 6月2日71

http://x.com/i/article/2061582822029283328 # BestBlogs 早报 · 06-02|MiniMax M3、AI Coding 规范、视频 Agent 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-06-02 ## 导语 AI 能力边界在这个夏天被连续刷新。今天的早报围绕三条主线展开:MiniMax M3 作为国内首个集前沿 Coding、1M 超长上下文与原生多模态于一体的开源模型正式亮相,24 小时自主完成 CUDA 算子优化的实测让 benchmark 数字有了具体重量;Chromium 3500 万行代码库的 AI Coding 规范体系,展示了工程团队如何把 AI 工具真正制度化;xAI 的 Ethan He 则给出一个更深的判断——视频模型的智能上限跟着 LLM 走,下一个前沿不是更好的视频,而是视频 Agent。 速览部分覆盖了语音智能体工程化实践、AI Friendly 架构设计、英伟达 Agent 工厂全栈发布、RAG 工程化认知纠偏、Rippling 生产级多智能体落地,以及吴恩达对 AI 工程师角色演化的判断,还有 MiniMax 自身作为 AI Native 公司的组织实践分享。 ## 精讲一:MiniMax M3:前沿 Coding 能力、1M 上下文、原生多模态,一个模型全给你 MiniMax M3 于今日正式发布,是目前国内第一个同时具备前沿 Coding 能力、1M 超长上下文与原生多模态的开源模型。 三项能力的意义 在此之前,这三项能力是海外闭源前沿模型(如 GPT-5.5、Gemini 3.1 Pro、Claude Opus)的专属标配。M3 是国内首个将这三者同时开源的模型,也是目前全球唯一的开源实现。 Coding 能力方面,M3 在 SWE-Bench Pro 上得分 59.0%,超过 GPT-5.5 和 Gemini 3.1 Pro,接近 Opus 4.7;在面向自主 Agent 的端到端评测框架 Claw-Eval 上取得最高分。值得关注的不只是数字本身,而是 M3 背后训练方式的转变:团队构建了交互式用户模拟器框架,让模型在训练阶段就接触到需求澄清、方案讨论、多轮迭代等真实开发场景,而非单轮任务假设。 MSA:把长上下文真正变成可 Scale 的维度 1M 上下文并非只是参数设置——它需要底层注意力机制的彻底重构。M3 自研的 MSA(MiniMax Sparse Attention)是一种全新稀疏注意力架构,通过精确的 KV 分块和 KV outer gather Q 算子优化,在 100 万上下文下每 token 计算量仅为上代模型的 1/20,prefill 阶段加速 9 倍,decoding 阶段加速超过 15 倍。与全注意力相比,MSA 在多个对照实验中能力基本打平,却拥有硬件友好、易实现、真正可 scale 的特点。 两个让人印象深刻的实测 CUDA 算子优化:给 M3 一份任务描述、一个 benchmark 脚本、一个不能直接运行的 Triton 骨架,没有任何参考实现,要求在 NVIDIA Hopper 架构 GPU 上优化 FP8 GEMM kernel。在约 24 小时的连续执行中,M3 完成了 147 次 benchmark 提交、1959 次工具调用,将 Hopper FP8 硬件峰值利用率从 7.6% 推进至 71.3%,实现 9.4× 加速。最优解出现在第 145 次提交——在多个性能平台期后模型仍未放弃,这种长程自主迭代能力是最直接的实证。 让 M3 「训」模型:给 M3 四个仅完成预训练的 Base 模型,在 12 小时内自主完成数据合成、训练、评测、迭代全流程,目标是让这些模型在数学推理、工具调用、代码生成等任务上具备基本能力。任务开放度远高于 CUDA 优化——没有明确的反馈结构,M3 需要自主判断研究方向。最终结果显示,M3 在 PostTrainBench 的表现显著优于对比模型,验证了其在开放研究任务中的长程规划能力。 原生多模态:从 Step 0 开始的混合训练 M3 从训练第一步就采用多模态混合训练,而非事后拼接。团队发现 Interleaved data(交错数据)对模型性能的提升远比通常认为的更关键,在数据管线重构后,训练数据 Token 规模已可提升至 100 万亿量级。在论文复现实测中,M3 通过多模态能力读懂论文图表、通过长上下文将论文+代码+实验日志一次性进窗口、通过编程+Agent 能力长线程完成复现——三项能力协同,体现了原生多模态路线的价值。 为什么值得关注 M3 的意义不只是 benchmark 上的数字超越,而是三项能力的同时开源——这意味着研究者和开发者现在可以基于一个真正具备长上下文、强 Coding、原生多模态的开源基座来构建应用。在 API 成本、可定制性、数据隐私等方面,开源的 M3 为从业者提供了此前不存在的选择。 延伸阅读:配合今天速览中的「MiniMax 的 AI Native 组织进化实践」,可以看到 M3 背后这家公司是如何从第一天就把 AI 作为组织运转基础来设计的。 ## 精讲二:深入解析 Chromium 的 AI Coding 开发体系 Chromium 的 AI Coding 开发体系 这篇文章来自 QQ 浏览器团队,对 Chromium(3500 万行代码)的 agents/ 目录做了深度解析,呈现了目前见到的最完整的大型工程团队 AI Coding 规范实践。 为什么 Chromium 的经验值得认真对待 3500 万行 C++ 代码库、全球数千名贡献者、同时支持 Gemini CLI、Claude Code、GitHub Copilot 三种 AI 工具——这个规模决定了 Chromium 团队不可能靠「提示词技巧」来管理 AI Coding。他们必须把 AI 工具系统化、制度化,构建可以跨工具复用、可以随项目规模扩展的基础设施。 四层分层提示词体系 Chromium 没有使用单体提示词,而是设计了四层架构: 第一层(common.minimal.md)是核心指令,定义构建规则、测试方式、编码规范(Stay on task,不修无关 TODO;注释只写「为什么」不写「做了什么」)和 JNI 识别规则;第二层(common.md)是 8 步标准编辑工作流,强制 AI 在写任何代码前先完整阅读相关文件并向开发者确认理解;第三层是平台模板(desktop/android/ios/rust),开发者按平台组合;第四层是一次性任务提示词。 开发者在本地创建 GEMINI.md,通过 @ 引用组合不同层级,脚本递归展开后形成完整 system instruction 注入 AI——用户不可见,每次对话隐式生效。 这种分层设计的核心价值在于:每一层关注点分离,底层约束稳定,上层可以灵活组合。新成员只需要遵循标准配置,无需理解整套体系就能获得符合项目规范的 AI 辅助。 18+ 个可复用技能系统 skills/ 目录下有超过 18 个按需激活的技能,涵盖代码审查、依赖分析、性能剖析、安全扫描、文档生成等场景。每个 skill 是独立的提示词模块,可以跨 AI 工具复用,开发者通过 /skill-name 命令按需激活。 技能系统的意义在于把「最佳实践」从个人经验转化为可分发的工具——任何开发者都可以用 /cr:review 触发符合 Chromium 标准的代码审查流程,不依赖个人对 AI 提示词的了解程度。 三层 Agentic 工作流编排 projects/ 目录记录了 AI 驱动的大型自动化项目,比如大规模代码迁移、自动化重构。这些项目通过三层编排:任务分解层(把大任务拆成可验证的子任务)、执行层(AI Agent 执行并提交 benchmark 反馈)、验证层(自动运行预提交检查,确保每步改动可追溯)。 AI 使用政策:制度化的责任边界 ai_policy.md 是整个体系的底层约束,核心规则清晰: - 自审义务:作者必须在发送 Review 前自行审查并理解所有代码;提交不理解的代码将被剥夺 Committer 权限,再犯封禁账号 - 原创声明:无论是否使用 AI,作者必须声明代码为自己的原创作品 - 人类回复人类:AI Agent 创建的 CL 或 Bug 收到人类反馈后,必须由人类操作者亲自回复 这套政策的核心判断是:AI 是辅助工具,不是责任主体。一旦「AI 写的,我没仔细看」成为推卸责任的理由,代码库的信任基础就会崩塌。Chromium 选择在制度层面封堵这个口子。 eval 评估体系与 knowledge base 除了提示词和技能系统,Chromium 还建立了评估体系(eval/ 目录下有 15+ 个测试场景)和知识库(knowledge_base.md,供 AI 引用 Chromium 项目规范和历史决策)。评估体系的存在意味着提示词的迭代是可量化的——修改 common.md 的某一步骤时,可以通过 eval 用例验证改动是否导致 AI 行为退化。这种「提示词也要有测试」的思路,是成熟工程团队 AI Coding 规范化的重要标志。 对工程团队的实践启示 Chromium 的体系提供了一个可以按规模裁剪的参考模板:小团队可以从 common.minimal.md 和 ai_policy.md 开始,建立最基础的责任边界和工作流规范;中大型团队可以逐步引入技能系统和平台模板;只有规模达到需要大规模自动化的团队,才需要考虑 projects/ 层的编排体系。 关键在于,Chromium 的每一层设计背后都有明确的「为什么」——不是为了用 AI 而用 AI,而是为了解决具体的工程问题(减少 AI 幻觉、保证代码可追溯、让最佳实践可分发)。这个「为什么」比具体的实现细节更有参考价值。对于正在推进团队 AI Coding 规范化的负责人,这篇文章是目前最值得精读的外部参考之一。 ## 精讲三:为什么视频智能体模型是下一个前沿——Ethan He,xAI Grok Imagine 负责人 这篇 Latent Space 访谈的核心是 xAI Grok Imagine 负责人 Ethan He 的一个反直觉判断:视频模型的智能主要来自 LLM,而非视频训练数据本身。 反直觉的核心论点 通常的直觉是:要让视频生成更好,就需要更多、更好的视频数据,以及更好的视频专用架构。Ethan He 的判断与此相反——视频模型的能力上限,实际上跟着底层 LLM 走。当 LLM 的推理、规划、语义理解能力提升时,视频生成质量会随之提升;反之,单纯增加视频数据的边际收益是递减的。 这个判断的实践意义:视频生成领域的下一个突破点,不在于更好的扩散模型或更大的视频数据集,而在于更强的语言模型基座。 从单次输出到视频 Agent Ethan He 把视频生成的演进类比 AI Coding 的演进路径:Coding 从「一次性输出代码」进化到了能规划、编辑、测试、调试、提 PR 的 Agent 系统,背后的关键不只是模型能力提升,而是编排系统的进化。视频生成正走向同样的路径——下一个 Sora 不会是「更好的视频模型」,而是「视频 Agent」:一个能规划、生成、编辑、批评、迭代,跨越完整创作任务的系统。 Grok Imagine 的 Agent 模式(Beta)已经在验证这条路径:用户输入创作意图,系统规划 → 生成 → 编辑 → 迭代,在同一个无限画布上自动完成。这与传统的「输入 prompt → 输出视频」范式有本质区别——用户在描述目标,而非描述过程。 构建前沿视频系统的工程现实 访谈中 Ethan He 分享了一些实际的工程经验,值得关注: 迭代速度是最关键的变量,超过几乎所有其他因素。xAI 团队在三个月内从零到一构建出 Grok Imagine 首个多模态视频模型,核心是极快的实验周期。许多最重要的改进来自修复数据和训练流水线中的小 bug,而非架构创新。 视频数据集的存储和移动成本是隐性的重大瓶颈。与文本数据不同,大规模视频数据集的 I/O 成本往往超过计算成本,这影响了迭代速度和实验设计。 VAE(变分自编码器)质量对最终视频质量的影响被严重低估。大多数关于视频生成的讨论集中在扩散模型架构,但 VAE 压缩引入的信息损失会贯穿整个生成过程,是难以在后期弥补的底层约束。 音视频对齐是目前最难的工程问题之一。人对音画同步的敏感度远高于对视频质量的敏感度——轻微的音画不同步会立即破坏沉浸感,而视觉质量的小幅下降用户往往感知不到。 更远的视野:生成式 UI 与世界模型 Ethan He 的判断不止于视频 Agent。他认为生成式 UI 最终可能替代 HTML/CSS——当 AI 能够实时生成符合语义的界面,而非渲染预定义的组件,应用的交互范式将发生根本性改变。 世界模型的真正价值需要三个要素同时具备:实时性(低延迟响应)、交互性(能够响应用户行为并持续更新状态)、长时域(在长达数小时或数天的任务周期内保持一致性)。目前的视频生成模型在这三点上都有明显缺口,但这也定义了未来几年值得投入的方向。 构建视频系统的数据与基础设施挑战 访谈中 Ethan He 特别强调了两个常被忽视的工程约束。其一是视频数据集的存储和移动成本——与文本数据集不同,大规模视频数据的 I/O 成本往往超过计算成本本身,这直接影响实验迭代速度。其二是 VAE(变分自编码器)的质量对最终视频质量的影响被严重低估。大多数讨论聚焦于扩散模型架构,但 VAE 压缩引入的信息损失会贯穿整个生成过程,是难以在后期弥补的底层约束。了解这些工程现实,有助于更准确地判断视频 AI 创业公司的技术路线和壁垒。 与今天其他文章的关联 Ethan He 关于「Coding AI Agent 路径」的类比,与精讲二中 Chromium 的三层 Agentic 工作流编排形成呼应——一个是理论判断,一个是已经在 3500 万行代码库上运行的实践。两者合起来,勾勒出 Agent 系统从 Coding 扩展到视频创作的共同演进逻辑。同时,精讲一中 MiniMax M3 原生多模态的发布,也印证了 Ethan He 「视频能力跟着语言模型走」的核心判断——当底层语言模型的能力跃升,多模态和视频生成的上限也随之抬升。 ## 速览 工程化语音智能体:低延迟、高质量与规模化生产实践(AI Engineer) Together AI 语音 AI 团队负责人 Rishabh Bhargava 系统讲解了生产级语音智能体的工程挑战。核心约束是亚秒级延迟预算——人类对话响应约 300ms,超过 500ms 就会感知到停顿,超过 1-2 秒用户参与度直接下降。实现低延迟需要 STT-LLM-TTS 级联流水线、基础设施共址、guardrails 等多项措施协同。文章还覆盖了向原生 speech-to-speech 系统的迁移路径,以及千路并发流时的规模化挑战。对正在构建语音交互产品的工程师极具参考价值。 面向 LLM 的架构设计:什么是真正的 AI Friendly 架构?(大淘宝技术) 来自淘宝营销业务的万字实战总结,系统阐述传统工程架构向 AI Friendly 架构演进的三范式:确定性→概率性(将输出收敛至安全区间)、结构化→语义化(基于意图而非格式响应)、静态→动态(从规则转向规划)。结合淘宝秒杀业务中 AI 审核与答疑系统的实战经验——AI 审核准确率 95.7%,AI 答疑系统问题解决准确率超 98%,效率提升 80% 以上。文章对 Multi-Agent 系统、Context Engineering、AI Friendly API 设计和 AI 可观测体系均有具体实现讲解,是目前国内最详尽的 AI 架构演进实战资料之一。 黄仁勋的「Agent 工厂」里,装了什么新故事?(腾讯科技) 英伟达在 COMPUTEX 2026 上宣布 Vera Rubin 平台正式量产,Vera CPU 开始全球交付。相比三个月前强调「算力全家桶」,这次黄仁勋把重点转向 Agent 工作负载:Vera Rubin 在同等规模数据中心内运行 Agent 任务的效率是上代 Grace Blackwell 的 10 倍;DSX 成为 AI 工厂的运营操作系统;Cosmos 3 重构物理 AI 感知框架;联合宇树发布 H2 Plus 人形机器人参考设计。英伟达正在从「卖算力」转向「卖完整的 Agent 基础设施」,这一战略转向值得持续跟踪。 RAG 不是机器学习,ML 工具包解决的是错误的问题(Towards Data Science) 一篇观点鲜明的认知纠偏文章。作者举了一个典型案例:一个团队花了六个月跑 Optuna 超参数搜索、加自定义 reranker、微调 embedding 模型,生产准确率始终不动——最终发现问题在 parser。RAG 系统的本质是搜索和工程问题,不是机器学习问题。把超参数优化、训练/测试评估等 ML 工具引入 RAG,会选错指标、雇错人、掩盖真正的失败模式(解析错误、分块问题、检索召回率低)。这个判断对正在构建企业知识库的团队有直接警示意义。 Rippling 如何在 6 个月内借助 Deep Agents 和 LangSmith 构建生产级 AI(LangChain Blog) Rippling 是覆盖 HR、IT、薪酬、财务、全球运营的工作力管理平台,数据模型跨数千张表、数十万字段,概念在不同领域间还会重名。他们用 LangChain Deep Agents 和 LangSmith 在 6 个月内构建了生产级多智能体 AI 系统:一个 supervisor agent 协调 read、RAG、action 三类专业子 agent,通过 traces、分层 eval 和半自动自愈循环来保证质量。这个案例展示了「大型本体上的跨域推理」这一典型企业 AI 难题的实际解法,对构建复杂 B2B AI 系统的团队有直接参考价值。 AI 现场部署工程师的崛起与 AI 工程角色的未来(Andrew Ng) 吴恩达分析了一个正在复兴的角色:AI 现场部署工程师(Field Deployment Engineer),深入客户组织内部为其定制 AI 解决方案(如 Agent 工作流)。这个角色在 Palantir 二十年前就有,因为定制化 LLM 的复杂性而再度走热。吴恩达的判断是:FDE 虽有价值,但通用 AI 工程师的岗位数量将远超前者,因为公司更倾向于让自有员工构建和维护 AI 系统(供应商绑定是风险)。他预测 AI 工程师角色最终会像软件工程一样分化出 LLMOps、评估工程师等专业方向,但目前通用型需求依然旺盛。 从 Token 无上限到全员 Agent:MiniMax 的 AI Native 组织进化实践(量子位) MiniMax ToB 中国区商业化负责人胡维琦在 2026 中国 AIGC 产业峰会的演讲整理。核心观点:AI Native 公司首先要在内部实现闭环,不要吝啬 Token 补贴,让员工自己用 Agent 搭建自动化工作流,这个使用过程会反哺模型研发。几个具体实践:从「人类最不愿意干的高价值场景」切入推进阻力最小;AI 的广泛使用会让组织更加扁平,Token 消耗量正在成为衡量效率的新指标;未来 2-3 年 AI 将深度改变商业模式甚至组织构成。配合精讲一的 M3 发布来看,可以理解 MiniMax 的「用 M3 训 M3」实验背后的组织逻辑。 ## 补充阅读 今日候选池中还有以下内容值得关注,按兴趣选读: - 打破「人月神话」,Agent 重塑风控场景产运研职能:快手风控技术负责人在 QCon 的演讲实录,系统讲解如何通过 Agent 和 AI 原生转型重塑产品、运营、研发三大职能的角色与协作模式。风控场景是 AI 落地难度较高的领域,实战参考价值高。适合风控、安全和大型平台工程师阅读。 - 扣子 3.0 正式上线:新一代 AI 团队,从扣子开始:扣子 3.0 通过项目空间、多端协同和技能商店,将 Agent 从单点工具升级为可协作的 AI 团队。值得观察产品形态的演进方向——从单 Agent 工具到 Agent 团队协作平台,这是当前市场的主流趋势之一。适合关注 Agent 产品形态演进的产品经理和开发者。 - 一个理想的组织,是 AI Agent 在组织人:ColaOS 创始人橘子的深度访谈,探讨 AI Agent 如何从产品、组织到商业模式重写创业逻辑。「理想组织是 Agent 在组织人」这个前瞻观点值得创业者和管理者深思。对 AI 时代组织设计感兴趣的读者推荐精读。 - 智能体引擎优化(AEO):当 AI 成为你文档的头号读者:系统阐述 AEO(Agent Engine Optimization)这一新兴学科,为开发者提供让文档对 AI 编程智能体可发现、可解析且 token 高效的分层实操框架。如果你在维护开源项目或 SDK 文档,这篇文章有直接实用价值,值得收藏备查。 - 材料版 AlphaFold 来了!40 个工业任务全方位 SOTA,AI4S 迎来行业大突破:深度原理发布材料基座模型 MPA,借鉴 LLM 三阶段训练方法并引入物理对齐机制,在 40 个真实工业任务上取得 SOTA。AI for Science 领域的进展值得持续关注,对材料科学、化学、生物等领域的从业者有直接参考意义。 - 别光给 Agent 加 Tool 了,它根本选不明白!复旦×通义提出全新 CUA 训练范式:复旦与通义联合提出 ToolCUA 训练范式,通过分阶段训练解决 Computer Use Agent 在 GUI 与工具混合动作空间中的路径选择难题,在 OSWorld-MCP 上以 8B 模型超越 Claude-4-Sonnet。关注 Computer Use Agent 和 GUI 自动化的工程师推荐阅读。 ## 今日阅读路径 如果你只有 30 分钟,优先读这三篇: 第一篇:MiniMax M3 发布文章(链接) 了解国内首个同时开源三项前沿能力的模型。重点看 CUDA 算子优化和「让 M3 训模型」两个实测案例,比 benchmark 数字更能说明 M3 的实际能力边界。预计阅读时间 15 分钟。 第二篇:Chromium AI Coding 体系解析(链接) 即使你不用 Chromium,这篇文章提供了一个大型工程团队如何制度化 AI Coding 的完整参考。四层提示词体系和 AI 使用政策两节最值得精读。预计阅读时间 10 分钟。 第三篇:视频 Agent 前沿访谈(链接) Ethan He 关于「视频智能主要来自 LLM」的核心论点,以及视频 Agent vs 视频模型的演进类比,是理解下一阶段视频 AI 方向的重要参考。可以只读前三分之一。预计阅读时间 10 分钟。 如果你有更多时间,速览部分的「AI Friendly 架构」和「RAG 不是机器学习」两篇是工程实践质量最高的文章,适合做系统性阅读。

译本期早报聚焦三个主题。核心是 MiniMax 发布其开源模型 M3,这是国内首个同时具备前沿 Coding 能力、1M 超长上下文和原生多模态的模型。M3 在 SWE-Bench Pro 上得分 59.0%,其自研 MSA 稀疏注意力架构显著降低了长上下文计算开销。实测中,M3 可在 24 小时内自主完成 CUDA 算子优化。此外,早报还简述了 Chromium 项目对 AI Coding 的规范化实践,以及 xAI 工程师关于视频 Agent 发展前景的观点。

ginobefun@hongming731 · 6月2日71

#BestBlogs 早报 06-02 MiniMax 发布了国内首个集前沿 Coding、1M 超长上下文、原生多模态于一体的开源模型 M3,24 小时自主完成 145 次 CUDA 算子迭代,把抽象的 benchmark 变成了可验证的工程实力。 与此同时,xAI 前负责人给出一个反直觉判断:视频模型的上限跟着 LLM 走,下一个 Sora 是视频 Agent 而非更好的视频模型。 今日 BestBlogs 早报,还有 Chromium 3500 万行代码库的 AI Coding 规范体系、语音智能体生产工程实践、「RAG 不是机器学习」等 10 篇精选,欢迎阅读。

译MiniMax开源发布了国内首个集成前沿Coding能力、1M超长上下文和原生多模态的模型M3。该模型能在24小时内自主完成145次CUDA算子迭代。与此同时,xAI前负责人指出,视频模型的上限将由LLM决定,下一个类似Sora的产品应是视频Agent,而非单纯的视频生成模型。

Alibaba Cloud@alibaba_cloud · 6月2日83

👏👏 Introducing Qwen3.7-Plus — a multimodal agent model that unifies vision and language into one versatile agent foundation. ✅ Multimodal interactive hybrid agent: unified GUI & CLI operation across visual and text tasks ✅ Versatile coding agent & productivity assistant with full-modality input ✅ Visual Agent: perception, reasoning, grounding, and search-augmented QA ✅ Cross-harness generalization across diverse agent frameworks One model. Sees, thinks, codes, acts.🙌🙌 Now available via API on Alibaba Cloud Model Studio. Try it — let us know what you build.😎 🔗🔗⬇️⬇️ Blog:https://qwen.ai/blog?id=qwen3.7-plus Qwen Studio:https://chat.qwen.ai/?models=qwen3.7-plus API:https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.7-plus&serviceSite=international

译阿里云发布了 Qwen3.7-Plus,这是一款统一了视觉与语言能力的多模态代理模型。该模型旨在成为通用的代理基础,支持图形界面与命令行操作,能够处理视觉和文本任务,充当编程代理和效率助手。其能力涵盖视觉感知、推理、目标定位以及搜索增强问答,并可跨多种代理框架进行泛化。该模型现已在阿里云百炼平台提供 API 服务。

MiniMax (official)@MiniMax_AI · 6月2日81

M3 on Cloudflare AI Gateway, day one ⚡ Frontier coding, 1M context, and native multimodal and now just one fetch away. It is time to build something. 🦞

译M3 on Cloudflare AI Gateway, day one ⚡ 前沿编码能力,1M 上下文,原生多模态,现在一次 fetch 即可调用。 是时候构建些东西了。 🦞

Peter Steinberger 🦞@steipete · 6月2日63

I told codex to use http://sag.sh whenever I'm distracted and it needs my help to be unblocked, and ever once it a while I hear it talking to me, and it's the coolest thing ever. (e.g. for releases, that needs npm and is 1Password-gated)

译我告诉 Codex,当我分心且它需要我的帮助来解除阻塞时,使用 http://sag.sh。偶尔我会听到它在跟我说话,这是有史以来最酷的事情。(例如,对于需要 npm 且受 1Password 门控的发布任务)

宝玉@dotey · 6月2日61

Cursor 在为用户增加使用额度。最近我重度使用了 Cursor 的 Agent,效果相当不错。我常用的 GUI Agent 里面,Codex App > Cursor > Claude Desktop。 几个亮点: 1. 它的 multitask 模式可以开启多个后台任务并行,速度很不错。 2. 它可以灵活选择各种模型,不像 Codex 和 Claude Code 只能选择自家模型,composer 2.5 在普通任务上的能力和速度都还可以 3. Plan 模式比较详细,列有详细的 Steps,配合 multitask 模式通常效果很稳定 不足之处: 还不支持 /goal、手机版 还没有类似于 Codex 的 Chrome use + Computer use 的调试功能,只有内置浏览器的调试

译Cursor 宣布提升所有团队用户使用额度,并推出 Premium 团队席位。用户反馈其 Agent 模式效果好,支持多任务并行、灵活选择各类模型,且 Plan 模式步骤详细。对比中,用户认为其表现优于 Claude Desktop,略低于 Codex App。当前不足包括不支持 /goal 与手机版,且调试功能仅限内置浏览器。

eric zakariasson@ericzakariasson · 6月2日15

i played with this way too long. thanks for building it @DanHollick https://cursor.com/insights

译我玩这个玩得太久了。感谢构建它,@DanHollick https://cursor.com/insights

jason@jxnlco · 6月2日62

now available on bedrock!

译现已在Bedrock上可用! [引用 @OpenAI]:OpenAI前沿模型和Codex现已在AWS上全面可用,为企业提供了一种新方式,通过其现有的安全、合规和治理工作流,在Amazon Bedrock上使用OpenAI进行构建。 这同时也是OpenAI在AWS上更广泛能力扩展的开端,包括未来将提供Daybreak等网络安全能力。 https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws/

宝玉@dotey · 6月2日59

Cursor 在为用户增加使用额度。最近我重度使用了 Cursor 的 Agent,效果相当不错。我常用的 GUI Agent 里面,Codex App > Cursor > Claude Desktop。 几个亮点: 1. 它的 multitask 模式可以开启多个后台任务并行,速度很不错。 2. 它可以灵活选择各种模型,不像 Codex 和 Claude Code 只能选择自家模型,composer 2.5 在普通任务上的能力和速度都还可以 3. Plan 模式比较详细,理由详细的 Steps,配合 multitask 模式通常效果很稳定 不足之处: 还不支持 /goal、手机版 还没有类似于 Codex 的 Chrome use + Computer use 的调试功能,只有内置浏览器的调试

译Cursor 宣布为所有 Teams 用户提升使用额度,并受其 Ultra 计划启发,将推出一个提供 5 倍用量、价格 3 倍的 Premium 团队席位。有用户分享了重度使用其 Agent 的体验,认为效果不错,亮点包括:可开启多任务并行的 multitask 模式、能灵活选择各种模型(如 composer 2.5),以及步骤详细的 Plan 模式配合使用效果稳定。目前不足之处是不支持 /goal、手机版,以及缺乏类似 Codex 的 Chrome use 和 Computer use 调试功能,仅有内置浏览器调试。

jason@jxnlco · 6月2日30

we'd love some help publishing our Python Codex SDK and were hoping to speak to someone with Pypi. Can anyone help us out

译我们希望有人能帮助我们发布 Python Codex SDK,并希望能与 PyPI 的相关人员沟通。有人能帮我们吗?

Lee Robinson@leerob · 6月2日71

Some tips to help agents understand your codebase: 1. The source code either needs to be the source of truth, or have something legible as a path to the source. For example, if marketing site content is actually stored in a CMS, you need to either delete the CMS and move that content into code, or make the CMS legible through and MCP, CLI, or skill: https://leerob.com/agents 2. Agents need to be able to verify their work. This includes but is not limited to: using a typed language, having high-quality and fast tests, having a well-configured linter: https://x.com/leerob/status/2026369424450523348 3. You need to have a concise and effective AGENTS.md file, which is included in every message to your agent. Models are quite good now, so some things you can omit as the models know them. You don’t need to say the tests live inside /tests for example. It’s worth asking the models to find things in your codebase and making sure they’re named what the models might expect, otherwise consider refactoring: https://cursor.com/learn/customizing-agents 4. Set up automations which give you suggestions for refactoring code, catching security issues which may have slipped through code review, and optionally continuous documentation of the codebase. You can effectively create a self-driving codebase which gets better while you sleep: https://cursor.com/blog/security-agents

译文章分享了四条让AI智能体有效理解代码库的实用建议。1. 确保源代码是唯一真实来源,或通过MCP、CLI等方式让外部内容对智能体可读。2. 智能体需具备自我验证能力,这依赖于使用类型语言、高质量测试和配置良好的linter。3. 编写简洁有效的AGENTS.md文件,并融入符合模型预期的直观命名,可借助Cursor等工具自定义智能体。4. 配置自动化流程,用于代码重构建议、安全问题检查和持续文档生成,以实现一个能自我改进的“自动驾驶”代码库。

🚨 AI News | TestingCatalog@testingcatalog · 6月2日53

XAI 🔥: SuperGrok and X Premium+ users now can use Composer 2.5 model from Cursor via Grok Build! Grokposer 🤖

译XAI 🔥:SuperGrok 和 X Premium+ 用户现在可以通过 Grok Build 使用 Cursor 的 Composer 2.5 模型! Grokposer 🤖

Replit ⠕@Replit · 6月2日73

Can you build a real business for free with a single prompt? Starting today on Replit, the answer is yes. From a single prompt, get a website, mobile app, slide deck, and launch video. Plus unlock perks to run your business from @stripe @atlas, @QuickBooks, @mercury & @doolaHQ

译你能用单个提示词免费构建一个真实的业务吗? 从今天起,在 Replit 上,答案是肯定的。 从一个提示词开始,获得一个网站、移动应用、幻灯片和发布视频。 此外,还能解锁使用 @stripe @atlas, @QuickBooks, @mercury & @doolaHQ 运营业务的福利。

MiniMax (official)@MiniMax_AI · 6月2日69

messy, multimodal, too large for a normal chat? M3 handles it 🫡 @happycapyai

译MiniMax M3现已在Happycapy上线,主要升级在于处理复杂、多模态、大规模任务的能力。该模型支持原生多模态输入,包括PDF、视频、图像、截图及长文档,并在编程和智能体任务(如仓库级调试、问题追踪)上表现较强。此外,M3采用开源权重,价格约为Sonnet的三分之一。

Yuchen Jin@Yuchenj_UW · 6月2日50

OpenAI slept on coding, so Anthropic stole the crown. Anthropic didn’t secure enough GPUs/TPUs to turn that lead into a monopoly. Now Codex has caught up. Gemini will catch up too. It’s only a matter of time. AI coding is becoming a three-body problem.

译OpenAI 在编程领域睡着了,于是 Anthropic 抢走了王冠。 Anthropic 没有获得足够的 GPU/TPU 来将这一领先优势转化为垄断。现在 Codex 已经追上来了。 Gemini 也会追上来。这只是时间问题。 AI 编程正在成为一个三体问题。

宝玉@dotey · 6月2日50

活久见,Claude 也重置了额度!

MiniMax (official)@MiniMax_AI · 6月2日76

day 0 launch partner energy 🔥 @Qubrid_AI is offering 50% off for early adopters. go run it!

译MiniMax的M3模型现已在Qubrid AI平台上线。该模型具备100万token上下文、原生多模态、前沿的代码性能,并支持长期智能体工作流,被评为年度技术上最有趣的开放权重模型之一。Qubrid AI作为首发合作伙伴,为早期用户提供50%的折扣。

StepFun@StepFun_ai · 6月2日57

Step 3.7 Flash is now FREE in @kilocode 🎉 It was built for how coding agents actually work. That means multi-step orchestration and reliable tool use across a real codebase, not just fast replies. Try it on a real task in your editor, like a multi-file change or an actual bug!

译Step 3.7 Flash 现已在 @kilocode 免费提供 🎉 它专为编码智能体的实际工作方式而构建。这意味着在真实代码库上进行多步骤编排和可靠工具使用,而不仅仅是快速回复。 在编辑器中尝试一个真实任务吧,比如多文件更改或修复一个实际的 bug!

Chubby♨️@kimmonismus · 6月2日82

MiniMax just dropped M3! It hits 59% on SWE-Bench Pro, edging out GPT-5.5 (58.6%) and beating Gemini 3.1 Pro (54.2%). Trails Opus 4.7 on coding, but leads it on autonomous browsing at 83.5% on BrowseComp. First open model to pack frontier coding, a 1M-token context, and native multimodality into one system. I mean, let that sink in: Roughly 12x cheaper per token than GPT-5.5, with weights and a full tech report promised in about 10 days.

译MiniMax发布开源模型M3,它是首个将前沿编码能力、1M token上下文窗口与原生多模态集成于单一系统的开源模型。M3在SWE-Bench Pro上得分为59.0%,略高于GPT-5.5(58.6%)与Gemini 3.1 Pro(54.2%);在BrowseComp自主浏览任务中以83.5%领先Opus 4.7。此外,模型在Terminal Bench 2.1(66.0%)、MCP Atlas(74.2%)等基准上表现优异。其每token成本约为GPT-5.5的十二分之一,模型权重及技术报告预计在10天后发布。

🚨 AI News | TestingCatalog@testingcatalog · 6月1日58

MiniMax M3 is now live inside Atomic Chat 👀 Atomic tested M3 on a task to read a hand-drawn napkin sketch, write the game logic, build the UI, and ship a playable HTML platformer in one pass. All this for $0.028 🤖

译MiniMax M3模型现已集成至Atomic Chat。在一项测试中,Atomic Chat使用M3模型读取了一张手绘的涂鸦风格平台跳跃游戏草图,并一次性完成了游戏逻辑编写、界面绘制以及最终交付一个可运行的独立HTML游戏。测试数据显示,该任务消耗输入6,920模型token,生成输出9,933模型token,总成本仅为$0.028。此外,MiniMax计划于下周在HuggingFace发布M3模型。

向阳乔木@vista8 · 6月1日80

http://x.com/i/article/2061439796745297920 # 氪200刀,乔帮主开源8个工具、5个精选Skill,六一宠粉节 最近 AI 圈有点沉寂,前有 Gemini 3.5 Flash 拉胯,后有 Opus 4.8 不及预期。 唯有 Codex App 最近几次更新深得我心。 冲了 200 刀会员后,Vibe Coding了一堆自用小工具,做了几个新 Skill。 下面逐个介绍,免费开源送给大家,工具超多,页面很长,建议收藏再看。 ## Chrome插件 乔木快捷提示词 发现身边很多朋友还是不太会写提示词。 于是写了个Chrome插件,把我和姚老师过去一年多写的提示词都放进去了。 另外收录了好友苍何(canghe)整理的几百套 GPT-Image-2 提示词,自带效果预览。 最后从 Github 精选了500个常用提示词,覆盖开发、设计、营销场景。 你只需要一键复制粘贴,或简写自动补全就能在任意网站和 AI 平台用。 也能添加日常快捷语,比如收货地址、邮箱等,任何有输入框的地方都能用。 果然,能让人偷懒的东西才是好工具。 一周过去,已有1000多人安装,全五星好评。 插件安装地址: > https://chromewebstore.google.com/detail/%E4%B9%94%E6%9C%A8%E5%BF%AB%E6%8D%B7%E6%8F%90%E7%A4%BA%E8%AF%8D/ndfmbdiaclladmoeifbhlkacllmfhjej 项目开源地址: > https://github.com/joeseesun/Qiaomu-QuickPrompt 乔木 Tab 每天上网,打开浏览器的次数是最多的,每次都要新开 Tab,这个页面值得好好利用。 除了添加常用网站,也支持创建Todo、添加便签、查看天气预报、搜索查看最近关掉的 Tab页面、收藏夹等。 每个模块都可以控制显示与否,也支持 Command + K 唤起,快速搜索或设置。 如果选了ChatGPT,输入内容后按Enter,自动跳转官网获得答案,不需要二次复制回车。 一个输入框解决了传统搜索、AI对话、添加Todo等操作,交互优雅。 > 彩蛋:开启音乐模块,能收听到乔帮主用 Suno 制作精选的各种风格音乐。 开源地址: https://github.com/joeseesun/qiaomu-tab 预计本周上架 Chrome 应用商店。 乔木 X 发布器 X(前Twitter)的文章发布工具太难用了,不支持Markdown表格渲染,图片要手动一张张传,相当耗时。 小小东出手做了一个Chrome插件,而且开源了代码。 他的插件正式上架了,强烈推荐安装: > https://chromewebstore.google.com/detail/xposter/iimkimodgdjnnmdopeolboakhjmhfbbj?authuser=0&hl=zh-CN 基于他的源代码,根据自己需求改造了一版。 把插件和自己的博客打通,同步博客文章,一键发布到 X。 如果你有自己的网站,也可以让 AI 帮你改造实现类似功能。 另外强烈推荐关注小小东,发布了很多优秀的生图提示词,开发的工具也都很实用,很有工匠精神。 > https://x.com/xiaoxiaodong01 乔木单词学习 开发插件不必从零开始,有很多优秀的开源可以用。 基于开源的类沉浸式翻译插件 read-frog,让Codex开发了一套单词学习系统。 每天阅读英文网页收藏的单词,变成闪卡可复习,基于艾宾浩斯曲线遗忘曲线。 增加单词学习模式,根据单词难度(如CET6+)旁边加上中文翻译,标记掌握情况。 这种单词学习方式最早灵感来自 Relingo,现在已有不少类似产品。 这个 Read-frog项目非常优秀,基本可以替代沉浸式翻译了,目前已有7k多Star。 https://github.com/mengxi-ream/read-frog 官方也在计划增加单词学习功能。 不着急的话可以等官方,应该比我 Vibe Coding 的质量好。 乔帮主改造版: > https://github.com/joeseesun/qiaomu-english-learn ## 各种网站 艺术家风格网 不知道你有没有类似困惑,写生图提示词时经常词穷,只能复制别人的提示词。 对于生图模型来说,一个艺术家名字就是一种风格的高度压缩。 这是非常好的学习素材,也是最好的提示词类型之一。 于是,调用 GPT-image-2 API,用几百个艺术家名字生图,然后整理成一个网站。 https://style.qiaomu.ai/ 提示词相同,变量只有艺术家名字。 > 远处是山,近处是深林和小溪,{artist} 风格的一幅画 远山近水和小树林,据说这种画面最能给人带来安全感,意味着食物、水源和庇护所。 网站可点击任意一张图片,按左右方向键查看图片,收藏艺术家和提示词。 上面都是风景画,不知道生成人物效果。 另外也想对比下即梦 4.5,换了一个包含人物和动物的新提示词,又做了个网站。 https://jm-style.qiaomu.ai/ > 一个女子坐在窗边读书,一只猫趴在她腿上,窗外是花园,用{artist}的风格绘制 你也可以换提示词,调用 API 生图制作自己的提示词对比参考网,开源代码: > https://github.com/joeseesun/qiaomu-artist-style 乔木音乐网 可能有些朋友不知道,我以前是摇滚青年,组织过北京高校乐队演出。 也曾在「无名高地」酒吧打工过一年,听遍了中国所有地下乐队。 毕业后开始搞互联网,但一直热爱音乐。 AI 生成音乐技术这几年发展特别快,虽然生成歌曲离专业水平还有距离,但自娱自乐足够。 开发了个网站,放几十首自己精选的 Suno 生成音乐,后面歌曲会持续更新。 https://music.qiaomu.ai/ 开源地址 > https://github.com/joeseesun/qiaomu-music-player-web 乔木博客 前段时间手术恢复期写的网站,目前是我的核心学习、内容分发阵地。 通过 CLI 发布,后台阅读编辑后,精选部分公开。 乔木博客网址 > https://blog.qiaomu.ai/ 乔木HTML分享 自己去年的第一个 Vibe Coding 作品,目前加密后,只给身边朋友用。 > https://www.32kw.com/ 不过有很多朋友有类似需求,于是抽空改造了一版开源出来。 把 AI 生成的 HTML、Markdown、SVG、Mermaid 变成一个微信里能阅读的网页。 一键免费部署到你的 Cloudflare 账号。 开源地址: > https://github.com/joeseesun/quickshare-cloudflare ## 乔木Skill 乔木论文解读 之前写的 Skill,最近升级,支持原始 TeX Source 格式。 抽取图表会更精准,比 AI 截图质量要好。 另外,只需要提供 Huggingface 和 Arxiv 论文网页地址就行,不需要提供 PDF 地址也能解读。 强烈推荐每周看下Huggingface 的 AI 论文榜。 https://huggingface.co/papers/ 安装指令 开源地址 > https://github.com/joeseesun/qiaomu-paper-interpreter 乔木阅读助手 用飞书 + AI 辅助读书,划线就能对话!非常有趣的读书方法探索。 1. 让 Codex或Claude Code 把Epub电子书按章节写入飞书文档。 1. 人肉阅读,有感触的地方划线、加粗,最好评论。 1. 让 Codex 读飞书文档中的标记和评论,让AI解释回复你。 安装指令 开源地址 https://github.com/joeseesun/qiaomu-read-helper Suno音乐制作 把任意想法变成一首歌,不用登录网站,通过CLI或Computer Use方式创作。 Skill内置了5000多种音乐风格和Suno歌词创作提示词。 支持下载任意Suno歌曲(哪怕不是自己生成的),下载时可以带 LRC 歌词,方便后续制作 MV。 > https://github.com/joeseesun/qiaomu-suno-master 安装指令: 乔木音乐网的音乐,多数用这个Skill生成。 Suno 音乐 MV 略有遗憾的是,现在视频生成模型太贵了。 只能用 Codex 生成图片,再结合 Hyperframe 生成幻灯片感 MV,不过配合 GASP 动效和字幕,看起来也还可以接受。 安装指令: NotebookLM 处理器 基于朋友的CLI扩展,支持任意内容传到NotebookLM处理成播客、PPT、思维导图等。 目前快 5k Star 了,还挺刚需的。 开源地址: > https://github.com/joeseesun/qiaomu-anything-to-notebooklm ## 其他工具和资料 乔木脚本 有时候觉得开发一个Chrome插件还是太麻烦了。 一些小需求,更适合写油猴脚本,有奇效。 比如: - 在Youtube网页加一个按钮,一键复制字幕。 - 给小宇宙网页版加上倍速播放。 - 让小红书支持粘贴图片上传等等 - 给公众号加一个按钮,跳转即梦生成封面。 开源地址: > https://github.com/joeseesun/qiaomu-userscripts GEO相关 今年我和姚老师出版了《AI营销:从SEO到GEO》(京东搜索有售),也顺利举办了中国第一届GEO大会。 起源于去年我们一起整理的《GEO白皮书》,主要用于GEO科普。 最近,我们又整理了《GEO红皮书》(警示规避黑帽 GEO)、《GEO蓝皮书》(帮助识别靠谱GEO供应商)。 前几天还在 WayToAGI 开了第一场GEO公开课,课程PPT和资料免费下载: > https://xiangyangqiaomu.feishu.cn/wiki/Bvx6wmAqAirtR1kWejmcFFrGn6f ## 两个小技巧 让你的Codex越来越聪明 灵感来自于跟tw93的直播访谈,让Codex更理解你的编程偏好。 打开Codex,设定目标或直接对话,提示词如下: 制作PPT小技巧 最近受邀参加一些线下分享,需要制作PPT,目前实践下来效果比较满意的方法。 从自己 X 历史8000条帖子总结的规律,生成的PPT页面: PPT生成提示词: https://xiangyangqiaomu.feishu.cn/wiki/QUmxwep0diOUOnkrdGscVa1PnE7 ## 写在后面 为什么有这么一篇文章,是因为我笃信的幸运公式:做很多事 * 让很多人知道 上面是我觉得值得分享给更多人的工具和产品。 希望其中有些可以帮你的工作、生活和学习增加一点点便利。

译作者分享了使用 Codex App 等工具开发的一系列开源项目,包括4个 Chrome 插件(如快捷提示词、新标签页)、4个网站(如艺术家风格对比、音乐展示)和5个 AI Skill(如论文解读、阅读助手)。项目基于 GPT-Image-2 API、Suno 等技术,并整合了 Read-frog、Hyperframe 等开源项目。

向阳乔木@vista8 · 6月1日61

最近vibe coding的所有工具和skill,全部免费开源,Codex和CC是成年人的六一儿童节玩具。

karminski-牙医@karminski3 · 6月1日56

给大家带来 Qwen3.7-Max 实测! 这次使用了全新的前端测试集, 直接说结论, Qwen3.7-Max 应该是之前测试过的版本中进步特别大的一个, 甚至这次前端测试能完成之前3.6版本不能完成的测试项目. 而且后端能力测试直接刷了个榜一! 它是参与测试的34个模型中唯一一个实现了 IVF-PQ + ADC 索引方案的模型! 直接把后端测试从之前 GPT-5.5-Pro(xhigh) 的4000分拉到了现在的6947分! 不过需要注意的是, 它的测试表现分布并不是很稳定, 所以建议使用中要多review代码, 来达成更高的输出质量. 另外, 本次 Agent 能力也有提升, 达到了第一梯队的水平. 最后, 我还用 Qwen3.7-Max 实现了一个基于AI的磁盘恢复系统, 用来测试模型的实际工程能力. 编写过程很顺畅, 没有遇到阻碍, 大家可以直接看视频里的效果. #qwen #阿里千问 #qwen37max #AIAgent

译Qwen3.7-Max实测显示其前端测试能力较3.6版本有显著进步。后端能力测试在34个参与模型中表现突出,以6947分登顶,远超此前GPT-5.5-Pro(xhigh)的4000分,且是唯一实现IVF-PQ + ADC索引方案的模型。测试也指出其输出分布稳定性有待提升,建议使用中多加review代码。此外,其Agent能力已达到第一梯队水平,并可实际用于构建AI磁盘恢复系统等工程任务。

SiliconFlow@SiliconFlowAI · 6月1日79

Coding like Opus4.7 / 1M context window / Native multimodal @MiniMax_AI M3 is now on SiliconFlow with day-0 support 🔥 🎉 Limited-time 50% off for 7 days Cache / Input / Output: $0.06 / $0.30 / $1.20 per 1M tokens (Regular: $0.12 / $0.60 / $2.40) M3 is the first open-source model combining all three frontier capabilities: → Coding & Agentic: beats GPT-5.5 and Gemini 3.1 Pro on SWE-Bench Pro → 1M context via MiniMax Sparse Attention → Native multimodal from step zero — image, video & computer use Try it on SiliconFlow ⬇️

译MiniMax M3 现已在 SiliconFlow 平台上线,并提供限时7天的50%折扣。定价为:缓存 $0.06、输入 $0.30、输出 $1.20(每百万 token)。M3 是首个同时具备三大前沿能力的开源模型:一是编码与智能体能力,在 SWE-Bench Pro 评测中击败了 GPT-5.5 和 Gemini 3.1 Pro;二是支持 100万 token 上下文窗口(通过 MiniMax Sparse Attention 技术实现);三是具备原生多模态能力,支持图像、视频与计算机操作。

歸藏(guizang.ai)@op7418 · 6月1日60

Codepilot 的重构版本终于好了! CodePilot 0.55.0-preview.5 相当多的内容优化,UI 整体重构,支持将 Codex 作为 Agent 引擎 可以使用 Codex 内置模型也可以自定义模型 目前是测试版本没有推送,不排除有大 bug,如果有问题欢迎带日志反馈

译CodePilot发布了0.55.0-preview.5版本。本次更新包含大量内容优化和UI整体重构,并支持将Codex作为其Agent引擎。用户可选用Codex内置模型或自定义模型。该版本目前为测试版,未公开推送,可能存在重大Bug,开发者欢迎用户带日志反馈问题。

MiniMax (official)@MiniMax_AI · 6月1日73

1. Video control + gaming + M3 2. Open weights + massive context ++ strong coding 3. Canceling my weekend plans now

译1. 视频控制 + 游戏 + M3 2. 开放权重 + 海量上下文 + 强编码能力 3. 现在就取消我的周末计划 [引用 @MinLiBuilds]:跟祖传的 20K context 说 bye bye 了。 MiniMax M3 发布了,三个亮点: 1M context、原生多模态、Agentic。 我这次做了一次完整评测,使用CC workflow 、 @ZenMuxAI和MiniMax M3: 给一张截图,做一个“凡人修仙剑阵对决手势游戏”。 要求是:支持双人对决 、使用 workflow 拆解任务、加入石头剪刀布机制。 2 小时后,游戏真的跑起来了。 这一代LLM的版本答案我知道了: 1M 上下文 + 多模态+ agent 模式。 1M context 是推理深度的基础,多 agent 负责拆任务和执行。

karminski-牙医@karminski3 · 6月1日79

球球你们休息一下,真的测不过来了🥲

译MiniMax 发布新模型 MiniMax M3,声称是首个同时整合三项前沿能力的开源权重模型。这三项能力为:编码与智能体前沿能力,在 SWE-Bench Pro 等基准测试中取得具体分数;MiniMax 稀疏注意力机制将上下文长度扩展至 1M;以及原生多模态能力。模型权重与技术报告预计在约 10 天后发布。

MiniMax (official)@MiniMax_AI · 6月1日47

One shot. Through @opencode. By M3.

译用户@stevibe展示了MiniMax M3模型的能力。他仅提供了一张90年代风格旧网页的截图和相关素材文件,没有提供HTML源代码,要求通过OpenCode工具将网站一次性重建为现代Apple风格。模型成功在一次尝试中完成了任务,生成的网页保留了原始页面的标识和核心元素,并以现代化的渐变设计、排版和深色主题重新呈现,效果被评价为“真正令人惊叹”。

MiniMax (official)@MiniMax_AI · 6月1日53

love to see it 🙌 go try M3 in @orca_build with @opencode

译太棒了 🙌 快去 @orca_build 里用 @opencode 试试 M3 [引用 @JinjingLiang]:MiniMax M3 让我惊艳 我一直在 @orca_build 里用 @opencode 智能体免费使用它 目前主要做 UI 任务和代码审查,但感觉性能与 Opus-4.7 不相上下 没想到它这么好用。(而且目前免费)

歸藏(guizang.ai)@op7418 · 6月1日76

MiniMax 这次终于发布了他们的大版本号模型升级 MiniMax M3。 主要是三个核心能力: 1. 标配了 1M 的超长上下文 2. 采用新的 MSA(MoE with Segment-wise Attention)稀疏注意力架构 3. 从训练起就融合了原生多模态能力,包括强化了文本、图片、视频和桌面操作这些多模态的训练。 MSA 超上下文在算力和速度上更可落地,在 100 万上下文下每 token 计算量只有上一代的约 1/20。。 所以他们这一次的价格也比较给力,Token Plan 更新了新的价格。 在 API 上,小于512k 的 API 现在有为期 7 天的限时五折。

译MiniMax 发布了其大版本号模型升级 MiniMax M3。该模型标配 1M 超长上下文,采用新的 MSA(MoE with Segment-wise Attention)稀疏注意力架构,在 100 万上下文下每 token 计算量降至约上一代的 1/20。M3 从训练起即融合了原生多模态能力。在基准测试中,其取得了 SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%、MCP Atlas 74.2% 等成绩。此外,其 API 推出小于 512k 调用的限时七天五折优惠。模型权重与技术报告预计约 10 天后发布。

歸藏(guizang.ai)@op7418 · 6月1日67

妈的,终于搞定我的 Codex 断联和推理慢的问题了! 我有一台电脑上的 Codex 推理速度巨慢,即使开了快速模式也很慢,还有一个问题就是经常连不上。 我一直以为是自己的网络有问题,但它和我的 Mac Studio 处于同一个网络环境,Mac Studio 运行就非常快。 结果今天发现,是我的 config 配置文件有问题。里面写死了两个参数,还写死了两个必须加载的 MCP,导致速度巨慢。 如果你也有类似问题的话,我推荐让你的 Codex 自己检查一下配置文件。你只需要跟它描述具体的表现就行。

译作者解决了其Codex推理速度异常缓慢且频繁断联的问题。在同一网络环境下,其他设备运行正常,这排除了网络原因。最终发现根源是配置文件中错误地写死了两个参数,并强制加载了两个MCP,导致了性能问题。建议遇到类似情况的用户,可尝试利用Codex自身能力来检查其配置文件。

Berryxia.AI@berryxia · 6月1日42

前几天有人还在疯狂转发日本人用Opus 4.8 的做小游戏,觉得amazing… 其实在Codex 中GPT-5.5的时候早就可以做的很好了。 不信你看看0 基础的人都可以使用Codex0-1 完成游戏的开发,而且看起来和玩起来不错的呢! 强烈推荐给大家看看~

译推文指出,当人们还在关注使用 Opus 4.8 制作小游戏的案例时,Codex 中的 GPT-5.5 模型早就能很好地完成这类开发任务。作者强调,即使是零基础的用户,也可以通过 Codex(或其“0-1”版本)完成一款体验不错的游戏开发,并对此进行了强烈推荐。此观点建立在与日本人使用 Opus 4.8 开发游戏这一被广泛传播的案例的对比之上。

AYi@AYi_AInotes · 6月1日65

免费领 1 年 Cursor Pro,价值 $240🤩 继续给大家分享优质福利,这条专给还在读书的兄弟(不是学生的,转给你在校的朋友)。 在校大学生,用 .edu 邮箱通过 SheerID 验证,就能白嫖整整 12 个月 Cursor Pro,和花 $20/月的付费版一模一样: Claude / GPT / Gemini 全模型 + Agent 多文件编辑,每月还白送 $20 模型额度。 不用信用卡,验证过了直接开通! 毕业前赶紧薅,截至2026.6仍旧有效! 入口评论区自取!

译Cursor推出学生福利,在校大学生凭.edu邮箱通过验证可免费使用Cursor Pro一年,价值$240。套餐包含Claude、GPT、Gemini全部模型及Agent多文件编辑功能,每月附赠$20模型额度,无需信用卡,有效期至2026年6月。同时,OpenAI为开源项目维护者开放ChatGPT Pro申请,任何公开开源项目(无星数要求)的维护者均可申请,获批后可免费使用6个月,价值$1200。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月2日
09:35
meng shao@shao__meng
54
用户邵猛的 $10K Cursor 额度使用体验回顾

用户邵猛在获得 Cursor 团队赠送的 $10K 额度及两个月 Ultra 订阅后,实际使用了约 $2 千美元。其使用体验显示,100% 的时间都在使用 Agent Windows 模式,很少进行多模型切换。模型选择上,有外网访问时偏好 GPT-5.5,否则常用 Composer 2.5,因其 Fast 模式速度快且喜欢输出 Diagram 流程图。优点在于 Context 使用明细清晰,但 Agent 输出界面默认非 Markdown 且不支持拷贝为 Markdown。此外,Agent 界面右侧的扩展窗口(Terminal、Browser、File、Canvas)被认为比较实用。

meng shao: 收到 @cursor_ai 团队成员私信,随后 $10K 到手,非常感谢! 5月份是 Cursor Token 自由的一个月 😃 把 Cursor 新功能用起来,多多给团队提反馈,自己也试试在 Token 自由的情况下,看看能做出什么有趣...

智能体教程/实践编码
09:05
meng shao@shao__meng
64
Lee Robinson 分享四条「Agent 友好型代码库」原则

Lee Robinson 分享了四条构建适合AI智能体的代码库的原则:1. 源码应为真相或提供可读路径(如将内容从CMS迁移回代码);2. 智能体需能通过类型系统、测试和Linter验证工作;3. 维护精简有效的AGENTS.md文件,提供项目特有上下文;4. 设置自动化流程(如安全扫描)持续改进。他以Cursor官网迁移为例,该过程耗时3天,消耗344次Agent请求,花费$260,证明降低抽象层成本能带来可量化的投资回报。

Lee Robinson: Some tips to help agents understand your codebase: 1. The source code either needs to be the source of truth, or have so...

智能体教程/实践编码
09:05
meng shao@shao__meng
精选78
Anthropic 开发者分享 Claude Code「理解验证」工作流

Anthropic 核心开发者分享了一套用于 Claude Code 的「理解验证」工作流。该工作流将 AI 定位为“高效且睿智的教师”,成功标准不仅是完成任务,更是确保人类对问题、方案及影响有可复述、可辩护的掌握。它通过增量教学、用户复述、清单+测验等方式,围绕问题域、方案域和语境域三条轴线展开,具体包含8个可执行步骤,强调在进入下一阶段前需确认用户已真正理解。此工作流旨在对抗长会话中人类易沦为“审批按钮”的“智能体黑箱”问题,强制沉淀决策上下文,实现可审计的深度理解。

Thariq: been asking others at Anthropic how they stay in the loop with Claude and fully understand the work being done this is o...

智能体Anthropic教程/实践编码

推荐理由:Anthropic内部的「理解验证」工作流,把结对编程的认知摊到全程,用清单和测验逼你真正懂。做AI辅助开发又不想当审批按钮的,可以直接套用。
09:04
Baidu Inc.@Baidu_Inc
44
我们将于本周五北京时间上午9点直播演示 MeDo 3.0! @Medo_CodeFree 将介绍其变化、工作原理以及你可以用它构建的一些东西。 🧵 点击此处观看 ↓
产品更新编码
08:48
OpenCode@opencode
25
我们的团队对 little frank 上瘾了 猜猜这是什么模型
其他编码
08:48
OpenAI Developers@OpenAIDevs
35
今天与客户通话。明天开始新的产品工作流程。 Proaction是一个5人团队,他们使用Codex构建车队管理软件,涵盖销售演示、客户支持跟进、营销资产和工程工作。
OpenAI教程/实践编码
08:12
Rohan Paul@rohanpaul_ai
精选75
🎯 Andrej Karpathy 谈如何学习。
教程/实践编码

推荐理由:Karpathy的学习方法贴,虽然只是一张图,但可能是你今年最该抄的作业,直接改掉低效学习模式。
07:54
ginobefun@hongming731
71
BestBlogs 早报:MiniMax M3 开源模型发布,集成前沿能力

本期早报聚焦三个主题。核心是 MiniMax 发布其开源模型 M3,这是国内首个同时具备前沿 Coding 能力、1M 超长上下文和原生多模态的模型。M3 在 SWE-Bench Pro 上得分 59.0%,其自研 MSA 稀疏注意力架构显著降低了长上下文计算开销。实测中,M3 可在 24 小时内自主完成 CUDA 算子优化。此外,早报还简述了 Chromium 项目对 AI Coding 的规范化实践,以及 xAI 工程师关于视频 Agent 发展前景的观点。

智能体xAI模型发布现象/趋势
07:54
ginobefun@hongming731
71
MiniMax发布开源模型M3:集成编码、长上下文与多模态

MiniMax开源发布了国内首个集成前沿Coding能力、1M超长上下文和原生多模态的模型M3。该模型能在24小时内自主完成145次CUDA算子迭代。与此同时,xAI前负责人指出,视频模型的上限将由LLM决定,下一个类似Sora的产品应是视频Agent,而非单纯的视频生成模型。

多模态开源/仓库模型发布编码
07:35
Alibaba Cloud@alibaba_cloud
83
通义千问 Qwen3.7-Plus 多模态代理模型发布

阿里云发布了 Qwen3.7-Plus,这是一款统一了视觉与语言能力的多模态代理模型。该模型旨在成为通用的代理基础,支持图形界面与命令行操作,能够处理视觉和文本任务,充当编程代理和效率助手。其能力涵盖视觉感知、推理、目标定位以及搜索增强问答,并可跨多种代理框架进行泛化。该模型现已在阿里云百炼平台提供 API 服务。

智能体多模态模型发布编码
关联讨论 6 条IT之家(RSS)X:Kim (@kimmonismus)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)
07:19
MiniMax (official)@MiniMax_AI
同事件精选81
M3 on Cloudflare AI Gateway, day one ⚡ 前沿编码能力,1M 上下文,原生多模态,现在一次 fetch 即可调用。 是时候构建些东西了。 🦞

Cloudflare Developers: M3 from @MiniMax_AI is now available on Cloudflare AI Gateway: - First open model to push SOTA coding frontier - 1M cont...

多模态开源/仓库模型发布编码
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:MiniMax的M3把开源编码模型拉到新高度,1M上下文加原生多模态是惊喜,上线首周5折,值得跑一下看是不是真能干翻闭源。
06:44
Peter Steinberger 🦞@steipete
63
我告诉 Codex,当我分心且它需要我的帮助来解除阻塞时,使用 http://sag.sh。偶尔我会听到它在跟我说话,这是有史以来最酷的事情。(例如,对于需要 npm 且受 1Password 门控的发布任务)
MCP/工具教程/实践编码
06:30
宝玉@dotey
61
Cursor 为团队用户提升使用额度

Cursor 宣布提升所有团队用户使用额度,并推出 Premium 团队席位。用户反馈其 Agent 模式效果好,支持多任务并行、灵活选择各类模型,且 Plan 模式步骤详细。对比中,用户认为其表现优于 Claude Desktop,略低于 Codex App。当前不足包括不支持 /goal 与手机版,且调试功能仅限内置浏览器。

Cursor: We're increasing usage limits for every Teams user. Inspired by the success of our Ultra plan, we're also introducing a ...

智能体编码评测/基准
06:27
eric zakariasson@ericzakariasson
15
我玩这个玩得太久了。感谢构建它,@DanHollick https://cursor.com/insights
其他编码
06:01
jason@jxnlco
62
现已在Bedrock上可用! 【引用 @OpenAI】:OpenAI前沿模型和Codex现已在AWS上全面可用,为企业提供了一种新方式,通过其现有的安全、合规和治理工作流,在Amazon Bedrock上使用OpenAI进行构建。 这同时也是OpenAI在AWS上更广泛能力扩展的开端,包括未来将提供Daybreak等网络安全能力。 https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws/

OpenAI: OpenAI frontier models and Codex are now generally available on AWS, giving enterprises a new way to build on Amazon Bed...

OpenAI产品更新编码部署/工程
06:00
宝玉@dotey
59
Cursor 在为用户增加使用额度。

Cursor 宣布为所有 Teams 用户提升使用额度,并受其 Ultra 计划启发,将推出一个提供 5 倍用量、价格 3 倍的 Premium 团队席位。有用户分享了重度使用其 Agent 的体验,认为效果不错,亮点包括:可开启多任务并行的 multitask 模式、能灵活选择各种模型(如 composer 2.5),以及步骤详细的 Plan 模式配合使用效果稳定。目前不足之处是不支持 /goal、手机版,以及缺乏类似 Codex 的 Chrome use 和 Computer use 调试功能,仅有内置浏览器调试。

Cursor: We're increasing usage limits for every Teams user. Inspired by the success of our Ultra plan, we're also introducing a ...

智能体编码评测/基准
05:37
jason@jxnlco
30
我们希望有人能帮助我们发布 Python Codex SDK,并希望能与 PyPI 的相关人员沟通。有人能帮我们吗?
OpenAI编码行业动态
05:17
Lee Robinson@leerob
71
帮助AI智能体理解代码库的四点建议

文章分享了四条让AI智能体有效理解代码库的实用建议。1. 确保源代码是唯一真实来源,或通过MCP、CLI等方式让外部内容对智能体可读。2. 智能体需具备自我验证能力,这依赖于使用类型语言、高质量测试和配置良好的linter。3. 编写简洁有效的AGENTS.md文件,并融入符合模型预期的直观命名,可借助Cursor等工具自定义智能体。4. 配置自动化流程,用于代码重构建议、安全问题检查和持续文档生成,以实现一个能自我改进的“自动驾驶”代码库。

智能体MCP/工具教程/实践编码
04:16
🚨 AI News | TestingCatalog@testingcatalog
53
XAI 🔥:SuperGrok 和 X Premium+ 用户现在可以通过 Grok Build 使用 Cursor 的 Composer 2.5 模型! Grokposer 🤖
xAI产品更新编码
03:53
Replit ⠕@Replit
精选73
你能用单个提示词免费构建一个真实的业务吗? 从今天起,在 Replit 上,答案是肯定的。 从一个提示词开始,获得一个网站、移动应用、幻灯片和发布视频。 此外,还能解锁使用 @stripe @atlas, @QuickBooks, @mercury & @doolaHQ 运营业务的福利。
产品更新编码部署/工程
关联讨论 1 条X:Replit (@Replit)
推荐理由:Replit 从写代码进化到了‘一个提示生成网站+App+PPT+视频’,还串起了 Stripe 和 QuickBooks,‘建个生意玩玩’的成本降到史低,产品人和独立开发者值得试。
02:18
MiniMax (official)@MiniMax_AI
69
MiniMax M3现已在Happycapy上线,主要升级在于处理复杂、多模态、大规模任务的能力。该模型支持原生多模态输入,包括PDF、视频、图像、截图及长文档,并在编程和智能体任务(如仓库级调试、问题追踪)上表现较强。此外,M3采用开源权重,价格约为Sonnet的三分之一。

Happycapy: MiniMax M3 @MiniMax_AI is now live on Happycapy 🎉 A major upgrade for agent workflows, especially when the task is mess...

多模态开源/仓库模型发布编码
02:09
Yuchen Jin@Yuchenj_UW
50
OpenAI 在编程领域睡着了,于是 Anthropic 抢走了王冠。 Anthropic 没有获得足够的 GPU/TPU 来将这一领先优势转化为垄断。现在 Codex 已经追上来了。 Gemini 也会追上来。这只是时间问题。 AI 编程正在成为一个三体问题。
AnthropicOpenAI大佬观点编码
01:59
宝玉@dotey
50
活久见,Claude 也重置了额度!

ClaudeDevs: We've reset 5-hour and weekly rate limits for all users on Pro and Max plans. We fixed an issue that caused some Claude ...

智能体Anthropic产品更新编码
01:18
MiniMax (official)@MiniMax_AI
76
MiniMax的M3模型现已在Qubrid AI平台上线。该模型具备100万token上下文、原生多模态、前沿的代码性能,并支持长期智能体工作流,被评为年度技术上最有趣的开放权重模型之一。Qubrid AI作为首发合作伙伴,为早期用户提供50%的折扣。

Qubrid AI: @MiniMax_AI M3 is now live on Qubrid AI. https://platform.qubrid.com/model/minimax-m3 - 1M-token context. - Native multi...

智能体多模态开源/仓库模型发布
关联讨论 7 条MiniMax:Blog(网页)X:MiniMax (@MiniMax_AI)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)MarkTechPost(RSS)IT之家(RSS)
00:35
StepFun@StepFun_ai
57
Step 3.7 Flash 现已在 @kilocode 免费提供 🎉 它专为编码智能体的实际工作方式而构建。这意味着在真实代码库上进行多步骤编排和可靠工具使用,而不仅仅是快速回复。 在编辑器中尝试一个真实任务吧,比如多文件更改或修复一个实际的 bug!

Kilo: Update: We didn't get the blog out yet. It's been a busy weekend. But @StepFun_ai Step 3.7 Flash is currently FREE in Ki...

MCP/工具产品更新编码
00:10
Chubby♨️@kimmonismus
82
MiniMax发布开源模型M3,它是首个将前沿编码能力、1M token上下文窗口与原生多模态集成于单一系统的开源模型。M3在SWE-Bench Pro上得分为59.0%,略高于GPT-5.5(58.6%)与Gemini 3.1 Pro(54.2%);在BrowseComp自主浏览任务中以83.5%领先Opus 4.7。此外,模型在Terminal Bench 2.1(66.0%)、MCP Atlas(74.2%)等基准上表现优异。其每token成本约为GPT-5.5的十二分之一,模型权重及技术报告预计在10天后发布。

MiniMax (official): Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...

智能体多模态开源生态模型发布
关联讨论 7 条MiniMax:Blog(网页)X:MiniMax (@MiniMax_AI)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)MarkTechPost(RSS)IT之家(RSS)
6月1日
23:43
🚨 AI News | TestingCatalog@testingcatalog
58
MiniMax M3模型现已集成至Atomic Chat。在一项测试中,Atomic Chat使用M3模型读取了一张手绘的涂鸦风格平台跳跃游戏草图,并一次性完成了游戏逻辑编写、界面绘制以及最终交付一个可运行的独立HTML游戏。测试数据显示,该任务消耗输入6,920模型token,生成输出9,933模型token,总成本仅为$0.028。此外,MiniMax计划于下周在HuggingFace发布M3模型。

atomic.chat: MiniMax M3 turned a napkin sketch into a playable game We handed MiniMax M3 a hand-drawn draft of a Doodle Jump style pl...

Hugging Face多模态模型发布编码
22:04
向阳乔木@vista8
精选80
作者分享使用 Codex App 开发的开源项目合集

作者分享了使用 Codex App 等工具开发的一系列开源项目,包括4个 Chrome 插件(如快捷提示词、新标签页)、4个网站(如艺术家风格对比、音乐展示)和5个 AI Skill(如论文解读、阅读助手)。项目基于 GPT-Image-2 API、Suno 等技术,并整合了 Read-frog、Hyperframe 等开源项目。

开源生态教程/实践编码

推荐理由:乔木一口气开源了8个工具和5个Skill,从提示词插件到Suno音乐制作,看完就能直接用,做内容和开发的读完可以少写半个月代码。
22:04
向阳乔木@vista8
61
最近vibe coding的所有工具和skill,全部免费开源,Codex和CC是成年人的六一儿童节玩具。

向阳乔木: http://x.com/i/article/2061439796745297920

开源/仓库编码
21:09
karminski-牙医@karminski3
56
Qwen3.7-Max实测:后端能力登顶

Qwen3.7-Max实测显示其前端测试能力较3.6版本有显著进步。后端能力测试在34个参与模型中表现突出,以6947分登顶,远超此前GPT-5.5-Pro(xhigh)的4000分,且是唯一实现IVF-PQ + ADC索引方案的模型。测试也指出其输出分布稳定性有待提升,建议使用中多加review代码。此外,其Agent能力已达到第一梯队水平,并可实际用于构建AI磁盘恢复系统等工程任务。

智能体编码评测/基准
21:02
SiliconFlow@SiliconFlowAI
79
MiniMax M3 现已上线 SiliconFlow 平台

MiniMax M3 现已在 SiliconFlow 平台上线,并提供限时7天的50%折扣。定价为:缓存 $0.06、输入 $0.30、输出 $1.20(每百万 token)。M3 是首个同时具备三大前沿能力的开源模型:一是编码与智能体能力,在 SWE-Bench Pro 评测中击败了 GPT-5.5 和 Gemini 3.1 Pro;二是支持 100万 token 上下文窗口(通过 MiniMax Sparse Attention 技术实现);三是具备原生多模态能力,支持图像、视频与计算机操作。

多模态开源/仓库模型发布编码
关联讨论 7 条MiniMax:Blog(网页)X:MiniMax (@MiniMax_AI)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)MarkTechPost(RSS)IT之家(RSS)
20:53
歸藏(guizang.ai)@op7418
60
CodePilot 0.55.0预览版发布:UI重构支持Codex引擎

CodePilot发布了0.55.0-preview.5版本。本次更新包含大量内容优化和UI整体重构,并支持将Codex作为其Agent引擎。用户可选用Codex内置模型或自定义模型。该版本目前为测试版,未公开推送,可能存在重大Bug,开发者欢迎用户带日志反馈问题。

智能体产品更新编码
20:47
MiniMax (official)@MiniMax_AI
73
1. 视频控制 + 游戏 + M3 2. 开放权重 + 海量上下文 + 强编码能力 3. 现在就取消我的周末计划 【引用 @MinLiBuilds】:跟祖传的 20K context 说 bye bye 了。 MiniMax M3 发布了,三个亮点: 1M context、原生多模态、Agentic。 我这次做了一次完整评测,使用CC workflow 、 @ZenMuxAI和MiniMax M3: 给一张截图,做一个"凡人修仙剑阵对决手势游戏"。 要求是:支持双人对决 、使用 workflow 拆解任务、加入石头剪刀布机制。 2 小时后,游戏真的跑起来了。 这一代LLM的版本答案我知道了: 1M 上下文 + 多模态+ agent 模式。 1M context 是推理深度的基础,多 agent 负责拆任务和执行。

实践哥MinLi: 跟祖传的 20K context 说 bye bye 了。 MiniMax M3 发布了,三个亮点: 1M context、原生多模态、Agentic。 我这次做了一次完整评测,使用CC workflow 、 @ZenMuxAI和MiniM...

智能体多模态开源/仓库模型发布
20:39
karminski-牙医@karminski3
79
MiniMax 发布新模型 MiniMax M3,声称是首个同时整合三项前沿能力的开源权重模型。这三项能力为:编码与智能体前沿能力,在 SWE-Bench Pro 等基准测试中取得具体分数;MiniMax 稀疏注意力机制将上下文长度扩展至 1M;以及原生多模态能力。模型权重与技术报告预计在约 10 天后发布。

MiniMax (official): Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...

智能体模型发布编码
关联讨论 7 条MiniMax:Blog(网页)X:MiniMax (@MiniMax_AI)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)MarkTechPost(RSS)IT之家(RSS)
19:17
MiniMax (official)@MiniMax_AI
47
用户@stevibe展示了MiniMax M3模型的能力。他仅提供了一张90年代风格旧网页的截图和相关素材文件,没有提供HTML源代码,要求通过OpenCode工具将网站一次性重建为现代Apple风格。模型成功在一次尝试中完成了任务,生成的网页保留了原始页面的标识和核心元素,并以现代化的渐变设计、排版和深色主题重新呈现,效果被评价为"真正令人惊叹"。

stevibe: MiniMax M3 might be the most underrated coding model right now. I gave it nothing but a screenshot of a chaotic 90s GeoC...

多模态教程/实践编码
16:17
MiniMax (official)@MiniMax_AI
53
太棒了 🙌 快去 @orca_build 里用 @opencode 试试 M3 【引用 @JinjingLiang】:MiniMax M3 让我惊艳 我一直在 @orca_build 里用 @opencode 智能体免费使用它 目前主要做 UI 任务和代码审查,但感觉性能与 Opus-4.7 不相上下 没想到它这么好用。(而且目前免费)

Jinjing Liang: Blown away by MiniMax M3 I've been using it for free inside @orca_build with the @opencode agent Mostly UI tasks & code ...

开源/仓库编码评测/基准
14:53
歸藏(guizang.ai)@op7418
76
MiniMax 发布大版本升级 M3 模型

MiniMax 发布了其大版本号模型升级 MiniMax M3。该模型标配 1M 超长上下文,采用新的 MSA(MoE with Segment-wise Attention)稀疏注意力架构,在 100 万上下文下每 token 计算量降至约上一代的 1/20。M3 从训练起即融合了原生多模态能力。在基准测试中,其取得了 SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%、MCP Atlas 74.2% 等成绩。此外,其 API 推出小于 512k 调用的限时七天五折优惠。模型权重与技术报告预计约 10 天后发布。

MiniMax (official): Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...

多模态模型发布编码
关联讨论 7 条MiniMax:Blog(网页)X:MiniMax (@MiniMax_AI)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)MarkTechPost(RSS)IT之家(RSS)
14:53
歸藏(guizang.ai)@op7418
67
修复Codex断联与推理慢问题:根在配置文件

作者解决了其Codex推理速度异常缓慢且频繁断联的问题。在同一网络环境下,其他设备运行正常,这排除了网络原因。最终发现根源是配置文件中错误地写死了两个参数,并强制加载了两个MCP,导致了性能问题。建议遇到类似情况的用户,可尝试利用Codex自身能力来检查其配置文件。

MCP/工具OpenAI教程/实践编码
14:42
Berryxia.AI@berryxia
42
Codex 的 GPT-5.5 早已能助零基础用户开发游戏

推文指出,当人们还在关注使用 Opus 4.8 制作小游戏的案例时,Codex 中的 GPT-5.5 模型早就能很好地完成这类开发任务。作者强调,即使是零基础的用户,也可以通过 Codex(或其“0-1”版本)完成一款体验不错的游戏开发,并对此进行了强烈推荐。此观点建立在与日本人使用 Opus 4.8 开发游戏这一被广泛传播的案例的对比之上。

Smith铜匠・十点睡觉: http://x.com/i/article/2061202487412215808

OpenAI大佬观点编码
13:48
AYi@AYi_AInotes
65
学生免费领Cursor Pro一年,开源者可申ChatGPT Pro半年

Cursor推出学生福利,在校大学生凭.edu邮箱通过验证可免费使用Cursor Pro一年,价值$240。套餐包含Claude、GPT、Gemini全部模型及Agent多文件编辑功能,每月附赠$20模型额度,无需信用卡,有效期至2026年6月。同时,OpenAI为开源项目维护者开放ChatGPT Pro申请,任何公开开源项目(无星数要求)的维护者均可申请,获批后可免费使用6个月,价值$1200。

AYi: 免费领6个月ChatGPT Pro, 价值$ 1200🤩 这可能是今年对开发者最实在的福利了, 没有硬性Star数要求, 有项目链接基本都能过, 只要你是任何一个公开开源项目的维护者,哪怕只有你一个人在维护, 都可以去申请试试: http...

教程/实践编码
‹ 上一页
1…2021222324…50
下一页 ›