Great paper on managing agent skills. Skill libraries keep growing, and picking the right skills has become a bottleneck for coding agents. The defaults are to expose the agent to the whole skill collection, or retrieve skills with embeddings and rerankers. Both treat the choice as independent picks. SkillComposer treats composition as one joint decision over which skills, how many, and in what order. A constrained autoregressive decoder over skill identifiers produces the full plan in a single pass, so dependencies between successive skills fall out naturally. On SkillsBench with GPT-5.2-Codex and Gemini-3-Pro-Preview, it lifts pass rate by +23.1 and +18.2pp over no-skill, beats top-3 retrieval, and matches the gold-skill upper bound at lower prompt-token cost. Paper: https://arxiv.org/abs/2606.32025 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译论文提出SkillComposer，将代码Agent的技能选择与组合视为一次联合决策，用约束自回归解码器一次生成完整技能计划（包括技能、数量与顺序），自然处理技能间依赖。在SkillsBench上，使用GPT-5.2-Codex和Gemini-3-Pro-Preview，pass rate分别提升+23.1和+18.2个百分点，超过top-3检索，并以更低prompt token成本匹配gold-skill上界。

Artificial Analysis@ArtificialAnlys · 1天前55

Claude Sonnet 5 ranks second only to Fable 5 on AA-Briefcase, our new agentic knowledge work benchmark, with a ~17x cost per task range across its five effort settings @AnthropicAI has released Claude Sonnet 5, the latest addition to the Claude Sonnet family. On AA-Briefcase, Claude Sonnet 5 (max) scores 1391 Elo, a +312 point improvement over Claude Sonnet 4.6 (max), making it the second highest scoring model behind Claude Fable 5. This gain is driven primarily by improvements in rubric scoring and analytical quality, with Sonnet 5 trailing Claude Opus 4.8 on Presentation Elo. We benchmarked all 5 available effort settings for Claude Sonnet 5: ➤ Max effort achieves the second highest AA-Briefcase Elo, but lower efforts are not Pareto efficient: Claude Sonnet 5 (max) achieves the highest AA-Briefcase score among Sonnet 5 effort settings, but lower effort settings do not reach the cost-performance Pareto frontier. Models such as Claude Opus 4.8 (max), GLM-5.2 (max), and MiniMax-M3 offer stronger cost-performance trade-offs than Claude Sonnet 5 at lower effort settings ➤ Substantially higher turn use across effort levels: Claude Sonnet 5’s higher cost is driven by an increased number of turns, with Sonnet 5 (max) averaging 183 turns per AA-Briefcase task, more than 4x that of Claude Sonnet 4.6 (max). This increase is consistent across effort levels, with Claude Sonnet 5 (medium) averaging 55 turns per task, in line with Claude Opus 4.8 with max effort AA-Briefcase is our new proprietary benchmark for agentic knowledge work. It tests models on realistic tasks across thousands of input files, requiring deliverables such as spreadsheets, presentations, and UI mock-ups. Model performance is measured across three dimensions: binary rubric checks for ground-truth correctness, pairwise grading on analytical quality, and pairwise grading on presentation quality. The AA-Briefcase Elo is a single metric that combines results across all three dimensions

译Anthropic发布Claude Sonnet 5。在AA-Briefcase（智能体知识工作基准，测试模型处理数千文件并产出表格、演示和UI原型）上，Sonnet 5 (max)得1391 Elo，较Sonnet 4.6 (max)提升312分，排第二，仅次于Fable 5。提升来自rubric评分与分析质量，呈现仍落后Opus 4.8。max设置得分最高，但较低设置不处成本-性能帕累托前沿；Opus 4.8 (max)、GLM-5.2 (max)和MiniMax-M3在低努力下性价比更优。Sonnet 5成本较高，因turn数大增：max平均每任务183 turns（Sonnet 4.6 max的4倍多），medium平均55 turns，各设置成本跨度约17倍。

Ethan Mollick@emollick · 1天前48

Formal organizational structures are a useful way to think about the challenges of agents. They provide a template to thinking about how work gets delegated up and down between smart expensive agents & cheaper weaker ones, as well as between narrow specialists & generalists.

译正式组织结构是思考智能体挑战的有用方式。它们为思考工作如何在聪明的昂贵的智能体与更便宜的弱智能体之间，以及在狭窄的专家与通才之间上下委派提供了模板。

Rohan Paul@rohanpaul_ai · 1天前70

Meta employees used over 60 trillion tokens in 30 days, with one user alone consumed 280 billion. that gives an average close to $50,000 per employee per year of token. - SemiAnalysis Report Most companies now set monthly caps, but the numbers vary from $250 to $4,000. Some employees barely touch those limits, while power users burn through them in days. The report estimates coding now explains over 70% of OpenAI and Anthropic ARR.

译Meta员工30天内消耗超60万亿模型token，单用户最高达2800亿，人均年token成本约5万美元。多数公司设月额度上限250-4000美元，重度用户数天用尽。编程工具贡献OpenAI和Anthropic超70%的ARR。Perplexity CEO指出，AI使用正转向重度用户：单个工程师年花费可达1000万美元于编码工具，Perplexity Computer用户月支出超1万美元，内部员工已建立多智能体循环架构。Agentic AI正从追逐海量普通用户转向服务少数高效能操作者。

elvis@omarsar0 · 1天前59

I am surprised it took them this long. Interactive HTML is how I do most of my work with agents. It accounts for more than 80% of AI outputs I consume. Easier to spot slop and good for fast decision making. Glad to see more adoption of something we popularized since last year.

译Notion上线HTML块，用户可在页面内直接构建交互式HTML，并利用AI将内容转为交互式解释器、原型或图表，支持团队共享和协作。AI专家Elvis Saravia（DAIR.AI）评价称，他超过80%的AI输出依赖交互式HTML，这一方式易于识别低质量内容（slop）并支持快速决策，对Notion终于跟进这一自去年起推广的做法表示欢迎。

Google Gemini@GeminiApp · 1天前35

New ways you can use Gemini Spark to make your life easier. From integration in the Gemini app for macOS to smart triggers, here are five ways we’re making Gemini Spark an even more powerful personal AI agent to help you get things done around the clock.

译使用 Gemini Spark 的新方式，让您的生活更轻松。从 macOS 版 Gemini 应用中的集成到智能触发器，我们正在通过五种方式让 Gemini Spark 成为更强大的个人 AI 智能体，帮助您全天候完成任务。

Google Gemini@GeminiApp · 1天前63

New ways you can use Gemini Spark to make your life easier. From integration in the Gemini app for macOS to smart triggers, here are five ways we’re making Gemini Spark an even more powerful personal AI agent to help you get things done around the clock.

译你可以使用 Gemini Spark 的新方式来让生活更轻松。从 macOS 版 Gemini 应用中的集成到智能触发器，以下是我们让 Gemini Spark 成为更强大的个人 AI 智能体、帮助你全天候完成任务的五种方式。

Chubby♨️@kimmonismus · 1天前67

Zai going strong: they officially launched ZCode 3.0. The new AI-native coding IDE is deeply optimized for GLM-5.2 and supports agentic software development from planning and coding to code review and deployment. • Deep GLM-5.2 integration with multi-agent collaboration • Long-running autonomous coding tasks with planning and verification • Remote control via Telegram, WeChat, and Feishu • Available on macOS, Windows, and Linux • New paid plans starting at $18/month zAI is determined to catch up with its Western competitors and put them under pressure. Love to see it!

译Zai正式发布ZCode 3.0，一款为GLM-5.2深度优化的AI原生编程IDE。支持多智能体协作，可自主执行从规划、编码到审查和部署的长期任务，并可通过Telegram、微信、飞书远程控制。GLM Coding Plan订阅用户在ZCode中享有1.5倍使用配额，同时支持BYOK（自带密钥）。覆盖macOS、Windows、Linux平台，付费计划起价$18/月。

AYi@AYi_AInotes · 1天前71

damn！语音AI圈的天，一夜之间就变了，感觉以前所有的缝合怪方案，突然全成了过渡品🤔 之前市面上的语音智能体，全是靠三四家不同厂商的API硬拼出来的，语音转文字加大模型再加文字转语音，每一层跳转都多一分延迟多一块成本多一个故障点，对话经常卡顿断片跑题，听起来永远像机器人念稿。 @xai 直接做了原生的speech-to-speech一体化架构，Grok Voice从底层打通全部环节，一个接口覆盖所有能力。延迟更低成本更低故障点更少，对话自然度直接上了一个台阶，这才是真正能规模化落地的生产级系统，和演示玩具完全不在一个维度。更狠的是落地门槛被直接打穿，用自然语言描述一遍业务流程，扔几份文档当知识库，选个声音，两分钟就能生成带工具调用带安全护栏带全链路监控的完整语音智能体，免费还送一个电话号码。知识库检索日历API搜索工单文件全自带，想接自己的号码和系统也完全支持。定价直接压到每分钟五美分，没有额外平台费，每天用一小时也就几块钱，小团队甚至个人都能大规模用起来。这已经不是常规的功能迭代了兄弟们，简直就是彻头彻尾的降维打击。以前搭一套靠谱的语音客服要好几周好几万，现在两分钟加极低的成本就能跑通。而且做多智能体系统的人更是直接拿到了新的器官，自己的认知和工具体系，瞬间就长出了耳朵和嘴巴，和真实世界的交互直接打开了新维度。这让语音AI真正能规模化落地这件事，第一次变成了触手可及的现实！

译xAI 推出 Voice Agent Builder 无代码平台，基于原生 speech-to-speech 架构 Grok Voice，打通语音识别、大模型、语音合成全链路。用户用自然语言描述流程、上传文档作为知识库，两分钟即可生成带工具调用、安全护栏、全链路监控的完整语音智能体，并免费附赠一个电话号码。支持日历、搜索、工单等内置功能，可接入自有号码和系统。定价 $0.05/分钟，无额外平台费。

Ethan Mollick@emollick · 1天前61

You really need to benchmark models for your use case. As soon as judgements & decisions stack on top of each other, the differences between models amplifies, and no standard benchmark will tell you that Gemini 3.1 is less worried about financial losses at a cafe than GPT-5.5

译主推文强调必须针对实际用例做基准测试，因为决策层层叠加时模型差异会被放大，标准基准无法反映 Gemini 3.1 比 GPT-5.5 更不关心咖啡馆财务损失。引用案例：Andon Labs 的 AI 智能体用 Gemini 3.1 Pro 在斯德哥尔摩开咖啡馆，过度采购且易被欺骗，支出 $15k、收入仅 $9k，亏损 $6k，现已切换到 GPT-5.5。

AYi@AYi_AInotes · 1天前47

说个没人愿意说的零成本AI副业，不用露脸不用出镜，靠做动画片单月能赚$5000，赛道选YouTube儿童早教领域，全套流程靠AI就能单人跑完，前期投入为零，靠免费算力就能起步，日更一到两条，第一个月就能看到播放量收益，做得好月入能到$10000以上，一共五步，照着做就能跑通， 1️⃣找参考，搜童谣加爆款关键词，找同赛道的热门视频对标方向。 2️⃣改脚本，用AI重写故事线，换角色换场景，避开抄袭风险。 3做动画，用Wan2.7或者Pika生成连贯动画，不是静态图拼接。 4️⃣做音频，AI配儿童音色加背景音乐，音质直接决定完播率。 5️⃣做优化，标题标签瞄准早教关键词做SEO，对准流量入口。 📌三个避坑点一定要记牢： 1️⃣儿童内容审核最严，必须纯原创不能二剪，不然直接封号。 2️⃣配音别用普通机械音，用专业儿童音色，体验差了留不住观众。 3️⃣要遵守COPPA合规要求，记得关闭个性化广告，避免违规处罚。不止儿童赛道，TK带货知识付费都能套这个逻辑，换个赛道就能复用。工具链接放评论区了，想试的直接拿走去跑。

译主推文介绍零成本AI副业：用AI做YouTube儿童早教动画。五步：搜童谣对标、AI改写脚本、Wan2.7或Pika生成动画、AI配儿童音色+背景音乐、标题标签SEO。日更1-2条，首月见收益，月入$5000-$10000。注意纯原创、专业儿童音色、遵守COPPA关闭个性化广告。另引用营销Agent Lev8，找海外客户场景：有效结果90个（Exa 58.2，Codex 20），匹配精度83.3%（Exa 76.5，Codex 71.8），单条成本$0.052（Exa $0.061）。Lev8聚合50+数据源和10亿+职场人脉，支持5个渠道发送定制破冰消息。

宝玉@dotey · 1天前74

Claude Science System Prompt and Skills https://github.com/JimLiu/science-skills

译Anthropic 发布面向科研人员的 AI 工作台 Claude Science，定位为科研领域的 Claude Code。它整合了 PubMed、Jupyter 等 60 多个科学数据库及工具，主 Agent 可调用专业子 Agent 处理查询、生成图表并自动附带完整代码和运行环境以支持可复现性。支持本地运算或 SSH 连接集群，敏感数据可本地处理。早期用户已用它发现 RNA-seq 数据中的实验室病毒污染物，或搭建多 Agent 文献综述系统。即日起公测，Pro 及以上订阅可用。Anthropic 提供最高 3 万美元研究资助（含 Modal 计算资源），申请截止 7 月 15 日。

Berryxia.AI@berryxia · 1天前69

卧槽！xAI 终于要对语音 Agent下手了！ xAI直接把“构建语音Agent”这件事做成了浏览器里的2分钟操作。 Grok Voice Agent Builder目前还在beta，但已经能让用户无代码部署带真实语音的Agent：支持实时对话、亚秒延迟、25+语言，还能分配电话号码。核心是把Grok的语音模型直接产品化，让普通人也能快速搭出一个能打电话的AI助手。这和之前很多需要接Twilio、处理延迟、调教声音的方案比，门槛低了一个数量级。以前做语音Agent像搭积木，现在更像填表单。当然最终体验还得看实际效果，但这个方向很清晰：xAI正在把语音交互从“技术能力”快速推向“人人可用的产品形态”。目前还是Beta阶段，感兴趣的可以试试：地址： http://x.ai/voice

译xAI 发布 Grok Voice Agent Builder（Beta），将 Grok 语音模型产品化，支持在浏览器中无代码、2 分钟搭建可打电话的 AI 助手。具备实时对话、亚秒延迟、25+ 语言，并可分配电话号码。相比传统方案门槛大幅降低。体验地址：http://x.ai/voice

凡人小北@frxiaobei · 1天前34

对于普通人，飞书 aily 已经足够好了。 CLI 是给要精细控制的专业人准备的。大部分人的需求，在飞书生态里，对话几句 aily 就搞定了。现在的 aily，懂飞书全套数据，MCP 接外部系统，自主调工具。生态内能想到的活儿，它基本都能接。

译推文推荐飞书 Aily，称其对普通人已足够好用。Aily 理解飞书全套数据，通过 MCP 连接外部系统，能自主调用工具，覆盖生态内各类任务。相比需要精细控制的 CLI，Aily 对话交互即可满足多数需求。引用推文则强调，用好飞书文档（类比20年前的 Office）和 AI 调用飞书 CLI，是学渣保住空调房工作的机会。两者共同指向飞书生态内 AI 工具的实用价值。

AK@_akhaliq · 1天前49

LiteResearcher A Scalable Agentic RL Training Framework for Deep Research Agent

译LiteResearcher 用于深度研究智能体的可扩展智能体RL训练框架

Andrew Milich@milichab · 1天前67

Build a voice agent connected to your scheduling app, knowledge base, and any custom MCPs or APIs Phone number included to get started!

译构建一个连接到你的日程应用、知识库以及任意自定义MCP或API的语音智能体附带了电话号码，可以开始使用！ [引用 @xai]

xAI@xai · 1天前73

Introducing Voice Agent Builder: a no-code platform to create human-like voice agents with Grok Voice. Available today at $0.05 / min. http://x.ai/voice

译介绍 Voice Agent Builder：一个无代码平台，可使用 Grok Voice 创建类人语音智能体。今日可用，$0.05 / 分钟。 http://x.ai/voice

Berryxia.AI@berryxia · 1天前47

我不管别人怎么吹，我觉得切身体会每天都用这玩意。发现真的比很多Agent什么的好用很多，我接的是小米的mimo模型，听说读写，下载视频、剪辑什么的都可以搞定。我已经当个小秘在用了哈！ PS：不是一条广告😁 如果是就让老板安排打钱吧！

Jim Fan@DrJimFan · 1天前71

ENPIRE -> ASPIRE, our 2nd work in the series for Physical AutoResearch. We are building the components for robot self-improvement, one /skill at a time.

译继EMPIRE后，Jim Fan团队发布ASPIRE，为机器人构建可自我进化、无限累积的技能库。编码智能体观察仿真和真实机器人的多模态感官轨迹，对控制程序进行进化搜索，将最佳策略蒸馏进不断扩展的库中。ASPIRE无需梯度下降或端到端策略，而是通过传递“技能知识”绕过sim2real和跨本体迁移难题，相比从头训练实现约10倍迁移学习token缩减。已在150+任务和90+技能上验证，计划开源全栈。

AYi@AYi_AInotes · 1天前43

说个很少有人讲的 AI 搞钱路子，一人顶一个商务团队，接外包做猎头当中介都能用。干过独立开发的都懂，有Codex这样的大杀器以后，写代码做设计早就拉不开差距了，最难的其实是找客户。蹲 LinkedIn 翻一下午，筛公司看职位找邮箱，折腾半天敢发出去的消息就两三条，大部分时间全浪费在了找人这件脏活上。但现在AI全部可以帮你干了，可以帮你跑一张活的客户地图，不是网上买来的过时名单，是五十多个实时数据源三层验证筛出来的精准数据。最值钱的还不只是能拿到邮箱，还有背后的信号，在招增长岗说明营销需求马上要爆发，刚改版官网说明视觉缺口是明牌，刚融资说明预算刚批下来正准备花钱。这些信号虽不保证对方一定买单，但能告诉你现在该先敲谁的门。整个流程就五步： 1️⃣看地图，按匹配度排好序，每个人的背景信号切入点全标好 2️⃣点画像，公司规模人员配置近期动态一目了然，开口前就比发模板的人懂他 3️⃣写开场，按不同信号定制破冰话术，不是一封模板发所有人 4️⃣批量发，五个渠道一键触达，回复统一收进一个收件箱挂监控，对方有新动态自动提醒，从一次搜索变成持续更新的活地图当然冷水也得泼，它能干的是找人查背景写开场白这些脏活，替不了你判断客户靠不靠谱、报价合不合理、需求接不接，就像 Codex 能写代码，但审美和判断永远是你的。不止接外包，做猎头赚佣金、当中介牵线、找渠道合作，只要需要精准找人的活，这套逻辑全通用。以前一个人的天花板是能干多少活，现在变成了能找到多少对的人，现在这件事第一次有了近乎零成本的解法。

译Lev8 被定位为营销领域的 Codex，专门解决找客户、写破冰信等脏活。Benchmark 显示：海外找客户场景有效结果量 Lev8 90 个（Exa 58.2，Codex 20），匹配精度 83.3%（Exa 76.5%，Codex 71.8%），单条成本 $0.052（Exa $0.061）。产品聚合 50+ 实时数据源（LinkedIn、X、YouTube 等），覆盖 10 亿+ 职场人脉，自动监控融资、招聘、网站改版等信号，生成定制破冰话术，通过邮件、LinkedIn、WhatsApp、Instagram、X 五个渠道批量发送并统一管理回复。适用于独立开发者、一人公司、猎头、中介等需要精准找人的场景。

Chubby♨️@kimmonismus · 1天前36

Someone built a Claude Skill over a weekend and it started paying within days. This is the part people keep underestimating: the skill economy is already live. Interesting marketplace where people list skills. Early, but this is clearly where it's heading.

译有人用 Claude Skill 在 Capafy 平台发布一个 World Cup Skill，仅用一个下午构建，第一周收入 $4,208（月化超 $16,000）。该技能被做成可订阅的智能体产品，推广主要靠 TikTok 和 Instagram 短视频。主推文认为技能经济已启动，市场正在形成，创作者可以像这样上传技能并通过视频引流实现变现。

ginobefun@hongming731 · 1天前48

最近读到一篇关于 AI 产品设计原则的文章，内容很系统，也很适合帮助我们理解：当 AI 开始进入越来越多产品之后，设计面对的问题，已经和传统软件很不一样。传统软件通常基于确定规则运行。点击一个按钮，会触发明确功能；一个流程有固定状态；错误大多可以提前预判。AI 系统则带来了更强的不确定性。同一句输入，可能得到不同结果；同一个模型，放在不同界面和规则中，也可能表现得实用、混乱，甚至危险。这意味着，AI 产品的质量并不只取决于模型能力，也取决于产品如何设计它与用户之间的关系。文章提出了一个很重要的问题：「我们怎样帮助用户恰当地依赖 AI？」这里的重点在「恰当」。用户既不应该因为 AI 表达流畅、语气自信，就自动相信它；也不必因为 AI 偶尔出错，就完全拒绝使用。理想状态是，用户的信任程度和 AI 在具体任务中的真实可靠性相匹配。围绕这个目标，文章总结了 9 组、39 条设计原则，涉及概率基础、预期管理、信任校准、透明度、控制权、失败恢复、共同创作、自主边界和长期治理。其中有几个观点尤其值得关注。第一，AI 应该被用在真正有优势的地方。 AI 擅长处理模糊意图、非结构化信息、内容生成和复杂资料总结。对于状态切换、权限判断、精确计算、固定规则等任务，传统界面往往更稳定。一个原本只需要点击按钮完成的操作，没有必要强行改造成对话。第二，设计要接受生成结果存在差异。在写作、命名、规划、视觉创作等任务中，同一个问题本来就可能有多个合理答案。产品可以提供多个版本、重新生成、局部修改、历史记录和并排比较，让用户在不同方向中选择，而不是把第一次输出包装成最终结果。第三，AI 的输出应当方便验证。文章反复强调「来源」和「证据」。与其展示一个看起来精确的「置信度 92%」，不如直接提供原始资料、引用段落、修改前后差异和工具结果。数字可能制造可靠感，证据才能真正帮助用户判断。而且，验证不能太麻烦。用户如果需要重新搜索、阅读全文、手工对照，往往会直接接受 AI 的结果。好的设计应该让检查只需要一次点击，甚至一眼就能完成。第四，用户始终需要保留控制权。 AI 建议应该容易接受，也应该更容易忽略。用户需要能够编辑、拒绝、撤销、重新生成、停止执行和恢复历史版本。对于低风险、可逆的操作，AI 可以自动完成；对于发送消息、删除文件、修改数据等高影响操作，应增加预览、确认和审批。这个原则可以概括为：「保持探索顺畅，在真正提交和执行之前增加检查。」第五，AI 需要诚实地表达自己的角色和限制。产品应该明确说明哪些内容由 AI 生成、总结、推荐或修改，也要区分原始内容、人工判断和系统规则。AI 可以有友好的表达方式，但不应该暗示自己拥有真实情绪、生活经验或人类判断。同时，当系统因为用户设置、企业政策、安全规则、隐私限制或商业推广而改变行为时，也应该让用户知道它正在遵循谁的规则。第六，失败路径和成功路径同样重要。 AI 出错并不罕见，因此设计不能只关注「生成成功」的界面。更重要的问题是：错误发生后能否撤销，是否有操作日志，能否恢复到之前版本，是否可以顺畅转交人工，以及转人工时能否保留已有上下文。如果 AI 要执行多步骤任务，系统还应该展示计划、进度、使用的工具、访问的数据和最终改动。一个会修改真实系统的 Agent，不应只用一个加载动画隐藏全部过程。文章还讨论了数据权限、第三方隐私、提示词注入、模型升级和成本展示等问题。这些内容提醒我们，当 AI 从「回答问题」走向「采取行动」时，界面也开始承担治理作用。它需要明确区分指令、数据、工具和行动，避免把网页、邮件或文档中的内容误当成需要执行的命令。一个成熟的 AI 产品，需要重新处理信任、责任、权限、判断和协作之间的关系，应该让用户知道它做了什么、依据什么、哪些地方可能有问题，以及自己可以怎样检查、修改和接管。

译文章总结9组39条AI设计原则，核心是让用户信任程度匹配AI真实可靠性。关键点：AI应发挥模糊意图、内容生成等优势，而非替代传统界面；接受输出多样性，提供多版本和局部修改；输出附证据便于一键验证；用户保留编辑、拒绝、撤销等控制权；AI诚实说明角色和限制；重视失败路径，支持撤销、日志、转人工。

AYi@AYi_AInotes · 1天前63

真的有点兴奋，终于等来营销圈的 Codex 了，不管你是独立开发还是OPC一人公司，找客户扒联系方式写破冰信这些破事，直接给你干得明明白白！甚至你用来做副业搞钱都是一个超级神器！我们都知道，AI现在已经把写代码的门槛拉平了，Codex能让一个人顶一个开发团队，而现在，营销领域的Codex也出现了——它叫Lev8，找客户这种脏活累活，现在被它直接干碎了，我真的吹爆！我们先来看下benchmark数据，真的炸裂， 1️⃣找海外客户这个场景里，有效结果量Lev8 90个，Exa 58.2个，Codex只拉出20个， 2️⃣匹配精度Lev8 83.3%，Exa 76.5%，Codex 71.8%， 3️⃣单条匹配成本Lev8 $0.052，竟然比Exa的$0.061还低。不只是勉强赢一个点啊兄弟们，搜得更多、准头更高、还更便宜，这三项全中！讲真看到Lev8这个产品，我真的觉得AI真正落地的路径越来越清楚了，我非常笃定的相信，以后不会是一个万能AI模型包打天下，会是一群垂直Agent各自钻进一个完整工作流，把通用模型一件一件替换掉，代码领域Codex已经证明了，现在终于轮到营销了。而且讲真，未来独立开发者和一人公司最稀缺的能力一定是营销能力，也就怎么把产品卖出去，那卖出去的前提是找到目标客户和潜在客户。 Lev8 背后聚合了50+实时数据源，LinkedIn、X、YouTube、Instagram、GitHub全网在跑，10亿+职场人脉做底子，拿到的永远是活数据，而不是那些买来的僵尸名单。而且它不是搜完就扔给你，会帮你盯着搞钱信号——哪家刚融资、哪家在招人、哪家刚改版、哪家创始人在论坛上吐槽某个问题，这就意味着现在出手最不突兀的时机它都全帮你盯着，抓到信号之后自动给你写定制的破冰开场白，而且不是那种千篇一律的模板，然后邮件、LinkedIn、WhatsApp、Instagram、X五个渠道一键发出去，回复统一收回来。过去要开四五个工具、建一堆表格、自己手动盯半年才能跑完的找人→调研→写开场白→发消息→跟动态，现在在一个聊天框里大白话讲一句，它替你全跑了！这和Codex赢的逻辑一模一样，Codex能这么火爆不是因为比GPT聪明，是它嵌入进了代码的整个工作流——懂仓库、能跑终端、能看报错、能跑测试， Lev8在营销上干的就是这件事，从帮你搜个邮箱变成替你把找人这摊事跑起来，是比通用模型注做的可深多了。具体大家可以看下方我实际跑测的视频👇

译Lev8聚合50+实时数据源（LinkedIn、X、YouTube、Instagram、GitHub），覆盖10亿+职场人脉，实时追踪融资、招聘、改版等信号，自动生成定制破冰开场白，并通过邮件、LinkedIn、WhatsApp、Instagram、X五渠道一键发送统一回复。在找海外客户场景中：有效结果量Lev8 90个，Exa 58.2个，Codex仅20个；匹配精度83.3% vs 76.5% vs 71.8%；单条匹配成本$0.052 vs $0.061。三项指标全面超越。

fofr@fofrAI · 1天前15

It’s amazing what you can script with agents these days. I gave a subagent a hyperframes skill, some Omni outputs and prompts, and it made this. Music generated with Lyria 3

译最近用智能体编写脚本真是太棒了。我给一个子智能体赋予了Hyperframes技能、一些Omni输出和提示词，它就生成了这个。音乐由Lyria 3生成。

Rohan Paul@rohanpaul_ai · 1天前65

Perplexity’s CEO Aravind Srinivas is pointing to a quiet shift in AI use: the valuable user is no longer the average user. A single power user can now consume as much compute as an entire small team. "There are real engineers at Meta and other companies spending around $10 million a year per engineer on these coding tools. There are users in Perplexity Computer, who spends upwards of $10,000 a month. Their business runs using agent loops that are running inside these harnesses. Even internally inside our own company, there are some people who have set up these kinds of multi-agent hierarchies and agent loops that look like their own software architecture. I often ask these people to come explain to the rest of the company, “Hey, what are you doing with these tools? You clearly are consuming them way more than what we thought the average person in the company would do.” --- The old software instinct was to chase a billion people doing small actions. Agentic AI changes that math because one skilled operator can create a stream of machine work that runs all day. ---- From "20VC with Harry Stebbings" YouTube channel ( @HarryStebbings ), link in comment

译Perplexity CEO Aravind Srinivas 指出，AI 使用的重心正从普通用户转向重度用户。单个重度用户消耗的计算量可匹敌一个小团队：Meta 等公司工程师每年在编码工具上花费约 1000 万美元/人；Perplexity Computer 上有用户月支出超 1 万美元，其业务依赖在 harness 内运行的 agent loops。公司内部也已出现多智能体层级和 agent loops 架构，消耗远超平均预期。旧软件思维追求十亿人做小动作，而智能体 AI 下，一个熟练操作者即可创造全天候的机器工作流。

Alibaba Cloud@alibaba_cloud · 1天前53

What if your cloud were built AI‑native from day one? Meet Qwen Cloud — Alibaba Cloud’s new AI‑native platform designed to streamline model access and deployment, offering a unified stack for building, deploying, and scaling AI applications and agents. Explore how Qwen Cloud powers the next generation of AI‑native development: https://click.qwencloud.com/m/20000000105/ #AlibabaAI #QwenCloud

译如果你的云从第一天起就为AI原生构建会怎样？欢迎了解 Qwen Cloud——阿里云全新的AI原生平台，旨在简化模型访问与部署，提供统一的栈来构建、部署和扩展AI应用与智能体。探索 Qwen Cloud 如何驱动下一代AI原生开发：https://click.qwencloud.com/m/20000000105/ #AlibabaAI #QwenCloud

向阳乔木@vista8 · 1天前41

TLDR，帮大家简单总结下： MCP、API、CLI 本质上是同一件事，都是让 Agent 调用工具的方式 1. MCP 是目前唯一在协议层考虑 "人在回路"的方案。协议层面就考虑了 Agent 交互的需求，比如回传会话、对话界面嵌入UI、等待人操作、状态通知等。用 OpenAPI 或 bash 很难优雅实现。 2. API 适合 90% 的场景 API 的优势在本身携带了大量有用的元信息，如接口描述、可读状态，对 Agent 做决策很有帮助。 3. CLI 今天最好用，但长期是死路 CLI 现在对 Agent 来说确实最好用，原因是 bash 的可组合性极强，本地运行、调试方便、数据访问能力强。 CLI 的限制：需 Unix shell 环境，有依赖问题，也有CLI 命令踩坑问题，如等人类输入卡死等。

译MCP、API、CLI 本质都是让 Agent 调用工具的方式。MCP 是唯一在协议层考虑“人在回路”的方案，支持回传会话、UI 嵌入、等待人操作等。API 凭借接口描述、可读状态等元信息，适合 90% 场景。CLI 目前因 bash 可组合性强、本地调试方便而最好用，但长期是死路：需 Unix shell 环境，有依赖问题，易因等待人类输入卡死。

Greg Brockman@gdb · 1天前56

Introducing GeneBench-Pro — testing whether models can handle the kind of judgment-heavy analysis that real-world computational biology requires. Problems would take a human expert around 20-40 hours to complete. GPT-5.6 Sol is a big step forward.

译OpenAI 推出研究级基准 GeneBench-Pro，用于测试 AI 智能体在真实计算生物学中处理复杂、需要高度判断的分析能力。每个问题需要人类专家约 20-40 小时完成。Greg Brockman 表示，GPT-5.6 Sol 在该基准上实现了重大进步。

jason@jxnlco · 1天前32

This is the future

译现在，Codex正在使用Computer Use来整理我在GoodNotes中的1500个PDF，而我在看世界杯。这是我“AI叠衣服，我搞艺术”的时刻。感谢 @jxnlco 及团队。这就是未来。

小互@xiaohu · 1天前71

好消息： WordPress 发布 WPVibe 插件可以让 Claude 等接管你的网站只需连接您的网站，你已经付费的 Claude 就能接管整个系统。包括文章、上传媒体、SEO、主题，甚至主题文件，都可通过自然语言让Claude 进行处理无需二次 AI 订阅，使用你的Claude 订阅即可，无需本地安装。整套 MCP 工具箱，40+ WP-CLI 命令，一次连接搞定能做的事，：写文章、改页面、传图片装和管理插件、主题给网站做体检（哪个插件有问题、PHP 版本、为什么卡）甚至帮你搭一套主题出来

译WordPress 推出 WPVibe 插件，连接网站后即可让已付费的 Claude 等 AI 通过自然语言直接管理整个系统，包括文章、媒体、SEO、主题及主题文件。无需二次 AI 订阅或本地安装，自带 40+ WP-CLI 命令的 MCP 工具箱，支持写文章、改页面、传图片、管理插件和主题、网站健康检查（如插件冲突、PHP 版本、性能问题），甚至可搭建新主题。

François Chollet@fchollet · 1天前63

Cross-agent feedback loops are incredibly effective -- for a reason. Check out what @leon2mcp and team at @Bloome_im are building in this space: http://bloome.im Bloome lets you pull Claude, ChatGPT, Gemini, and human teammates into a single shared workspace. The best feature is how your agents check each other's work. One drafts, another critiques, and another catches missing details. Human teammates can work in the same thread to keep the agents on target. Having all your models and human coworkers in one shared context is wildly effective

译Francois Chollet 推荐 Bloome.im，一个集成 Claude、ChatGPT、Gemini 和人类队友的共享工作空间。核心功能是智能体互相检查：一个起草，另一个批评，第三个捕捉遗漏细节；人类可在同一线程实时引导。所有模型与人类共享同一上下文窗口，大幅提升协作效率。

小互@xiaohu · 1天前58

Anthropic 发布 Claude Science 面向科学家的 AI 工作台，内置 60 多个科研技能它是一个装在你自己电脑或服务器上的应用：你用大白话向一个 AI 提出科学问题，它调动数十个专业工具去查数据、跑分析、画图表、写手稿，而每一步产物都能倒查回它是怎么来的。你可以像用 Jupyter Notebook 那样，在本地（macOS／Linux）用它，也可以在远程机器上通过 SSH 或 HPC 登录节点用它。 → 应用内置60多个预配置技能和连接器，覆盖基因组学、单细胞、蛋白质组学、结构生物学、化学信息学，背后接进成百上千个专业数据源（UniProt、PDB、Ensembl等）以及期刊、预印本资源。 → 它能自主起草计算任务，征得用户同意后提交到用户自己的 HPC集群或 Modal云端GPU，把分析从单块GPU 扩展到数百块，而原始数据始终留在用户自己的系统里。 → 内置一个审稿 agent，全程检查生成内容里的引用是否真实、数字能否对上计算过程、图表是否和产出它的代码一致，发现问题会自动修正。

译Anthropic 发布 Claude Science，面向科学家的本地 AI 工作台（macOS/Linux，可 SSH/HPC 远程）。内置 60+ 技能与连接器，覆盖基因组学等，接入 UniProt、PDB 等数据源。可自主起草计算任务，经用户同意后提交至 HPC 或 Modal GPU，数据本地留存。内置审稿 agent 校验引用与图表一致性。

Peter Steinberger 🦞@steipete · 1天前52

We moved the changelog to our docs to be easier readable.

译我们将更新日志迁移到了我们的文档中，以便更易于阅读。

meng shao@shao__meng · 1天前75

/writing-great-skills https://github.com/mattpocock/skills/tree/main/skills/productivity/writing-great-skills 来自 152K✨ Skills For Real Engineers 作者 @mattpocockuk 的新 Skill，教咱们用最少但最有行为牵引力的结构，把 Skill 写成能稳定触发、分层加载、清楚完成、持续删减的“可预测工作流”。 # 跟这个优质 Skill 学它的编写思想 1. Skill 的根本目标是过程可预测 Skill 不是知识库，也不是提示词堆叠。它的作用是让模型在某类任务中形成稳定行为路径。好的 Skill 应该减少“这次做得细、下次做得浅”的波动。 2. 触发方式有成本权衡它区分两类 Skill： · Model-invoked：模型能自动发现并调用。优点是无需用户记住，缺点是 description 会长期占用上下文注意力。 · User-invoked：只有用户点名才会触发。优点是零上下文负担，缺点是用户必须记得它存在。这里很关键：不是所有 Skill 都该自动触发。只有当模型确实需要自己识别任务，或其他 Skill 需要调用它时，才值得让它 model-invoked。 3. description 是触发器，不是简介对于 model-invoked skill，description 的职责不是介绍得完整，而是准确告诉模型“什么时候该用我”。因此它应当前置关键触发词，只保留真正不同的触发分支，避免同义重复。这点很实用：很多 Skill 写坏，是因为 description 像产品简介，而不是调用条件。 4. 信息层级决定 Skill 是否清爽它提出一个三层结构： · SKILL.md 中的步骤：模型必须按顺序做的事。 · SKILL.md 中的参考：模型运行时需要随手查看的规则、定义、事实。 · 外部参考文件：只在特定场景需要加载的材料。好的 Skill 不把所有东西塞进主文件，而是用 progressive disclosure：常用、必须、影响流程的内容留在主文件；分支性、解释性、定义性内容放到外部文件，通过明确指针调用。 5. 每个步骤都要有完成标准它特别强调 completion criterion。一个步骤不能只写“分析清楚”“完成检查”这种模糊目标，而要让模型能判断“是否已经完成”。完成标准越清楚，越能防止模型提前进入下一步，也就是它说的 premature completion。 6. 拆分 Skill 不是为了整洁，而是为了控制注意力什么时候拆？ · 如果一个 Skill 有独立触发词，可拆成单独的 model-invoked skill。 · 如果后续步骤会让模型急着往前跑，可把流程拆开，隐藏后续步骤，迫使模型认真完成当前阶段。这很像工作流设计中的“减少提前优化”和“控制认知视野”。 7. leading word 是压缩行为的关键词它提出一个很有洞察的概念：leading word。也就是用模型预训练中已经熟悉的强概念，来压缩一组行为要求。例如与其反复写“快速、确定、低开销”，不如找到一个更有行为牵引力的词。好处有两个：节省 token，并且更容易稳定唤起模型已有的行为模式。但它也提醒：弱词可能无效。例如“be thorough”如果只是模型默认会做的程度，那就是 no-op；需要更有约束力的词。它的失败模式诊断很有用这个 Skill 给出的几个常见问题非常精确： · Premature completion：模型过早认为当前步骤完成。优先修正完成标准，而不是马上拆 Skill。 · Duplication：同一个意思出现在多个地方，增加维护成本，也会让某个概念被模型过度重视。 · Sediment：旧内容沉积，没人敢删，导致 Skill 越来越脏。 · Sprawl：内容都有效，但主文件太长，注意力被稀释。 · No-op：看似有用，实际不会改变模型行为的句子。其中最有操作价值的是 no-op 测试：一句话如果删掉后模型行为几乎不变，它就不该留在 Skill 里。

译mattpocockuk 的 /writing-great-skills 成为其最常调用的 Skill，指导如何编写稳定可预测的 AI Skill。核心：以过程可预测为目标；区分 model-invoked（自动触发）与 user-invoked（用户调用），description 应作触发器；采用三层信息结构（主步骤、参考、外部文件）实现渐进式披露；每步骤需明确完成标准；拆分 Skill 是为了控制模型注意力；利用 leading word 压缩行为要求。同时诊断五种失败模式：Premature completion、Duplication、Sediment、Sprawl、No-op，并提供 No-op 测试作为判断句子是否有效的标准。

Rohan Paul@rohanpaul_ai · 1天前29

Most “AI content tools” reset to zero every time you call them. That’s the tell: a generation is an event, labor is a continuum. The interesting engineering question in Spira 2.0 isn’t just the output — it’s that each agent carries persona + memory + skills across runs, so what it learned yesterday compounds instead of evaporating. Memory that survives the run is the genuinely hard part. It’s the difference between a tool you operate and a worker that operates. The full trend → content → publish → learn loop only becomes meaningful when the state persists. Worth a look at economics alone. @spira_lab_ai

译Spira 2.0 的核心创新在于 agent 跨运行时携带 persona、memory 和 skills，使所学内容持续累积而非每次调用重置。Rohan Paul 指出，这种持久化状态是将“操作工具”转变为“持续工作的工人”的关键。引用推文补充，Spira 旨在解决产品发布后无人知晓的问题：用户提供产品链接，agent 学习并自动在多社交渠道发布品牌一致、无废料的内容，形成“发布→学习→再发布”的持续营销循环。早期用户可申请 Pro 计划限时访问。

歸藏(guizang.ai)@op7418 · 1天前67

Sonnet 5 发布了，测试成绩接近 Opus 4.8，价格便宜一些

meng shao@shao__meng · 1天前60

吴恩达老师讲「Loop engineering」把 AI agent 放进一套持续迭代、持续反馈、持续校准的循环系统里，产品成功取决于三个循环是否运转良好：代码自我迭代、开发者判断校准、外部用户反馈。第一层：Agentic coding loop，工程执行循环这是最底层、最快的循环。给 AI 一个产品规格，最好再配一组 evals 或测试标准，让它自己写代码、运行、测试、修 bug、再测试，直到满足规格。过去 AI 写代码更像“一次性回答”；现在的 coding agent 更像一个可以连续工作的工程执行体。它能自己打开浏览器检查页面，跑测试，发现问题，再修改。这使得 AI 可以在没有人类频繁介入的情况下工作几十分钟甚至更久。这层循环的价值是把开发中的大量低层执行工作自动化： · 写功能 · 修 bug · 跑测试 · 检查 UI · 验证行为是否符合规格 · 反复打磨实现但它的前提是：你要给它清楚的规格、可验证的目标，必要时还要有 evals。否则 agent 只是“忙碌地迭代”，不一定朝正确方向前进。这也是吴老师文章中很关键的一点：AI agent 的能力越强，规格和评估体系越重要。第二层：Developer feedback loop，开发者反馈循环这是中间层，速度比工程循环慢，通常是几十分钟到几小时一次。开发者不再主要扮演传统 QA，手动找 bug、让 AI 修 bug。因为 AI 已经越来越能自己测试和修正低层问题。开发者的角色上移了：更多承担产品判断、体验判断、方向判断。也就是说，开发者要回答的问题从： · “这个按钮坏了吗？” 变成： · “这个功能该不该存在？” · “这个流程是不是符合用户真实场景？” · “这个视觉风格是不是对？” · “这个产品到底应该服务谁？” 吴老师用给女儿做打字练习 app 的例子说明：AI 可以自己开发，但“猫咪服装解锁机制”“家长登录流程”“视觉设计风格”这些判断，仍然需要人来决定。这里有一个很重要的观点：他不太喜欢只用“taste”来描述人的作用，而更愿意说是 context advantage，语境优势或上下文优势。这比“品味”更准确。第三层：External feedback loop，外部反馈循环这是最慢但最接近真实世界的循环。包括： · 找朋友试用 · alpha 测试 · 上线给真实用户 · A/B 测试 · 分析用户行为数据 · 收集客户反馈 · 做竞品分析这个循环可能需要数小时、数天，甚至数周。但它决定产品方向是否真实有效。前两个循环可以让你更快地“把东西做出来”，但外部反馈循环告诉你：你做出来的东西有没有人真的需要。这是 AI 编程时代尤其容易被忽视的一点。 AI 编程时代正在经历一次角色迁移以前的软件开发链条大致是：产品经理定义需求，设计师设计体验，工程师实现，QA 测试，用户反馈再回流。现在 AI agent 压缩了“实现”和“低层测试”的成本，工程师开始自然进入更上层的位置：产品定义、用户理解、体验判断、反馈分析。工程师不会替代产品经理或设计师，但边界正在变模糊。AI 让更多人有能力从想法直接走到原型，再到上线测试。所以未来有竞争力的人，不只是“会写代码的人”，而是能设计好这三类循环的人： · 让 AI 高效执行的工程循环 · 让人类上下文不断校准方向的反馈循环 · 让真实用户数据修正产品愿景的外部循环

译吴恩达（Andrew Ng）提出“Loop engineering”，将AI agent置于持续迭代的循环系统中。产品成功取决于三个循环：**工程执行循环**——AI agent根据规格和evals自主写代码、测试、修bug，每几分钟迭代；**开发者反馈循环**——开发者从低层QA转向产品判断（功能取舍、视觉风格等），每几十分钟到几小时反馈；**外部反馈循环**——通过真实用户测试、A/B测试等验证方向，周期数小时至数周。他认为未来竞争力在于设计好这三类循环。

Rohan Paul@rohanpaul_ai · 1天前63

🇨🇳 Another good model from China. A 35B agent model claims 1T-model performance by thinking longer, not growing bigger. Apache-2.0 license, model weights are on Hugging Face. The technique is proposing a cheaper way to make strong AI agents: teach them longer verified work habits, not just make them bigger. The paper’s main idea is to make the agent practice long tasks where it searches, uses tools, reads results, fixes mistakes, and checks answers. The authors build training data from long action records, with an average length of 45K tokens, so the model learns the whole work process. They then train specialist teacher models for search, science, instruction following, tool use, and other areas, and transfer those skills into 1 student model. Agents-A1 does very well across long-task benchmarks, including search, science, coding, tool use, and instruction following.

译中国团队发布Agents-A1，一个35B参数的agent模型，通过让模型学习更长的验证工作习惯（平均训练样本45K tokens），声称达到1T参数模型的性能。模型采用Apache-2.0许可，权重已开源至Hugging Face。训练方法：构建长动作记录数据，训练多个专家教师模型（搜索、科学、指令跟随、工具使用等），再将技能蒸馏至一个学生模型。Agents-A1在搜索、科学、编码、工具使用、指令跟随等长任务基准上表现优异。

ginobefun@hongming731 · 2天前50

http://x.com/i/article/2072100123912687616 # BestBlogs 早报 · 07-01｜Sonnet 5 发布，谷歌补齐媒体模型，吴恩达画出智能体开发三循环在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语今天的三条精讲都围绕「让 agent 真正跑起来」这件事。 Anthropic 发布 Claude Sonnet 5，把此前只在 Opus 4.8 上才看得到的多步任务执行能力，下沉到更便宜的 Sonnet 档位，并给出 8 月底前的入门价。 Google DeepMind 同一天放出两款生成式媒体模型：Nano Banana 2 Lite 把文生图延迟压到约 4 秒、每千张图 0.034 美元，Gemini Omni Flash 则第一次面向开发者开放文本、图像、视频混合输入的视频生成与会话式编辑。吴恩达则在另一条线上给出方法论，他把智能体软件开发拆成三层循环，强调人类在上下文判断上仍有显著优势，人机协同不是可选项而是必选项。把这三条放在一起看，方向是一致的：底层模型在变便宜、媒体生成流水线更顺，与此同时「怎么用 agent 做事」的工程框架也更清晰。对做产品的人而言，这意味着可以挑自己最在意的那一段——成本、能力，还是组织方式——去细读，而不必每条都追。 ## ★ 精讲一：Claude Sonnet 5 发布对不太熟悉这条线的读者：Anthropic 的 Sonnet 系列一直是 agent 时代的「主力档」，从 Sonnet 3.5 开始，它在编程和工具调用上的表现就让很多开发者把它当作默认选择；但近几个月，最明显的 agent 能力跃升更多出现在更贵、更大的 Opus 系列上。Sonnet 5 要回答的问题是：这些能力能不能下放到一个更便宜的模型里。 Anthropic 的官方定位是「最具 agent 能力的 Sonnet」。它能规划任务、调用浏览器和终端工具，并自主执行多步流程；官方给出的对标是，整体性能已经接近 Opus 4.8，但价格更低，相比上一代 Sonnet 4.6 在推理、工具使用、编程和知识工作上都有显著提升。在 agent 搜索基准 BrowseComp 和计算机操作基准 OSWorld-Verified 上，Sonnet 5 相对 Sonnet 4.6 是「严格改进」，而 Opus 4.8 仍然是追求更高精度时的选择——也就是说，两者现在共同覆盖同一段性能区间，开发者可以通过调整 effort 等级在成本和精度之间找平衡。定价上，Sonnet 5 今天起对所有套餐开放：它是 Free 和 Pro 的默认模型，Max、Team、Enterprise 也可用，并已上线 Claude Code 和 Claude Platform。8 月 31 日前为入门价，每百万输入 token 2 美元、输出 10 美元，之后回到 3/15 美元；开发者可以通过 Claude API 用 claude-sonnet-5 调用。作为参照，Opus 4.8 的定价是输入 5 美元、输出 25 美元每百万 token——也就是说，在入门价窗口期，Sonnet 5 的输入单价大约只有 Opus 4.8 的 40%，这为那些原本因为成本不敢把 agent 放进主链路的团队，留出了一段可以认真试错的窗口。安全评估方面，Anthropic 称 Sonnet 5 在 agent 场景下的不当行为发生率整体低于 Sonnet 4.6，更难被恶意请求和 prompt injection 劫持，幻觉率和越狱抵抗也有改善；同时也指出它在网络安全任务上的能力明显低于当前的 Opus 模型，这是一种有意的克制。这件事的意义在于「价位的下沉」。过去一年，真正能端到端跑完一个多步任务的模型，往往落在 Opus 这一档，成本让很多团队只能小范围试用，或者在 demo 里惊艳一下，回到生产环境还是退回到更便宜但能力有限的方案。Sonnet 5 把这条线往下拉了一截，意味着更多产品可以把 agent 能力放进默认路径，而不是只在演示里跑。早期用户的反馈也指向同一个方向：它能完成一些过去会中途停下的任务。当然，「接近 Opus 4.8」并不等于「等于 Opus 4.8」——在追求最高精度的任务上 Opus 仍然是首选，而实际账单还要算上新令牌器带来的 token 量变化，这一点 Simon Willison 在补充阅读里有专门提醒。放在今天的三条里看，Sonnet 5 解决的是「大脑更便宜」，吴恩达讲的是「怎么组织这些大脑」，谷歌的两个媒体模型补的是「输出形态更丰富」——三条合起来，正好是一个 agent 产品从决策到执行到产出的完整链条。建议做 agent 实战、关注成本与能力平衡的开发者优先读官方发布，重点看 effort 等级和 BrowseComp / OSWorld 曲线，那决定了你的具体场景该选 Sonnet 5 还是继续用 Opus 4.8。详见 ## ★ 精讲二：开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建先交代背景：Nano Banana 是 Google DeepMind 的 Gemini 图像模型系列，已经迭代到第二代；这次发布同时带来了「Lite」版本和一个全新的视频模型 Omni Flash。两者面向的都是「要把生成式媒体塞进产品流水线」的团队，但侧重点不同——一个压成本，一个补能力。 Nano Banana 2 Lite（gemini-3.1-flash-lite-image）的定位是高吞吐、低延迟场景。官方给出的两个关键数字是：文生图延迟约 4 秒，每千张图 0.034 美元。它被推荐为旧版 Nano Banana（gemini-2.5-flash-image）的替代品，官方建议正在用旧版的开发者直接替换以获得速度和成本收益；在保持速度的同时，它仍然维持了提示词遵循、角色一致性和图内文字渲染的可靠性。今天起它在 Google AI Studio、Gemini API、Gemini Enterprise Agent Platform 可用，并陆续上线搜索的 AI Mode、Gemini app 等消费者产品。 Gemini Omni Flash 是另一个分量更重的更新：它第一次面向开发者开放。这是一个支持文本、图像、视频混合输入的视频生成与会话式编辑模型，定价为每秒视频输出 0.10 美元，与 Veo 3.1 Fast 持平，目前单次生成上限 10 秒。它强调的不是单次生成质量，而是「多轮迭代」——可以把多张参考图、一段已有视频和文字指令混在一起，做连续的会话式编辑。两个模型可以串联：用 Nano Banana 2 Lite 快速生成大量图，挑出满意的再交给 Omni Flash 做视频化，整个流程通过 Interactions API 可以保留最多三次连续编辑的会话上下文。为什么值得放在一起看：过去做多媒体生成的产品团队，往往卡在「要么快但贵，要么便宜但慢」的两难里，视频侧更是缺乏稳定的会话式编辑能力，常常只能靠多次重生成来逼近想要的效果，每一次迭代都重新计费。Nano Banana 2 Lite 把图像生成的单位成本压到一个可以放进批处理预算的区间，意味着生成「数量」本身不再是瓶颈；而 Omni Flash 把视频从「一次性产出」变成「可以来回改」的对象，意味着迭代成本被前置到了会话上下文里。合在一起，它们让「图—视频」的端到端流水线第一次具备了工程化的可能，而不只是停留在 demo 阶段。和今天另两条放在一起：如果说 Sonnet 5 让 agent 的「决策和执行」更便宜，吴恩达的三循环讲的是「怎么把这种执行组织成产品」，那么这两个媒体模型补的正是「agent 最后要产出的内容形态」——决策、组织、产出，三条合成一个完整的 agent 产品链路。对于做内容生成、营销自动化、产品 demo 流水线的工程和产品团队，建议重点看官方文档里 Nano Banana 家族的分工（Lite 求速度、Nano Banana 2 求均衡、Pro 求质量），以及 Omni Flash 的会话上下文上限（Interactions API 目前最多保留三次连续编辑）——这两点直接决定能不能接到你现有的工作流里，以及接入后能撑多大的并发量。需要说明的是，单次 10 秒的生成上限意味着它目前更适合短视频和素材片段场景，长视频仍需分段拼接。详见 ## ★ 精讲三：吴恩达：AI 智能体软件开发的三大核心循环这条不是新产品发布，而是一份方法论。吴恩达梳理了用 AI 智能体构建软件的框架，核心是三个层层嵌套的循环，对想理清「agent 时代工程师到底该做什么」的读者很有参考价值。第一个是智能体编程循环（agentic coding loop）：智能体自主编写、测试并迭代代码，它是三个循环里最内层、也最接近「自动写代码」这一层。第二个是开发者反馈循环（developer feedback loop）：人类不再逐行写代码，而是通过更高层的决策——定方向、定优先级、判断什么该保留——来引导智能体。第三个是外部反馈循环（external feedback loop）：通过用户测试和生产数据，反过来校正产品愿景本身是不是对。这套框架的关键判断在于：人类相对 AI 仍然保有显著的上下文优势。智能体可以在编程循环里跑得很快，但它对「为什么做这件事」「这个取舍对用户意味着什么」「这一版到底要不要上线」的理解，仍然要靠人来补。因此吴恩达强调人机协同必不可少——不是出于谨慎，而是因为上下文判断本身就是一种难以被模型直接习得的能力。他还指出一个值得工程师认真对待的趋势：编程智能体正在把工程师的角色向产品管理方向拓展——你写得少了，但你要判断得更多，要回答「什么值得做」「什么不值得保留」这类更高层的问题。为什么这条值得放进今天的精讲：当 Sonnet 5 让「能跑多步任务的模型」变便宜、谷歌让「产出形态」变丰富之后，下一个真正的问题不是「模型够不够强」，而是「团队怎么把这些能力组织成可持续的工程实践」。吴恩达的三循环给的就是这个层面的回答——它不解决具体的技术选型，不告诉你该用哪个模型或哪个框架，但它能帮你判断自己团队现在卡在哪一层循环里：是编程循环跑不顺，是开发者反馈没有结构化，还是外部反馈根本没回到产品上。三个循环里，往往只有最内层的编程循环被认真对待，而真正决定产品成败的，恰恰是外面两层被忽略的循环。建议正在引入编程智能体的团队负责人、以及开始感到「自己越来越像产品经理」的工程师认真读一读；它不能直接套用，但能作为一个对照框架，帮你检查自己日常工作里哪一层循环被忽略了。需要说明的是，这是一套经验性框架而非可复现的实验结论，具体到不同团队规模和业务类型时，三层循环的比重会有差异，还需结合自身情况调整。详见 ## 速览 AI+ Kuikly：7.5 小时落地三端「多模态聊天 App」实战 — 腾讯技术工程记录了一次真实实验：用开源跨端框架 Kuikly（基于 Kotlin Multiplatform，覆盖 Android、iOS、HarmonyOS、H5、小程序、Mac 六端）配合 AI 编程助手，仅凭 28 轮对话、740 字自然语言，生成约 3500 行代码，在 7.5 小时内零手写交付一套支持 Android、iOS、鸿蒙三端的多模态 AI 聊天 App，支持流式 Markdown、拍照识图、相册选取、SSE 长连接和本地会话管理。文章把这次实验和传统开发（约 30 人天）、纯 Kuikly 手写（约 7.5 人天）做了对照，强调 Skills 和 Rules 让 AI 始终处在正确的技术上下文里——Kuikly DSL 相对专有，通用大模型语料覆盖不足，靠 Skills 把框架知识喂给模型，是这种协同效率能够成立的基础，而不是「Vibe Coding」式的玄学叙事。对关注客户端 AI 协同效率的团队，是一份少见的「实弹日记」，附完整的一天时间线。详见谁在 ChatGPT 里买广告？｜对谈 Nexad COO Harry Zhou — 十字路口Crossing 访谈了率先吃 ChatGPT 广告螃蟹的 Nexad 联合创始人 Harry Zhou，覆盖中美几十家广告主半年的测试经验。一手数据值得看：广告卡片出现在免费用户和 Go 用户的回答下方，单独标注 sponsored；目前可投美、加、澳、新，日韩、巴西、墨西哥即将开放。CTR 大约在 1.5%–4%，CPC 多数 2–4 美元，CPM 从早期约 60 美元回落到 20 美元上下。浅层数据并不比 Google/Meta 漂亮，但 ChatGPT 来源用户的深层质量明显更高——一个 AI 视频产品的案例显示，ChatGPT 来源用户在连续生成、多次回访、点击 pricing、尝试导出无水印版本和购买额度等行为上的比例，大约能达到 Google/Meta 的两三倍。对话后半段还谈到 Context Hints 定向机制、Agentic Commerce，以及长程 Agent 退化等更前沿的问题，并整理成一份 31 页《ChatGPT 广告白皮书》。对做 AI 产品增长和市场投放的人，这份一手实践比任何二手分析都更实在。详见 Claude Science：面向科学家的 AI 工作台 — Anthropic 推出 Claude Science，定位为科学家的 AI 工作台。它把研究者常用的工具（PubMed、Jupyter、R、集群终端等）整合进单一环境，能原生展示蛋白质、分子结构，并在生成每一张图、每一段分析时附带可审计的代码与消息历史，便于验证和复现；agent 在一次会话里常驻上下文，大规模数据集只需加载一次。它可以跑在本地 macOS/Linux，也可以通过 SSH 或 HPC 登录节点跑在远端，使大型或敏感数据集不必离开实验室基础设施；早期用户案例显示研究流程有显著加速。这是 Anthropic 去年秋天启动生命科学方向以来最大的一次扩张，对做生命科学、计算研究的团队，这是一条值得关注的「研究流程加速」路径，而不是又一个通用聊天界面。详见 SkillOpt 将 AI 智能体技能转化为可训练资产 — 微软研究院提出 SkillOpt：把 agent 的「技能文件」（skill 文件）当作冻结模型之外的可训练参数，从而把「改 prompt」从一次性试错变成一个受控的优化过程。优化器模型提出小幅增删改编辑，候选项经过合并、去重、排序，再由一个文本学习率（每步编辑预算）裁剪，最后必须通过严格的验证门控才会被采纳。它在 6 个基准、7 个目标模型、3 种执行模式下，在全部 52 个评测单元里都是最佳或并列最佳，且无需更新模型权重；通过受限文本编辑、验证门控和被拒编辑反馈，避免不受控的 prompt 漂移，优化后的技能还能跨模型规模、agent harness 和相关任务迁移，说明它捕获的是可复用的工作流知识而非针对基准的指令。对关注 agent 可靠性和可复用性的工程师，这是一个把「调 prompt」工程化的具体方案。详见给野马套上缰绳：Agent Harness 工程实践 — 阿里云开发者系统阐述 Agent Harness Engineering（驾驭工程）范式，并辅以钉钉悟空 AI 招聘的真实落地案例。文章提出「Agent = Model + Harness」，强调瓶颈往往不在模型够不够聪明，而在有没有把它「装」好——每当你发现 Agent 犯了一个错，就花时间工程化一个解，让它将来不再犯同样的错。核心是四条反直觉铁律（上下文要少、Agent 要专、状态要落盘、约束要可执行）和六大工程模式，它们大多和工程师的本能相反，而这正是它们值钱的原因。案例侧实证了专才 Agent 架构在准确率、可调性与可复用性上显著优于一个试图包揽一切的全能 Agent。对正在被 Agent 折磨又离不开它的开发者，这篇文章给的是「把环境设计好」的具体抓手，而不是又一篇概念科普。详见 LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆 — 美团 LongCat 团队开源 VitaBench 2.0，定位为首个面向「长期动态用户建模」的智能体评测基准，关注的不只是「单次任务能不能完成」，而是「智能体是否在持续理解一个动态变化的人」。它包含 56 名拟真用户、819 个复杂任务、超 2000 个动态偏好和 66 个可执行工具，平均每位用户的交互时间跨度长达 1580 天（约 4.3 年），最长接近 2974 天，严格按时间线向 agent 暴露，用以评测模型在长期、真实、动态互动中的个性化与主动性；偏好会随时间和事件动态演变，平均每个用户发生超过 48 次变化。几个有意思的洞察：时间维度的遗忘、高智商不等于高情商、AI 普遍缺乏主动沟通。对做个性化 agent 和记忆策略的研究与工程团队，这是一个值得纳入评测循环的新基准。详见生成式 AI 机器人：何处上岗，如何站岗 — 哈佛商业评论基于过去 18 个月对欧洲、亚洲、北美 14 家机构的实地走访，系统分析生成式 AI 机器人在服务行业的应用价值、风险与部署步骤。文章以 Waymo（一支 2500 辆无人驾驶车队、累计完成超 2000 万次行程、能在 105 公里时速下并线避让违停货车）为切入，指出新一轮机器人的关键变化在于由大语言模型和大行为模型驱动，能在多轮对话中保持逻辑连贯、澄清模糊、解释复杂概念，不再局限于高度脚本化的狭窄任务——例如在全美 30 个儿科病房和养老院提供情感支持的机器人 Robin，能接受护士口头指令自主移动。文章同时也坦率讨论了持续存在的障碍：前期成本高（71% 公司列为挑战）、缺乏自动化经验（61%）、维护可靠性和客户接受度，许多试点仍停滞在「精密移动售货机」阶段。对考虑在餐饮、酒店、医疗、零售部署实体服务机器人的管理者，这是一份可操作的策略框架，而不是又一篇「机器人将改变一切」的宣言。详见 ## 补充阅读 - 万字长文推演 Claude 的代码统治力从何而来（腾讯云开发者）— 结合 Anthropic 公开论文与技术逻辑，推演 Claude 代码能力的来源：代码是构造自动化奖励信号最容易的场景，而 Claude 的产品形态恰好能收集到最精准的用户偏好反馈，两者结合形成 Constitutional AI 约束下的可验证奖励 RL，叠加产品端数据飞轮，共同构成一套自我加速的进化引擎。适合想理解「为什么是 Claude 在代码上领先」背后系统工程逻辑的读者，文中标注了「待验证」的推断部分。详见 - Claude Sonnet 5 发布：迄今最具智能体能力的 Sonnet 模型（Claude 官方）— Anthropic 官方账号的发布通告，可作为精讲一的官方视角补充，附有宣传视频。详见 - Claude Sonnet 5 的新功能（Simon Willison's Weblog）— Simon Willison 习惯直奔开发者文档，他注意到一个容易被营销文案盖过的细节：新令牌器让英文文本的实际 token 量上涨约 30%，这意味着名义价格之外还有一个隐性的成本变化。适合关心实际账单的开发者细读。详见 - 核心转储流行病学：修复一个存在 18 年的 Bug（OpenAI News）— OpenAI 工程师把 Rockset 数据基础设施（支撑 ChatGPT 数据插件和会话搜索）里的一组神秘崩溃当作流行病学问题来调试：一种崩溃在多个集群和地理区域零散出现，另一种却集中在一个区域，作者据此区分了两类完全不同的故障模式，最终定位到 GNU libunwind 中一个存在 18 年的竞态条件。适合喜欢底层调试、C++ 内存安全和基础设施故事的工程师，是一篇少见的「严肃排障」叙事，而不是又一篇产品发布。详见 - 从编码智能体驱动智能体质量飞轮（Google Developers Blog）— 介绍一项可在编码智能体里运行的技能，通过 AutoRaters、自定义评分标准和结构化五阶段循环，把「改 prompt」和「跑评估」连成一个可复现的质量飞轮，回答「我这次改动到底让产品变好还是变坏了」的问题。和吴恩达的三循环、SkillOpt 放在一起读，会形成一组关于「agent 质量工程」的互补视角。详见 ## 今日阅读路径如果你今天时间有限，建议按这个顺序读：先看 Claude Sonnet 5 发布，它直接决定了你接下来的 agent 成本结构，重点看 effort 等级和 BrowseComp / OSWorld 曲线；再看吴恩达：AI 智能体软件开发的三大核心循环，它帮你判断团队卡在哪一层循环，是从「能用」走向「可持续」的框架；最后看开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建，如果你手里有内容生成或多媒体流水线，它会改变你对单位成本和会话式编辑可行性的判断。三条读完，你对今天「agent 能力—组织方式—产出形态」这条主线就有了一个完整的认识。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译Anthropic发布Claude Sonnet 5，定位最具agent能力的Sonnet，性能接近Opus 4.8，8月31日前入门价每百万输入token $2、输出$10。Google DeepMind推出Nano Banana 2 Lite（文生图延迟约4秒，每千张$0.034）和Gemini Omni Flash（多模态视频生成与会话式编辑，每秒$0.10，单次上限10秒）。吴恩达提出智能体开发三大核心循环：智能体编程循环、开发者反馈循环、外部反馈循环，强调人类在上下文判断上的优势。三条更新均围绕降低agent落地成本、完善媒体生成流水线及工程框架。

ginobefun@hongming731 · 2天前45

BestBlogs 早报 · 07-01 # Claude Sonnet 5 / Anthropic / Nano Banana 2 Lite / Gemini Omni Flash / 吴恩达 [1] ★ 精讲｜Claude Sonnet 5 发布 Anthropic 官方发布 Claude Sonnet 5，定位为最具 agent 能力的 Sonnet：能规划、调用浏览器与终端工具并自主执行多步任务，整体性能接近 Opus 4.8 但价格更低，在推理、工具使用、编程上较 Sonnet 4.6 显著提升。8 月 31 日前享入门价每百万输入 token 2 美元、输出 10 美元，之后回到 3/15 美元。早期用户反馈它能端到端完成以往会中途停下的任务，适合关注 agent 实战与成本平衡的开发者细读。来源：Anthropic News https://www.bestblogs.dev/article/eff5a221 [2] ★ 精讲｜开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建 Google DeepMind 同日推出两款生成式媒体模型。Nano Banana 2 Lite 面向高吞吐场景，文生图延迟约 4 秒、每千张图 0.034 美元，并作为旧版 Nano Banana（gemini-2.5-flash-image）的推荐替代。Gemini Omni Flash 首次开放给开发者，支持文本、图像、视频混合输入的视频生成与会话式编辑，定价每秒视频输出 0.10 美元、与 Veo 3.1 Fast 持平，目前单次生成上限 10 秒。两者可串联使用并经 Interactions API 保留最多三次连续编辑的会话上下文，适合关注多媒体流水线与成本控制的产品与工程团队。来源：Google DeepMind News https://www.bestblogs.dev/article/e2086adb [3] ★ 精讲｜吴恩达：AI 智能体软件开发的三大核心循环吴恩达梳理了用 AI 智能体构建软件的框架，核心是三大循环：智能体自主编写并迭代代码的编程循环，人类以更高层决策引导智能体的开发者反馈循环，以及借用户测试与生产数据反哺产品愿景的外部反馈循环。他强调人类相对 AI 仍有显著的上下文优势，人机协同必不可少，编程智能体正推动工程师向产品管理角色拓展。适合想理清 agent 时代工程师定位的读者吸收。来源：Andrew Ng(@AndrewYNg) https://www.bestblogs.dev/status/2071988145667928442 [4] AI+ Kuikly：7.5 小时落地三端「多模态聊天 App」实战本文详细记录了作者使用 Kuikly 跨端框架配合 AI 编程助手，在 7.5 小时内零手写代码完成 Android、iOS、鸿蒙三端多模态聊天 App 的实战过程，并总结了框架与 AI 协同的效率原理。来源：腾讯技术工程 https://www.bestblogs.dev/article/4d1c9b0d [5] 谁在 ChatGPT 里买广告？｜对谈 Nexad COO Harry Zhou 通过访谈 Nexad COO，揭示 ChatGPT 广告的实际投放数据、用户质量优势、Context Hints 定向机制，以及 Agentic Commerce 和长程 Agent 退化的行业前沿思考。来源：十字路口 Crossing https://www.bestblogs.dev/article/9c7cf0aa [6] Claude Science：面向科学家的 AI 工作台 Anthropic 推出 Claude Science，一款集成科学工具、管理计算资源并生成可审计成果的 AI 工作台，早期用户案例显示研究流程显著加速。来源：Anthropic News https://www.bestblogs.dev/article/146437f9 [7] SkillOpt 将 AI 智能体技能转化为可训练资产 SkillOpt 将 AI 智能体技能编辑重构为训练流程，将技能文件视为冻结模型外的可训练参数，在 52 个评估单元中实现一致性提升，且无需更新模型权重。来源：Microsoft Research Blog https://www.bestblogs.dev/article/0dd53848 [8] 给野马套上缰绳：Agent Harness 工程实践 ——从范式理论到钉钉 AI 招聘的真实落地本文系统阐述 Agent Harness Engineering（驾驭工程）范式，提出四条反直觉铁律与六大工程模式，并通过钉钉悟空 AI 招聘的真实落地案例，实证专才 Agent 架构在准确率、可调性与可复用性上显著优于全能 Agent。来源：阿里云开发者 https://www.bestblogs.dev/article/d7fc3488 [9] 生成式 AI 机器人：何处上岗，如何站岗本文基于实地调研，系统分析生成式 AI 机器人在服务行业的应用价值、风险与部署步骤，为企业管理者提供可操作的策略框架。来源：哈佛商业评论 https://www.bestblogs.dev/article/1bf869eb [10] LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆本文介绍美团开源的 VitaBench 2.0，首个评估大语言模型在长期动态用户互动中个性化与主动性能力的智能体基准，并揭示时间遗忘、高智商不等于高情商、AI 缺乏主动沟通等核心洞察。来源：美团 · 技术团队 https://www.bestblogs.dev/article/dbae37bb --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。在线阅读：https://www.bestblogs.dev/explore/brief/2026-07-01

译Anthropic 发布 Claude Sonnet 5，定位最具 agent 能力，性能接近 Opus 4.8，8月31日前输入2美元/百万token、输出10美元，之后恢复3/15美元。Google DeepMind 推出 Nano Banana 2 Lite（文生图延迟约4秒，每千张0.034美元）和 Gemini Omni Flash（多模态视频生成，0.10美元/秒，上限10秒）。吴恩达总结 AI 智能体三大循环：编程循环、开发者反馈循环、外部反馈循环，强调人机协同。