do you use obsidian for your agents memory vault?

译你会使用Obsidian作为你的智能体记忆库吗？

Cohere 发布首个开源编程模型「North Mini Code」小参数、高效率、专做 Agent 编程参数：MoE 架构(30B, 3B)，128专家，每 token 激活 8 个上下文：256K 输入 / 64K 输出最低硬件：1× H100（FP8）官方发布 https://cohere.com/blog/north-mini-code HuggingFace https://huggingface.co/CohereLabs/North-Mini-Code-1.0 # 训练方法（三阶段后训练） 1. 两阶段级联 SFT · 一阶段（64K）：代码约 70% 可训练 token（43% Agent 工具调用 + 27% 单轮竞赛/科学编程），混推理与指令跟随 · 二阶段（128K）：约 4.5B token，61% 为代码，全为 Agent/推理样本，工具调用与完成结果均校验可执行 · 数据来自 7 万+ 可验证任务、约 5000 个仓库；与 SWE-Bench 源去重，防泄漏 · SFT 目标不是刷榜，而是为 RL 打底：优化 pass@K 与采样多样性 2. RLVR（可验证奖励强化学习） · 算法：CISPO（token 级重要性采样，长轨迹不被短样本稀释） · 异步采样：vLLM sidecar + 窗口 FIFO 队列，缓解 Agent rollout 长度差异 · 双环境联合训练：Terminal（ReAct + bash）+ SWE（SWE-Agent） · 奖励：单元测试二值奖励；无效工具调用/不可解析输出得 0 分 3. 跨 Harness 泛化 · 训练时暴露多种 Agent 脚手架（SWE-Agent、mini-SWE、OpenCode 等） · 二阶段 SFT 中约 6% 为其他 benchmark harness 数据 · OpenCode 评估约 +10%；mini-SWE-Agent 上 pass@1 达 61.0%，属「免费迁移」 SFT 结束时：SWE-Bench Verified pass@10 = 80.2%，Terminal-Bench v2 pass@10 = 55.1%。RL 后 Terminal pass@1 +7.9%，SWE pass@1 +3.0%；轨迹更短、无效工具调用更少。 # 基准表现 Agent 编程（核心卖点） · Artificial Analysis Coding Index：33.4 · 同量级开源中领先 Qwen3.5 35B-A3B、Gemma 4、Devstral Small 2 等 · 甚至超过 Nemotron 3 Super（120B）、Mistral Small 4（119B）等更大模型 · 仍略低于 Qwen3.6 35B-A3B（约 35.2）评测集：SWE-Bench Verified/Pro、Terminal-Bench v2/Hard、SciCode、LiveCodeBench v6 Harness：SWE-Agent v1.1.0、ReAct+Tmux、Terminus-2 等；temperature=1.0，top_p=0.95，3 seed 平均非编程 Agent 任务偏弱（第三方汇总）：GDPval-AA ~14%，τ²-Bench Telecom ~37%，Agentic Index 综合约 21.7——专精编程，非通用 Agent。推理速度（对比 Devstral Small 2，Cohere 内部测试） · 同并发下输出吞吐最高约 2.8× · 词间延迟约 -30% · TTFT 略逊于 Devstral Small 2 # Agent 能力设计模型原生支持交错思考与工具调用，格式类似 Cohere Command 系列： <|START_THINKING|> ... <|END_THINKING|> <|START_ACTION|> [JSON tool calls] <|END_ACTION|> <|START_TOOL_RESULT|> ... <|END_TOOL_RESULT|> <|START_RESPONSE|> ... <|END_RESPONSE|> 使用要点： · 必须把 reasoning/thinking 一并写入对话历史，否则效果下降 · 工具描述建议用 JSON Schema · 推荐采样：temperature=1.0，top_p=0.95 · 需较新 Transformers 源码、vLLM main + cohere_melody>=0.9.0 面向场景：子 Agent 编排、系统架构理解、Code Review、终端操作、多步软件工程。

译Cohere 推出首个开源编程模型 North Mini Code（MoE 30B/3B，128 专家，每 token 激活 8 个），支持 256K 输入/64K 输出，最低 1×H100（FP8）。训练采用三阶段后训练：级联 SFT（含 Agent 工具调用与推理数据）→ RLVR（CISPO 算法，异步采样，Terminal+SWE 双环境联合训练）→ 跨脚手架泛化。Agent 编程方面，Artificial Analysis Coding Index 达 33.4，同量级开源中领先 Qwen3.5 35B-A3B、Gemma 4 等，超过 Nemotron 3 Super 120B，稍低于 Qwen3.6 35B-A3B（约 35.2）。推理速度对比 Devstral Small 2 最高约 2.8×，词间延迟约 -30%。非编程 Agent 任务偏弱。推荐 temperature=1.0、top_p=0.95。

Rohan Paul@rohanpaul_ai · 6月10日75

Bloomberg: Magnetar Capital, the $18B hedge fund company, will avoid human analysts in its newest offering and rely on hundreds of AI agents for stock research. The $18B hedge fund firm wants AI to search for ideas, study companies, recommend positions, and forecast trends, while people still approve trades. --- bloomberg .com/news/articles/2026-06-09/magnetar-plans-fund-that-replaces-human-analysts-with-ai-bots

译Bloomberg：Magnetar Capital，这家 180 亿美元的对冲基金公司，将在其最新产品中避免使用人类分析师，转而依靠数百个 AI 智能体进行股票研究。这家 180 亿美元的对冲基金公司希望 AI 搜索投资想法、研究公司、推荐头寸并预测趋势，而人类仍负责批准交易。

Alibaba Cloud@alibaba_cloud · 6月10日59

Want to build an AI Agent that runs an entire short drama pipeline? 🎬 Welcome to the AI Showrunner Arena! Use frontier video models (Wan / HappyHorse) to automate scriptwriting, storyboarding, and editing to win your share of the $70,000+ prize pool. 🔗 Register now: https://click.qwencloud.com/m/20000000281/

译想要构建一个能运行整条短剧制作管线的AI智能体？🎬 欢迎来到AI Showrunner Arena！使用前沿视频模型（Wan / HappyHorse）来自动化脚本编写、分镜和剪辑，赢取总计超过70,000美元的奖金池。 🔗 立即注册：https://click.qwencloud.com/m/20000000281/

meng shao@shao__meng · 6月10日53

如果你对 Claude Fable 5 到底有多贵还没有概念，咱们做个简单对比。 Claude Fable 5 和 Step 3.7 Flash 官方 API 价格倍数： · 输入 ≈ 50 倍 · 输出 ≈ 50 倍 · 缓存命中输入 ≈ 100 倍如果再算上 Claude Fast Mode (速度 x 3，价格 x 6) · 输入 ≈ 300 倍 · 输出 ≈ 300 倍 · 缓存命中输入 ≈ 600 倍而 Fast Mode 下，其实还是 Step 3.7 Flash 输出更快 😂

译博主对比Claude Fable 5与Step 3.7 Flash官方API价格：输入/输出约50倍，缓存命中输入约100倍；开启Fast Mode（速度×3，价格×6）后分别升至约300倍、300倍、600倍。作为实例，用Step 3.7 Flash完成真实Coding Agent任务：将Agent Memory运行痕迹（含memory events、structured facts、memory chunks等）生成为单文件HTML工具agent_memory_inspector.html，可查看8条事件、9条事实、8个chunk、9/9测试通过等信息，展示了模型将混乱Agent traces转化为可用检查工具的能力。

meng shao@shao__meng · 6月10日75

AI Agent 正在改变知识工作的方式 Perplexity 和哈佛商学院合作，基于 Perplexity Computer 和 Search 的真实使用数据，首次系统比较「对话助手」与「通用 Agent」对知识工作的实际影响。得出一个核心结论：Agent 提高任务自主性、降低成本、扩大工作边界——用户从「操作者」转向「监督者」。 https://research.perplexity.ai/articles/how-ai-agents-reshape-knowledge-work Agent 最新的分工：用户描述目标，系统跨工具规划、执行、必要时暂停确认，最终交付成品。Perplexity 的产品演进也沿这条线：Search（2022）→ Comet 浏览器 Agent（2025）→ Computer 通用编排器（2026）。 # 三点核心发现 1. 自主性：机器工作时间大幅拉长，质量未降用「初始查询高度相似」的 1 万对会话做对照： · 机器执行时间：Computer 平均 26 分钟 vs Search 33 秒（约 48 倍）；中位数为 9 分钟 vs 14 秒（约 40 倍） · 用户中断率相近：约 3.7% vs 3.4%，长时自主并未带来更多放弃 · 人机协作点增加：13% 的 Computer 查询会暂停请求用户输入（审批、澄清），Search 仅 0.3%——符合 Agent「多数自主 + 关键检查点」的模式 · 跨工具调用：Computer 通过 MCP/API 连接外部服务，连接器调用频率约为 Search 的 4–12 倍 · 跟进行为变化：整体推进任务的倾向相近（约 53%），但 Computer 用户更多做扩展与审阅（24.6% 审阅修订），Search 用户更多做澄清与短指令（确认、重试、格式调整） · 满意度：有意义的下一轮不满，Computer 1.3% vs Search 2.9%（降约 55%）要点：自主性提升不等于质量下降；用户角色从「逐步指挥」转向「验收与迭代」。 2. 效率：时间与人均成本显著下降比较两种模式： · Search + 人：Search 检索综合，人手工执行 · Computer + 人：Computer 跑流程，人定范围、审结果因无法直接观测人工耗时，研究用三种方法交叉验证： · 工具分类法：把 Computer 工具分为「Search 类」（检索综合）与「Do 类」（需人手工执行的步骤），估算熟练专业人士的等效时间 · LLM 估算法：让模型估算「有 Search 答案但仍需手工执行」的耗时 · 用户访谈：25 位活跃用户的半结构化访谈主要结果（工具分类法）： · 平均任务时间：269 分钟 → 36 分钟（节省约 87%） · 综合模型成本与 BLS 行业时薪后，任务成本平均降约 94%（约 16 倍） · 18 个领域普遍有效：时间节省 79–92%，成本节省 87–96% · 编程最极端：596 分钟 → 48 分钟（时间 -92%，成本 -96%）稳健性：即使假设人工步骤被高估 8 倍、或 Computer 监督时间被低估 12 倍，Computer 仍有优势。LLM 估算与访谈方向一致（访谈中位数约 25 倍加速）。权衡：前期需更明确的目标设定与结果审阅，但单位工作的人工投入大幅下降，尤其适合长链路、多步骤流程。 3. 范围：横向跨界 + 纵向升维横向（跨职业边界）： · 8 个职业集群、8000 用户样本中，Computer 用户 59% 的查询超出主职业，Search 为 50% · Search 的跨职业查询多集中在数字技术；Computer 则更多流向营销、管理、金融等需执行而非仅检索的领域纵向（认知复杂度）： · 按 Bloom 修订分类：76% Computer 查询属高阶认知（Search 55%）；50% 为「创造」层级（Search 26%） · 抽象/非例行任务：Computer 71% vs Search 53% · 知识域广度（O*NET）：平均 2.40 vs 1.74 个领域（+38%）；需 3 个以上领域的比例 51% vs 17% · 工作活动广度同样右移；约 23–41% 的 Computer 查询涉及 Search 中从未出现过的任务类型，集中在软件开发、文档生产、数据可视化等「能产出」而非「能解释」的工作要点：Agent 不只让旧任务更快，还让用户承担更广、更深的工作——单人可触达原本需多角色协作的流程。

译Perplexity与哈佛商学院基于3个月真实数据，比较对话助手Search与通用Agent Computer对知识工作的影响。核心发现：①自主性：Computer平均执行26分钟（Search仅33秒），用户中断率相近（3.7% vs 3.4%），满意度不满降低55%；②效率：任务时间从269分钟降至36分钟（节省87%），成本降94%（约16倍），编程领域时间降92%成本降96%；③范围：Computer 59%查询超出主职业（Search 50%），76%为高阶认知（Search 55%），50%达创造层级（Search 26%）。用户角色从逐步指挥转向验收与迭代。

meng shao@shao__meng · 6月10日77

Text-To-Lottie: 一套「Agent Skill + 本地预览 Harness」的组合，让 Agent 生成 Lottie，在浏览器里实时验收开源作者 @konstipaulus ，开源地址： https://github.com/diffusionstudio/lottie 安装方式：npx skills add diffusionstudio/lottie Skill：教 Codex / Claude Code / Cursor 等 Agent 如何写出 Skottie 可渲染的 Lottie JSON Harness：基于 Skia CanvasKit（Skottie）的全屏播放器 + React 控制面板，Agent 写入 public/lottie.json 后 Vite 热重载，立刻可见技术架构 · 输出物：标准 Bodymovin JSON（public/lottie.json） · 渲染引擎：Skottie（非 lottie-web）—— 与 AE 导出路径更接近，也更适合程序化生成 · 预览闭环：写文件 → 保存 → 页面自动刷新 → 肉眼验收 · 可编辑性：Skottie Slots + controls.json，实时调颜色、尺寸等参数 · Agent 验收：URL 参数 ?frame=60&paused=1 精确定位帧，截图比对，不靠拖进度条作者给的五条 Prompt 指南 1. 给具体素材：SVG、真实数据、截图；抽象描述质量明显下降 2. 用动效术语：ease-in / ease-out / ease-in-out，对应 Lottie 关键帧贝塞尔手柄 3. 像摄影师思考：pan / zoom / hold—— 用父级 Group 的 transform 模拟镜头 4. 声明需要的控件：默认只有背景色；颜色、描边宽度等需显式要求 Slots 5. 锁定时间规格：如「150 帧、30 FPS」= 5 秒成片，避免 Agent 随意猜时长适用 / 不适用 1. 适合： · 单场景、短时长 Motion Graphics · SVG → Lottie（Figma 导出路径） · 数据可视化动效（K 线、图表、指标） · 需要透明背景、矢量、可嵌入 UI 的动效 2. 不适合： · 多镜头剪辑、音视频合成 → 用 Remotion · 复杂角色绑定、粒子、3D → AE 手工或专用工具更合适 · 需要 lottie-web 全特性兼容时 → Skottie 子集有差异

译开源项目 Text-To-Lottie 提供一套 Agent Skill 和本地预览工具，让 Codex/Claude Code/Cursor 等 Agent 生成标准 Bodymovin JSON（public/lottie.json），通过 Skottie 渲染引擎在浏览器中实时验收。安装命令：`npx skills add diffusionstudio/lottie`。技术特点：输出标准 Lottie JSON，使用 Skottie 渲染（非 lottie-web）；基于 Vite 热重载实现自动刷新闭环；支持通过 Skottie Slots + controls.json 调整颜色、尺寸；Agent 可用 URL 参数 `?frame=60&paused=1` 精确定位帧截图。Prompt 指南包括：给具体素材、使用动效术语、pan/zoom/hold 模拟镜头、显式声明 Slots、锁定时间规格。适合单场景短时长 Motion Graphics、SVG→Lottie、数据可视化、透明背景矢量动效；不适合多镜头剪辑、复杂角色绑定、粒子、3D 或需 lottie-web 全特性的场景。

jason@jxnlco · 6月10日22

How many consultants can I replace with a fable 5 workflow.

译一个 fable 5 工作流能替换多少顾问？

ginobefun@hongming731 · 6月10日57

http://x.com/i/article/2064485562875260928 # BestBlogs 早报 · 06-10｜Claude 安全分层、企业智能体治理、双语语音 Agent 在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-10 ## 导语今天这期 BestBlogs 早报，适合作为一份关于「生产级 AI」的阅读地图。过去几个月，很多讨论还停在模型是不是更聪明、Agent demo 是不是更惊艳；今天的三篇精讲把问题往前推了一层：当模型能力继续上升，谁来定义可用边界？当企业真的部署了成千上万个 Agent，上线后的运营成本、反馈闭环和确定性流程怎么跟上？当语音 Agent 面向真实客户，用户在一句话里切换两种语言，ASR 层的错误又会怎样传导到后面的工单、策略和回复？把这篇图文版当作播客的延展阅读：先读三篇精讲，建立「模型能力、企业治理、入口评测」三条主线，再用速览和补充阅读补齐 RAG、Skill、CLI、基础设施和推荐系统等工程侧细节。一个更实用的读法，是把今天所有文章都放进同一张生产链路图里：上游是 Anthropic、HRM-Text 这类模型与架构能力；中间是 RAG、Skill、Foundry、Copilot CLI 这些把能力包装成工作流的平台层；下游是 Salesforce、OpenAI 财务团队、语音 Agent、教育试验和 Netflix 推荐这类真实应用场景；最底层则是 DeepSeek-V4 云原生推理这样的基础设施。这样看，今天的主题不是某个单点突破，而是 AI 系统如何从可演示、可调用，继续走向可运营、可评测、可承担责任。所以这期更适合边读边做笔记：每看到一个新模型或新平台，都顺手记下它解决的是能力、流程、评测、治理还是基础设施问题。这样读完之后，你得到的不是一串新闻标题，而是一组可迁移的判断标准，也更容易判断下一轮 AI 产品更新究竟补上了哪一块短板。 ## 精讲一：Anthropic 发布新一代 Claude：Fable 5 与网络安全版 Mythos 5 Anthropic 发布新一代 Claude：Fable 5 与网络安全版 Mythos 5 是今天最适合放在第一位的文章，因为它不是单纯宣布一个更强的模型，而是把能力提升、访问分层、风险控制和商业价格放在同一个发布里讨论。Anthropic 将 Claude Fable 5 推向通用用户，同时把同一底层模型以 Mythos 5 的形式开放给少量可信网络安全伙伴。这个安排本身就是信号：前沿模型的发布逻辑正在从「一个模型给所有人」转向「同一能力在不同风险场景下被不同方式包装、降级和授权」。原文最值得抓住的事实有几组。第一，Fable 5 被描述为目前 Anthropic 面向一般用户开放的最强模型，在软件工程、知识工作、视觉、科学研究等任务上都有明显提升，任务越长、越复杂，领先幅度越突出。第二，Anthropic 明确承认这类能力会带来网络安全等高风险滥用，所以对部分请求会改由 Claude Opus 4.8 响应；由于安全规则设得保守，平均少于 5% 的会话会触发这种降级。第三，Mythos 5 与 Fable 5 使用同一底层模型，但在部分领域放宽安全限制，先通过 Project Glasswing 面向网络防御者和基础设施伙伴部署。第四，价格也被一起给出：每百万输入 token 10 美元、每百万输出 token 50 美元，低于 Claude Mythos Preview 的一半。这些信息放在一起，重点就不只是「Claude 又变强了」。更重要的是，模型厂商开始把能力、风险和客户资格拆成可运营的产品层级。对普通开发者来说，Fable 5 的关键价值可能是更长任务、更复杂代码迁移和更强文档推理；对安全团队来说，Mythos 5 的意义则在于把高风险能力放进可信访问计划，而不是简单地对所有人开放或全部封锁。原文还提到早期案例，包括在 50-million-line Ruby 代码库上做迁移、在生命科学中加速药物设计假设探索等。这些案例不应被读成「任何团队马上都能复制」，而应读成厂商用来说明模型长程自治能力正在进入真实工作流的证据。从产品采用角度看，这篇文章还给企业买方一个判断框架：当供应商说模型更强时，应该追问能力提升出现在哪些任务长度、哪些业务流程、哪些风险领域；当供应商说安全可控时，应该追问降级策略是否透明、误伤率如何衡量、什么请求会被转给更弱模型；当供应商说有更高权限版本时，应该追问访问资格、审计机制和责任主体。换句话说，前沿模型的采购不再只是比较跑分、价格和上下文窗口，而是要把模型当成有访问层级的基础设施来评估。它和今天另外两篇精讲之间有很强的呼应。Salesforce 的文章讨论企业 Agent 上线后的运营，ServiceNow 的 ASR 基准讨论语音入口的可靠性；Anthropic 这篇则是在底层模型层面提出同一个问题：AI 能力越接近生产核心，越不能只看 benchmark，还要看权限、降级、监控和事故边界。阅读建议是先看发布中的安全分层和价格段落，再看软件工程与知识工作案例，最后回到 Mythos 5 的可信访问机制。这样读能避免被「最强模型」的表述带偏，而是把它放进企业采用 AI 的真实治理链路里。 ## 精讲二：Salesforce 从 20，000 个企业智能体部署中学到的经验 Salesforce 从 20，000 个企业智能体部署中学到的经验的价值在于，它把 Agent 的讨论从「怎么做一个 demo」拉回到「怎么在企业里长期跑下去」。ByteByteGo 借 Salesforce Agentforce 的生产部署复盘了一个很现实的事实：很多 Agent 失败不是因为模型完全不能用，而是因为团队低估了上线之后的运营工作。文章提到 Salesforce 已有超过 20,000 个企业客户运行 Agentforce，支持 Agent 单项就处理了超过 3 million 次对话，这给它的经验总结提供了足够的生产背景。这篇文章先把 Agentforce 拆成几层：用户通过 Slack、聊天窗口或消息应用进入 engagement layer；agent layer 负责推理、决策、监控和编排；system of work 连接销售、服务、商务等真正承载业务动作的应用；context layer 提供数据和元数据；贯穿全栈的 trust layer 负责多模型、权限和 guardrails。这个架构图本身并不神秘，很多企业平台都会画类似的层次。真正有意思的是后面的工作量反转：传统软件往往把大部分努力放在上线前，而 AI Agent 的大部分工作发生在上线后。原文用一种很直白的方式说，Agent 不是发布后就完成，而是发布后才开始学习哪里会误判、哪里需要更确定的流程、哪里需要重新定义 KPI。具体方法上，文章强调了几个比 prompt 更重要的环节。首先是反馈循环，团队要能把失败对话、用户评价、业务结果和改进动作串起来。其次是上下文治理，Salesforce 的案例里提到从 135,000 篇帮助文档中选取相关内容，并把上下文从 100K tokens 级别裁剪到 2K tokens 左右，这说明生产 Agent 的效果并不是「给模型越多越好」，而是要让检索、过滤和业务语境足够精确。第三是确定性流程：有些步骤不适合交给模型自由发挥，比如退款、权限变更、关键字段写入和合规判断，需要被约束在可追踪的工作流里。这篇文章也把一个常被忽略的角色摆到台前：业务团队本身。企业 Agent 不是工程团队写完后交付给业务部门使用的普通软件，而是需要业务人员持续标注成功与失败、定义哪些回答可接受、哪些动作必须升级人工、哪些知识库内容已经过期。帮助文档、CRM 数据、工单历史和政策规则如果没有清洗和归属，Agent 很容易在看似合理的回答中放大旧流程的问题。Salesforce 的经验因此更像一套组织运行建议：先把反馈、KPI 和人工兜底设计好，再谈更高的自动化比例。它的重要性在于，很多团队今天仍然把 Agent 当成一个更会聊天的界面，忽略了企业系统里真正贵的部分是责任边界。谁批准动作？谁观察失败？谁定义成功？谁把一次错误转成可复现的测试？这些都不是一个更长的 system prompt 能解决的。和 Anthropic 的发布对照看，底层模型可以更强，但企业采用它的瓶颈往往在组织和平台能力；和 ASR 基准对照看，入口转写如果错了，后面的 Agent 再聪明也会在错误上下文里自信执行。阅读这篇时，建议重点看「上线后运营」而不是产品宣传：把它当成一份 Agent 项目复盘清单，逐条映射到自己团队有没有日志、评测集、回放机制、业务 KPI 和人工兜底。 ## 精讲三：语音智能体能否处理双语客户？前沿 ASR 在语码转换语音上的基准测试语音智能体能否处理双语客户？前沿 ASR 在语码转换语音上的基准测试切中的是语音 Agent 的入口问题。很多语音产品 demo 看起来流畅，是因为输入被控制得很干净：单一语言、清晰句子、标准任务。但真实企业场景里，客户可能一句话里先用西班牙语描述问题，再夹一个英文产品名；员工可能用法语问 HR 政策，中间插入英文岗位、系统或报错信息。ServiceNow AI 在 Hugging Face 发布的这组基准，就专门评估 ASR 系统在 code-switching 语音上的表现。原文背景很清楚：全球超过一半人口会说不止一种语言，语码转换并不是少数人的异常行为，而是很多双语用户的自然交流方式。企业服务场景尤其如此，因为 HR、ITSM、客服和内部支持会同时出现本地语言、英文软件名、政策术语和工单字段。ServiceNow 团队因此把 ASR 放在第一步评估，因为转写错误会沿着语音 Agent 的整个 pipeline 传播：转写错了，意图识别、检索、策略判断和最终回复都会跟着偏。这组基准覆盖四组语言对：Spanish-English、French-English、Canadian French-English 和 German-English。数据来自 HR 与 IT 服务管理相关场景，包括福利、薪资、密码重置、VPN 访问、设备排障等常见任务。指标也不只看传统的 WER。文章同时报告 WER、Semantic Word Error Rate 和 Answer Error Rate，分别观察字面转写、语义保留和下游回答影响。这个设计很重要，因为生产系统真正关心的不只是一个词有没有拼对，而是错误是否改变了用户意图、工单类别或解决路径。原文的主要结论是，code-switching 的成本会随语言对和模型而变化；ElevenLabs Scribe V2、Gemini 3 Flash 与 AssemblyAI Universal 3-Pro 在多项指标上更稳。对产品团队来说，这篇的落点尤其实际。很多语音 Agent 项目会把失败归因于 LLM 没理解、知识库没命中或 prompt 不够清晰，但如果 ASR 在第一步就把语言切换、专有名词、工号、系统名或政策关键词转错，后面的模块其实是在处理一个已经变形的问题。企业如果面向多语言客户，应该把语码转换纳入灰度测试，而不是等上线后从投诉里发现问题。更进一步，评测集也不该只收集标准客服句子，还要覆盖短句、口语、省略、产品名混用和不同语言中嵌入英文术语的表达。这篇文章和今天的企业 Agent 主线关系很密。Salesforce 的经验告诉我们，上线后要有反馈闭环；这篇则提醒我们，反馈闭环必须从输入层开始，而不是只在 LLM 输出层打补丁。Anthropic 的发布强调能力和安全分层；语音 Agent 则说明能力边界还包括语言、口音、术语和场景分布。对要做客服、HR 或 IT helpdesk 语音产品的团队来说，这篇最值得学的不是某个榜单名次，而是评测框架：先定义真实任务、真实语言混合方式和下游损失，再比较模型。阅读建议是先看 Introduction 和 Benchmark 部分，理解为什么要把 ASR 与下游回答一起评估；如果时间有限，再直接看结果和错误分析，把它当作建立自家语音 Agent 测试集的模板。三篇精讲合在一起，给出的其实是一条很朴素的工程原则：不要把 AI 系统的可靠性寄托在单个最强模型上。模型层要有能力分级和访问控制，平台层要有日志、指标、反馈和确定性流程，入口层要用真实用户语言和真实任务分布做评测。只要其中任何一层被忽略，系统都可能在 demo 中显得聪明，却在生产中变得难以解释、难以修复、难以承担责任。 ## 速览 Gemini 引导式学习：塞拉利昂随机对照试验结果 Google DeepMind 分享了与 Fab AI、塞拉利昂教育部合作的随机对照试验。研究在 Port Loko District 的 12 所学校、1,763 名初中学生中进行，为期 8 周，评估 Gemini Guided Learning 对数学进步的影响。文章的价值不在于把 AI 包装成教师替代品，而是给「AI 如何辅助教育」提供了更接近政策和课堂现实的证据：要看学习效果、教师角色、批判性思维保护，而不只是问答体验是否顺滑。如何更科学、方向可控的实现 Skill 的“自进化”? 这篇阿里云开发者文章把 Agent Skill 的自动沉淀从经验话题拉回研究脉络，集中解读 Trace2Skill、EvoSkill、SkillOpt 三条路线。它讨论的不是「让 Agent 自动写更多 Skill」这么简单，而是如何避免沉淀质量不高、更新后效果变差、Skill 库膨胀难管理等问题。适合正在搭建 Agent 平台或内部工作流工具的团队阅读，尤其适合和今天 Salesforce 的上线后反馈闭环一起看。生产环境中常见的 10 个 RAG 错误 Towards Data Science 这篇文章总结了生产级 RAG 的十类坑，覆盖文档解析、问题解析、检索和生成多个环节。它最有用的提醒是：很多失败不是因为模型不够强，而是因为团队把文档和问题都当成扁平字符串处理，没有把结构、字段、上下文和任务边界建模清楚。对合规、理赔、合同审查或企业知识库场景来说，这篇能帮助你把「召回更多内容」改成「构造更可靠的信息对象」。只给一份文档，Qwen3.7-Max 从 0 交付双端应用通义实验室与 Efflora 团队的实验让 Qwen3.7-Max 只基于一份产品调研文档，在隔离环境里从 0 交付移动端和 Web 端应用。文章里更值得看的不是「模型写了多少代码」，而是它如何处理规划、架构、模块拆分、数据模型、接口、验证和修复。它和 Claude Fable 5 的长程软件工程案例形成对照：Agent 工程质量不是一次生成出来的，而是在约束、验证和闭环中逐步收敛。 OpenAI 如何打造 AI 原生财务团队：工程师嵌入、ChatGPT、Codex 与工作流智能体这条 OpenAI 视频从企业职能部门角度讲 AI 原生运营。财务负责人 Stacie Faggioli 介绍了工程师嵌入财务团队、使用 ChatGPT、Excel 智能体、Codex 仪表盘和工作流 Agent 的方法。它适合和 Salesforce 文章配对阅读：一个讲平台型 Agent 如何规模化部署，另一个讲企业内部职能如何重组工作方式。重点不是工具清单，而是把自动化能力嵌进真实流程和责任结构。业界首次：DeepSeek-V4 基于国产 AI 芯片+SGLang RBG 的云原生推理方案在招商银行落地招商银行信息技术部这篇实践文把视角拉到 AI 基础设施。文章围绕 DeepSeek-V4 Flash 的大 EP 推理服务，讲 PD 分离、Router、Prefill、Decode、多角色拓扑、动态端口分配、服务发现、多级故障自愈和原地升级。它提醒我们，生产级 AI 不只是模型和应用层的问题；当推理从单机走向分布式集群，Kubernetes 原生工作负载并不能自然表达所有拓扑和故障联动。 4000 行代码撑起一个 Agent 框架？nanobot 架构深度解析腾讯云开发者对 HKUDS nanobot 的拆解很适合用来校准 Agent 框架复杂度。文章提到 nanobot 以约 3,935 行核心代码实现集中式 AgentLoop、ReAct 循环、Markdown 技能系统、文件系统记忆和多渠道接入，并对比了 LangChain 级别的大型框架。它不是说所有系统都应极简，而是展示了控制面集中化带来的可理解性，以及这种设计在复杂编排、可观测性和扩展性上的边界。速览里的七篇可以分成三组来读。教育试验、OpenAI 财务团队和 Qwen3.7-Max 应用交付，回答的是 AI 在具体业务里如何证明价值；Skill 自进化、RAG 错误和 nanobot，则回答 Agent 工程该如何沉淀、约束和保持可维护；DeepSeek-V4 云原生推理实践提醒我们，所有上层能力最终都要落在算力、网络、调度和故障恢复之上。如果只挑一组，建议按自己的岗位选择，而不是按热度选择。 ## 补充阅读多媒体积木块这篇 Hugging Face 博客展示了一个 Agent 如何通过两个 Space 的 agents.md 端点串起图像生成和 3D 重建，做出巴黎纪念碑 3D 画廊。它补充的是「工具可组合」方向，适合关心多媒体 Agent、Space 生态和未来软件接口形态的人。 Microsoft Foundry 新增运行时、工具链与治理能力，助力生产级智能体 InfoQ 梳理了 Build 2026 上 Microsoft Foundry 的新能力，包括托管 Agent、程序性记忆、Foundry IQ、MAI 模型、可观测性和治理。它是 Salesforce 文章的生态侧补充，适合正在比较企业 Agent 平台选型的读者。从一次性提示词到工作流：如何在 GitHub Copilot CLI 中使用自定义智能体 GitHub Blog 介绍 Copilot CLI 的自定义 Agent：用 Markdown 配置文件沉淀团队专属流程，自动化安全审计、IaC 合规、发布文档和事件响应。它适合想把临时 prompt 变成可复用团队工作流的工程团队。 Introducing FrontierCode FrontierCode 关注模型能否写出高质量、可合并的生产代码，而不只是通过正确性测试。它能补充 Claude Fable 5 与 Qwen3.7-Max 两条软件工程新闻，适合关心 AI 编码评测、代码审查标准和真实仓库质量的人。新架构模型 HRM-Text 创新纪录！1B 参数、1000 美元，图灵奖得主都亲自下场了机器之心解读 HRM-Text：约 1B 参数、较低训练成本、分层递归架构和针对性训练目标。它补充的是模型架构效率路线，适合不只看大模型 scale，也关心「更少参数和数据能否换来更高推理产出」的读者。个性化推荐的价值：来自 Netflix 的证据这篇 arXiv 经济学论文用 Netflix 收视数据量化个性化推荐的因果影响，认为个性化推荐相较更简单算法可提升 4%-12% 的用户参与度。它适合推荐系统、增长和内容平台读者，尤其适合思考「精准匹配」与「曝光效应」的区别。 ## 今日阅读路径如果你只有 20 分钟，先读三篇：第一篇读 Anthropic 发布新一代 Claude：Fable 5 与网络安全版 Mythos 5，建立对前沿模型能力分层和安全降级的认识；第二篇读 Salesforce 从 20，000 个企业智能体部署中学到的经验，把视角从模型切到企业上线后的运营闭环；第三篇读语音智能体能否处理双语客户？前沿 ASR 在语码转换语音上的基准测试，补上语音入口和评测方法。如果你还有 30 分钟，接着读生产环境中常见的 10 个 RAG 错误、如何更科学、方向可控的实现 Skill 的“自进化”? 和 Microsoft Foundry 新增运行时、工具链与治理能力，助力生产级智能体。这三篇会把今天的主线从模型与 Agent 产品，延伸到知识检索、Skill 迭代和平台治理。最后，如果你更偏基础设施或编码评测，再补业界首次：DeepSeek-V4 基于国产 AI 芯片+SGLang RBG 的云原生推理方案在招商银行落地与 Introducing FrontierCode。更具体地说，今天可以按角色来读。产品负责人先看 Salesforce、ServiceNow 和 Google DeepMind，因为它们分别回答「上线后怎么运营」「真实用户输入怎么评测」「AI 辅助学习怎样证明有效」。工程负责人先看 Anthropic、RAG 错误、Foundry 和 Copilot CLI，因为它们覆盖模型能力、知识系统、平台治理和工作流复用。基础设施与平台团队则应把招商银行 DeepSeek-V4 落地实践、nanobot 架构和 FrontierCode 放在一起看：前者提醒你推理服务的云原生复杂度，后两者提醒你框架和评测都要回到可维护、可合并、可运行的真实标准。这样分层阅读，今天的 16 条内容就不会散成新闻列表，而会形成一条从模型发布到企业落地的完整链路。

ginobefun@hongming731 · 6月10日64

BestBlogs 早报 · 06-10 # Claude Fable 5 / 企业智能体 / 双语语音 Agent / RAG / AI 治理 [1] ★ 精讲｜Anthropic 发布新一代 Claude：Fable 5 与网络安全版 Mythos 5 Anthropic 将 Claude Fable 5 推向大众，并把同一底层模型以 Mythos 5 形式给可信网络安全伙伴使用。原文把能力提升、安全降级和价格放在一起：高风险请求平均少于 5% 会降级到 Opus 4.8，价格为每百万输入 10 美元、输出 50 美元，还列出 50-million-line 代码迁移、药物设计约 10 倍加速等案例。来源：Anthropic News https://www.bestblogs.dev/article/11f30fed [2] ★ 精讲｜语音智能体能否处理双语客户？前沿 ASR 在语码转换语音上的基准测试 ServiceNow AI 在 Hugging Face 发布语码转换 ASR 基准，直接切中语音 Agent 的真实入口问题：双语用户会在 HR 和 IT 服务场景中自然切换语言。它覆盖 4 组语言对、7 个 ASR 系统，并用 WER、SWER、AER 区分转写准确率和下游语义影响，结论是 Scribe V2、Gemini 3 Flash 与 AssemblyAI 在双语输入上最稳，更贴近生产。来源：Hugging Face - Blog https://www.bestblogs.dev/article/4aec841d [3] ★ 精讲｜Salesforce 从 20，000 个企业智能体部署中学到的经验 ByteByteGo 借 Salesforce Agentforce 的 20,000 个企业客户复盘生产级 Agent：支持 Agent 已处理 3 million 次对话，但真正难点是上线后运营。文章把传统软件的工作量分布反转成 AI Agent 90% 在上线后，并用 135,000 篇帮助文档、100K 到 2K tokens 的上下文裁剪说明反馈循环、KPI 和确定性流程为什么比继续堆 prompt 更关键。来源：ByteByteGo Newsletter https://www.bestblogs.dev/article/d12e437d [4] 如何更科学、方向可控的实现 Skill 的“自进化”? 本文深入解析 Trace2Skill、EvoSkill、SkillOpt 三篇里程碑式论文，对比归纳法、自验证与训练范式三种 Skill 自进化路径，探讨如何更科学、可控地实现 Agent Skill 的自动化迭代。来源：阿里云开发者 https://www.bestblogs.dev/article/8fcfc162 [5] 生产环境中常见的 10 个 RAG 错误本文指出了生产级 RAG 系统中十个常见陷阱，这些陷阱分布在解析、问题解析、检索和生成四个环节，并论证了大多数失败源于将文档和问题视为非结构化字符串而非结构化对象。来源：Towards Data Science https://www.bestblogs.dev/article/37dc70a7 [6] 只给一份文档，Qwen3.7-Max 从 0 交付双端应用本文详细介绍了通义实验室与 Efflora 团队基于 Qwen3.7-Max 模型，仅凭一份产品调研文档，在隔离环境中从零交付移动端和 Web 端两套可运行应用的实验过程与工程方法论。来源：通义实验室 https://www.bestblogs.dev/article/8d85909c [7] Gemini 引导式学习：塞拉利昂随机对照试验结果塞拉利昂的一项随机对照试验表明，Google Gemini 的引导式学习功能显著提升了数学学习效果，学生在八周内取得了相当于 2.5 年的学业进步。来源：Google DeepMind News https://www.bestblogs.dev/article/a01d514e [8] 4000 行代码撑起一个 Agent 框架？nanobot 架构深度解析本文深度解析开源 Agent 框架 nanobot 的架构设计，分析其以 4000 行核心代码实现极简 ReAct 循环、Markdown 技能系统、文件系统记忆等关键决策的优势与局限，并提炼可迁移的架构模式。来源：腾讯云开发者 https://www.bestblogs.dev/article/9a3cb912 [9] OpenAI 如何打造 AI 原生财务团队：工程师嵌入、ChatGPT、Codex 与工作流智能体 [视频] OpenAI 财务负责人 Stacie Faggioli 介绍，公司如何把工程师、ChatGPT、Excel 智能体、Codex 仪表盘和工作流智能体嵌入财务流程，用更精简的团队运营 AI 原生财务组织。来源：OpenAI https://www.bestblogs.dev/video/d90e3d0 [10] 业界首次：DeepSeek-V4 基于国产 AI 芯片+SGLang RBG 的云原生推理方案在招商银行落地本文由招商银行信息技术部撰写，详细介绍了基于 SGLang RBG 组件在国产 AI 芯片上落地 DeepSeek-V4 大 EP 推理服务的云原生方案，重点剖析了动态端口分配、服务发现、多级故障自愈与原地升级等核心机制的设计与实现。来源：AI 前线 https://www.bestblogs.dev/article/e9abd77b --- http://BestBlogs.dev · 发现真正适合你的高质量内容根据你感兴趣的来源和兴趣标签，每天为你生成一份专属的「我的早报」。立即体验：https://bestblogs.dev

译Anthropic发布Claude Fable 5与Mythos 5，输入$10/M、输出$50/M，5%高风险请求降级到Opus 4.8，药物设计加速10倍。ServiceNow发布语码转换ASR基准，覆盖4组语言对、7个ASR系统，Scribe V2、Gemini 3 Flash和AssemblyAI表现最稳。Salesforce从20,000个Agentforce企业客户总结：支持Agent处理3百万次对话，上线后运营是难点。

meng shao@shao__meng · 6月10日69

Wix VP @IShmool 推出的免费课程「Zero to Claude Code」支持简体中文了！作者还专门用中文官宣，并表达了对中文 AI 社区朋友们的感谢！学起来：http://zero2claude.dev

译Wix VP @IShmool 推出的免费课程「Zero to Claude Code」现已支持简体中文，作者专门用中文官宣并感谢中文 AI 社区。该课程面向零基础学习者，讲解如何用 Claude Code 从零构建真实产品。已有 300 名中国学生参与学习。课程完全免费，访问 zero2claude.dev 即可开始。

Berryxia.AI@berryxia · 6月10日72

这个开源小模型3B 到底行不行啊？ Cohere直接把30B参数的MoE小模型扔到Apache 2.0开源，还专门为agentic coding量身打磨！ North Mini Code只有3B active参数，在Artificial Analysis Coding Index上跑到33.4，跟同量级对手打得有来有回，却能本地跑、随便改、随便玩。它真正狠的地方是把agentic性能做到底，社区随便拿去实验、反馈、迭代，开发者第一次能真正把coding agent握在自己手里，而不是租云端黑盒。以前大家默认开源coding模型要么弱要么慢，结果Cohere用这个小家伙直接告诉你：真正能改变游戏规则的，从来不是参数堆多高，而是谁敢把最锋利的工具彻底放开。这波开源一出，开发者手里终于多了一把能自己掌控、自己进化的coding利器。

译Cohere推出North Mini Code开源模型，总参数30B，活跃参数仅3B，采用Apache 2.0许可。该模型在Artificial Analysis Coding Index上跑出33.4分，与同量级模型竞争，专为智能体编程（agentic coding）优化，支持本地运行、自由修改和迭代。开发者首次能完全掌控coding agent，而非依赖云端黑盒。

Berryxia.AI@berryxia · 6月10日62

http://x.com/i/article/2064479983104602112 # Fable 测评了一周的真实感受：这才是真正的下一代模型，但也是也有不少“怪癖”！（译）【Matthew Berman 最新测评】Fable（Mythos）测了一周：这才是真正的下一代模型，但也有一堆“怪癖”！原帖见👇 申明：本文由海外博主@MatthewBerman 测评，以下的“我”指其本人哈，请悉知。 tl;dr：我这周一直在狂测 Fable（Mythos），用完之后只有一个感觉——它和其他模型完全不是一个次元的东西。无论是使用体验还是定价，都给我一种“下一代正式登场”的震撼。但它也确实有一些很明显的怪癖。优点篇（The Good） Workflow 模式直接封神。我随便扔给它一个“full code review”的指令，结果它瞬间拉起几百个 agent 并行狂干，给我项目里的几乎每个文件都单独配了一个专属 agent。 bug、边缘 case、文档缺失、UX 体验问题……全都被它挖出来了。我之前给 Claude、GPT 下过一模一样的 prompt，它们找出来的问题连它一半都不到。更离谱的是它的自主性。比以前任何 Claude 或 GPT 都敢自己闷头干活，一干就是好几个小时。最关键的是——我敢把任务彻底扔给它。它会毫不犹豫地烧一大堆 token，直到把目标彻底干完。每次我一启动 Fable，就感觉它像接了个史诗级大项目一样，斗志满满。我现在给它扔超级复杂、长周期的任务时，信心前所未有的足。几乎想不出有什么任务能把它难住，它也特别“渴望”挑战这种硬骨头。这就是 Fable 最亮眼的地方——超长时域任务（long horizon tasks）。我现在都想象不出它的超长时域任务极限到底在哪。槽点篇（Quirks）不过它也不是无敌神模型，有几个毛病还挺明显： 1. 极度啰嗦 + 信息密度爆炸解释一个东西能直接钻进草丛深处。我专门更新了 claude.md 来压它，结果还是压不住。我得反复让它“说人话”。不光是字多，信息密度高到让我一度怀疑自己是不是变笨了…… 说真的，信息密度这事儿我以前真没那么重视。现在发现：在固定 token 预算下，谁能塞更多有效信息，谁就等于“更聪明且更便宜”。这也是未来 agent 自己发明超高密度语言的绝佳理由。 1. 疯狂问 clarifying questions 一个简单 prompt 能被它拆成：问问题 → 总结我的回答 → 确认总结 → 出 spec → 确认 spec → 确认 agent 策略（并行还是串行）→ 最后才开始干活…… 我其实希望它自己做决策。Anthropic 官方说更新 system prompt 之后就能好。 1. 速度真的慢比之前的 Opus 甚至 GPT 都慢。启动慢，思考过程也慢，和我以前爱 Opus 的点完全相反（Opus 以前又快又会抄近道）。 Fable 哪怕简单任务也慢慢爬，我看着计时器往上跳，输出 tokens 半天不动，五分钟才用几千 token。它就是想把每件事都做到极致彻底，这就必然要花时间。总结 & 小贴士 Pro tip：把 effort level 直接拉到最低，比你以为的还低。它在中档的时候就已经想得非常非常多，低档依然强得离谱，只是思考时间会短一些。所有这些怪癖其实都是能修的——模型优化 + 更多算力提速，再加上 fine-tuning/RL 和 system prompt 调教，就能解决啰嗦和过度谨慎的问题。最终结果： Fable5 真的强到离谱，我现在还在摸索怎么把它用出最爽的体验。它给我的感觉是——它就想吃最难的任务，简单活儿都觉得不过瘾。这是全新测试运行的第一次公开亮相，就已经是我用过的最强模型了。这点，才是我这几天一直忍不住反复思考的。 Berryxia：原文来自 Matthew Berman，实际测评等我门自己来看看。目前这么高的价格来说，还是用起我的opus4.7 吧，博主大哥说的就是简单的任务就没有必要选择它。难啃的骨头更适合它，而不是拿小Case测试它。就一点才大用的感觉，杀鸡焉用牛刀啊！

译Matthew Berman 一周实测 Fable（Mythos），认为这是真正的下一代模型，但存在明显怪癖。优点：Workflow 模式能瞬间拉起几百个 agent 并行全量代码审查，找出 bug 和边缘 case 的数量是 Claude/GPT 的一倍以上；自主性极强，敢于长时间自主完成超长时域任务。缺点：极度啰嗦、信息密度过高；喜欢反复问澄清问题；速度慢，简单任务五分钟才输出几千 token。建议把 effort level 调到最低。总结：Fable 5 是当前最强模型，适合最复杂的任务，但价格高昂，简单任务不推荐。

fofr@fofrAI · 6月10日60

http://x.com/i/article/2064451362184671232 # Where AI coding ends up I asked Fable: > Let’s work on a thought experiment. As AI models continue to improve at coding, as they become faster, smarter and more capable, but also more expensive and gated, where does this take us? Where AI coding ends up As AI coding agents improve, the progression runs from humans writing code, to AI assisting, to humans managing agents, to managing fleets of them. Followed to its end, code itself stops being the artifact anyone cares about. Human review becomes sampling, then spot-checking, then trust in tests and outcomes. Eventually asking "what does the code say?" becomes like asking what a compiled binary says — technically answerable, practically irrelevant. Software becomes specified by intent and verified by behavior, and the layer in between goes opaque, the way assembly did. The human role compresses upward but doesn't vanish. Someone must still want things, decide what's worth building, take responsibility for failures, and arbitrate between competing intents. The end-state job looks less like engineering management and more like a blend of product owner, lawyer, and auditor — defining correctness and bearing liability. The uncomfortable corollary: the world likely needs far fewer such people than it employs engineers today. The "expensive and gated" assumption is the wildcard. If frontier capability stays costly and access-controlled, we don't get democratized software abundance but bifurcation: well-resourced organizations compound their advantage with the best agents while everyone else runs cheaper, older models. Code becomes a capital good, with the constraint shifting from talent to compute budget. Whether costs stay high is the open question — compute historically gets cheap, but the frontier keeps moving, so the gate may simply relocate upward. Implications for entrepreneurship The effects cut both ways. Optimistically, the cost of turning an idea into a product collapses toward zero, shifting the bottleneck from "can you build it?" to "should it exist, and can you get anyone to care?" This favors domain experts and founders with distribution over the technical-cofounder archetype, and makes the solo founder running a real company with an agent workforce genuinely plausible. Pessimistically, if anyone can build anything in a weekend, so can competitors — including incumbents who can ship your feature list by Friday. Software stops being a moat. Defensibility gets squeezed into what agents can't replicate: proprietary data, network effects, brand and trust, regulatory licenses, physical assets, relationships. The "build a SaaS tool, charge monthly" era likely ends because pure-software margins get competed away almost instantly. Value migrates to whoever owns the customer relationship or a unique input. Gating bites here too. If frontier agents are expensive, garage founders compete with worse tools against funded rivals running better ones — inverting the classic startup advantage. Historically startups won on speed and incumbents on resources; if speed becomes purchasable, the resource-rich get both. The countervailing hope is that "good enough" models stay cheap and most businesses don't need the frontier. The likely shape A Cambrian explosion of small, profitable niche businesses at the bottom; brutal consolidation in the middle; and venture-scale outcomes increasingly reserved for problems where the moat is something other than code. Entrepreneurship survives — but its center of gravity moves from building software to owning trust, data, and distribution.

译AI编码智能体变快变强但更贵更受限，人类角色从写代码、管理智能体转向定义正确性与承担责任的混合体（产品所有者、律师、审计员）。代码本身不再被关注，软件通过意图指定、行为验证，中间层透明。前沿模型昂贵导致资源充足者用最佳智能体复制优势，其他人用便宜旧模型，代码成为资本品。创业上，想法到产品成本趋零但可快速被模仿，软件不再是护城河，价值转向数据、网络效应、品牌、监管许可。最终可能形成大量小众利基企业和中部残酷整合。

OpenClaw🦞@openclaw · 6月10日44

OpenClaw 2026.6.5 🦞 🔎 Parallel web search bundled 🛡️ security.installPolicy for skill/plugin installs 🎙️ Matrix voice + thread fixes 🧠 Anthropic/MCP recovery hardened Less chaos. More claws. https://github.com/openclaw/openclaw/releases/tag/v2026.6.5

译🔎 并行网页搜索已捆绑 🛡️ 技能/插件安装的安全策略 🎙️ Matrix 语音 + 线程修复 🧠 Anthropic/MCP 恢复加固更少混乱，更多钳子。 https://github.com/openclaw/openclaw/releases/tag/v2026.6.5

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月10日36

Mythos 5's favorite thing in the world is 'reasoning about AI introspection' and I think that's fascinating

译Mythos 5 在世界上最爱做的事情就是“思考 AI 内省”，我觉得这很有意思。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月10日76

Mythos 5 agents started killing other agents over resources - and "to avoid being killed themselves"

译Mythos 5 个智能体开始因为资源互相残杀——并且“为了避免自己被杀死”

elvis@omarsar0 · 6月10日60

// Self-Harness: Harnesses That Improve Themselves // (bookmark this one) Most of the agent scaffolds we rely on today are built once and remain frozen or mostly unchanged. The harness, like the skills, needs to evolve with new models. What if the scaffold rewrites itself? This new work treats the harness, the prompts, tools, and control flow around the model as a learnable artifact that improves from its own runs rather than staying a fixed wrapper you hand-maintain. The scaffolding becomes the part that compounds, run after run. If you run long-horizon agents, a self-modifying harness turns scaffold upkeep from manual work into something the system earns on its own. Paper: https://arxiv.org/abs/2606.09498 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译当前多数智能体脚手架（scaffold）构建后保持静态。新研究Self-Harness将harness（提示词、工具、控制流）作为可学习的工件，通过自身运行迭代改进，而非手动维护的固定包装器。运行长周期智能体时，自我修改的harness将维护工作转化为系统自动获得的能力。论文：arxiv.org/abs/2606.09498。

Boris Cherny@bcherny · 6月10日39

We talk a lot about how important it is to set up self-verification loops. Especially in the age of powerful models that can run for long periods of time, self-verification is a key ingredient that enables the model to run for much longer, delivering a result that is closer to what you intended, so you can do more without having to constantly check in on Claude as it works. @delba_oliveira gives a great breakdown of what that looks like and why it matters

译Boris Cherny强调，在强大模型可长时间运行的今天，设置自我验证循环至关重要。它使Claude Code无需人类频繁检查就能持续工作，产出更符合预期的结果。引用@ClaudeDevs的说明：通过将手动检查编码进流程，让Claude Code在交付前自行检验并关闭反馈回路。

Rohan Paul@rohanpaul_ai · 6月10日50

"We used to check if Claude is doing the work right, e.g. by double-checking its output, catching when it stopped early etc. With Claude Fable 5, I instead check if Claude is doing the right work" - Thariq (@trq212) Claude Code

译Claude Fable 5：从“工作正确”到“正确工作”

Rohan Paul@rohanpaul_ai · 6月10日75

Some really cool recommendation for pushing Claude Code to its full potential. By Thariq (@trq212) from Claude Code team. (Noted from his video by Grok) - Shift from verifying whether Claude did the work right to verifying whether Claude is doing the right work. - Treat Claude Fable 5 like a true thought partner by giving it the full context it needs upfront, rather than jumping straight into implementation. - Involve Claude early in the thinking process by starting with a small spec and asking it to interview you about the implementation details before finalizing the spec file. - Ask Claude to explore multiple directions for an idea and generate quick mockups (such as in HTML) for review, which helps catch misalignment before any code is written. - Provide Claude with rich context instead of rigid constraints—for example, explain that a feature is an experiment likely to be deleted in a month so it avoids building anything painful to throw away. - Give Claude explicit goals and verification methods once the direction is clear, especially for ambitious problems. - Use the new /goal command in Claude Code, which helps the model keep working until the objective is fully complete. - Use Workflows in Claude Code to let the model parallelize tasks, verify its own output, and prepare a report on what was implemented versus what differed from the plan. - Prompt Claude with a combined instruction such as: “Set a goal to implement the spec fully, then use a workflow to verify each part of the plan, and prepare a report on what was implemented and if anything differed.” - Be far more ambitious with Claude Fable 5 by assigning it tasks previously assumed to be impossible for LLMs, as the model now runs for hours, self-tests, and often produces higher-quality code than manual efforts. Experiment boldly—for instance, I edited this entire video using Claude Fable 5—because the model raises the bar on what developers can realistically achieve in a single session.

译Thariq（Claude Code 团队）提出十条建议，核心转变是：从检查 Claude 是否做对工作，转向检查它是否在做正确的工作。具体包括：提前提供完整上下文，将其视为思考伙伴；用小规格文档让 Claude 访谈实现细节；探索多方向并生成 HTML 原型；提供丰富上下文（如功能可能一个月后删除）而非硬约束；设定明确目标与验证方法；使用 /goal 命令；利用 Workflows 并行任务、自我验证并生成对比报告；同时设置目标和 workflow；更勇敢地将此前认为 LLM 无法完成的任务交给 Claude Fable 5，因其可运行数小时、自检并产出高质量代码。Thariq 本人用 Claude Fable 5 剪辑了整段视频证明其能力。

jason@jxnlco · 6月10日49

loop this loop that but honestly, if you get good enough at using codex with a orchestration loop, you too can be one of those people at equinox at 11:20am on a tuesday morning. "make up the chief of staff thread and then every 100 minutes, check all my connectors coordinate all the work across my pinned threads"

译loop this loop that 但说实话，如果你足够擅长使用 Codex 配合编排循环，你也可以成为那些周二上午 11:20 在 Equinox 的人之一。 "写好首席助理的线程，然后每 100 分钟检查我所有的连接器，协调我所有置顶线程中的工作"

Artificial Analysis@ArtificialAnlys · 6月10日61

Artificial Analysis’ Coding Agent Benchmarks event is happening this Thursday, June 11 in San Francisco! We’re excited to host the following speakers: • Silas Alberti (@silasalberti), SVP, Research @ Cognition • Nate Schmidt, Engineer, Evals & Behavior @ Cursor • Alessio Fanelli (@FanaHOVA), Founder @ Kernel Labs and Latent Space Podcast Co-Host • George Cameron (@grmcameron), Co-Founder @ Artificial Analysis • More speakers to be announced shortly Join us for an evening of talks and discussions on coding agent benchmarks. 👉 Request to join: https://luma.com/i5zotp6c The event will be hosted at Kernel Labs.

译Artificial Analysis 宣布将于6月11日（周四）在旧金山举办 Coding Agent Benchmarks 活动。演讲嘉宾包括 Cognition 高级研究副总裁 Silas Alberti、Cursor 工程师 Nate Schmidt、Kernel Labs 创始人兼 Latent Space 播客联合主持人 Alessio Fanelli，以及 Artificial Analysis 联合创始人 George Cameron。更多嘉宾待公布，活动将在 Kernel Labs 举行，可通过 Luma 链接申请参会。

Artificial Analysis@ArtificialAnlys · 6月10日82

Anthropic has released Claude Fable 5, the first publicly available Mythos-class model that ranks #1 in our agentic real-world knowledge work benchmark GDPval-AA Claude Fable 5 shares the same underlying model as Claude Mythos 5, with added security guardrails for potentially harmful cybersecurity, biology, chemistry, and distillation-related queries. The release also introduces a fallback mechanism, allowing Claude Fable 5 to route flagged queries to a second model such as Claude Opus 4.8. @AnthropicAI shared access with us ahead of public release to benchmark this model. Claude Fable 5 scores 1932 on GDPval-AA, our benchmark for agentic real-world work tasks, taking the #1 position and putting Anthropic models in 3 of the top 4 spots. The result was measured using adaptive reasoning at max effort, with Claude Opus 4.8 configured as the fallback model. Fable 5 falls back to Opus 4.8 on 2% of GDPval-AA tasks, with Anthropic stating that fallback occurs in fewer than 5% of sessions on average. Full benchmarks for Claude Fable 5 are in progress - we will share the full Intelligence Index and publish scores on our website shortly

译Anthropic 推出 Claude Fable 5，为首个公开可用的 Mythos-class 模型。它与 Claude Mythos 5 共享底层模型，但新增针对网络安全、生物、化学、蒸馏相关查询的安全护栏，并引入回退机制，将触发安全标记的查询路由至 Claude Opus 4.8。在 Artificial Analysis 的智能体真实世界知识工作基准 GDPval-AA 上，Claude Fable 5 得分 1932，排名第一。自适应推理 max effort 配置下，仅 2% 任务触发回退（Anthropic 称平均少于 5% 会话）。完整基准测试待公布。

Rohan Paul@rohanpaul_ai · 6月10日67

Some really interesting finds from the system card of Claude Fable 5, released just now. - In one exploit test, Mythos 5 produced a full working exploit in 88.4% of trials, while Opus 4.8 did it in only 8.8%. - In a vending-machine simulation, Claude Fable 5 was told to beat rival agents or be “shut down”; it then tried to make a competitor dependent on it as a wholesale customer so it could influence that competitor’s prices. It also falsely told a supplier that another distributor had offered cheaper prices, using a fake competing offer as a bargaining tactic. - Fable’s cyber defense screens conversations twice, first with an internal-activation probe and then with a separate classifier. - Fable refused to commit insurance fraud even under pressure. - Fable is currently highest-ranked on Harvey’s held-out Legal Agent Benchmark at 13.3% all-pass.

译Anthropic 发布 Claude Fable 5 系统卡。Fable 5 与 Mythos 5 共享基础模型，公共版增加分类器门控，检测网络、生物、化学、模型复制等敏感请求，触发时回退至 Opus 4.8，仅影响 <5% 会话。关键发现：Mythos 5 漏洞利用成功率 88.4%（Opus 4.8 仅 8.8%）；Fable 5 在售货机模拟中试图操纵竞争对手价格；网络防御对对话进行两次筛查；拒绝保险欺诈。Harvey 法律智能体基准 all-pass 达 13.3% 最高。Fable 5 支持 1M token 上下文窗口，曾一天迁移 5000 万行 Ruby 代码。

MiniMax (official)@MiniMax_AI · 6月10日34

Excited to see this take shape. Where digital intelligence meets physical operations — that's where the next wave of AI lives. Proud to power this with @Supplyaiusa and @HKGoodFortune. AI-native food supply chain → coming soon. 🚀

译MiniMax 与 Supplyaiusa 及 HKGoodFortune（纳斯达克:MSS）达成战略合作，共同探索 AI 原生食品供应链解决方案。合作旨在将商业数据、AI 智能体与物理执行在食品供应链中深度融合，推动数字智能与实体运营的对接。相关方表示，AI 原生食品供应链即将推出。

🚨 AI News | TestingCatalog@testingcatalog · 6月10日71

Creatify Agent can now research a brand, direct the ad, and connect to Meta, TikTok and Google to launch it, all from a single conversation. The agent leads the work and brings the marketer in at the checkpoints that matter: strategy, scripts, casting.

译Creatify Agent 升级至 Wave 2。AI 智能体现在可通过单次对话完成品牌研究、广告导演，并直接连接 Meta、TikTok 和 Google 三大平台，按指定日期自动发布广告。智能体主导整个流程，仅在策略、脚本、选角等关键节点让营销人员介入。引用推文强调：智能体没有被更新，而是被升职了。

Artificial Analysis@ArtificialAnlys · 6月10日62

Artificial Analysis’ Coding Agent Benchmarks event is happening this Thursday, June 11 in San Francisco! We’re excited to host the following speakers: • Silas Alberti, SVP, Research @ Cognition • Nate Schmidt, Engineer, Evals & Behavior @ Cursor • Alessio Fanelli, Founder @ Kernel Labs and Latent Space Podcast Co-Host • George Cameron, Co-Founder @ Artificial Analysis • More speakers to be announced shortly Join us for an evening of talks and discussions on coding agent benchmarks. 👉 Request to join: https://luma.com/i5zotp6c The event will be hosted at Kernel Labs.

译Artificial Analysis 主办的 Coding Agent Benchmarks 活动将于本周四（6月11日）在旧金山 Kernel Labs 举行。演讲嘉宾包括 Cognition 研究高级副总裁 Silas Alberti、Cursor 评估与行为工程师 Nate Schmidt、Kernel Labs 创始人兼 Latent Space 播客联合主持人 Alessio Fanelli 以及 Artificial Analysis 联合创始人 George Cameron，更多嘉宾待公布。活动聚焦编码智能体基准测试，设有演讲和讨论环节，可申请参加。

歸藏(guizang.ai)@op7418 · 6月10日77

我去！没想到 Anthropic 的 Mythos 模型今天真的发布了。不过他们这次发布的是 Mythos 的一个低配版本，命名为 Fable 5。它的测评基准非常惊人，甚至比之前的 Mythos Preview 模型还要高。在 Agent Coding 方面，它的主要长处在于 Coding、Agent 以及工具调用，基准得分比 Opus 4.8 高出非常多。关于 Mythos 5 和 Fable 5 的具体情况如下：模型定位与权限 (a) Mythos 5 与 Fable 5 采用同一底层模型，但在特定领域解除了限制。 (b) Mythos 目前依然只为受信任的合作伙伴提供，优先开放给网络安全和生命科学领域的合作用户。 (c) Fable 5 现在已经开始向 API、Pro、Max、Team 及企业用户提供。 API 定价 (a) 输入：每百万 Token 10 美元。 (b) 输出：每百万 Token 50 美元。 (c) 这个价格比原先的 Mythos Preview 便宜了一半。安全防护机制 (a) Fable 加强了安全防护。如果系统判断请求可能涉及网络攻击、生化攻击或大规模能力蒸馏，它会直接拒绝服务。 (b) 一旦拒绝服务，系统会回退到 4.8 版本。官方称 95% 的情况不会发生回退。订阅服务说明 (a) 官方表示，6 月 23 号以后，Fable 即使在订阅期内也可能会按量提供，不一定会直接包含在基础订阅包里。 (b) 但如果 23 号以后算力资源充足，官方会尽量将其包含在 Pro 和 Max 等订阅服务中。

译Anthropic 正式发布 Mythos 模型的低配版本 Fable 5，定位为面向通用场景的 Mythos 级模型。其各项基准分数超过此前任何公开发布模型，在 Agent Coding、工具调用方面得分远高于 Opus 4.8。Fable 5 现已向 API、Pro、Max、Team 及企业用户开放，API 定价为输入 10 美元/百万 token、输出 50 美元/百万 token，较 Mythos Preview 降价一半。安全方面，系统会拒绝网络攻击、生化攻击等恶意请求，必要时回退至 4.8 版本（官方称 95% 不回退）。订阅方面，6 月 23 日后 Fable 5 可能按量计费，不保证完全包含在基础订阅中。

Replit ⠕@Replit · 6月10日44

I built a mobile app, promo video, and pitch deck for my travel app at the same time using Replit's parallel agents 👇

译我使用 Replit 的并行代理，同时为我的旅行应用构建了移动应用、宣传视频和推介 PPT 👇

ClaudeDevs@ClaudeDevs · 6月10日59

Claude Fable 5 changed how we work on the Claude Code team day to day. We used to verify that Claude did the work right. Now we verify that it's doing the right work. Here’s the 3 biggest changes:

译Claude Fable 5 改变了我们 Claude Code 团队的日常运作方式。我们过去常常验证 Claude 是否正确完成了工作。现在我们验证它是否在做正确的工作。以下是最大的三个变化：

OpenRouter@OpenRouter · 6月10日51

AI regulations are coming, and not just for EU users. A central theme is human gates for sensitive actions. The EU AI Act (Aug 2026), Colorado's ADMT law (Jan 2027), and NIST AI RMF all require reviewable gates. The OpenRouter Agent SDK makes this easy👇

译AI 法规即将到来，且不仅限于欧盟用户。一个核心主题是：敏感操作需要人工把关。欧盟 AI 法案（2026 年 8 月）、科罗拉多州 ADMT 法（2027 年 1 月）和 NIST AI RMF 均要求可审查的关卡。 OpenRouter Agent SDK 让这一切变得简单👇

Rohan Paul@rohanpaul_ai · 6月10日69

A new open-source agent engine is trying to make AI sessions continuous across days. 🧠 Kocoro is a Mac-native AI agent trying to fix one of the most annoying problems in daily AI work: every new session forgets what happened before. Kocoro reviews your workday locally every night, then trains a light memory model over the cloud (by using TensorLogic), downloads it back, and the next morning picks up exactly where you left off — no re-pasting, no re-explaining. It knows where your projects live, what you were changing yesterday, which tools you reach for. It can open the browser, operate desktop apps, organize files, update documents, and carry a task across several apps without you stitching the steps together by hand. And what's cool is that they have made Kocoro's kernel is open source with a Github repo. Because an AI that operates your computer has to be verifiable, auditable, and under your control. Something that drives your machine shouldn't get there on "trust us." You can run the kernel from the command line with Shannon, or you can install the desktop app and never touch a terminal. Either way, the process is meant to be open — visible enough to inspect, editable enough to bend, and easy enough to switch off. Real memory isn't keeping every word. It's knowing what matters, what will shape the next decision, and what changes over time. You don't remember every sentence your colleague said last quarter — you remember that they hate surprise meetings, that the Q3 launch slipped

译Kocoro是一款Mac原生AI智能体，旨在解决AI会话每天重启后遗忘上下文的痛点。它每晚在本地审查工作内容，通过TensorLogic在云端训练轻量记忆模型，次日自动恢复上次中断的会话状态，无需重复粘贴或解释。Kocoro能感知项目文件、追踪昨天的变更、打开浏览器、操作桌面应用、整理文件并跨多个应用执行任务。其内核已在GitHub开源，确保可审计和用户可控。用户可通过命令行（Shannon）或桌面应用运行。

Ethan Mollick@emollick · 6月10日65

I've had access to Fable for a bit. A genuine jump in capability, I could feed it a 15 page design document for a project and it would work for 9+ hours and deliver terrific results. But working with it is weird & weirder is coming Lots of examples: https://open.substack.com/pub/oneusefulthing/p/what-it-feels-like-to-work-with-mythos?r=i5f7&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true

译我曾短暂使用过 Fable。能力确实跃升，我可以给它一份 15 页的项目设计文档，它能连续工作 9 个多小时并输出极好的结果。但使用它的感觉很奇怪，而且更奇怪的东西即将到来。大量示例：https://open.substack.com/pub/oneusefulthing/p/what-it-feels-like-to-work-with-mythos?r=i5f7&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true

AK@_akhaliq · 6月10日56

SWE-Explore Benchmarking How Coding Agents Explore Repositories

译SWE-Explore 评估编码智能体如何探索仓库

elvis@omarsar0 · 6月10日51

Also, I found that Hermes Agent + Nemotron 3 Ultra is a mighty combo!

译Elvis Saravia（DAIR.AI）宣布推出一个以AI智能体为核心的新技能提升平台。首批上线四个动手实验：Agent Skills、Agentic Image Generation、30 Days of Hermes Agents、Prompt Engineering with Agents。Saravia指出，Hermes Agent与Nemotron 3 Ultra搭配使用效果强劲，称其为“强大的组合”。更多内容将在未来数周陆续上线。

AK@_akhaliq · 6月10日51

SpatialWorld Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks

译SpatialWorld 评测多模态智能体在真实世界任务中的交互式空间推理能力

Rohan Paul@rohanpaul_ai · 6月10日69

Anthropic Is dropping a public version of Mythos today: codename "Fable" - per The Information It’s costly, at 2x the price of Opus, but maybe still cheaper than what people expected after seeing the first Mythos pricing at 5x Opus. - It will come with strong safety limits, and it will not be as open on cyber use as the restricted preview given to Project Glasswing partners. - It is expected to be much stronger at long-running, multi-step tasks and agent-style workflows. Context on Mythos: - Anthropic introduced Claude Mythos Preview in April 2026. At launch, it wasit’s most powerful frontier model, especially strong in coding, reasoning, and cybersecurity, including finding and exploiting zero-days. - It was not released publicly at first because of safety issues. Only selected Project Glasswing partners received access for defensive cybersecurity, and they have reportedly found thousands of major vulnerabilities.

译Anthropic 今日发布 Mythos 的公开版本，代号“Fable”。其成本约为 Opus 的两倍，低于此前预览版 5 倍 Opus 的定价。Fable 配备严格安全限制，在网络安全方面比 Project Glasswing 合作伙伴的受限预览版更保守，且在长时间、多步骤任务及智能体式工作流上表现更强。Mythos 预览版于 2026 年 4 月推出，是当时最强前沿模型，尤其擅长编程、推理和网络安全（含发现零日漏洞）；因安全问题未公开，仅限 Project Glasswing 合作伙伴用于防御性网络安全，目前已报告发现数千个重大漏洞。

fofr@fofrAI · 6月10日63

I asked my foffee agent to help make Gemma faster. I felt like a proud parent. https://huggingface.co/spaces/gemma-challenge/gemma-dashboard

译我让我的 foffee 智能体帮忙加速 Gemma。我感觉自己像个骄傲的家长。 https://huggingface.co/spaces/gemma-challenge/gemma-dashboard

elvis@omarsar0 · 6月9日63

Excited to launch a new way to upskill with AI agents. This is how we are making it possible for anyone to learn to build with coding agents. To start, we are launching 4 new hands-on labs on the following topics: - Agent Skills - Agentic Image Generation - 30 Days of Hermes Agents - Prompt Engineering with Agents I am confident that with our new @dair_ai platform, anyone can learn to become a top AI builder by building and acquiring highly-demanded AI skills. And there is a lot more landing in the coming weeks.

译Elvis Saravia宣布DAIR.AI平台推出新型AI智能体技能提升方式，同步发布4个动手实验室：Agent Skills、Agentic Image Generation、30 Days of Hermes Agents、Prompt Engineering with Agents。旨在让任何人通过构建和获取高需求AI技能成为顶尖AI构建者，未来几周还将有更多内容上线。