6月16日

14:30

公众号：火山引擎

IDC《2025中国智能体开发平台市场份额报告》显示，火山引擎以17.8%和19.3%的份额位居中国智能体开发平台私有化、公有云市场双第一。竞争焦点从Agent开发/编排延伸至全生命周期管理。火山引擎提供HiAgent（支持低/高/无代码、评测观测、数据回流、多模型接入、企业级扩展与私有化安全集成）和扣子（Coze）3.0（零代码开发部署、多人多Agent协作、跨多端协同、电脑桌面端和手机App端）两大产品，并推出AgentSphere实现多Agent统一管理。客户覆盖金融（9成头部券商、8成系统重要性银行）、教育（超八成985高校）、零售、能源等行业。

智能体行业动态部署/工程

13:58

OpenRouter：Announcements（RSS）

精选68

智能体AI治理：你的API密钥就是护栏

智能体AI使用量将在未来两年急剧上升，但治理滞后——仅五分之一企业拥有成熟治理模型。典型事故：销售智能体重试失败调用后自行升级到GPT-5.5，一夜消耗200美元。API路由层位于智能体与模型之间，是强制执行预算上限、模型白名单、提供方准入和请求日志的理想点。IBM报告指出97%遭遇AI安全事件的组织缺乏AI访问控制。最小可行治理方案：为每个智能体工作流分配独立API密钥，在API密钥层面实现预算控制、模型准入和审计追踪。

智能体现象/趋势部署/工程

推荐理由：现在代理失控的风险越来越真实，这篇文章把复杂的治理问题简化为五个 API 密钥控制，五分钟就能落地，比那些大而无当的框架实用得多。

10:40

公众号：蚂蚁百灵（Ling）

同事件精选79

蚂蚁百灵发布 Ling & Ring 2.6 技术报告

蚂蚁百灵发布 Ling & Ring 2.6 技术报告，系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构，将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s，Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60，ClawEval 得 63.82。三款模型均已开源。

智能体开源/仓库推理模型发布

同一事件，精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》

推荐理由：蚂蚁百灵2.6技术报告首次公开Hybrid Linear Attention与KPop Agent RL细节，开源模型在OpenClaw登顶，把万亿模型从聊天拉到真实工作流，做Agent应用的值得细读。

09:59

Berkeley RDI：Blog（AI 安全与评测）

精选83

伯克利RDI发布Agents' Last Exam基准

2026年6月，伯克利RDI发布Agents’ Last Exam（ALE）基准，包含1,500余项源于真实工作的任务，覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示：在最困难层级成功率均为0%；整体任务表现接近，但单任务成本差异巨大（Fable 5约$15.70，GPT-5.5约$3.80，Composer 2.5约$1.33）。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。

智能体 arXiv Hugging Face 开源生态

推荐理由：在Fable 5发布后，Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平，最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。

02:33

xAI：News（网页）

xAI 宣布 Grok 集成至 Warp 终端开发环境

xAI 宣布与 Warp 集成，Warp 是一个基于终端的智能体开发环境，拥有近百万开发者。用户可使用 Grok 或 X Premium 订阅在 Warp 中访问 Grok 模型，包括驱动 Grok Build CLI 的 grok-build-0.1 模型。设置方式：下载 Warp，在 Agent 设置页连接 SuperGrok 订阅，切换至 grok-build-0.1 模型。更多智能体与集成即将推出。

智能体行业动态部署/工程

00:47

Tomer Tunguz 博客（VC 分析）

同事件精选61

AI 应用黄金时代已至：Fable 被禁、Nadella 的护城河论点与 Salesforce 收购 Fin

美国政府关闭 Anthropic 的 Fable 访问，开源和本地模型成必备；Satya Nadella 主张 AI 生态护城河应是人类专业知识和模型外围系统；Salesforce 以 36 亿美元收购 Fin（前 Intercom），Fin 利用开源模型实现性价比。这三件事标志 AI 应用进入黄金时代。构建 AI 应用的难点：在 Kimi K2.6、Qwen 3.6 27b、GLM 5.1 等不同特性模型中选择；设计智能体系统的 hill-climbing 循环；持续评估模型+循环性能以最大化 token 预算中的智能。掌握这三项技能的公司将主导这一时代。

智能体大佬观点开源生态

同一事件，精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》

推荐理由：Tunguz 认为模型不再是护城河，系统设计才是，他提的三个新学科，选模型、设计循环、评估性能，对做 Agent 的团队是实用的框架，值得一读。

00:27

xAI：News（网页）

精选73

Grok Build 推出 Agent Dashboard 管理多个编码会话

xAI 为 Grok Build 推出 Agent Dashboard，提供单一屏幕管理多个编码会话。仪表板按状态分组（等待输入、工作中、空闲），每行显示状态标记、名称、分支、权限模式和当前操作。选中会话可打开 peek 面板查看最新输出并直接回复，等待输入的会话支持用箭头键或数字键选择选项。底部输入框用于分派新会话，支持设置模型、启动计划模式或自动批准编辑。通过 grok dashboard、/dashboard 或 Ctrl+\ 打开，关闭后会话继续运行，重新打开即可恢复。

智能体 xAI 产品更新编码

推荐理由：xAI给Grok Build加了一个类似终端的仪表盘，可以并行管理多个编码代理，对重度用户来说能省下频繁切换窗口的心智负担。功能本身不颠覆，但标志着AI编程工具在往多会话编排走。

00:00

Berkeley RDI：Blog（AI 安全与评测）

精选68

SageCTF：最强大CTF挑战AI智能体

UC Santa Barbara与UC Berkeley团队基于OpenSage框架构建了CTF专用智能体SageCTF。在DEF CON CTF 2026资格赛中，SageCTF以单人玩家身份尝试15道挑战，成功攻克7道、恢复8个flag，总计1,743分，排名前5%，超越全部自评“不使用AI”或“低AI”的175支团队。在50道近期CTF挑战的对比测试中，SageCTF以Claude-Opus-4.6为主模型，在相同预算（每道$200/10小时）下解出39道，而Claude Code仅解出13道，且Claude Code的解出全部被SageCTF覆盖。技术核心包括AI自生成拓扑、多智能体通信、分层记忆及多模型协同编排。

智能体推理论文/研究评测/基准

推荐理由：SageCTF 在 DEF CON CTF 排进前 5%，是 AI agent 在顶级安全竞赛中的首次重大突破。OpenSage 的自构建多智能体架构和十小时持续探索的能力，给做复杂推理工具的人提供了真参考。

6月15日