6月16日

10:40

公众号：蚂蚁百灵（Ling）

同事件精选79

蚂蚁百灵发布 Ling & Ring 2.6 技术报告，系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构，将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s，Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60，ClawEval 得 63.82。三款模型均已开源。

智能体开源/仓库推理模型发布

同一事件，精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》

推荐理由：蚂蚁百灵2.6技术报告首次公开Hybrid Linear Attention与KPop Agent RL细节，开源模型在OpenClaw登顶，把万亿模型从聊天拉到真实工作流，做Agent应用的值得细读。

10:27

HuggingFace Daily Papers（社区热门论文）

TokenPilot：面向LLM智能体的缓存高效上下文管理框架

TokenPilot是一种双粒度上下文管理框架，旨在解决长对话场景中LLM智能体因上下文累积导致的高推理成本。全局层面，Ingestion-Aware Compaction稳定提示词前缀并消除环境噪声；局部层面，Lifecycle-Aware Eviction监控上下文片段剩余效用，仅在任务相关性过期时卸载。在PinchBench和Claw-Eval上，孤立模式成本降低61%和56%，连续模式降低61%和87%，同时保持竞争力。该框架已集成至LightMem2。

智能体论文/研究部署/工程

10:20

Artificial Analysis@ArtificialAnlys

Artificial Analysis Intelligence Index v4.1 发布：转向智能体任务评测

Artificial Analysis 发布 Intelligence Index v4.1，转向智能体任务。升级 Terminal-Bench 2.1、τ³-Bench Banking、GDPval-AA v2（Elo 重基线、引入前沿模型评审、回合上限增至250），移除饱和的 IFBench。新增每任务成本、时间、输出 token 指标及缓存 token 影响。关键结果：Claude Fable 5（60分）领先但不可用；可用模型中 Claude Opus 4.8（max）56分居首，GPT-5.5（xhigh）55分。开源 DeepSeek V4 Pro 与 MiniMax M3 均44分。成本方面，Opus 4.8 每任务 $1.78，GPT-5.5 $0.99，DeepSeek V4 Pro 仅 $0.04。时间方面，Grok 4.3 最快（1.5分钟），Opus 4.8 需6.4分钟，GPT-5.5 需3.7分钟，Gemini 3.1 Pro Preview 以1.6分钟得46分。

智能体 Anthropic DeepSeek 推理

09:59

Berkeley RDI：Blog（AI 安全与评测）

精选83

伯克利RDI发布Agents' Last Exam基准

2026年6月，伯克利RDI发布Agents’ Last Exam（ALE）基准，包含1,500余项源于真实工作的任务，覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示：在最困难层级成功率均为0%；整体任务表现接近，但单任务成本差异巨大（Fable 5约$15.70，GPT-5.5约$3.80，Composer 2.5约$1.33）。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。

智能体 arXiv Hugging Face 开源生态

推荐理由：在Fable 5发布后，Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平，最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。

09:38

小互@xiaohu

Claude 为 Agent SDK 和 claude -p 新增独立用量额度

自6月15日起，Claude 将 Agent SDK 和 claude -p 的用量从订阅套餐原有额度中剥离，每月额外提供一笔“专用零花钱”，其中 Pro 用户 $20、Max 5x 用户 $100，以此类推。该额度专门用于运行 claude -p、自写 Agent SDK 脚本或第三方 Agent App，不占用日常对话配额。额度用完后才扣其他费用，未用完不滚存下月；需手动领取一次后自动续期。

智能体 Anthropic 产品更新

09:19

meng shao@shao__meng

Cua 和 Snorkel AI 联合发布 Cua-Bench：首个公开 KiCad 任务数据集

Cua 与 Snorkel AI 联合发布 Cua-Bench，首个公开数据集聚焦电子设计工具 KiCad，含 25 道由执业电气工程师编写并复核的任务。测试中，GPT-5.5 完全通过 6/25（24%），Claude Sonnet 4.5 和 Haiku 4.5 各通过 5/25（20%）。所有成功任务均为局部修改，16 道从零搭建任务全部失败。瓶颈在执行层：导航开销大（~84%）、操作粒度过细（~84%）、视图控制混乱（~76%）、布线未完成（~72%）、自我验证不可靠。步数上限并非主因。根因分布：规划 ~40%、感知 ~22%、导航低效 ~19%、领域知识 ~11%、工具/API ~8%，全程零 API 错误。

Cua: 1/ Today we're launching Cua-Bench with @SnorkelAI: a benchmark for computer-use agents on professional software, open f...

智能体 Anthropic OpenAI 评测/基准

09:19

meng shao@shao__meng

Vercel Labs 推出 HarnessAgent：为 Coding Agent 提供生成式 UI

Vercel Labs 利用 AI SDK 7 实验 API 推出 HarnessAgent，结合 json-render 为 Claude Code / Codex / Pi 等 Coding Agent 提供生成式 UI。Agent 在 Vercel Sandbox 隔离 Linux 环境中执行写文件、跑测试等真实操作，输出受 Zod schema 约束的 JSONL UI 规格（仅限 Steps、FileChange、Terminal 等预定义组件），前端通过 useChat + useJsonRenderMessage 实时渲染。核心设计：Harness 抽象允许像换模型一样互换 Agent；UI 层与执行层完全解耦；Session 绑定 Sandbox，10 分钟空闲或“Start Over” 销毁。Agent 不得虚构结果，失败必须展示 error step、非零 exit code 或失败测试。

Chris Tate: Introducing Generative UI for Claude Code, Codex and Pi Charts, forms, 3D, anything Your agent renders real UI for users...

智能体 GitHub MCP/工具产品更新

09:03

🚨 AI News | TestingCatalog@testingcatalog

OPENAI 🔥： Codex 现在支持 Chrome DevTools 协议，可用于浏览器操作。这是一个巨大的超能力，将允许 Codex 检查并修改任何网站。这仍是一个非常早期的实现，但我敢打赌，几年后这将成为浏览器的默认能力。如果网站通过 AI 加载，用户将能够即时自定义他们的用户体验。这就是方向 👀

智能体 MCP/工具 OpenAI 产品更新

09:02

Emad@EMostaque

可以

Andrew Curran: http://x.com/i/article/2066289802295779328

智能体大佬观点

08:49

meng shao@shao__meng

@mattpocockuk 提出 AI 驱动开发七阶段及 /grill-with-docs 升级

@mattpocockuk 提出 AI 驱动开发七阶段：Grill（模糊→共享理解）、Research（缓存外部信息）、Prototype（可玩代码验证）、PRD（需求文档）、Issues（垂直切片）、Implement（Agent 执行）、Review（人工 QA）。/grill-with-docs 是 /grill-me 的升级版，专为有代码库场景设计，新增领域语言（CONTEXT.md）、ADR（docs/adr/）及会话四类动作。无代码库时仍用 /grill-me。作者认为 pre-PRD 阶段需更多结构，/grill-with-docs 将再次调整。

Matt Pocock: Here are my 7 phases of AI-powered development. I've been thinking that the pre-PRD phase needs more structure. You need...

智能体 GitHub 教程/实践编码