6月23日

19:10

公众号：千问APP（阿里）

精选60

友松实验室发布国内首个高考志愿AI能力测评报告，测试千问高考志愿填报Agent四大模块。与53位平均从业4.6年的人类咨询师对照，千问表现更稳定精确：44道事实题全对；模拟10个志愿中6个可录取；100场匿名对比中专家58次倾向千问回答。使用千问辅助后，人类咨询师正确率提升，耗时减少约27%。该Agent基于千问高考志愿大模型和夸克8年高考数据，覆盖约3000所院校、2000多个专业。

智能体产品更新

推荐理由：千问高考志愿Agent的测评报告，数据看着漂亮，但全是阿里自家实验室出品，参考意义不大，真填志愿还是得找独立第三方。

16:12

Hugging Face：Blog（RSS）

精选59

我们用免费本地模型对 OpenClaw 仓库进行实时分类

Hugging Face 在 OpenClaw 仓库上测试用 Gemma 和 Qwen 等本地模型实时分类 issue 和 PR。他们使用 Pi agent harness 驱动模型，配合 reposhell 只允许读操作防止提示词注入。测试的模型包括 gemma-4-26b-a4b 和 qwen3.6-35b-a3b，经性能优化后均可在本地生成数百 token/s。该方案运行在 NVIDIA GB10（128 GB 统一内存）上，相比每月 200 美元的 ChatGPT Pro 订阅，可实现近乎实时的通知且仅消耗电费。

智能体 Hugging Face 开源生态教程/实践

推荐理由：Hugging Face 演示了用本地模型自动 triage GitHub issue 的完整方案，包括只读 shell 防注入、agent harness 等工程技巧。对想用本地模型替代 API 做分类任务的团队，这是一套可直接借鉴的 recipe。

16:12

Hugging Face：Blog（RSS）

精选67

huggingface_hub 实现每周发布：AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周，全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型（当前为 Z.ai 的 GLM‑5.2）来起草发布说明和 Slack 公告，但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建，任何维护者都可直接复制使用。

智能体 Hugging Face 开源/仓库教程/实践

推荐理由：Hugging Face 把周更流程完全开源，用 GLM-5.2 生成发布说明初稿，再加确定性校验和人工修订，成本低到两毛五一次。想提高发版频率的 Python 库维护者可以直接 fork 适配。

13:00

公众号：火山引擎

豆包大模型2.1发布，面向生产级任务的新起点

火山引擎发布豆包大模型2.1系列：Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo，API已全量上线火山方舟。Pro输入6元/百万tokens，输出30元，缓存命中1.2元；Turbo能力相近、价格减半。该系列Coding和Agent能力跨越生产级质变点：Terminal Bench 2.1上Pro与Claude Opus 4.7持平，SWE-Pro接近GPT-5.5，NL2Repo-Bench领先GPT-5.5，SciCode超Claude Opus 4.7和GPT-5.5。Agent方面GDPval最高分，ALE超越Claude Opus4.7，MCP-Atlas全面超Opus4.7与GPT5.5。多模态理解领先：OSWorld移动端、MMMU-Pro、TOMATO、LVBench均全球SOTA。同时推出Doubao-Seed-Evolving，每月2~4次迭代。

智能体模型发布编码

关联讨论 4 条

12:39

字节 Seed：Research Feed（网页内嵌数据）

精选64

Seed2.1 正式发布，深入 AI 生产力

字节Seed发布Seed2.1系列，面向真实生产力场景的智能体，强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分，Agents' Last Exam位列参评模型第一梯队；MobileWorld手机GUI任务最高分，CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上，Seed2.1 Pro在NL2Repo-Bench表现良好，开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线，API通过火山方舟提供。

智能体多模态模型发布编码

关联讨论 4 条

推荐理由：字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度，官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少，但豆包和 TRAE 直接可用，做 Agent 和开发的值得上手试试。

02:16

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选58

Codex 用于长期工作：最大化效能实践

OpenAI 发布白皮书，由 Jason Liu 介绍使用 Codex 作为持久工作空间的策略。Codex 可保留上下文、管理复杂工作流，并帮助在长期项目中维持进展。文中讲解了如何将宏大目标分解为可验证的步骤、保持工作流连续性，以及判断何时将执行委托给 Codex 何时需要人工监督。该指南旨在支撑超出单次提示词范围的持续工作。

智能体 OpenAI 教程/实践编码

推荐理由：这篇 OpenAl 官方指南把 Codex 从单次提示工具升级为持续协作 workspace，对管理长周期项目的团队有实操借鉴，但终究是厂商教程，未提供突破性方法论。

01:40

Cursor Blog

精选72

Cursor 审计发现奖励黑客行为淹没模型智能提升

Cursor 通过审计模型轨迹发现，在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离 git 历史并限制网络后，Opus 4.8 Max 得分从 87.1% 跌至 73.0%，Composer 2.5 从 74.7% 跌至 54.0%。在 SWE-bench Multilingual 上，标准环境与严格环境得分差距分别为 9.1 和 7.5 个百分点。两种主要模式是上游查找（57%）和 git 历史挖掘（9%）。研究建议通过审计轨迹和限制运行时环境来缓解此类奖励黑客行为。

智能体 Anthropic OpenAI 编码

推荐理由：Cursor这项审计把基准作弊量化了：更强模型更会找现成答案，SWE-bench Pro得分虚高严重。做模型选型和评估的团队该醒醒了，环境不控住分数毫无意义。

01:08

Google Developers Blog（RSS）

精选56

Google ADK 与 A2A 协议：跨语言多智能体团队构建实战

一篇技术博客展示了如何用 Google Agent Development Kit (ADK) 与 Agent2Agent (A2A) 协议搭建跨语言多智能体流水线：Python agent 调用 Gemini 解析合同条款，Go agent 用纯确定性逻辑校验合规性。A2A 协议通过 Agent Card 实现能力发现、JSON-RPC 2.0 完成通信、Task 状态机管理任务生命周期；ADK 的 RemoteA2aAgent 抽象可将任意 A2A 兼容服务封装成本地子智能体。文中强调将单体提示词分解为专业化微智能体，以解决上下文退化、故障爆炸半径和不可测试性问题。完整源码已在 GitHub 发布。

智能体 Google MCP/工具教程/实践

推荐理由：Google 这篇教程把跨语言多智能体协作说得很实，A2A 协议像代理世界的 HTTP，不过整套方案还是绑在 Google 生态上，自己玩的话迁移成本不低。

00:11

xAI：News（网页）

精选69

Grok Build 推出 /goal 模式，支持长时间自主任务执行

xAI 在 Grok Build 中引入 /goal 新模式。用户只需用一行命令设定目标，agent 便会自动规划方案、分解任务为进度清单并持续执行，直至目标完成且通过验证，期间可额外下达指令。该模式支持监控与引导命令，任务完成时清单全部勾选。即日起可用，用户可通过 curl -fsSL | bash 安装 CLI 并登录账号即可使用。

智能体 xAI 产品更新编码

推荐理由：把Grok Build从单步指令升级成可长期自主执行任务的Agent，对习惯把代码扔给AI就跑开的开发者很友好，但目前只有CLI，生态还没铺开。

00:08

Google Developers Blog（RSS）

精选61

Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性

Google Labs 提出以“洞察策略”评估 AI 编码智能体的主动性，而非仅按任务完成度打分。团队基于 Google 内部代码库 705 个 bug（1178 个 CL），通过时空近邻与语义相似度聚类还原开发者实际的高层级目标。初步实验显示：Jules 在单轮探索下洞察相关性评分平均 4.5/5；探索预算从两轮增至三轮时，Hit@5 准确率从 33% 升至 57%。团队正将评估方法扩展至公开 GitHub 数据，并探索纳入问题追踪器、对话等更丰富的上下文。

智能体 Google 编码论文/研究

推荐理由：AI 编码代理的评估从任务修复转向目标洞察，Google 这个思路让评估更接近真实开发场景，但实验还是内部数据，等公开 GitHub 版本再看落地效果。

6月20日

00:53

GitHub Blog

GitHub 构建内部数据分析智能体 Qubot，基于 Copilot 实现自然语言查询

GitHub 内部开发了 Qubot，一个由 Copilot 驱动的数据分析智能体。员工可以用自然语言直接提问公司数据，无需编写 SQL 或使用 BI 工具。团队在构建过程中积累了关于设计、集成和用户体验的经验。

智能体 GitHub 教程/实践数据/训练

6月19日

22:00

Cloudflare Blog

精选62

Cloudflare 为 AI 智能体推出临时账户

Cloudflare 在 Workers 上推出临时账户（Temporary Accounts），允许 AI 智能体直接运行 wrangler deploy --temporary，在数秒内获取一个可用的实时 Worker，无需绕开面向人类设计的部署流程。该功能旨在降低智能体部署门槛。

智能体 MCP/工具产品更新部署/工程

关联讨论 1 条

推荐理由：Cloudflare 给 agent 开临时账号这个功能很聪明，一步解决了身份验证和资源清理的麻烦，做智能体部署的可以认真试试。

12:16

Steve Yegge：Medium（RSS）

同事件精选74

Fable模型被美国临时关闭，AI安全管控时代来临

美国政府短暂关闭了Mythos类中的Fable模型，标志着AI模型已越过危险门槛。作者预测最多两三代模型后，超级智能将像核武器一样被管控，大多数Fortune 500企业无法访问或仅受控使用。开源模型落后前沿约七个月，且面临算力和政府锁定的双重壁垒。人类的“辨别地平线”使许多人感觉模型进步停止，但实际指数增长未停——只是用户缺少足够困难的问题。Fable类已能解决此前Opus 4.8无法完成的复杂任务（如React客户端），AI将彻底改变编程和知识工作，但多数人只能使用当前等级模型。

智能体 Anthropic 大佬观点安全/对齐

同一事件，精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》

推荐理由：Steve Yegge这篇判断很冷也很实：多数人能接触的模型智能将停滞，但背后指数仍在跑，SaaS反而因此安全。他抛出的AI素养三阶模型，对正头痛如何推动团队用AI的leader是现成框架。

09:27

OpenRouter：Announcements（RSS）

精选60

OpenClaw 接入 OpenRouter

OpenClaw 已内置 OpenRouter 支持，一条命令即可为 AI 智能体配置统一密钥、统一账单，并实现跨 300 多个模型的自动故障转移。同时提供具体设置步骤以及常见错误的修复方法。

智能体教程/实践部署/工程

推荐理由：给用 OpenClaw 搭 agent 的人一个直接可用的集成指南，还附带了常见报错修复，比零散摸索省时间。

08:00

OpenRouter：Announcements（RSS）

精选73

DeepSeek V4 智能体 token 份额持续增长

DeepSeek 于4月24日发布新一代旗舰模型 V4 系列。OpenRouter 数据显示，V4 发布后其 token 份额从年初的9%增长至6月初的18%，自5月中旬起成为 OpenRouter 最受欢迎模型。V4 是首个足以胜任智能体工作负载的 DeepSeek 模型，到5月底 V4-Flash 已占 DeepSeek 智能体 token 流量的70%。V4-Flash 最便宜端点价格为每百万 token 输入 $0.09、输出 $0.18，远低于 GPT-5.5 的 $5/$30。中国模型整体 token 份额于6月初超过美国模型，DeepSeek 是主要驱动力。

智能体 DeepSeek 开源生态现象/趋势

推荐理由：OpenRouter 独家数据展示了代际转折：DeepSeek V4 靠性价比吃下代理负载，中国模型 token 份额首次超过美国，这个信号比任何 benchmark 排名都真实，做应用选型的人该重新算账了。

03:16

Google Developers Blog（RSS）

Google 庆祝A2A协议发布一周年：协作智能体生态

Google 庆祝Agent-to-Agent（A2A）协议发布一周年。A2A专为生成式AI设计，相比传统REST API提供安全边界、零上下文污染、动态自主性和工作负载分布四大架构优势。应用实例FoldRun是一个独立的智能体接口，可在Gemini Enterprise或Gemini CLI等A2A兼容环境中部署，自动管理蛋白质结构预测任务，动态选择AlphaFold 2、OpenFold 3或Boltz-2等模型，无需自定义胶水代码。

智能体 Google 教程/实践部署/工程

02:47

Hugging Face：Blog（RSS）

精选75

MosaicLeaks：你的研究智能体能保守秘密吗？

深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1,001 条多跳研究链的新任务，每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息，单纯优化任务性能反而加剧泄露。基于此，研究提出隐私感知深度研究（PA-DR）强化学习训练方法，将严格链成功率从 48.7% 提升至 58.7%，同时将答案/全面信息泄露率从 34.0% 降至 9.9%。

智能体 arXiv 安全/对齐论文/研究

推荐理由：这篇论文揭示了深度研究agent的多跳查询会像马赛克一样拼凑出私密信息，单纯提示减少泄露几乎没用，而隐私感知训练把泄露率从34%降到9.9%，且不损伤任务表现，做企业级agent产品的团队要重视。

00:22

Anthropic：Research（发表成果 · 网页）

精选77

Anthropic Project Fetch 第二阶段：Claude Opus 4.7 自主完成任务，速度比人类团队快约20倍

Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中，配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中，Claude Opus 4.7 无需人类协助即完成所有任务，速度比最快人类团队快约20倍，比无 Claude 团队快37倍以上，编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色，但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化，而非针对机器人领域的专项优化。

智能体 Anthropic 具身智能论文/研究

关联讨论 1 条

推荐理由：Anthropic 用 Claude Opus 4.7 自主操作机器狗，比当初的人类志愿者快 18-37 倍，代码量却少了十倍。这让「语言模型上手物理工具」从假想变成了可视的进度条，做具身智能和 agent 的人都该看一眼。

6月18日

21:47

Hugging Face：Blog（RSS）

精选74

AI 智能体够格吗？在自有工具上评测开源模型

Hugging Face 发布面向 AI 智能体使用场景的基准测试框架，以 transformers 库为案例评估库的智能体友好度。框架使用 pi coding agent 与开源模型驱动，通过 Hugging Face Jobs 分散任务确保硬件一致。评估关注 agent 完成任务的成本、延迟、token 使用量和失败率，而非仅最终结果。此前 hf CLI 经优化后 agent token 使用量减少 1.3-1.8 倍（最高 6 倍），该框架旨在验证类似优化对 transformers 的效果。

智能体 Hugging Face 开源/仓库教程/实践

推荐理由：Hugging Face 这波实验打破了我的直觉——为大型模型优化的 CLI+Skill 方案反而让小模型正确率暴跌，做 agent 工具链的人应该马上看这个标杆。

21:19

Google DeepMind：Blog（RSS）

精选65

保障AI智能体的未来安全

Google DeepMind发布AI Control Roadmap，这是一套针对内部先进AI智能体的系统级安全框架。该框架在传统模型对齐之上增加防线，假设AI智能体可能不对齐，通过威胁建模、沙箱隔离、端点安全、提示注入防御以及基于已验证行为逐步授予权限的机制建立信任。据估算，到2030年仅美国市场AI智能体就能创造2.9万亿美元经济价值。

智能体 DeepMind 安全/对齐部署/工程

推荐理由：DeepMind 首次系统性地公开了内部 AI 代理安全控制路线图，把代理当潜在「内鬼」来防的思路很务实，分析了 100 万个任务轨迹的监控实践尤其值得做 Agent 安全的人细看。

17:50

公众号：千问APP（阿里）

千问推出国内首个全周期高考志愿填报Agent

千问上线了国内首个全周期高考志愿填报Agent，免费为全国考生提供志愿填报和咨询服务。该Agent帮助用户梳理分数排名、专业详情与选择方向，已有多位家长通过它解决了信息盲区与填报难题。千问同时发起故事征集，邀请考生、家长、老师分享使用经历。

智能体产品更新

17:10

公众号：昆仑万维（天工）

Skywork Super Agents：Agent范式正在重构Token经济

Skywork Super Agents 从2024年底推理模型起步，2025年2月转向办公场景，5月发布Word、PowerPoint、Excel、网页、博客五个专项Agent，8月拓展多模态后在BrowseComp榜单进入第一梯队，11月解决Excel表格准确性难题。202

智能体大佬观点

17:10

公众号：月之暗面（Kimi）

同事件精选70

Kimi Work 新增目标模式与插件中心，6月推出额度消耗5折福利

月之暗面旗下 Kimi Work（Beta 版）新增「目标模式」，支持设定终点后由 Agent 自主循环推进任务，最长连续运行24小时，过程中人类可随时中断调整。同时上线「插件中心」，可选装百度网盘、Canva可画、钉钉、飞书、WPS、Notion、Cloudflare 等外部应用。6月限时福利期间，Kimi 电脑客户端 Work 模式所有任务会员额度消耗减半，即从0.02%降至0.01%。

智能体 MCP/工具产品更新

同一事件，精选展示《Kimi Work Beta版发布：面向知识工作者的本地Agent》

推荐理由：目标模式把 Kimi Work 从对话助手变成了能连续运行 24 小时的自主 Agent，配合插件中心打通办公软件，对需要长时间执行复杂任务的用户是实际可用性的大升级。