7月3日

01:08

Apple Machine Learning Research（RSS）

精选72

在自我组织的多智能体LLM系统中，团队无法有效利用专家成员的专业知识。在多个基准测试中，即使明确告知专家身份，团队表现仍落后于最佳成员（专家智能体）的独立能力，性能损失最高达41.1%。失败主因是未能有效利用专家意见，而非识别专家。对话分析显示，团队倾向于“整合性妥协”——平均化专家与非专家观点，随团队规模增大而加剧，且与表现负相关。这种寻求共识的行为同时提升了对抗恶意智能体的鲁棒性，揭示了协同对齐与专业利用之间的根本性权衡。

智能体安全/对齐论文/研究

推荐理由：这篇研究给多智能体热浇了盆冷水，自组织团队反而拖累专家，瓶颈不在认不认识专家而在会不会用专家，做 Agent 系统的都知道这有多反直觉。如果你是做多智能体的值得看看。

7月2日

18:31

公众号：千问APP（阿里）

精选62

千问团队朱达：C端Agent Harness的"多快好省"工程哲学与主动服务探索

千问团队2026年1月上线通用复杂任务Agent（千问App胶囊入口），总结“多快好省”方法论：支持信息搜集、研究分析等任务；执行时间降至初始1/3；通过搜索范式与上下文管理优化交付质量；Token消耗仅为海外产品1/10。团队探索从被动响应转向主动服务，构建User Memory、Environment、Task System、Assistant四大组件，指出“情商”是主动服务最难环节。朱达提出Agent工程从Prompt Engineering演进至Harness Engineering，下一站是A IWare Engineering，强调“低功耗，够用就行”。

智能体大佬观点部署/工程

推荐理由：千问C端团队分享的Agent工程实践很务实，从“多快好省”到AIWare Engineering的演进思路，对正在做复杂任务Agent的团队是一个有价值的参考系。

11:00

公众号：昆仑万维（天工）

精选67

昆仑万维天工3.2发布Skywork Tags，AI智能体加入工作群聊

昆仑万维天工3.2发布Skywork Tags，将AI智能体以团队成员身份接入Slack、飞书、钉钉、Discord、Telegram等即时通讯工具。团队可在原有工作群中@Skywork参与讨论，无需切换窗口或迁移数据。共享版Agent持续吸收多样上下文后表现反超精心调教的个人版，团队最终完全改用共享版。Skywork Tags不要求改变工作方式，让AI积累团队上下文并越用越强。

智能体 MCP/工具产品更新

推荐理由：Skywork Tags 的思路走对了——不逼团队搬家，而是让 AI 进群，内部测试也证明共享 Agent 能远超个人调教，做协作工具的产品人可以借鉴。

04:49

Claude Code：GitHub Releases（RSS）

精选64

Claude Code v2.1.198 发布

Claude Code v2.1.198 更新。Claude in Chrome 现已全面可用。为 claude agents 新增后台智能体通知（agent_needs_input / agent_completed）。新增 /dataviz 技能，提供图表与仪表盘设计指导及配色验证器。Gateway 增加 AWS 上的 Claude Platform 作为上游提供商。后台智能体在 worktree 中完成代码后自动提交、推送并创建草稿 PR。内置 Explore 智能体现继承主会话模型（上限 opus）。修复网络短暂断开导致响应中断、后台任务卡在“Running”状态、智能体团队队友因 API 错误失败等问题。

智能体 Anthropic 产品更新编码

推荐理由：如果你是Claude Code用户，这次更新很实在，Chrome版终于正式可用，背景agent的自动提PR和通知功能能省不少事，/dataviz也能辅助可视化。

01:17

Google Developers Blog（RSS）

我们为何构建ADK 2.0

Google官方博客阐述了构建ADK 2.0的动机——包括核心特性与升级理由，并解释了开发者应考虑迁移的原因。该文章发布于ADK 2.0正式上线次日。

智能体 Google 产品更新

00:20

xAI：News（网页）

精选77

xAI 发布 Voice Agent Builder 测试版

xAI 推出 Voice Agent Builder 测试版，这是一个基于 Grok Voice 的无代码平台，可在两分钟内创建生产级语音智能体。它集成电话、知识检索、工具、MCP、Guardrails 及可观测性，支持连接现有 SIP 号码、API 和 WebSocket，采用语音到语音路径。在 τ-voice Bench 上，Grok Voice Think Fast 1.0 得分 67.3%，领先 Gemini 3.1 Flash Live（43.8%）和 GPT Realtime 1.5（35.3%）。定价为每分钟音频 0.05 美元、电话费 0.01 美元，提供 80+ 种语音及声音克隆，每个账户附赠一个免费电话号码。

智能体 MCP/工具 xAI 产品更新

关联讨论 1 条

推荐理由：xAI 用 Grok Voice 原生的语音到语音路径，把生产级语音代理的搭建门槛降到了无代码、两分钟，计费也简单，做语音业务的人值得试试。

00:17

Google Developers Blog（RSS）

用 Genkit 构建智能体全栈应用

开源框架 Genkit 推出 Agents API，将消息历史、工具循环和流式传输封装为单一接口，简化对话 AI 开发。该 API 支持服务器或客户端管理的状态持久化，可实现历史分支、长时间运行的分离任务及多智能体协调等高级工作流，并通过统一线协议连接前后端。目前以 TypeScript 和 Go 预览版发布，集成 Genkit Developer UI，开发者无需编写客户端代码即可测试、调试和检查智能体快照。

智能体 Google 产品更新部署/工程

7月1日

22:20

Cloudflare Blog

精选58

Cloudflare 推出全新AI流量管理选项：区分搜索、智能体与训练爬虫，保护广告页面

Cloudflare 为所有网站所有者提供更精细的AI流量管控选项，取代一刀切的屏蔽方式。用户可轻松区分并管理搜索爬虫、AI智能体爬虫和训练爬虫，同时新增保护广告变现页面的能力。

智能体产品更新搜索

关联讨论 1 条

推荐理由：Cloudflare 把 AI 流量管理拆成了搜索、Agent 和训练三类，对依赖广告收入的站长是个实用功能，早期控制 bot 访问可能影响 SEO，值得测试。

22:20

Cloudflare Blog

Cloudflare 推出两项新举措，让 AI 搜索更智能

Cloudflare 宣布推出两项新举措，以应对 AI 搜索重构网络生态带来的创作困境。在智能体时代，创作者既需要保持可发现性，又要确保作品获得合理报酬，这两项举措旨在帮助平衡二者的关系。具体细节尚未公布。

智能体产品更新搜索

22:20

Cloudflare Blog

内容独立日一周年：构建智能体互联网的商业模型

内容独立日宣布一年后，一个付费内容的动态市场已正式形成。自主AI智能体的兴起正在颠覆传统搜索推荐模式，构建可持续的网络经济需要一套全新基础设施来支撑。

智能体搜索现象/趋势

07:08

Ethan Mollick：One Useful Thing（RSS）

聊天机器人的黄昏

前沿AI模型能力加速提升，美国实验室发布速度加快，但政府干预已限制访问Claude Fable和GPT-5.6。Epoch测试发现Opus 4.7自主运行14小时即可完成需2-17周人工的软件工程，token成本$251。中国开源模型落后前沿6-12个月，但性能也快速提升，在AA-Briefcase测试中呈独立指数曲线。使用方式正从聊天机器人转向智能体，OpenAI内部四分之一员工每周同时运行至少四个智能体。Claude Code用户数据显示，领域经验比职业属性更决定使用效果，专家正用智能体替代此前非专家的聊天机器人使用模式。

智能体 Anthropic OpenAI 大佬观点

关联讨论 25 条

02:02

Anthropic：Newsroom（网页）

精选81

Claude Sonnet 5 发布

Claude Sonnet 5 是 Anthropic 推出的最新 Sonnet 模型，具备计划、浏览器和终端工具使用能力，可自主运行。性能接近 Opus 4.8，定价更低：即日起至 2026 年 8 月 31 日，输入 token $2/百万，输出 $10/百万，之后恢复为 $3/百万输入和 $15/百万输出。相比 Sonnet 4.6，在推理、工具使用、编程和知识工作等智能体能力上大幅提升。在 BrowseComp 和 OSWorld-Verified 评测中严格优于 Sonnet 4.6。安全评估显示不良行为率更低，幻觉和谄媚减少，但网络安全能力弱于 Opus 4.8。即日起在所有套餐及 Claude Code、Claude API 中可用。

智能体 Anthropic 模型发布编码

关联讨论 13 条

推荐理由：Claude Sonnet 5 把代理能力从 Opus 下放到了 Sonnet，性能接近 Opus 4.8 但价格只有三分之一，这对开发者来说性价比飞跃。虽然还不是最强，但已经能让许多复杂任务从勉强可用变成可靠。

01:32

Anthropic：Newsroom（网页）

精选66

Claude Science 科研工作台正式上线

Anthropic 推出 AI 科研工作台 Claude Science，整合常用工具与计算资源，支持从文献分析到多步骤研究的全流程。提供超 60 项预配置技能与连接器，覆盖基因组学、单细胞、蛋白质组学、结构生物学、化学信息学等领域；可在macOS/Linux本地运行，或通过SSH/HPC远程使用。生成含代码和环境的可审计成果（3D蛋白质结构、基因组浏览器轨迹等），内置reviewer agent自动检查引用与计算错误。通过NVIDIA BioNeMo接入Evo 2、Boltz-2等模型，也支持连接自有模型与管道。今日以beta版面向Claude Pro、Max、Team和Enterprise用户开放。

智能体 Anthropic MCP/工具产品更新

关联讨论 2 条

推荐理由：Anthropic 为科学家打造了一个整合 60+ 技能、可管理计算和审计输出的 AI 工作台，让 AI 从顾问变成可复现的实验合作者。

01:28

Claude：Blog（网页）

精选72

Claude Code 入门：智能体循环

Claude Code 团队将智能体循环定义为 agent 重复工作直到满足停止条件的过程，并划分出四种主要类型：turn-based 循环（用户提示触发，Claude 自行判断完成或需更多上下文）、goal-based 循环（通过 /goal 命令设定可验证完成标准与最大轮次）、time-based 循环（通过 /loop 按时间间隔重复执行，可用 /schedule 移至云端）、以及 proactive 循环（基于事件或计划自动运行，无人实时参与）。文章还介绍了如何编写 SKILL.md 文件将人工验证步骤编码，让 Claude 进行端到端自检，减少 turn-based 循环中的手动操作。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Anthropic把agentic loops从模糊概念变成四种可复制的模式，附带SKILL.md和命令示例，Claude Code用户读完就能设计更自主的编码流程。

01:17

Google Developers Blog（RSS）

精选67

ADK Go 2.0 发布：构建可靠的多智能体应用，新增基于图的工作流引擎、人工参与循环与动态编排

Agent Development Kit (ADK) for Go 2.0 发布，引入了一类基于图的工作流引擎，用于组合复杂多智能体应用。新版本内置人工参与循环（HITL）编排、使用纯 Go 代码的动态执行、以及指数退避重试等自动弹性特性。统一执行模型后，单智能体应用与复杂图均运行在同一运行时上，简化了遥测与状态持久化。

智能体 Google 产品更新部署/工程

推荐理由：Google 给 Go 生态补上了多智能体编排的关键一环，图工作流引擎和人机协同直接内置，比之前拼积木的方式可靠很多，做 Agent 的 Go 开发者值得跟进。

01:17

Google Developers Blog（RSS）

Google发布新技能：从你的编码智能体驱动智能体质量飞轮

Google推出了一项面向编码智能体的新开发者技能，将评估过程自动化成五阶段飞轮：准备数据、运行推理、使用自适应AutoRaters评分、分析失败聚类、执行针对性优化。该工具可针对生产流量持续运行或通过合成场景按需触发，开发者用自然语言描述测试目标，独立评估服务安全验证并统计实际性能提升。

智能体 Google 产品更新编码

6月30日

01:57

Cursor Blog

精选75

从任何地点构建--Cursor for iOS 公测版发布

Cursor 推出 iOS 原生公测版，所有付费计划可用。开发者可在手机上启动始终在线的云端智能体，或远程操控电脑端智能体。支持语音输入、斜杠命令和选择前沿模型。智能体运行后，锁屏 Live Activities 和推送通知实时更新状态，完成或需要输入时提醒。云端智能体在隔离虚拟机中运行，可自动迭代生成合并就绪的 PR，并输出演示、截图和日志。本地与云端智能体支持双向切换。移动端 Composer 2.5 享受 75% 折扣，优惠至 2026 年 7 月 5 日。

智能体产品更新编码

关联讨论 1 条

推荐理由：Cursor 移动端把 Agent 放到了云上，从手机就能启动和合并 PR，通勤灵感不再浪费，对经常离开桌面的开发者是真正的效率杠杆。

6月29日

16:51

公众号：火山引擎

万得AI面向个人用户开放，基于豆包大模型2.0与火山引擎

万得推出面向个人金融从业者的AI原生工作平台万得AI，由豆包大模型2.0提供技术支撑，火山引擎提供弹性AI算力。万得AI采用多Agent推理模式，主智能体根据任务实时创建子智能体，调用数百个专业金融MCP工具和Agent，协同完成数据检索、策略分析、财务建模、图表生成等全流程金融工作。在实际评测中，豆包大模型2.0在内容忠实性、金融摘要、事实遵循、Agent规划与工具调用等维度均处于业界第一梯队。专业金融AI能力从机构场景走向个人用户，实现“一个账号即一支全建制金融团队”。

智能体产品更新

08:03

OpenAI：官网动态（RSS · 排除企业/客户案例）

惠普与OpenAI启动Frontier战略合作伙伴关系

惠普宣布与OpenAI达成Frontier战略合作伙伴关系，此前试点中一名工程师数周内用OpenAI模型处理了43个项目中的122个pull requests，安全团队一天修复多个软件bug（原估计需一个月）。惠普将把Frontier作为统一平台整合访问、上下文、部署与评估，覆盖定价、合作伙伴门户、客户支持、员工体验平台（WXP）及网络安全等场景，同时使用ChatGPT支持知识工作、Codex加速软件现代化与交付。Frontier提供从试点到生产环境的治理型运营模型。

智能体 OpenAI 行业动态部署/工程

6月26日

12:00

公众号：龙猫LongCat（美团）

美团 ICML'26 论文分享会：通用 Agent 专场 & 视频生成等综合专场

美团将于7月1日、2日举办两场 ICML'26 论文分享会。首日聚焦通用 Agent，涵盖记忆与长程推理（MemOCR）、环境合成（ScaleEnv）、价值模型（V_0）、自我验证、鲁棒性基准（AgentNoiseBench）及智能体裁判基准（AJ-Bench）等方向。次日为视频生成等综合专场，涉及超高分辨率视频生成（LUVE）、交互式世界模型（Infinite-World）、身份保持视频生成（WildActor）、流式视频超分（InfVSR）、微调优化（SAFT）、检索增强出价（DRIVE）及旅行规划基准（TRIP-Bench）等。共13篇论文，报名后可直播参与。

智能体行业动态论文/研究

12:00

公众号：龙猫LongCat（美团）

精选69

美团 LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆

美团 LongCat 团队推出 VitaBench 2.0，首个真实生活场景下针对长期动态用户建模的智能体评测基准。包含56名拟真用户、819个复杂任务、超2000个动态偏好及66个可执行工具，每位用户平均2093个交互事件，时间跨度平均1580天。同时支持长文本上下文学习和智能体记忆策略评测。测试显示，最强模型 Claude-Opus-4.6 在“开卷”模式下平均分刚过0.5；开启思考模式并不总能提升个性化任务表现；所有模型在需要主动提问的任务上得分断崖式下跌。VitaBench 2.0 已开源。

智能体开源生态评测/基准

推荐理由：美团LongCat开源的VitaBench 2.0是首个评测AI长期理解用户偏好的基准，实验发现最强模型得分也刚过0.5，做Agent和推荐系统的值得跑一遍。

06:12

Claude Code：GitHub Releases（RSS）

精选61

Claude Code v2.1.193 发布

Claude Code v2.1.193 新增 autoMode.classifyAllShell 设置，将全部 Bash/PowerShell 命令经自动模式分类器处理。自动模式拒绝原因现加入转录、拒绝提示及 /permissions 页面。新增 claude_code.assistant_response OpenTelemetry 日志事件（默认不记录，需设置 OTEL_LOG_ASSISTANT_RESPONSES=1）。Bash 模式支持实时文件路径自动补全；MCP 服务器需认证时显示启动提示。新增空闲后台 shell 命令自动内存压力回收（可禁用）。修复 /model UI 状态滞后、后台任务误取消、子 agent 隐藏同级等问题，并改进了后台 agent 启动指令、MCP 认证重连、插件自动重命名等行为。

智能体产品更新编码

推荐理由：一次扎实的工具更新，自动模式覆盖所有 shell 命令和 MCP 认证重连是最实用的改进，后台任务内存回收也解决了长期痛点，Claude Code 用户值得更新。

02:41

Runway：News（网页）

精选65

Runway发布Agent 2.0

Runway发布Agent 2.0，帮助营销人员创建、测试和优化广告、视频及营销活动。品牌营销人员可在对话中开发活动概念、生成变体并自动本地化；绩效营销人员可上传创意并导入Meta、YouTube、TikTok或Google广告数据，由Agent分析后生成下一轮待测广告。社交媒体营销人员可一次性生成一周内容，自动裁切为9:16、16:9、1:1等格式；产品营销人员可借助Agent确定定位角度并构建活动资产。Agent 2.0面向所有用户开放。

智能体产品更新视频

推荐理由：Runway的Agent 2.0不只是生成视频，它试图打通从广告数据分析到全平台素材生成的闭环，做增长和社交内容的团队可以观望一下。

6月25日

19:30

公众号：百度智能云（文心）

浦发银行携手百度智能云：超2500个金融智能体上岗，覆盖营销风控等核心场景

浦发银行全行已上线超2500个金融智能体，近200个深度嵌入真实业务流程，覆盖营销、风控、运营等核心场景。智能体采用低代码与高代码结合、商用与开源模型互补的研发模式，并首创“三态管理”（创设、发布、运行）适配金融强监管。财报智能识别分析智能体将企业财报录入、校验与分析流程从数小时压缩至分钟级。百度智能云提供四层金融AI基础设施，包括昆仑芯国产芯片、异构算力平台、金融专精大模型及全流程AI治理平台。浦发银行计划推出面向C端的数字客户经理与数字分身，以对话交互实现“对话即服务”。

智能体行业动态部署/工程

17:09

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选65

OpenAI内部报告：智能体Codex如何改变工作

OpenAI 在2025年8月至2026年6月间观察到，智能体产品 Codex 取代 ChatGPT 成为主要工作工具，各部门输出 token 中 Codex 占比从不足10%升至99.8%。80.6%个体用户曾发起预计等效人类工作时间超30分钟的请求，70.2%超1小时，25.6%超8小时；99百分位用户每日生成超60小时 agent turns。非开发者用户增长迅猛：个体用户增长137倍，组织用户增长189倍。Legal、Finance、Recruiting 部门在2026年4月前后跨过 Codex 使用过半拐点，平均每位律师或招聘人员超85%输出 token 来自 Codex。

智能体 OpenAI 现象/趋势论文/研究

关联讨论 2 条

推荐理由：OpenAI 第一次用内部数据量化智能体如何改变工作，非开发者增速 137 倍比工程师还猛，Codex 已经吃掉内部 99.8% 的输出 token——这不是产品更新，但比大多数发布会都更值得做策略的人看一眼。

04:55

Cursor Blog

精选65

Notion 使用 Cursor SDK 嵌入编码智能体

Notion 通过 Cursor SDK 在数周内将编码智能体嵌入产品。用户可在文档中@Cursor、在讨论串中提及或向数据库指派任务，Cursor 即可端到端完成规划、构建、测试、验证并自动创建 PR。集成基于一套 Provider 无关的智能体框架，Notion 的讨论串对应一个 Cursor 智能体，每条消息对应一次智能体运行；结果通过 SSE 流式传输，支持断连恢复。Cursor SDK 提供与生产环境相同的模型、运行时和远程 MCP 支持，让 Notion 无需自建智能体基础设施即可获得完整栈编码能力。用户还可自定义模板、MCP 服务器、技能和子智能体，并设置自动触发规则。

智能体产品更新编码

推荐理由：我对“嵌入代理”的概念有点怀疑，但Notion用两周集成Cursor SDK，说明其抽象做得不错。文章展示了怎么把一个全栈编码代理塞进产品里，做工具的可以看看SDK设计。

02:35

Claude：Blog（网页）

同事件精选60

Anthropic 推出 Claude Tag，构建人机协作团队

Anthropic 推出 Claude Tag，支持多用户与同一 AI 智能体在同一工作空间协作。智能体具备持久记忆、独立于人类的凭证及广泛信息访问权限。经验：工作公开化并给予智能体广泛上下文，通过工作区级安全边界让信息对人和 AI 均可用；为每位成员（含 AI）分配明确角色与相应工具。用户可通过 @Claude 私信进行敏感交互，对话保持私密。该方法已在 Slack 等团队协作工具中实践，旨在使人类与智能体高效协作完成共享目标。

智能体 Anthropic 教程/实践

同一事件，精选展示《Anthropic 推出 Claude Tag：在 Slack 中通过 @Claude 协作》

推荐理由：Anthropic 内部总结的四个教训——公开透明、明确角色、设北极星、逐步信任，对正在探索人机协作团队的管理者来说，比产品手册更实用。

01:07

Google DeepMind：Blog（RSS）

精选70

Gemini 3.5 Flash 引入 computer use 功能

Google DeepMind 宣布，computer use 现作为内置工具集成于 Gemini 3.5 Flash，开发者可构建跨浏览器、移动端和桌面的智能体，实现视觉感知、推理与操作。此前该功能仅以独立模型形式存在于 Gemini 2.5。3.5 Flash 已支持函数调用及 Search、Maps 等内置工具，新增的 computer use 可提升持续软件测试和跨专业应用知识工作等长周期企业自动化任务的性能。安全方面采用针对性对抗训练，并可选配两项企业防护系统：要求用户确认敏感操作，以及在检测到间接 prompt 注入时自动停止任务。可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用。

智能体 DeepMind Google 产品更新

关联讨论 2 条

推荐理由：把 computer use 能力塞进轻量级的 Flash 模型，意味着在浏览器里跑视觉 agent 的成本会大幅降低，做企业自动化的团队可以立即试起来，安全措施也给了落地信心。

6月24日

19:31

OpenRouter：Announcements（RSS）

精选73

OpenRouter推出统一图像API

OpenRouter推出统一图像API，整合Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft、xAI等30+模型。新API提供标准化请求格式，通过/api/v1/images/models端点返回每个模型的分辨率、宽高比、输出数量、输入参考图数量、种子等能力描述；通过/api/v1/images/models/{id}/endpoints端点获取具体服务商的定价与参数支持（如Seedream 4.5每张$0.04、FLUX.2 Pro每百万像素$0.03、GPT-5.4 Image 2按token计费）。OpenAI的GPT 5系列图像模型支持SSE流式预览，启用"stream": true即可边生成边返回预览。新图像模型将仅添加至专用API，建议现有用户切换。

智能体产品更新图像生成多模态

关联讨论 1 条

推荐理由：OpenRouter 把 30+ 图像模型收进一个 API，参数自动发现和流式预览让频繁切换模型的开发者省去不少适配麻烦，尤其对 Agent 工作流很友好。

18:31

公众号：火山引擎

精选66

火山引擎推出Agent Ready基础设施，AgentKit与ArkClaw企业版升级

火山引擎在FORCE大会推出面向企业智能应用的Agent Ready基础设施，构建AI云与Agent三层架构。AgentKit升级提供Identity、Runtime、Sandbox、Evaluation等模块，实现Agent可靠、可控、可衡量。Identity已接入数千家身份体系，Runtime支持长程任务和分钟级12万沙箱并发。ArkClaw企业版集成Agent广场、技能中心与企业知识库，支持IDP/SSO/OAuth及飞书、钉钉等IM入口统一管控。实践案例：海底捞门店经营Agent将小时级工作压缩到分钟级，人工跟进时长缩减70%，巡检满意度提升50%；创维酷开借助ArkClaw终端版打造AIOS，Token消耗节省50%，支撑百万级终端。

智能体产品更新部署/工程

推荐理由：Agent 从聊天机器人到企业生产工具，缺的不是模型能力而是基础设施。火山引擎这套 AgentReady 架构把身份、沙箱、评测串了起来，是企业 AI 落地的关键一步。

18:00

公众号：小红书技术（dots.llm）

AICon 上海 2026|小红书质效：Agent 基建的规模化落地路径

小红书质效研发团队在 AICon 上海 2026 公布两项 Agent 基础设施实践。Self-GC 系统通过 ContextObject 对象化建模与三阶段提交机制（Async Plan、Rehearsal、Delayed Commit），将上下文转为可索引的生命周期管理，生产环境实现 10%-20% 输入 Token 下降且保持 90%+ 无影响率。Seal 企业级 AI 个人助理依托 NEX 沙箱实现运行时隔离，结合 Self-GC 与 SealRouter（Auto 模型路由）达成成本减半，并采用 L0-L2 分层记忆体系构建可溯源知识闭环，从 3 天内测到两周完成全员覆盖。

智能体 MCP/工具教程/实践

17:50

公众号：火山引擎

三大Agent开发运营产品升级，帮企业建好"1+N+X"Agent体系

火山引擎在FORCE大会上提出企业Agent落地“1+N+X”体系：“1”是AgentSphere数字员工派遣站，“N”是开箱即用应用，“X”是基于TRAE、扣子、HiAgent持续进化的业务应用。TRAE企业版上线TRAE Work，实现一个账号切换IDE与办公端、一个后台统一管理，内部开发94%代码由AI贡献。亚信科技应用后单人日均节省约1.8小时，代码贡献率提升42%，千行代码缺陷率降低35%。扣子升级3.0，强化多端协同与行业知识沉淀。HiAgent 3.0构建开发-运行-管理闭环，引入Learning Loop实现Agent持续进化。某车企经AgentSphere统一纳管后，活动筹备周期从4周压缩至5个工作日，效率提升约3.5倍。

智能体产品更新部署/工程

14:30

公众号：千问APP（阿里）

超1400万人，正在和千问聊高考

自6月7日高考至今，千问上高考相关咨询量持续走高，累计咨询人数超过1400万，近期连续5日增长超过100%。考生和家长最关心就业前景（如“未来最不容易失业的专业”）和校园环境（如“宿舍别太差”）。基于千问高考志愿大模型和夸克8年数据经验，千问支持高考志愿报告、志愿日历、志愿问答等能力，可免费生成定制化志愿报告。团队已提前备好算力资源，以应对接下来20多个省份集中出分的咨询高峰。

智能体行业动态

11:54

Qwen：Blog Retrieval（API）

精选81

Qwen-AgentWorld：面向通用智能体的语言世界模型

Qwen 团队发布 Qwen-AgentWorld，一个以环境建模为训练目标的原生语言世界模型，在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域（Web、OS、Android）共七个域。模型使用超 1000 万条真实交互轨迹训练，在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量，超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练，也可作为统一智能体基础模型，经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。

智能体 arXiv Hugging Face MCP/工具

关联讨论 4 条

推荐理由：Qwen把世界模型做成了一个可开源的通用产品，覆盖七域，做agent RL的可以直接拿它仿真训练，可控性甚至超过真实环境，做agent的团队应该认真看看。

11:40

公众号：通义实验室（千问）

Qwen-AgentWorld 开源：让 Agent 学会"先预测，再行动"

通义千问推出首个原生语言世界模型 Qwen-AgentWorld，覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域。模型基于超 1000 万条真实交互轨迹，经 CPT→SFT→RL 三阶段训练，在 AgentWorldBench 上超越 GPT-5.4（58.25）和 Claude Opus 4.8，Qwen-AgentWorld-397B-A17B 取得 58.71 分。两种范式已验证其能力：作为解耦环境模拟器实现可控 Sim RL，在 WideSearch 上超越真实环境 RL（F1 50.3% vs 45.6%）；作为智能体基础模型，LWM 预热可迁移至七个基准（三个完全未出现在训练集中）。模型与评测基准已开源。

智能体推理模型发布

关联讨论 4 条

09:10

公众号：豆包（字节）

精选77

今天，豆包正式推出专业版

豆包专业版基于豆包2.1系列大模型上线，面向复杂办公与生产力场景。办公任务模式接入可执行Agent任务的豆包2.1模型，支持操作本地电脑、浏览器、调用Skills技能、定时任务，内置Office办公套件，并可生成带后端数据库的在线应用。免费用户可体验豆包2.1 Turbo版办公任务模式，专业版接入豆包2.1 Pro模型。定价：标准套餐68元/月（连续包月），加强套餐200元/月，高级套餐500元/月。大学生认证后标准套餐38元/月，持续6个月。

智能体产品更新多模态

推荐理由：豆包专业版不是简单的会员升级，而是把Agent能力装进办公场景，操作本地电脑、生成应用这些功能，让AI从对话工具变成了真正的生产力帮手。

01:14

Claude：Blog（网页）

Claude Tag 的 Agent Identity 访问模型

Claude Tag 推出 agent identity（智能体身份）访问模型，让 Claude 在共享频道中以独立身份工作，而非模拟某个用户。管理员在工作区级配置连接器、仓库访问、技能插件和固定指令等权限，每个频道可覆盖继承的基线设置。私有频道拥有独立身份，记忆和访问不跨频道流转；公共频道共享工作区级身份。该模型为自主多玩家 AI 场景设计，允许频道成员通过 Claude 访问已授权工具和数据，同时通过按身份撤销简化权限管理。

智能体 Anthropic 教程/实践部署/工程

01:09

Anthropic：Newsroom（网页）

精选56

Anthropic 推出 Claude Tag：在 Slack 中通过 @Claude 协作

Anthropic 推出 Claude Tag，一种在 Slack 频道中通过 @Claude 委托任务的新协作方式。Claude 可记住频道上下文，支持多用户交互，经授权后可自动学习其他频道和数据源。开启“环境”行为后，能主动更新未解决的线程或任务。支持异步工作，可自主推进项目数小时或数天。即日起面向 Claude Enterprise 和 Team 客户提供 beta 版。管理员可精细控制工具和渠道访问权限、设置 token 消耗限额，并查看所有操作日志。

智能体 Anthropic 产品更新编码

关联讨论 2 条

推荐理由：Anthropic 这次把 Claude 从对话助手变成了团队里的主动队友，Slack 里的多人协作、上下文学习和异步代理是个新思路。内部 65% 代码由它生成的数据，让这个方向不再只是实验。

6月23日

21:20

Hugging Face：Blog（RSS）

精选73

IBM 开源 CUGA：轻量级智能体框架，提供二十余个单文件示例应用

IBM 开源了 CUGA（Configurable Generalist Agent），一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环，在 AppWorld（2025年7月–2026年2月）和 WebArena（2025年2月–9月）基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式，代码执行可在本地、Docker 或 E2B 沙箱中运行。可互换工具支持 OpenAPI、MCP 和 LangChain 函数，通过环境变量一键切换 OpenAI、watsonx、Ollama 等提供商。随框架发布二十余个单文件示例应用，涵盖电影推荐、IBM Cloud 架构顾问等场景，每个应用仅需一个 FastAPI 文件。

智能体 GitHub MCP/工具产品更新

推荐理由：CUGA 把 agent 的规划、状态、策略等繁琐工程压缩成配置，开发者只写工具列表和 prompt 就能跑起 agent，配套的二十多个单文件应用是现成的模板库，对自建 agent 的团队来说省去了八成重复工作。

19:10

公众号：小红书技术（dots.llm）

小红书QEcon分享：Agent驱动的服务端端到端测试

小红书质效研发团队提出用AI Agent破解端到端测试的跨域、长链路、组合爆炸三大痛点。传统方案自动化覆盖率仅20%，新方案以Coding Agent为核心，采用逆向链式推导与知识库渐进式加载实现动态规划，Debug-first策略生成脚本，并结合工具级与链路级双层经验沉淀形成自进化飞轮。数据构造从小时级降至分钟级，常见场景秒级完成，新业务域接入从数天缩至分钟级。Agent直接理解测试意图、自主调用接口，无需预设编排。

智能体推理教程/实践