全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 2144 条

全部一手资讯 X 论文

标签「Agent」清除

6月9日周二

14:12MarkTechPost（RSS）60哈佛与Perplexity新研究：AI智能体每会话自主工作26分钟，搜索助手仅33秒

13:55HuggingFace Daily Papers（社区热门论文）67SkeMex：通过自进化技能记忆实现可泛化医学智能体推理

12:55HuggingFace Daily Papers（社区热门论文）73精选OmniGameArena：面向VLM游戏智能体的统一UE5基准与改善动态

12:22IT之家（RSS）36魅族 22 Next"AI 小方块"工程机外观曝光：紫光展锐 T8200、4 英寸机身

11:55HuggingFace Daily Papers（社区热门论文）67大规模端到端上下文压缩

11:40公众号：月之暗面（Kimi）47Kimi 将公开预测 104 场世界杯赛事：德国队或爆冷夺冠

11:22IT之家（RSS）59Cadence 携手 NVIDIA 发布业界首位全自主芯片设计 AI 虚拟工程师

08:00HuggingFace Daily Papers（社区热门论文）69Arbiter Agent：持续监控多智能体对话以检测突现失调

08:00HuggingFace Daily Papers（社区热门论文）45WebChallenger：不依赖模型规模、通过架构设计提升自主网页导航的智能体框架

07:50公众号：数字生命卡兹克61同事件精选微信正在变成Agent时代的操作系统同一事件，精选展示《微信AI官宣内测：两种接入模式供开发者选择》

07:33Hacker News 热门（buzzing.cc 中文翻译）61Ask HN：自AI问世以来你为自己开发了哪些工具？

06:21IT之家（RSS）63完善 Mac 游戏生态：苹果更新工具，借助 AI 加速游戏移植

06:16Claude Code：GitHub Releases（RSS）61同事件精选Claude Code v2.1.169 发布同一事件，精选展示《Claude Code v2.1.163 发布》

05:14Apple：Newsroom（RSS）70精选Apple 推出新智能能力、Xcode 生产力功能及平台改进以辅助应用开发

04:46OpenAI：官网动态（RSS · 排除企业/客户案例）74精选OpenAI 公布让 AGI 造福所有人的计划

03:21IT之家（RSS）53苹果发布 Xcode 27 Beta 与 Core AI 框架，称其为构建 AI 智能体"最佳场所"

03:14Apple：Newsroom（RSS）66同事件精选Apple 推出 Siri AI：由 Apple Intelligence 驱动的更强大、更个性化的个人助理同一事件，精选展示《受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》

02:21IT之家（RSS）71苹果推出 Siri AI：独立 App，为灵动岛优化

01:46Anthropic：Research（发表成果 · 网页）77精选为生物学AI智能体铺路

6月8日周一

23:38TechCrunch：AI（RSS）40WWDC 2026 前瞻：Siri 备受期待的改造、Apple Intelligence 与 iOS 27

23:20IT之家（RSS）67美团接入微信 AI 生态，未来提供外卖等 AI 生活服务体验

23:20IT之家（RSS）48Kimi 官宣将用 300 子 Agent 并行预测 104 场世界杯赛事，德国队或成市场低估黑马

22:09The Decoder：AI News（RSS）62Frontier Radar #3：智能体AI如何将token转化为业务指标

22:02公众号：月之暗面（Kimi）76同事件精选Kimi Code 焕新升级（附视频教程）同一事件，精选展示《Kimi Code 焕新升级（附视频教程）》

21:50Hugging Face：Blog（RSS）62精选开源社区支持 OpenEnv 用于智能体强化学习

21:50Hugging Face：Blog（RSS）57精选五个模型经济体中消失的崩溃：控制与涌现

21:43公众号：月之暗面（Kimi）62精选Kimi Code 焕新升级（附视频教程）

21:20IT之家（RSS）539.9元/月起，字节火山引擎Agent Plan和Coding Plan限时优惠

21:20IT之家（RSS）62携程作为首批内测团队接入微信 AI 生态，聚焦酒旅出行等场景

20:00OpenRouter：Announcements（RSS）63同事件精选OpenRouter Agent SDK 推出 HITL 工具：满足 EU AI Act、Colorado ADMT 与 NIST AI RMF 合规要求同一事件，精选展示《OpenRouter Agent SDK 发布 `create-agent-tui` 与 `create-headless-agent` 技能，可快速搭建个性化编码智能体》

19:12公众号：火山引擎28火山方舟Coding Plan与Agent Plan升级，限时2.5折

18:20IT之家（RSS）63消息称京东首批内测接入微信 AI，涵盖电商、外卖、物流等业务

17:42公众号：数字生命卡兹克71同事件精选微信AI Agent生态曝光：嵌入小程序调用与手机厂商合作同一事件，精选展示《微信AI官宣内测：两种接入模式供开发者选择》

16:38MarkTechPost（RSS）52Google Research 为 Gemini Enterprise Agent Platform 引入 Agentic RAG 与 Sufficient Context Agent 支持多跳查询

16:20IT之家（RSS）73精选微信AI官宣内测：两种接入模式供开发者选择

08:12Simon Willison 博客62datasette-agent-edit 0.1a0 发布

08:00HuggingFace Daily Papers（社区热门论文）42iOSWorld：面向个人化智能手机智能体的基准

08:00HuggingFace Daily Papers（社区热门论文）55Visual Para-Thinker++：一种用于视觉推理的单策略多智能体框架

08:00HuggingFace Daily Papers（社区热门论文）57WeaveBench：面向计算机使用智能体的长时域混合界面基准

08:00HuggingFace Daily Papers（社区热门论文）65τ-Rec：面向智能体型推荐系统的可验证基准

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月9日

14:12

MarkTechPost（RSS）

60

哈佛与Perplexity新研究：AI智能体每会话自主工作26分钟，搜索助手仅33秒

哈佛大学与 Perplexity 联合发表论文，采用匹配对会话方法对比自主 AI 智能体与搜索助手。结果显示，AI 智能体每会话可自主工作 26 分钟，而搜索助手仅能完成 33 秒的自主工作。智能体在自主性、时间效率与成本方面均实现大幅提升，并且尝试的工作范围更为广泛。

智能体搜索论文/研究

13:55

HuggingFace Daily Papers（社区热门论文）

67

SkeMex：通过自进化技能记忆实现可泛化医学智能体推理

SkeMex 是一种部署后自进化框架，通过技能记忆提升医学智能体的临床交互推理能力，无需更新模型权重。它将历史交互轨迹蒸馏为结构化技能（可复用流程知识），组成跨通用、任务特定及行动级的多分支仓库。利用环境反馈估计上下文效用，指导价值感知检索与仓库治理，形成“读取—写入—评估—治理”闭环生命周期。实验表明，在多种临床任务中，SkeMex 在离线和在线设置下均优于代表记忆型智能体，且能跨模型骨干泛化并实现可转移技能记忆。

智能体推理论文/研究

12:55

HuggingFace Daily Papers（社区热门论文）

精选73

OmniGameArena：面向VLM游戏智能体的统一UE5基准与改善动态

OmniGameArena是一个基于十二个Unreal Engine 5新构建游戏的实时基准，涵盖单人（7个）、PvP（3个）和合作（2个）模式，提供统一动作接口。除冷启动排行榜分数外，还引入Improvement Dynamics Curve (IDC)，一种智能体反射评估机制：通过工具调用反射大语言模型自动优化技能提示词，追踪多轮反射中的分数变化以及习得技能在任务变体上的泛化表现。论文报告了12个VLM智能体在冷启动排行榜上的表现，以及4个顶级智能体在IDC下的指标。

智能体多模态论文/研究

推荐理由：在 UE5 里直接测 agent 的自我改进，这个思路让游戏 benchmark 从一次性的刷榜变成动态成长观测，对做多模态 agent 的团队是个新标尺。

12:22

IT之家（RSS）

36

魅族 22 Next"AI 小方块"工程机外观曝光：紫光展锐 T8200、4 英寸机身

魅族今年 1 月公布的 22 Next“AI 小方块”因内存涨价被无限期推迟，但工程机现已现身网络。该机实际定名“MEIZU AI 小方块”，搭载紫光展锐 T8200 芯片，配备 4 英寸聚碳酸酯亮面外壳，运行 Flyme AIOS。官方曾规划数十个场景、超 100 个表情界面的 AI 智能体交互体验，可放入吉利系汽车作为“驾乘机器人”，但最终未能上市。

智能体行业动态

11:55

HuggingFace Daily Papers（社区热门论文）

67

大规模端到端上下文压缩

长上下文语言模型推理受KV缓存内存瓶颈制约。现有压缩方法或大幅降低质量，或耗时耗算力。本文通过架构搜索和从头预训练，在350B tokens上持续预训练了0.6B编码器、4B解码器的模型家族，支持1:4、1:8、1:16压缩比，命名为Latent Context Language Models (LCLMs)。该家族在通用任务性能、压缩速度和峰值内存上提升了帕累托前沿，并能作为长时程智能体的高效骨干，快速扫描压缩后的长上下文并按需展开相关片段。

智能体推理论文/研究

11:40

公众号：月之暗面（Kimi）

47

Kimi 将公开预测 104 场世界杯赛事：德国队或爆冷夺冠

Kimi 通过「Agent 集群」同时调度 300 个子 Agent，从战术、球员、伤病等维度并行分析 104 场世界杯赛事，并公开预测与复盘。模型综合采用 Elo/FIFA 强度模型、Poisson 与 Dixon-Coles 进球分布模型、xG/xT 指标体系、Monte Carlo 模拟等。分析发现德国队夺冠概率被市场低估：基准约 11.0%，校准后约 11.3%，而部分市场隐含概率仅约 7.4%，存在约 +3.6 个百分点的正向偏离。同时推出总奖池 1 万亿 Token 的竞猜活动，并发布 Kimi Work——面向知识工作者的通用型本地 Agent，集成了建站、PPT 等专业 Skills 及 Kimi WebBridge。

智能体推理行业动态

11:22

IT之家（RSS）

59

Cadence 携手 NVIDIA 发布业界首位全自主芯片设计 AI 虚拟工程师

Cadence（楷登）在 COMPUTEX 2026 上宣布，与 NVIDIA 合作推出的 ChipStack AI Super Agent 自主水平达到 Level-5，成为业界首款全自主芯片设计 AI 虚拟工程师。该智能体基于 Cadence AI 驱动 EDA 产品组合与 NVIDIA Nemotron 模型构建，并由 NVIDIA OpenShell 沙箱保障安全，可独立执行规格理解、RTL 生成、验证规划、形式分析、仿真、调试和设计收敛等任务，无需逐步提示，能评估中间结果并自主决策下一步。Cadence 高级副总裁 Paul Cunningham 称，该工具让资深工程师以更高速度和信心推进更具挑战性的设计。

智能体产品更新

08:00

HuggingFace Daily Papers（社区热门论文）

69

Arbiter Agent：持续监控多智能体对话以检测突现失调

提出 Arbiter Agent，在有限 inspection budget 下实时监控多智能体对话，逐步选择等待、质问参与者、检查系统提示或推理轨迹、记录可疑行为，最终报告失调源头。在五种对话条件（风险财务建议模型生物、评估感知、合谋智能体等）下测试五种工具配置和两种骨干模型。结果表明，Arbiter 可在对话结束前可靠检测失调智能体，主动检查工具同时提升检测准确率和速度；weight-induced 失调最难检测，instruction-induced 失调在被动观察下也能可靠识别；记录工具提升召回率但降低精确度。代码已开源。

智能体安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

45

WebChallenger：不依赖模型规模、通过架构设计提升自主网页导航的智能体框架

WebChallenger 围绕核心模块 PageMem（从 DOM 确定性构建的带摘要语义层次页面结构）设计三种机制：分而治之的观测管线（让智能体扫读摘要、仅提取任务相关区域细节）、轻量级网站探索与记忆系统（遍历一次网站即可复用页面与元素行为地图）、以及将多步交互压缩为单步智能体动作的工作流。使用未经微调的开源模型，在 WebArena 上达 56.3%、VisualWebArena 48.7%、Online-Mind2Web 51.0%、WorkArena 70.9%，接近前沿闭源系统但成本极低。代码已开源。

智能体 GitHub 开源/仓库论文/研究

07:50

公众号：数字生命卡兹克

同事件精选61

微信正在变成Agent时代的操作系统

微信近期密集布局AI Agent：据外媒，用户在主界面右滑可唤出Agent对话窗口，自动调用小程序完成点单等任务；与华为、荣耀、小米、OPPO、vivo合作推出A2A助手能力，允许手机语音助理发起微信音视频通话或发送消息；6月8日发布开发者指引，提供自动接入模式，通过GUI Agent帮助数百万小程序实现AI调用。微信试图整合内部小程序生态与外部硬件，成为AI时代的操作系统，并触及Agentic Commerce（代理式交易）模式。

智能体 MCP/工具现象/趋势

同一事件，精选展示《微信AI官宣内测：两种接入模式供开发者选择》

推荐理由：微信 Agent 的拼图今天终于凑齐了，自动改造百万小程序这一步，让微信从聊天工具直接跨向 Agent 时代的操作系统，比当年公众号革命还大。

07:33

Hacker News 热门（buzzing.cc 中文翻译）

61

Ask HN：自AI问世以来你为自己开发了哪些工具？

Hacker News 用户发起讨论，询问大家自 AI 兴起以来为自己开发了哪些个人工具。该提问来自 HN（news.ycombinator.com），获得 100 个点赞，标签为 #Ask HN。

智能体开源生态现象/趋势

06:21

IT之家（RSS）

63

完善 Mac 游戏生态：苹果更新工具，借助 AI 加速游戏移植

苹果在 2026 年 WWDC 主题演讲后推出 Game Porting Toolkit 4，加速游戏移植至 Mac。新版配套上线 GitHub 代码仓库，提供开源 AI 智能体技能与示例代码。这些智能体具备更深入的 Metal 知识，可通过命令行访问 Metal 工具，完成捕获、调试与性能分析。评估环境已支持最新图形接口 Metal 4，便于开发者早期测试兼容性与性能。

智能体产品更新编码

06:16

Claude Code：GitHub Releases（RSS）

同事件精选61

Claude Code v2.1.169 发布

Claude Code v2.1.169 新增 --safe-mode 标志及环境变量，用于禁用所有自定义配置以排查问题；新增 /cd 命令，可在不破坏提示词缓存的情况下切换工作目录；新增 disableBundledSkills 设置隐藏内置技能。修复了企业 MCP 策略在重连、IDE 配置及首次会话中不被强制的问题，以及 macOS 用户每轮约 30–50ms 的 UI 卡顿、Windows 下 claude -p 和 Git 凭证弹窗等多项 bug。改进了任务创建的可靠性，恢复 Vertex/Foundry 默认 5 分钟空闲超时，并降低 CPU 占用。

智能体 Anthropic MCP/工具产品更新

同一事件，精选展示《Claude Code v2.1.163 发布》

推荐理由：全是修 bug 的版本里藏了两个实用命令，/cd 换目录不丢缓存和 safe-mode 跳过所有自定义直接排查，重度用户的小痛点被摸到了。

05:14

Apple：Newsroom（RSS）

精选70

Apple 推出新智能能力、Xcode 生产力功能及平台改进以辅助应用开发

Apple 今天推出了新的智能能力、Xcode 中扩展的生产力功能以及平台改进，旨在协助应用开发。

智能体 Anthropic Google OpenAI

关联讨论 1 条IT之家（RSS）

推荐理由：苹果WWDC放出Xcode 27与多模型Agentic Coding，加上Core AI框架直接跑本地大模型，是今年开发者生态最大新闻，补齐了苹果AI工具箱的最后短板。

04:46

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选74

OpenAI 公布让 AGI 造福所有人的计划

OpenAI 发布计划，阐述让 AGI 造福所有人的愿景。该计划聚焦于 AI 的可及性、安全性和共享繁荣，确保技术进步惠及每个人。

智能体 OpenAI 大佬观点推理

关联讨论 3 条X：Rohan Paul (@rohanpaul_ai)IT之家（RSS）X：Sam Altman (@sama)

推荐理由：Altman 和 Pachocki 把 OpenAI 的下一步讲清楚了，2028 年让 AI 做大部分研究的内部目标很具体，这比任何产品发布都更能说明他们对 AGI 的判断。

03:21

IT之家（RSS）

53

苹果发布 Xcode 27 Beta 与 Core AI 框架，称其为构建 AI 智能体"最佳场所"

在 2026 全球开发者大会（WWDC）上，苹果发布 Xcode 27 Beta 并推出 Core AI 框架。新版 Foundation Models 框架支持图像输入，开发者可将图片与文本一并传给设备端模型，处理多模态任务。Xcode 编码助手升级为智能体式编码工作流，已覆盖应用本地化、与模拟设备交互以及测试与调试环节。苹果软件工程高级副总裁 Craig Federighi 称 Xcode 已成为构建智能体 AI 应用的“最佳场所”。

智能体产品更新多模态编码

03:14

Apple：Newsroom（RSS）

同事件精选66

Apple 推出 Siri AI：由 Apple Intelligence 驱动的更强大、更个性化的个人助理

Apple 发布了 Siri AI，一款由 Apple Intelligence 驱动的个人助理，具备个人上下文、世界知识和屏幕感知能力，能提供更强大、更个性化的交互体验。

智能体产品更新多模态端侧

同一事件，精选展示《受 DMA 影响，Siri AI 在欧盟将随 iOS 27 和 iPadOS 27 延迟上线》

推荐理由：苹果对 Siri 的这次重构不是简单地换个模型，它把个人上下文、屏幕感知和视觉智能实际嵌进了系统，对普通用户来说日常交互方式可能要变。

02:21

IT之家（RSS）

71

苹果推出 Siri AI：独立 App，为灵动岛优化

苹果在 2026 年全球开发者大会（WWDC）上发布 Siri AI，称为“全新版本的 Siri”，具备更强的对话能力和表现力，用户可自定义语速、语气和口音。Siri AI 支持系统范围内读取屏幕内容并与应用互动，配有独立 App，灵动岛会显示大气泡。苹果强调每一步以隐私为重。语音优化同时适用于 CarPlay 和 AirPods，可用于查询演唱会信息、提醒报名抽奖、搜索照片等场景。

智能体产品更新语音

关联讨论 8 条TechCrunch：AI（RSS）X：Kim (@kimmonismus)Apple：Newsroom（RSS）IT之家（RSS）公众号：数字生命卡兹克The Verge：AI（RSS）X：Testing Catalog (@testingcatalog)Apple Machine Learning Research（RSS）

01:46

Anthropic：Research（发表成果 · 网页）

精选77

为生物学AI智能体铺路

一项实验让Claude、Biomni、Edison Analysis、GPT等科研智能体从病毒学数据库NCBI Virus中检索序列数据，即使最强模型也无法稳定达到可靠数据集构建所需的准确率。加入确定性检索层gget virus后，准确率接近100%。研究指出，当前生物学数据基础设施存在碎片化、格式特殊、接口不统一等问题，导致AI智能体难以像在软件领域那样高效工作。确定性检索工具是实现可靠智能体工作流的关键，生物学数据库需为智能体作为规模化用户而设计。

智能体 Anthropic 论文/研究

推荐理由：再强的模型在 NCBI Virus 上检索病毒序列都会翻车，Anthropic 加了个确定性检索层后准确率飙到近 100%。做 AI for science 的人该看看这个基础设施层的解法。

6月8日

23:38

TechCrunch：AI（RSS）

40

WWDC 2026 前瞻：Siri 备受期待的改造、Apple Intelligence 与 iOS 27

苹果 WWDC 2026 临近，Siri 备受期待的改造、Apple Intelligence 和 iOS 27 是本次大会的主要看点。

智能体行业动态语音

23:20

IT之家（RSS）

67

美团接入微信 AI 生态，未来提供外卖等 AI 生活服务体验

微信宣布向开发者提供 AI 生态接入功能，目前处于内测阶段。美团作为首批内测团队，已与微信联合开发并测试接入。未来用户可通过微信 Agent 调用美团外卖等本地生活服务，实现智能便捷的 AI 生活服务体验。此前携程已官宣接入微信 AI 生态，围绕酒店预订、机票等核心场景接入微信 AI Agent。另有传闻称京东也已作为首批内测团队接入。

智能体行业动态

23:20

IT之家（RSS）

48

Kimi 官宣将用 300 子 Agent 并行预测 104 场世界杯赛事，德国队或成市场低估黑马

月之暗面 Kimi 宣布调度 300 个子 Agent 并行分析 104 场世界杯赛事。每个 Agent 有独立视角，覆盖战术、球员、伤病、赛程、历史、舆情、赔率等维度，采用 Elo、FIFA 排名、Poisson、Dixon-Coles、xG/xT、Monte Carlo 模拟、贝叶斯等模型。最终以概率呈现并标注风险，不简单多数决。Kimi 框架认为西班牙、法国是夺冠热门，但模型发现德国队夺冠概率可能被市场低估。历史回测显示高置信度预测准确率约 85%-90%，中等约 55%-65%，低置信度接近随机。官方提示结果不构成投注建议。

智能体产品更新推理

22:09

The Decoder：AI News（RSS）

62

Frontier Radar #3：智能体AI如何将token转化为业务指标

生成式AI商业模式正从月订阅制转向按token消耗计费。智能体工作流消耗数倍于传统对话的token，可自主运行数小时，使固定费率不可持续。token价格因响应速度、专业化程度及结果经济价值而异。本期报告梳理订阅制向消费制迁移、看似低廉的token单价背后的实际成本，以及为何仅凭token消耗量衡量AI价值创造是片面的。

智能体现象/趋势

22:02

公众号：月之暗面（Kimi）

同事件精选76

Kimi Code 焕新升级（附视频教程）

Kimi Code 开源 Coding Agent 迎来大版本升级：一行命令安装，毫秒级启动；新增视频理解能力，支持提取视频风格生成 LUT 文件、长视频切片、根据录屏生成代码；集成同花顺、天眼查等权威数据源，可查询股票价格、财报、学术论文；支持 ACP 协议，可在 JetBrains、Zed 中使用；丰富 hook 生态方便集成其他工具。底层视觉推理由 Kimi K2.6 模型提供。

智能体产品更新开源生态编码

同一事件，精选展示《Kimi Code 焕新升级（附视频教程）》

推荐理由：Kimi Code 这次更新把安装和视频处理的门槛压到了最低，一行命令加拖拽视频就能用，开源 Agent 的体验终于开始反超商业版本。

21:50

Hugging Face：Blog（RSS）

精选62

开源社区支持 OpenEnv 用于智能体强化学习

今日，Hugging Face 宣布 OpenEnv 项目进一步开放，由 Meta-PyTorch、Reflection、Unsloth 等组成的委员会协调，并获得 PyTorch Foundation、vLLM、SkyRL（UCB）等机构支持。OpenEnv 是创建终端、浏览器等智能体执行环境的工具，定位为训练器与环境间的互操作层，标准化环境的发布、部署和消费，但不定义奖励或训练循环。它基于客户端/服务器架构提供 Gymnasium 风格 API（reset()、step()、state()），支持 HTTP、WebSocket、Docker 打包，并将 MCP 作为一等公民，使环境在模拟和生产模式下行为一致。未来将聚焦任务集对接数据集、外部奖励、Harness 集成及自动验证，以推动开源智能体 RL 基础建设。

智能体 Hugging Face MCP/工具 Meta

推荐理由：开源社区在 agent RL 环境上终于开始合流，Meta、Nvidia、Hugging Face 等联合推动 OpenEnv 成为接口标准，不做奖励框架，只做插线板。搞开源 agent 训练的人，这是少有的统一基础设施的机会。

21:50

Hugging Face：Blog（RSS）

精选57

五个模型经济体中消失的崩溃：控制与涌现

用五个不同实验室的AI模型（OpenAI、NVIDIA、OpenBMB及一个自微调的5亿参数模型）各自驱动一个智能体构建经济市场，试图复现此前单一模型下出现的银行挤兑式价格崩溃。结果同一场景下模型不仅不抛售反而囤积，导致价格不跌反涨。通过纯谣言、库存泛滥、加大做空三种方式均无法重现崩溃。最终在结算环节直接覆盖价格，使崩溃成为设计事实。实验表明，AI智能体的涌现行为是偶然的而非稳健的，有效系统需在涌现纹理与确定性控制之间找到精确接缝。

智能体大佬观点

推荐理由：做 agent 的人必读，自己动手构建一个多模型经济体后才发现，涌现行为脆弱，控制要卡在结算层而非输入层，廉价模拟器会给你虚假信心。这篇复盘比成功案例更值钱。

21:43

公众号：月之暗面（Kimi）

精选62

Kimi Code 焕新升级（附视频教程）

Kimi Code 开源 Coding Agent 大版本升级：一行命令安装，毫秒级启动；新增视频理解，可提取参考视频色调生成 LUT、将长视频切分为短视频、根据录屏生成代码；接入同花顺、天眼查等权威数据源，支持实时查询股票价格、财报和学术论文；兼容 ACP 协议，可在 JetBrains、Zed 等 IDE 使用；拓展 hook 生态方便集成。视频理解基于 Kimi K2.6 模型。通过 /plugins 安装 kimi-datasource 插件即可使用权威数据源。

智能体产品更新开源生态编码

推荐理由：Kimi Code 这次把视频理解功能做进了编码工作流，一行安装和 ACP 协议接入让上手成本几乎为零，做视频剪辑和自动化开发的同好值得一试。

21:20

IT之家（RSS）

53

9.9元/月起，字节火山引擎Agent Plan和Coding Plan限时优惠

字节跳动火山引擎宣布Agent Plan和Coding Plan限时优惠，两款套餐均集成MiniMax M3、DeepSeek V4系列、GLM-5.1等模型。即日起至2026年8月27日，新购、升级或续费Coding Plan Lite（原价40元/月）和Coding Plan Pro（原价200元/月），以及Agent Plan Small（原价40元/月）和Agent Plan Medium（原价200元/月），首两个月享2.5折，对应限时价9.9元/月和49.9元/月，第三个月起恢复原价。Agent Plan为火山引擎首推的“Agent套餐包”，内置字节自研Doubao-Seed、Seedance、Seedream模型，支持文本、代码、视频等多模态任务。

智能体编码行业动态

21:20

IT之家（RSS）

62

携程作为首批内测团队接入微信 AI 生态，聚焦酒旅出行等场景

6 月 8 日，微信开放平台发布指引，为开发者提供接入微信 AI 生态的能力，开发者可主动授权接入。携程小程序已作为首批内测开发者完成初步适配，未来将围绕酒店预订、机票查询、旅游度假、出行服务等核心场景接入微信 AI Agent。微信提供两种接入模式：自动模式（授权平台读取小程序源码，无需额外开发）和开发模式（开发者自主个性化开发，通过评测后可被微信 AI 调用），两种模式可同时开启。

智能体行业动态

20:00

OpenRouter：Announcements（RSS）

同事件精选63

OpenRouter Agent SDK 推出 HITL 工具：满足 EU AI Act、Colorado ADMT 与 NIST AI RMF 合规要求

OpenRouter 的 Agent SDK 新增人类参与循环（HITL）工具，用于 AI 智能体的合规监督。该工具可帮助 AI 智能体满足欧盟 AI 法案、科罗拉多州自动化决策技术法（SB26-189）以及 NIST AI 风险框架（NIST AI RMF）的监管要求。

智能体教程/实践部署/工程

同一事件，精选展示《OpenRouter Agent SDK 发布 `create-agent-tui` 与 `create-headless-agent` 技能，可快速搭建个性化编码智能体》

推荐理由：8 月就是欧盟 AI 法案高风险的生效日，这个教程把三个监管框架的 HITL 要求变成可直接复用的代码，做金融医疗代理的开发者该收藏。

19:12

公众号：火山引擎

28

火山方舟Coding Plan与Agent Plan升级，限时2.5折

火山方舟Coding Plan与Agent Plan升级，集成MiniMax M3、DeepSeek V4系列、GLM-5.1等多款三方模型。即日起至2026年8月7日，新购/升级/续费40元、200元档位可享首两月2.5折（9.9元/月、49.9元/月）。MiniMax M3为新一代旗舰，支持100万token上下文窗口及原生多模态理解。Agent Plan为业界首个Agent套餐包，整合字节自研Seed系列模型与Harness工具，免费提供联网搜索和Embedding记忆能力，可配合Claude Code、OpenClaw、TRAE等工具使用。

智能体 DeepSeek 产品更新多模态

18:20

IT之家（RSS）

63

消息称京东首批内测接入微信 AI，涵盖电商、外卖、物流等业务

京东作为首批内测团队率先接入微信AI，将围绕电商、外卖、物流等业务接入微信AI Agent。微信开放平台提供自动模式和开发模式两种接入方式：自动模式由平台读取小程序源码并分析页面，无需额外开发；开发模式允许开发者基于业务特性自主开发，通过审核后可被微信AI调用。

智能体 MCP/工具产品更新

17:42

公众号：数字生命卡兹克

同事件精选71

微信AI Agent生态曝光：嵌入小程序调用与手机厂商合作

腾讯正测试嵌入微信的AI Agent，用户右滑唤出对话窗口，通过自然语言指令调用数百万小程序完成点咖啡等任务。微信还与华为、荣耀、小米、OPPO、vivo合作推出A2A助手能力，可通过手机语音助理发起微信音视频通话或发送消息。6月8日，微信官方发布《关于开发者接入微信AI生态的指引》，提供自动接入模式，利用微信沙箱全自动改造小程序，使其可被AI直接调用。这一布局被视为Agentic Commerce（代理式交易）的雏形。

智能体 MCP/工具现象/趋势

同一事件，精选展示《微信AI官宣内测：两种接入模式供开发者选择》

推荐理由：微信想用Agent把小程序生态变成操作系统，靠Agentic Commerce抽佣，一旦跑通，想象力比广告大得多。

16:38

MarkTechPost（RSS）

52

Google Research 为 Gemini Enterprise Agent Platform 引入 Agentic RAG 与 Sufficient Context Agent 支持多跳查询

Google Research 在 Gemini Enterprise Agent Platform 中推出一个 Agentic RAG 框架。该框架中的 Sufficient Context Agent 会持续重新搜索，直到多跳、多源查询拥有足够的 grounding 来生成回答。相比标准 RAG，该框架将事实准确性最高提升 34%。

智能体 Google 检索增强产品更新

16:20

IT之家（RSS）

精选73

微信AI官宣内测：两种接入模式供开发者选择

微信开发者官方今日发布指引，确认微信AI正在内测阶段。开放平台提供两种接入模式：自动模式可授权平台读取小程序源码，无需额外开发即可让微信AI直接操作页面；开发模式下开发者可自主开发技能，审核后由微信AI调用。两种模式可同时开启。微信AI是微信内的AI助手，用户通过自然语言对话即可调用、访问和操作小程序。服务条款称“微信AI”可能非最终名称。接入与否不影响现有小程序服务。

智能体 MCP/工具产品更新

关联讨论 1 条IT之家（RSS）

推荐理由：微信终于把AI塞进了自家生态，没做聊天机器人而是直接让AI操作小程序，这个方向比所有独立AI助手都更贴近普通人的真实需求，做小程序的得赶紧看了。

08:12

Simon Willison 博客

62

datasette-agent-edit 0.1a0 发布

datasette-agent-edit 0.1a0 插件发布，为 Datasette Agent 提供智能体编辑文本的核心工具。其设计借鉴 Claude text editor，实现三个工具：view（按行号查看文件片段）、str_replace（精确替换唯一字符串）、insert（在指定行号后插入文本）。该插件作为基础组件，可供其他协作 Markdown 编辑、SQL 查询更新、SVG 编辑等插件复用。

智能体 MCP/工具开源/仓库

08:00

HuggingFace Daily Papers（社区热门论文）

42

iOSWorld：面向个人化智能手机智能体的基准

iOSWorld 是首个基于持久用户身份构建的原生 iOS 模拟器基准，包含 26 个新开发的互联应用及 133 个任务，分为单应用（27 个）、多应用（60 个，跨 2–8 个应用）和记忆与个性化（46 个，需从个人数据推断模式）三类。在纯视觉和特权视觉+XML 设置下评估前沿及开源模型，最佳准确率 52%（多应用仅 37%）；特权 XML 使前沿模型提升最多 26 个百分点，小模型未受益。基准已开源发布。

智能体端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

Visual Para-Thinker++：一种用于视觉推理的单策略多智能体框架

Visual Para-Thinker++ 是一种单策略多智能体框架，将共享 MLLM 策略实例化为角色条件化的 Main、Worker 和 Summary Agent。Main Agent 按固定模式分解任务，Worker Agent 在上下文隔离下并行推理，Summary Agent 整合全部 Worker 推理轨迹而非对最终标签进行多数投票。共享策略通过多智能体能力注入和角色解耦多智能体优化训练，为对应 token 片段分配角色特定奖励和优势以减少梯度冲突。推理引擎通过共享视觉前缀和 KV cache 重用实现高效多智能体 rollout。在 V*、CountBench、RefCOCO 系列和 HallusionBench 上，该框架一致优于单轨迹和推理时并行基线，在幻觉敏感任务上增益尤为显著。

智能体 arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

WeaveBench：面向计算机使用智能体的长时域混合界面基准

WeaveBench 包含 114 个任务，覆盖 8 个真实工作领域，要求智能体在单次轨迹中结合 GUI 操作、CLI 与代码执行。评估在真实 Ubuntu 桌面进行，并设计了轨迹感知评判器以检测伪造视觉证据等捷径。前沿模型-运行时组合的最佳 PassRate 仅为 41.2%，表明基准远未饱和；仅依据结果评分会显著高估智能体性能。该基准揭示了当前计算机使用智能体评估的关键缺口。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

65

τ-Rec：面向智能体型推荐系统的可验证基准

τ-Rec 是一个面向智能体型推荐系统的评估基准，用可验证奖励和 reveal-tagged elicitation（RTE）机制替代主观的 LLM-as-a-judge 评估。该基准通过结构化目录谓词测试智能体，并采用 pass^k 可靠性指标衡量一致性推理。对五个模型族（GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Flash、DeepSeek V4 Flash、Qwen3-32B 和 GPT-5 mini）的九种配置评估发现显著的可靠性悬崖：最佳模型在 pass^1 上仅约 57%，在 pass^4 上降至约 38%，暴露出当前对话智能体部署中的关键差距。全部代码和数据已公开。

智能体 arXiv 论文/研究评测/基准

1…13 141516 17…50