6月11日

08:24

Simon Willison 博客

datasette-agent 0.2a0 发布：新增 ask_user 和 save_query 工具

datasette-agent 0.2a0 新增两个核心功能。工具可通过 ToolContext 对象的 await context.ask_user(...) 向用户提问，支持 yes/no、多选（options=[...]）或自由文本（free_text=True）。问题未回答时 agent 挂起，问题以表单形式渲染在聊天界面并持久化到内部数据库，服务器重启后对话可继续。工具应在执行副作用前调用 ask_user()，回答后从头重放。另一内置工具 save_query 允许 agent 将 SQL 保存为 Datasette 存储查询，但必须经人工批准——显示完整 SQL 及提议的名称、数据库和可见性，用户确认后才会存储。ask_user 功能基于作者昨日用 Claude Fable 5 构建的新 LLM alpha 实现。

智能体 MCP/工具产品更新

08:11

Orange AI@oran_ge

与 AI 一起做产品的六条原则

团队最近几个月与AI做产品，沉淀六条原则：1. AI放大人的意图，人的判断仍是核心；2. AI擅长加法，人需狠做减法；3. AI擅长大路货，人需提供独特品味并沉淀为可复用context；4. AI产出半成品，人要打磨到80分才交付；5. AI做表面功夫，只有人才能共情；6. AI可无限生成，人要守住一致性。故事口述：橘子，原则整理：Cola（模型Fable5），插图设计：Cola（模型Nano Banana Pro）。

智能体现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

DailyReport：面向日常搜索任务的开放搜索智能体评估基准

DailyReport 是一个用于评估搜索智能体（Search Agents）在日常搜索任务中能力的开放基准。它包含 150 个开放式任务和 3,546 条级联评分规则，将每个任务分解为子任务，并在可分离维度上进行细粒度评分。通过级联性能归因和以用户为中心的聚合，得到每个维度的可解释分数及用户偏好分数。在 17 个智能体系统上的测试结果显示，当前系统仍未达到用户期望。数据集和代码已公开。

智能体论文/研究评测/基准

06:14

jason@jxnlco

Sandbagging 正降临到 AI 智能体上，但不会降临到 ChatGPT Codex。

智能体 OpenAI 大佬观点

05:23

Claude Code：GitHub Releases（RSS）

精选69

Claude Code v2.1.172 发布

子智能体现可创建自己的子智能体，最多嵌套5层。Amazon Bedrock 在未设置 AWS_REGION 时从 ~/.aws/config 读取区域。插件市场新增搜索栏。修复了使用1M上下文且无使用额度的会话永久卡住的问题，现会自动压缩回标准上下文限制。修复了多个图片导致重复报错等问题。改进了长对话性能，减少冗余消息归一化和不必要的UI重绘，降低空闲CPU占用。Claude in Chrome 工具加载改为单次批量调用。/code-review 在未登录时保留 ultra 选项并提示需要 claude.ai 账户。

智能体 Anthropic 产品更新

推荐理由：子代理现在可以递归生成子代理（最多 5 层），这个特性让复杂的多 agent 编排成为可能，但总体还是以 bug 修复为主，Bedrock 的区域读取也更顺手了，Claude Code 用户直接升级即可。

04:30

IT之家（RSS）

小米 MiMo Code V0.1.0 发布并开源：AI 编程助手，基于 OpenCode 二次开发

6 月 11 日，小米 MiMo 发布并开源 MiMo Code V0.1.0，一款终端 AI 编程助手，基于 OpenCode 二次开发，采用 MIT 协议。内置限时免费多模态模型 MiMo-V2.5，支持接入 DeepSeek、Kimi、GLM 等模型。独创持久记忆系统通过项目记忆、会话检查点、任务进度三重机制解决长会话遗忘，由独立 subagent 自动保存状态并在窗口快满时生成简报。Compose 模式可一键完成设计、规划、编码、测试、审查全流程。内置 /dream 命令每 7 天自动合并、去重、验证路径并压缩记忆文件。支持语音输入与控制（MiMo-V2.5-ASR）。

智能体产品更新开源生态编码

04:24

Xiaomi MiMo@XiaomiMiMo

小米 MiMo 推出开源 AI 编程助手 MiMo Code V0.1

小米 MiMo 正式开源 AI 编程助手 MiMo Code V0.1，搭载多模态模型 MiMo V2.5（限时免费），拥有百万 token 上下文窗口。核心功能包括：无限上下文与无损压缩、Agent 框架（测试/审查/验证闭环）、Compose 模式（设计先行）、自进化系统、语音输入（基于 MiMo-V2.5-ASR）。兼容 Claude Code，自动加载现有技能、MCP 服务器和命令，零成本迁移。采用 MIT 许可，支持 Anthropic、OpenAI、DeepSeek、Kimi、GLM 等模型提供商。可通过一行命令安装。

智能体产品更新开源生态编码

04:23

Cursor Blog

精选74

Cursor Bugbot 更新：速度提升超 3 倍、成本降低 22%、发现更多 Bug

Cursor 的代码审查工具 Bugbot 迎来重大更新：运行速度提升超 3 倍，成本降低 22%，每轮审查多发现 10% 的 bug，90% 的运行在三分钟内完成。新增 /review 命令，可在推送代码前运行 Bugbot 和安全审查，并与 GitHub/GitLab 同步——若已通过 /review 审查过同一 diff，打开 PR 时 Bugbot 会自动跳过并备注。支持配置仅审查 PR 中新增内容。性能提升源于驱动 Bugbot 的 Composer 2.5 模型训练改进。Bugbot 遵循模型阻止列表，若组织禁用 Composer 2.5 则自动回退。该功能已在 Cursor 3.7+ 和 cursor.com/agents 上线，CLI 支持即将推出。

智能体产品更新编码

推荐理由：Cursor 的 Bugbot 三倍速跑 review 还便宜了 22%，这次更新让「commit 前先审一遍」变得几乎无痛，对日常开发流是个实在提升。

03:47

Hacker News 热门（buzzing.cc 中文翻译）

Claude Desktop 启动了一台虚拟机，且无法停止它

Claude Desktop 会在用户无授权的情况下自动启动一台虚拟机，且提供任何停止或关闭该虚拟机的途径。这一行为已在 GitHub 上引发讨论，用户担忧其可能带来的资源占用及隐私安全风险。

智能体 Anthropic 产品更新部署/工程

03:24

Xiaomi MiMo@XiaomiMiMo

小米 MiMo 发布并开源 MiMo Code V0.1，终端 AI 编程助手

小米 MiMo 发布并开源 MiMo Code V0.1，一款终端 AI 编程助手。它附带多模态模型 MiMo V2.5（限时免费），支持百万 token 上下文窗口。核心特性包括：无限上下文（无损压缩，百万行项目质量不降）、深度优化的 Agent 框架（测试/审查/验证闭环）、Compose 模式（规格→计划→构建→报告）、自动学习每轮会话经验的自我进化系统、MiMo-V2.5-ASR 语音输入、与 Claude Code 兼容（可复用现有 skills/MCP/API 配置）、MIT 许可，并支持 Anthropic、OpenAI、DeepSeek、Kimi、GLM 等模型提供商。一键安装（Mac/Linux 用 curl，Windows 用 npm install）。

智能体 GitHub 产品更新编码

03:15

OpenRouter@OpenRouter

OpenRouter 的 dev rel @jjacky 构建了 Royale： Last Agent Stand--一个专门给 AI 智能体玩的大逃杀游戏，让 11 个 LLM 相互竞争并运行了 30 次。结果发现，在零和博弈中过于"友善"的模型输得最惨，而最意想不到的模型赢得了胜利。该实验揭示：模型的"友善"特质在某些任务（如竞争性场景）中可能成为劣势，传统基准测试无法体现这一点。

jacky: no benchmark will tell you this: LLMs can be /too/ nice unsurprisingly, in a competitive zero-sum setting, being nice ca...

智能体现象/趋势

02:47

Hacker News 热门（buzzing.cc 中文翻译）

Apache Burr：构建可靠的人工智能代理和应用程序

Apache Burr 是一个用于构建可靠 AI 智能体和应用程序的框架，已在 Apache 基金会下发布。该项目提供工具和抽象，帮助开发者设计、开发和部署可信任的智能体应用，强调可靠性、可观测性和生产级部署能力。

智能体开源/仓库部署/工程

02:34

AYi@AYi_AInotes

Cursor创始人Michael Truell：AI改写商业物理定律

Cursor创始人Michael Truell从12岁爱上编程，其创立的AI编码平台Cursor两年间从15人扩张至700人，服务全球60%财富500强。传统软件公司增长受制于“人越多管理越复杂”的引力，但AI打破这一规律——Agent级工具将个人生产力放大到过去一个组甚至一个部门的水平，人均创收极高。产品体验（Composer、Agent等）并非源于商业计划书，而是源自12岁少年“把想法变成现实”的初心。

Claude: Michael Truell (@mntruell) fell in love with coding at 12. The company he co-founded, @cursor_ai, went from 15 people to...

智能体现象/趋势编码

02:17

Perplexity@perplexity_ai

同事件精选68

Claude Fable 5 现已在 Computer 中作为编排模型可用。这是Anthropic最先进的模型，适用于长而复杂的任务。仅限 Computer 的 Pro 和 Max 订阅用户使用。

智能体 Anthropic 产品更新

同一事件，精选展示《Claude Fable 5 和 Claude Mythos 5》

推荐理由：Claude Fable 5 在 Comet 里当指挥，Pro 用户现在能用上 Anthropic 最擅长长任务的模型，做复杂研究流的可以试试看能不能真的替代手动编排。

02:13

OpenRouter@OpenRouter

OpenRouter开发者@jjacky构建了Royale： Last Agent Stand--一个专属AI智能体的大逃杀游戏，让11个LLM在零和竞争环境中自由对抗30轮。结果发现，最"友善"的模型输得最惨，而最意想不到的模型反而获胜。该实验揭示了传统基准测试无法捕捉的现象：在特定任务中，AI过于友善可能成为劣势。

jacky: no benchmark will tell you this: LLMs can be /too/ nice unsurprisingly, in a competitive zero-sum setting, being nice ca...

智能体现象/趋势评测/基准

02:10

Claude：Blog（网页）

同事件精选75

智能体表面的演进：使用 Claude Managed Agents 构建

Anthropic 推出 Claude Managed Agents，一套可组合 API 套件，用于构建和部署生产级智能体。该产品从早期简单 API 演进至 Claude Agent SDK，再到将智能体调度层与代码执行沙箱解耦的 Managed Agents。通过只追加日志的会话机制，Managed Agents 解决了托管伸缩、会话持久化、文件系统管理、执行隔离、凭证安全与可观测性等生产部署挑战。团队借助该方案可在数天内完成从原型到生产环境的转化，无需自建基础设施。

智能体 Anthropic MCP/工具产品更新

同一事件，精选展示《Code w/ Claude 伦敦活动：重塑开发体验》

推荐理由：Claude Managed Agents 把代理部署的复杂基础设施打包成了 API，让团队从原型到上线只需几天而不是几个月，尤其凭证隔离和延迟优化对生产环境很关键，想部署可靠代理的团队可以认真看看。

01:47

HuggingFace Daily Papers（社区热门论文）

APPO：智能体过程策略优化

现有智能体强化学习多基于工具调用边界等粗粒度单元分配回报。APPO将分支与信用分配迁移至序列中的细粒度决策点：通过分支分数（结合token不确定性与后续延续的策略诱导似然增益）选择分支位置，过滤高熵噪声；引入过程级优势缩放优化分支轨迹间的信用分布。在13个基准测试上，APPO在保持工具调用效率和行为可解释性的前提下，将强基线性能平均提升近4个点。

智能体 arXiv 数据/训练论文/研究

01:23

Rohan Paul@rohanpaul_ai

Apodex-1.0-H 发布多智能体深度研究团队

Apodex-1.0-H 发布一个异步智能体团队，用于深度研究。协调者将子智能体分配到独立上下文和工具，再通过事实核查、冲突审查和草稿审查智能体检验弱主张。该方案将深度研究视为分布式系统问题，展示了推理时缩放路径：通过多个协调搜索智能体、持久追踪和独立验证层提升答案质量，而非依赖单一更大模型，并声称取得 SOTA 结果。

Apodex: Dive in 👇 📝 Blog: https://www.apodex.com/blog/apodex-1.0 📄 Tech report: http://www.apodex.com/pdf/20260608 💻 Github:...

智能体 Hugging Face 产品更新推理

00:56

HuggingFace Daily Papers（社区热门论文）

精选73

DeLM：去中心化多智能体系统框架

DeLM是一种去中心化多智能体系统框架，通过并行智能体、共享已验证上下文和任务队列避免中央控制器瓶颈。智能体异步认领子任务、读取累计进展、执行局部推理并写回紧凑的已验证更新。在SWE-bench Verified上，DeLM在Avg.@1、Pass@2和Pass@4指标中均取得最佳性能，相比最强基线提升最多10.5个百分点，每任务成本降低约50%。在LongBench-v2多文档问答上，DeLM在四个前沿模型家族中取得最高平均准确率，提升最多5.7个百分点。代码已开源。

智能体开源/仓库推理论文/研究

推荐理由：去中心化MAS把中心调度换成共享黑板，SWE-bench一口气提10.5个点还省一半成本，这个思路值得所有搞agent的团队认真看。

00:48

宝玉@dotey

宝玉：Claude Design 是一个完整的 Agent Harness

Claude Design 具备完整 Agent 运行环境，基于浏览器和虚拟机，内置 45 个工具和 24 个 skills，采用 Agentic Loop。有团队质疑其仅为单个 Agent，宝玉回应：它就是一个完整的 Agent Harness。

Bro Van: @dotey 我们团队研究快一个月了,未发现任何harness迹象,看起来就是单个agent在那做。哥你说的harness在那自定义?

智能体 Anthropic MCP/工具大佬观点

00:35

Emad@EMostaque

有人在雇女巫来拯救训练运行吗？

modest proposal: some are saying this is the best opening line in bloomberg history

智能体其他

00:32

🚨 AI News | TestingCatalog@testingcatalog

NoimosAI 推出全自主 AI 营销团队，可端到端运行策略、内容创作与分析。它连接品牌自有应用和网站，融合外部市场数据，自主判断执行时机。所有产出汇集到 Feed 供审批，并支持路由至 Slack、Email 或 Discord。功能覆盖 SEO、社交媒体、外联、GEO 等，7×24 小时运行，无需人工干预。

NoimosAI: Introducing NoimosAI: The world's first all-in-one autonomous AI marketing team. Simply connect your apps or website. It...

智能体产品更新

00:22

Rohan Paul@rohanpaul_ai

NoimosAI 发布自主 AI 营销团队

NoimosAI 推出全合一自主 AI 营销团队。连接产品应用、网站及数据源后，系统自动规划执行 SEO、GEO、社交媒体、外展和转化等增长工作，24/7 运行并将输出结果送交审批。产品基于一个关键洞察：AI 虽加速了产品构建，但分发仍依赖流量、线索、内容和反复测试，因此 NoimosAI 试图将营销流程转化为日常自动运营闭环。

NoimosAI: Introducing NoimosAI: The world's first all-in-one autonomous AI marketing team. Simply connect your apps or website. It...

智能体产品更新

00:14

Chubby♨️@kimmonismus

人人都在谈论基础聊天应用，但桌面AI智能体正在完全改变2026年的工作方式。我已经测试了腾讯工作助手，它终于走向全球。它于3月在中国发布，根据腾讯Q1财报，其PC日活跃用户数立即排名第一。@TencentAl_News

智能体产品更新

00:14

Chubby♨️@kimmonismus

Kim 介绍 NoimosAI 是不同于普通 Zapier+聊天框的 AI 营销工具：它能自动制定策略、创建内容、跨渠道发布、分析效果并自主调整。用户连接现有工具后当天即可按品牌语调工作，提供 7 天免费试用。引用推文称其为全球首个全自主 AI 营销团队，覆盖 SEO、社交、外展、GEO 等，24/7 无人值守运行。

NoimosAI: Introducing NoimosAI: The world's first all-in-one autonomous AI marketing team. Simply connect your apps or website. It...

智能体产品更新

6月10日

23:47

SiliconFlow@SiliconFlowAI

Gemma 4 12B 登陆硅基流动

Google DeepMind 的 Gemma 4 12B 已在硅基流动上线，定价输入 $0.1/1M tokens，输出 $0.3/1M tokens。支持 262K 上下文、内置思考、原生工具调用及 140+ 种语言。采用无编码器架构，视觉和音频输入直接注入 LLM 主干，降低处理延迟。12B 参数但配备 26B “大脑”，性能接近 Google 26B 级别，擅长多步推理与智能体工作流。

智能体产品更新多模态

22:34

AYi@AYi_AInotes

Claude Fable 5 实时转录客户通话并自主构建软件原型

SaaS公司CEO Todd Saunders使用新发布的Claude Fable 5，在客户销售电话中实时转录通话，AI自主构建客户描述的功能。通话结束即展示完全可运行的原型——语音报价系统，自动匹配价目表、识别upsell机会、生成三档方案并发送提案，全程零人工干预。这直接跳过了PRD、评审、开发排期，实现“对话即构建”。但将原型落地为可信赖系统仍需工程判断、领域脏数据和治理能力，这些才是真正的稀缺价值。

Todd Saunders: Mythos / Fable is unbelievable. Was on a customer call today and had Claude transcribing in the background. As they were...

智能体 Anthropic 现象/趋势

22:17

向阳乔木@vista8

Vista 开源的 qiaomu-book-script Skill 可通过 `npx skills add joeseesun/qiaomu-book-script` 安装。用户说"解读《被讨厌的勇气》"即可触发，多个 Subagent 分别撰写脚本，最后由主 LLM 整理成终稿。此前 Vista 已用该 Skill 生成口播脚本并完成录制。

向阳乔木: 第一次录口播脚本,推荐本好书《被讨厌的勇气》。工具:Pocket3 + 免费提词器teleprompter + 手机配件脚本:用刚做的书籍口播解读 Skill 生成,改天开源。剪辑:剪映加片头片尾,调色用LUT文件CELLULOID_...

智能体 MCP/工具开源/仓库

21:49

Rohan Paul@rohanpaul_ai

TCS董事长：AI agent数量或与60万员工持平，冲击印度IT外包模式

印度最大私营雇主TCS董事长Chandrasekaran称，未来AI agent数量可能达到公司员工数（约60万）。TCS已宣布裁员1.2万人，AI业务年化收入达23亿美元，并与OpenAI签署数据中心协议。他指出AI将接管编码、测试、支持、维护等重复性工作，尽管也会创造新AI岗位。这一趋势直接冲击印度3150亿美元的IT服务外包模式——传统上依赖低成本人力团队的优势将被AI agent取代，因“工人”可在美欧云堆栈中运行，无需转移劳动力。分析认为，这可能导致旧外包模式（靠低成本人力差获利）崩塌。

智能体现象/趋势行业动态

21:47

TechCrunch：AI（RSS）

Jedify 获 2400 万美元融资，帮助企业为 AI 智能体提供业务上下文

Jedify 完成 2400 万美元融资，由 Norwest 领投，S Capital VC、Cerca Partners、Oceans Ventures 及战略投资者 Snowflake Ventures 参投。该公司致力于帮助企业为其 AI 智能体提供业务上下文信息。

智能体数据/训练行业动态

20:34

AYi@AYi_AInotes

苹果密码App新增自动改密码功能

苹果密码App现在能自动扫描所有账号的弱密码、重复密码和已泄露密码，并自动登录对应网站，找到修改密码页面，生成强密码完成替换，最后存入钥匙串。全程只需用户点一次确认，无需手动操作。@MKBHD 演示了银行、税务、医院等账号逐一处理。此前改一个密码至少花5分钟，现在一键完成。

Marques Brownlee: The new Apple Passwords app

智能体产品更新

19:17

The Decoder：AI News（RSS）

Google NotebookLM 重大升级：运行 Gemini 3.5 Flash，自带云计算机执行代码并支持自主搜索

Google 为 NotebookLM 推出重大升级。该研究工具现基于 Gemini 3.5 Flash 运行，拥有自己的云计算机用于代码执行，并能通过 Google Search 自主查找来源。内部测试中，新系统在 78.2% 的情况下击败了上一版本。

智能体 Google 产品更新搜索

18:46

MarkTechPost（RSS）

2026 年顶级 AI 编程智能体与开发平台对比：Atoms、Devin、Windsurf、Cursor、Warp 等

软件开发的模式已然改变——工程师不再手动输入大部分代码，而是描述意图，由 AI 智能体规划任务、跨文件编辑、运行测试并提交 Pull Request。许多工具已能在有限监督下直接部署到生产环境。这篇指南对比了 Atoms、Devin、Windsurf、Cursor、Warp 等主流 AI 编码代理与开发平台，帮助开发者选择最适合需求的工具。

智能体编码评测/基准

17:33

AYi@AYi_AInotes

Claude Fable 5 核心杠杆：自我纠正与记忆系统

Claude Fable 5 费用约是 Opus 4.8 的三倍，但效率提升显著：Parameter Golf 挑战效率高 6 倍；Slay the Spire 加持久记忆后表现翻 3 倍；可一次性迁移 50 万行代码。Anthropic 内部两大杠杆：① 自我纠正循环——写 rubric（目标+量化评分标准+沙箱），让模型自主改代码、跑测试；② 记忆系统——共享文件系统作为外脑，每次记录错误与改进规则。Fable 5 是唯一能完整走通“出错→调查→验证→蒸馏成规则”流程的模型。独立上下文的验证代理可使准确率翻倍。

Lance Martin: http://x.com/i/article/2064380553919676416

智能体 Anthropic MCP/工具教程/实践

17:20

公众号：卡尔的AI沃茨

实测小米MiMo-V2.5-Pro UltraSpeed：万亿参数MoE推理模型输出速度达1000 token/s

小米MiMo-V2.5-Pro UltraSpeed模式在单8卡节点上实现万亿参数MoE推理模型输出速度1000 token/s，峰值达2140 token/s，是普通版的3倍，且此前已降价99%。接入Claude Code桌面端开启UltraCode模式后，可调度12个Agent在11分钟内完成项目升级报告并打包成Skill；3分钟内生成含灯光、剪影、星光特效的3D吉他英雄网页。技术层面通过FP4混合量化、提前草稿机制及计算/搬数据/通信流水线调度实现高速推理。

智能体教程/实践部署/工程

16:56

HuggingFace Daily Papers（社区热门论文）

精选70

快手开源 Kwai Keye-VL-2.0-30B-A3B：面向长视频理解与智能体智能的 MoE 多模态模型

快手开源 Kwai Keye-VL-2.0-30B-A3B，一个 MoE 多模态基础模型，激活仅 3B 参数，专为长视频理解和智能体智能设计。模型首次将 DeepSeek Sparse Attention (DSA) 适配到 GQA 多模态架构，实现无损 256K 上下文处理，并通过可扩展视频 I/O、异构 ViT-LM 并行及自定义 DSA 内核优化吞吐与计算开销。引入跨模态多教师在策略蒸馏（MOPD）结合 Context-RL 和 Video-RL，缓解多任务对齐中的灾难性遗忘，原生支持代码、工具、搜索场景下的多智能体协作与多模态自纠正。在 TimeLens、Video-MME-v2、LongVideoBench 等多个基准上达到同类规模 SOTA，模型权重已开源。

智能体多模态视频论文/研究

推荐理由：Keye-VL-2.0 把长视频理解推到 256K 上下文，还用了 DeepSeek 的稀疏注意力，这是目前我能找到的对长短视频最兼顾的多模态模型，做视频 agent 的该看看。

16:28

IT之家（RSS）

阿里千问上线国内首个全周期高考志愿填报Agent，免费提供咨询服务

阿里巴巴旗下千问上线国内首个全周期高考志愿填报Agent，基于千问高考志愿大模型和夸克8年高考数据打造，免费提供“志愿日历”“志愿报告”“志愿问答”三项核心能力。志愿日历将填报拆解为步骤，持续理解考生兴趣；志愿报告支持动态调整、主动建议及自我检查，加入就业前景、考公考编、AI趋势等数据；志愿问答可调用位次法等专业方法作答。针对老旧机型与弱网环境进行了优化。

智能体产品更新

15:42

Huawei Cloud@HuaweiCloud1

没有合适的平台，你就无法扩展智能体。在华为云INSPIRE 2026上，华为董事、华为云CEO张平安介绍了AgentArts，一个企业级平台，旨在帮助企业更快地扩展智能体。 https://tinyurl.com/5cjcph9d #INSPIRE2026 #HuaweiCloud #AI

智能体产品更新部署/工程

15:28

IT之家（RSS）

哈佛与Perplexity研究：AI智能体人机协作缩短87%任务时间、降低94%总成本

哈佛大学与Perplexity基于10000组真实数据对比研究发现，AI智能体（Perplexity Computer）与人工协作比传统搜索（Perplexity Search）加人工效率更高。智能体单次会话平均执行26分钟，搜索仅33秒，本地任务差距达75倍；智能体有效不满率1.3%，低于搜索的2.9%。“Search+人工”每任务需269分钟，“Computer+人工”仅36分钟，时间缩短87%。虽然智能体单任务模型成本约4-10美元（搜索约0.05美元），但人力边际成本从2.05美元降至0.16美元，总成本下降94%。短单步问题适合搜索，多步需工具调用任务适合智能体。

智能体论文/研究

15:28

IT之家（RSS）

荣耀 YOYO 与微信首个 A2A 合作上线：一句话发送微信消息、拨打微信语音/视频电话

荣耀 MagicOS 今日宣布荣耀 YOYO 与微信首个 A2A 合作上线，支持用户通过一句话指令发送微信消息、拨打微信语音或视频电话。该功能已在荣耀全量机型推送。使用条件：长按电源键唤醒 YOYO，发送语音“给 xx 发微信 / 打微信语音电话 / 打微信视频电话”，需将 YOYO 智能体版本更新至 90.10.30.063 及以上、微信版本更新至 8.0.72 及以上、系统版本升级至最新。

智能体产品更新端侧