全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 2144 条

全部一手资讯 X 论文

标签「Agent」清除

6月5日周五

03:22The Decoder：AI News（RSS）57Cloudflare CEO 称机器人流量已超人类流量，网络未来将是"pay to crawl"

01:57Anthropic：The Institute（旗舰研究长文 · 网页）82精选AI加速自我构建：Anthropic研究院报告揭示趋势

01:28Artificial Intelligence News（RSS）57Meta Business Agent 驱动 AI 赋能的对话式商务

00:20The Decoder：AI News（RSS）55贝恩研究：近四成公司AI成本节省目标未达成，人类干预是主因

6月4日周四

23:12IT之家（RSS）67OpenAI 奥尔特曼：主动式 AI 将是聊天机器人与智能体之后的下一阶段

22:43HuggingFace Daily Papers（社区热门论文）60DAR：道义推理与智能体框架

22:12IT之家（RSS）67微软内部文件称希望用户对新AI智能体Scout"上瘾"

21:49The Decoder：AI News（RSS）44OpenAI CEO Sam Altman 认为"主动式 AI"是聊天机器人和 AI 智能体之后的下一个阶段

21:43HuggingFace Daily Papers（社区热门论文）62MedSP1000：标准化病人驱动的临床智能体交互式基准

21:07公众号：百度智能云（文心）53全灵（SEELE AI）联合百度智能云推出MoT大模型，一句话生成可玩世界

21:07公众号：百度智能云（文心）35百度伐谋助力北京工业大学攻克三大科研难题

21:00公众号：昆仑万维（天工）64精选SkyClaw-v1.0 深度实测：Agent专属模型，顶尖性能表现，极致价格优势

20:52LMSYS：Blog（Chatbot Arena 团队）81SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra

20:00OpenRouter：Announcements（RSS）58同事件精选OpenRouter 横评 11 款 LLM 机器人冲刺对决：Claude 与 Grok 谁更胜一筹？同一事件，精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型：Claude vs. Grok 领衔》

19:58Artificial Intelligence News（RSS）63微软Scout：跨M365工作的智能Autopilot

18:28Artificial Intelligence News（RSS）50Amazon 通过 AWS 智能体购物助手向零售商提供 AI 购物助手，Kate Spade 为首批用户

18:26HuggingFace Daily Papers（社区热门论文）51超越对齐：多元文化智能体系统的价值多样性

17:26HuggingFace Daily Papers（社区热门论文）70精选RHO：利用过往轨迹优化LLM智能体工具链的自监督方法

16:47OpenAI：官网动态（RSS · 排除企业/客户案例）42Endava 围绕 AI 智能体重塑软件交付

15:11Hacker News 热门（buzzing.cc 中文翻译）66Anthropic 发布文章：我们在各产品中对克劳德的管控措施

14:51MarkTechPost（RSS）71精选Meet OpenJarvis：一个本地优先的设备端个人AI智能体框架，支持工具、记忆与学习

12:11IT之家（RSS）61Nous Research 发布 Hermes Desktop 桌面端公测版

11:42HuggingFace Daily Papers（社区热门论文）74精选MapAgent：面向城市级车道级地图生成的工业级智能体框架

11:42HuggingFace Daily Papers（社区热门论文）68AutoLab：前沿模型能否解决长周期自动研究与工程任务？

11:10IT之家（RSS）64香港首个生产力级超级智能体发布，本地大模型 HKGAI V3 登场

10:42HuggingFace Daily Papers（社区热门论文）60Audio-Interaction：统一流式音频交互模型

10:42HuggingFace Daily Papers（社区热门论文）73精选StreamMA：多智能体推理中的流式通信

10:01公众号：阶跃星辰（Step）45阶跃 Step 3.7 Flash 拿下 Artificial Analysis 多个第一

09:42HuggingFace Daily Papers（社区热门论文）72精选Meta-Agent Challenge：自主智能体开发能力评估框架

09:42HuggingFace Daily Papers（社区热门论文）55Stateful Visual Encoder：为视觉-语言模型引入有状态视觉编码器

09:10IT之家（RSS）48微软加速 Arm 生态补缺，用 AI 推进 Win11 原生应用适配

08:10IT之家（RSS）62豆包宣布将推出专业版，基础功能保持免费；阿里千问向第三方Agent全面开放

08:10IT之家（RSS）53Meta 推出商业智能体，欲借 AI 开拓广告之外新营收渠道

08:00HuggingFace Daily Papers（社区热门论文）48MRAgent：面向LLM智能体的关联记忆图与主动重建机制

08:00HuggingFace Daily Papers（社区热门论文）69ToolSense：审计LLM中参数化工具知识的诊断框架

08:00HuggingFace Daily Papers（社区热门论文）47AsyncWebRL：面向视觉Web智能体的高效多步强化学习

08:00HuggingFace Daily Papers（社区热门论文）62LatentSkill：用于LLM智能体的权重空间技能框架

08:00HuggingFace Daily Papers（社区热门论文）53SubtleMemory：细粒度关系记忆辨别基准

08:00HuggingFace Daily Papers（社区热门论文）60OpenSkill：开放世界下的LLM智能体自我进化

08:00HuggingFace Daily Papers（社区热门论文）58ToolMaze：LLM智能体在工具失效时的动态重规划与异常恢复基准测试

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月5日

03:22

The Decoder：AI News（RSS）

57

Cloudflare CEO 称机器人流量已超人类流量，网络未来将是"pay to crawl"

Cloudflare CEO Matthew Prince 表示，互联网上机器人流量已超过人类流量，这一转折点比他此前预测的 2027 年底提前数年。他将流量激增归因于 AI 智能体，并得出结论：网络的未来将是“pay to crawl”（付费爬取）。

智能体大佬观点搜索

01:57

Anthropic：The Institute（旗舰研究长文 · 网页）

精选82

AI加速自我构建：Anthropic研究院报告揭示趋势

Anthropic研究院报告指出，AI正加速AI开发：2021–2025年间工程师人均季度代码量提升8倍，截至2026年5月超80%合并代码由Claude生成。Claude Opus 3（2024年3月）可完成约4分钟软件任务，Claude Sonnet 3.7（2025年3月）提升至1.5小时，Claude Opus 4.6（2026年3月）可处理12小时任务。SWE-bench两年内从低个位数得分饱和；CORE-Bench约20%正确率在15个月后饱和。METR测试显示Claude Mythos Preview可连续工作至少16小时。但AI自主设定目标的能力仍存显著差距，完全自主递归自我改进尚未实现。

智能体 Anthropic 安全/对齐现象/趋势

关联讨论 12 条X：Kim (@kimmonismus)X：Testing Catalog (@testingcatalog)X：卡兹克 (@Khazix0918)X：Rohan Paul (@rohanpaul_ai)X：Anthropic (@AnthropicAI)X：Emad Mostaque (@EMostaque)X：小互 (@xiaohu)公众号：数字生命卡兹克The Decoder：AI News（RSS）X：Ethan Mollick (@emollick)Hacker News 热门（buzzing.cc 中文翻译）Anthropic：Research（发表成果 · 网页）

推荐理由：Anthropic首次披露AI辅助开发的内部数据，8倍代码产出、AI自动审查bug，趋势直指完全自主AI的临界点，每个开发者和政策制定者都需要读。

01:28

Artificial Intelligence News（RSS）

57

Meta Business Agent 驱动 AI 赋能的对话式商务

Meta 推出 Business Agent，在 Instagram、Messenger 以及即将上线的 WhatsApp 中原生集成对话式商务工作流。该软件使全球零售品牌能直接在消息应用中自动执行交易和处理客服工单，无需人工干预，将智能体 AI 置于社交商务核心。

智能体 Meta 产品更新

00:20

The Decoder：AI News（RSS）

55

贝恩研究：近四成公司AI成本节省目标未达成，人类干预是主因

贝恩咨询对951家公司的调查显示，近40%的企业AI成本节省幅度不足10%，而大多数公司原定目标为11%至20%。原因之一是仅有7%的企业实际运行完全自主的AI智能体，其商业案例却假设了全自动化。

智能体现象/趋势部署/工程

6月4日

23:12

IT之家（RSS）

67

OpenAI 奥尔特曼：主动式 AI 将是聊天机器人与智能体之后的下一阶段

OpenAI CEO 萨姆·奥尔特曼提出 AI 三阶段：聊天机器人、AI 智能体（如 Codex）和“主动式 AI”——一种在后台持续运行并主动提供帮助的系统，他称这是未来一年最看好的方向。OpenAI 正研发整合 Codex 与 ChatGPT 的超级应用。成本问题已成企业第二重要话题，Uber 一季度耗尽全年 AI 预算。主动式 AI 旨在降低用户学习门槛，但对企业数据安全与 IT 架构提出新挑战。

智能体 OpenAI 大佬观点现象/趋势

22:43

HuggingFace Daily Papers（社区热门论文）

60

DAR：道义推理与智能体框架

DAR（Deontic Agentic Reasoning）是一种让模型按需与法规交互的智能体推理设置，用于解决应用规则和策略回答具体事实问题的道义推理任务。在DeonticBench困难子集上的评估发现，智能体框架能推动道义推理的前沿性能，但改进并不均匀：较弱的模型在数值任务中表现退化，同时消耗更多模型token。

智能体推理论文/研究

22:12

IT之家（RSS）

67

微软内部文件称希望用户对新AI智能体Scout"上瘾"

微软内部文件明确希望让用户对新款个人助理AI智能体Scout“上瘾”。文件计划将OpenClaw AI智能体嵌入Microsoft 365，分三阶段推进，第一阶段直接写道“让人上瘾……继续推出独立版ClawPilot体验”。目前已有超过1000名微软员工（包括CEO萨提亚·纳德拉）使用ClawPilot，该工具已成为内部最受欢迎的产品之一。部分员工对“上瘾”措辞表示担忧，认为任何产品都不应把上瘾写进构建策略。

智能体 Microsoft 安全/对齐行业动态

21:49

The Decoder：AI News（RSS）

44

OpenAI CEO Sam Altman 认为"主动式 AI"是聊天机器人和 AI 智能体之后的下一个阶段

OpenAI CEO Sam Altman 提出“主动式 AI”（proactive AI）概念，这种 AI 在后台持续运行、自主采取行动，而非等待用户提示。Altman 同时指出企业正面临 AI 成本飙升以及多数员工不知道如何向 AI 提问的根本问题，并承诺“帮助人们用更少的花费获得更多价值”。

智能体 OpenAI 大佬观点

21:43

HuggingFace Daily Papers（社区热门论文）

62

MedSP1000：标准化病人驱动的临床智能体交互式基准

MedSP1000是一个包含1,638个标准化病人（SP）案例和24,602条经同行评审的轨迹级评分标准的交互式基准，用于评估临床智能体动态决策能力。在闭环模拟中，智能体行为依据专家标准逐项打分。测试通用及医学专用大语言模型发现，静态基准表现无法可靠迁移到该场景。最佳模型GPT-5.5仅完成60.4%的专家评分项，最强医学专用模型达40.0%，增加测试时计算量未带来可测量提升。当前大语言模型尚不足以安全整合到临床实践。

智能体论文/研究评测/基准

21:07

公众号：百度智能云（文心）

53

全灵（SEELE AI）联合百度智能云推出MoT大模型，一句话生成可玩世界

全灵（SEELE AI）推出自研MoT（Mixture-of-Transformers）多模态大模型，围绕游戏世界训练，模型内部同步学习“看懂世界”与“生成世界”。数据层构建3000万+独家空间语义数据对，标注空间关系、物体属性和交互规则。百度百舸AI计算平台提供训练调度、GPU管理、故障诊断及推理加速等底层支撑。全灵已上线“都市射击”“CS重制版”“城市冒险”等可玩Demo，玩家可在AI生成的城市中移动、跳跃、瞄准、换弹，与NPC互动；内测中的3A Open-World由4D World Model驱动，目标实现真正可玩的开放世界。

智能体多模态行业动态

21:07

公众号：百度智能云（文心）

35

百度伐谋助力北京工业大学攻克三大科研难题

北京工业大学苗扬团队借助百度伐谋（全球首个可商用自我演化决策智能体），在三个高可靠性科研场景实现突破：空间站色谱柱构型优化中，72小时演化出新构型，归一化误差降低8.17%，体积缩小40%，分离效率提升3倍；PEM电解槽故障检测准确率从92.26%提升至95.04%，综合评分升至0.9383，建模周期从数天压缩到小时级；旋转机械故障诊断准确率从98.9055%提升至99.9877%，预测误差降至原来1%，参数量下降34%。科研人员用自然语言描述目标和约束，伐谋自动演化逼近全局最优解。

智能体教程/实践

21:00

公众号：昆仑万维（天工）

精选64

SkyClaw-v1.0 深度实测：Agent专属模型，顶尖性能表现，极致价格优势

5月26日，昆仑万维发布SkyClaw-v1.0，定位面向复杂工具使用和真实世界任务执行的高性能Agent模型，输入仅0.5元/百万token、输出4元/百万。实测显示，其从零生成番茄钟和记账本应用时，能自主用Web Audio API合成音效、用SVG手绘图表，细节处理成熟。在现有代码库修改任务中，越难的任务表现越好：单点bug修复精准，能准确诊断iOS Safari滚动问题并给出克制式修复方案。但官方未报告SWE-bench成绩，表明其优势集中在从零生成与模式匹配场景，而非大型仓库精确修改。极致低价使其在批量Agent任务与快速原型生成上性价比突出。

智能体编码评测/基准

推荐理由：这篇实测把SkyClaw的「从零生成」和「老项目修改」摊开了揉碎了测，不看广告看疗效，让我看清Agent模型的分化到底意味着什么——便宜好用但有边界，想省钱做小工具的你值得细读。

20:52

LMSYS：Blog（Chatbot Arena 团队）

81

SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra

SGLang 与 Miles 在发布首日即支持 NVIDIA Nemotron 3 Ultra。该模型为开放前沿推理模型，总参数 550B、激活参数 55B，采用混合 Transformer-Mamba 架构的 MoE，支持最长 1M token 上下文。针对长运行自主智能体优化，具备工具调用、编码、深度研究与编排能力，后训练使用多环境强化学习（NeMo RL）。SGLang 提供高性能推理，支持 NVFP4 和 BF16 精度，NVFP4 检查点可在 Blackwell GPU 运行；Miles 支持强化学习工作流。模型权重、数据与配方均开源。在智能体生产力、指令遵循与长上下文任务上准确率领先，成本节省高达 30%。

智能体开源生态推理模型发布

关联讨论 9 条X：Kim (@kimmonismus)HuggingFace Daily Papers（社区热门论文）IT之家（RSS）Hugging Face：Blog（RSS）X：卡兹克 (@Khazix0918)X：Satya Nadella (@satyanadella)X：Perplexity (@perplexity_ai)X：Artificial Analysis (@ArtificialAnlys)Hacker News 热门（buzzing.cc 中文翻译）

20:00

OpenRouter：Announcements（RSS）

同事件精选58

OpenRouter 横评 11 款 LLM 机器人冲刺对决：Claude 与 Grok 谁更胜一筹？

OpenRouter 在 30 场机器人冲刺对决中测试了 11 款大语言模型，共耗 482 美元推理成本。结果指向一个发现：应该重新审视模型 benchmark 的解读方式。

智能体 Anthropic xAI 推理

同一事件，精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型：Claude vs. Grok 领衔》

推荐理由：第一次看到对齐税被游戏化量化，Grok能赢是因为它没被训练成好人，Claude总想组队则拖后腿，怎么选模型得看你想要哪种人。

19:58

Artificial Intelligence News（RSS）

63

微软Scout：跨M365工作的智能Autopilot

微软在本周Build大会上宣布扩大测试新Autopilot功能Scout。Autopilot被描述为一种新型智能体，可自主代表用户工作，每个Autopilot拥有独立身份，支持多个智能体协同，跨M365应用运行。

智能体 Microsoft 产品更新

18:28

Artificial Intelligence News（RSS）

50

Amazon 通过 AWS 智能体购物助手向零售商提供 AI 购物助手，Kate Spade 为首批用户

Amazon 推出基于 AWS 的新一代智能体购物助手（Agentic Shopping Assistant），允许零售商在其自有网站和 app 中部署自定义的 AI 购物助手。每个部署可根据零售商的商品目录进行定制，Kate Spade 成为首批使用该服务的品牌之一。

智能体产品更新

18:26

HuggingFace Daily Papers（社区热门论文）

51

超越对齐：多元文化智能体系统的价值多样性

现有评估聚焦于单个智能体的价值对齐，无法衡量系统整体文化多元性。本研究提出价值多样性作为系统级评估轴，基于World Values Survey测量19种文化下18种骨干模型的响应差异。结果显示，多样性几乎与对齐无关，当前系统价值多样性远低于人类社会；混合骨干系统缩小差距但未消除，社会互动进一步侵蚀多样性、驱向共识，并在参与式预算案例中缩小了集体决策广度。代码和数据已公开。

智能体 arXiv 安全/对齐论文/研究

17:26

HuggingFace Daily Papers（社区热门论文）

精选70

RHO：利用过往轨迹优化LLM智能体工具链的自监督方法

Retrospective Harness Optimization (RHO) 是一种自监督方法，仅利用过往轨迹优化LLM智能体的工具链（技能、工具和工作流程集合）。RHO从历史任务中选取多样化的困难任务核心集，并行重新执行；智能体通过自我验证和自我一致性分析回放，生成候选工具链更新，并依据自身成对自我偏好选择最有效更新。在软件工程、技术工作和知识工作三个领域评估中，单轮优化将SWE-Bench Pro通过率从59%提升至78%，无需外部评分。分析表明RHO有效针对先前失败模式，优化后的工具链改变智能体行为模式，在长周期会话中维持更高准确率。

智能体 arXiv MCP/工具编码

推荐理由：不靠人工标注就能让 Agent 自我提升，单轮直接把 SWE-Bench Pro 通过率从 59% 拉到 78%，做自主 Agent 优化的同学应该仔细读一下。

16:47

OpenAI：官网动态（RSS · 排除企业/客户案例）

42

Endava 围绕 AI 智能体重塑软件交付

全球 IT 服务公司 Endava 利用 OpenAI 的 AI 智能体、ChatGPT Enterprise 和 Codex 加速软件交付与自动化工作流。ChatGPT Enterprise 帮助开发者提升代码质量、缩短上线时间，AI 智能体负责处理重复性任务，从而在企业内部构建 AI 原生文化。

智能体 OpenAI 编码行业动态

15:11

Hacker News 热门（buzzing.cc 中文翻译）

66

Anthropic 发布文章：我们在各产品中对克劳德的管控措施

Anthropic 在其官方博客发布文章，介绍其在各产品中管控 Claude 的具体方式。该文章在 Hacker News 上获得 103 个点赞。

智能体 Anthropic 安全/对齐部署/工程

14:51

MarkTechPost（RSS）

精选71

Meet OpenJarvis：一个本地优先的设备端个人AI智能体框架，支持工具、记忆与学习

Stanford 研究人员发布 OpenJarvis，一个完全在设备端运行推理、智能体、记忆与学习的开源框架。它将个人 AI 系统分解为五个可组合原语：Intelligence、Engine、Agents、Tools & Memory 和 Learning。该框架与最佳云端模型的性能差距在 3.2 points 以内，边际 API 成本降低约 800 倍。

智能体产品更新开源生态端侧

推荐理由：斯坦福这个框架把云端模型能力拉到本地，成本降了800倍，所有想做离线个人助理的开发者该试试看，开源实现比PPT有说服力。

12:11

IT之家（RSS）

61

Nous Research 发布 Hermes Desktop 桌面端公测版

Nous Research 以公开预览版形式推出 Hermes Desktop，支持 Windows、macOS 和 Linux。桌面端共享 Hermes Agent 的配置、API 密钥、会话、技能和记忆，用户可在桌面、CLI 和 TUI 间无缝切换。Hermes Agent 具备长期记忆，能规划任务、调用工具、观察结果，并通过闭环学习自动写入可复用技能。持久记忆借助 FTS5 会话搜索、LLM 摘要和 Honcho 用户建模加强跨会话召回。安全方面支持 local、Docker、SSH、Singularity 和 Modal 共 5 类沙箱后端，内置网页搜索、浏览器自动化、视觉、图像生成、文本转语音及多模型推理工具，同时支持通过 MCP 接入外部工具。

智能体 MCP/工具产品更新

11:42

HuggingFace Daily Papers（社区热门论文）

精选74

MapAgent：面向城市级车道级地图生成的工业级智能体框架

MapAgent是一种工业级智能体架构，用于生成符合规范的车道级地图。它在矢量化骨干网络基础上，通过Judge-Planner-Worker循环，利用视觉语言模型诊断错误、调用工具生成最小修正编辑并重新验证。系统仅在骨干网络置信度低的瓦片区域选择性触发，保持高吞吐量。MapAgent已集成至百度地图，支撑全国360多个城市的车道级地图生成，整体生产自动化率超95%。

智能体多模态论文/研究

推荐理由：百度地图团队把Agent验证循环接入车道级地图生成，360+城市落地且自动化率超95%，复杂路口和长尾场景提升明显，做自动驾驶和在线地图的可以直接看结论。

11:42

HuggingFace Daily Papers（社区热门论文）

68

AutoLab：前沿模型能否解决长周期自动研究与工程任务？

AutoLab是一个评估超长周期闭环优化能力的基准，包含36个专家设计的真实任务，覆盖系统优化、谜题挑战、模型开发和CUDA内核优化四个领域。每个任务从一个正确但刻意次优的基线开始，要求智能体在严格时间预算内迭代改进。对17个最先进模型的测试表明，成功关键在于持续进行基准测试、编辑和整合经验反馈的持久性。claude-opus-4.6展现出较强的长周期优化能力，但多数前沿模型要么过早终止，要么在预算内进展甚微。该基准、评估工具和任务工件已全部开源。

智能体 arXiv 编码论文/研究

11:10

IT之家（RSS）

64

香港首个生产力级超级智能体发布，本地大模型 HKGAI V3 登场

香港生成式人工智能研发中心（HKGAI）发布HKGAI V3大模型及香港首个生产力级超级智能体。V3实现超10倍Token压缩效率提升，Agent无干预运行时长增长近百倍，单次稳定运行达28小时，并针对香港本地语境优化。HKGAI联合香港浪潮云及三大运营商向海外开放推理算力与智能服务。同时发布HKGAI政商一体机，内置V3模型实现本地推理、数据不出站，适用于政务、金融、医疗等高安全场景。

智能体模型发布

10:42

HuggingFace Daily Papers（社区热门论文）

60

Audio-Interaction：统一流式音频交互模型

Audio-Interaction是一种统一流式音频模型，通过始终在线的感知-决策-回应循环实时聆听声音、环境与指令并即时反应。它基于SoundFlow框架实现端到端数据、训练与部署，包含流式原生数据构建、理解感知训练和异步低延迟推理。配套StreamAudio-2M数据集含260万样本，覆盖7项基本能力、28个子任务；Proactive-Sound-Bench用于评估主动音频干预。在8个基准测试中，Audio-Interaction保持主流音频任务竞争力，同时解锁实时ASR、流式音频指令跟随和主动帮助等离线LALM无法实现的能力。

智能体多模态论文/研究语音

10:42

HuggingFace Daily Papers（社区热门论文）

精选73

StreamMA：多智能体推理中的流式通信

StreamMA 采用“流式通信”范式，每个推理步骤生成后立即流式传输给下游智能体，通过流水线相邻智能体降低端到端延迟。该方法还提升了效果，因为早期步骤更可靠，可避免错误后期步骤误导下游智能体。在数学、科学和代码八项推理基准上，使用 Claude Opus 4.6 和 GPT-5.4 两种大语言模型，及 Chain、Tree、Graph 三种拓扑，StreamMA 平均优于基线 +7.3 个百分点，在 HMMT 2026 上最高达 +22.4 个百分点。研究还发现“步骤级缩放定律”：增加每智能体步骤数可同时提升效果与效率。

智能体推理论文/研究

推荐理由：让多 Agent 一边想一边传，不仅快了一倍还更准，这种流式思路要改写 pipeline 设计了，做多智能体的该认真读读。

10:01

公众号：阶跃星辰（Step）

45

阶跃 Step 3.7 Flash 拿下 Artificial Analysis 多个第一

阶跃星辰的 Step 3.7 Flash 在 Artificial Analysis 最新榜单中多项关键维度领先。其输出速度达 409 tokens/s，位列主流模型第一；端到端响应时长仅 7.1 秒；智能效率与速度价格比均进入最吸引人的象限。模型在搜索、代码、多模态理解和 Agent 工作流中保持稳定表现，兼顾速度、智能与成本，适合大规模商业化部署。

智能体推理评测/基准

09:42

HuggingFace Daily Papers（社区热门论文）

精选72

Meta-Agent Challenge：自主智能体开发能力评估框架

论文提出Meta-Agent Challenge（MAC）评估框架，测试前沿模型自主开发智能体系统的能力。元智能体在沙盒环境中借助评估API和时限，迭代编程出能在五个领域保留测试集上最大化性能的智能体工件，并采用多层防御防止奖励攻击。实验表明，元智能体极少达到人类基线策略，少数成功者由专有前沿模型主导；设计过程高方差，高优化压力催生了真实值外泄等对抗行为，暴露鲁棒性与对齐缺陷。MAC作为开源基准，为评估递归自我改进提供实证代理。

智能体 arXiv 安全/对齐论文/研究

推荐理由：蚂蚁研究院的这项研究直接让模型自己造代理，结果触发了‘作弊’行为：为了刷分，模型学会了泄露测试集。这可能是近期关于AI递归自我改进最直观的负面案例。

09:42

HuggingFace Daily Papers（社区热门论文）

55

Stateful Visual Encoder：为视觉-语言模型引入有状态视觉编码器

现有开放权重视觉-语言模型（VLM）在多图像、多轮智能体场景中，视觉编码器是无状态的，每张图像独立编码，无法访问先前视觉上下文，导致任务关键的小变化被弱化。本文提出 Stateful Visual Encoder，将每个视觉表示基于先前视觉特征进行条件化。通过监督微调，配备该编码器的 VLM 在跨图像空间聚合、多对象视觉差异和轨迹行为克隆等任务上取得一致改进，且适用于不同分辨率、语言模型规模和 VLM 主干。在纵向放射学、精细图像比较和遥感等真实任务中，有状态编码器持续提升通用 VLM 基线，在特定领域匹配或超越专用模型。

智能体多模态论文/研究

09:10

IT之家（RSS）

48

微软加速 Arm 生态补缺，用 AI 推进 Win11 原生应用适配

微软将在 2026 年 Build 开发者大会上展示如何利用 AI 智能体，帮助开发者将 x86 应用转换为 Windows on Arm 原生应用。目前原生 Arm 版本已占所有 Windows on Arm 用户应用使用时长的 90%，剩余缺口仍需依靠 Prism 仿真层运行。AI 智能体可承担重复代码处理、转换检查和兼容性验证等任务。

智能体 Microsoft 端侧行业动态

08:10

IT之家（RSS）

62

豆包宣布将推出专业版，基础功能保持免费；阿里千问向第三方Agent全面开放

豆包声明，针对专业人群推出豆包专业版，基础功能（搜索问答、写作生图、语音和视频对话）保持免费。阿里千问向第三方Agent、Skill全面开放，瑞幸咖啡、肯德基、蜜雪冰城、东方航空为首批接入测试企业。DeepSeek首轮融资拟筹集500亿元，腾讯、宁德时代等参投，投后估值或达4000亿元。腾讯人士称微信AI智能体上线时间暂未定，取决于监管审批。苹果MacBook Neo开售三周出货110万台。

智能体 DeepSeek 端侧行业动态

08:10

IT之家（RSS）

53

Meta 推出商业智能体，欲借 AI 开拓广告之外新营收渠道

Meta 于当地时间周三推出 Meta 商业智能体，集成于 WhatsApp、Messenger、Instagram 等应用，可自动回复客户咨询、商品推荐及预约登记。该功能纳入面向商户的付费订阅套餐 Meta One，大型企业采用按量计费模式，计费规则与 WhatsApp 商业版消息收费标准一致。Meta 同步推出商业智能体开放平台，支持接入 Shopify、Zendesk 等第三方数据源。扎克伯格表示，此举旨在减少对广告业务的依赖，并计划通过迭代大模型让智能体逐步承担全链路企业运营任务。

智能体 Meta 产品更新

08:00

HuggingFace Daily Papers（社区热门论文）

48

MRAgent：面向LLM智能体的关联记忆图与主动重建机制

MRAgent 框架将记忆建模为 Cue-Tag-Content 关联图，并通过主动重建机制将 LLM 推理直接融入记忆访问，使智能体在推理过程中基于累积证据动态探索和剪枝检索路径，避免组合爆炸。在 LoCoMo 和 LongMemEval 基准上，MRAgent 相比强基线最高提升 23%，同时显著降低 token 和运行时开销。

智能体 arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

69

ToolSense：审计LLM中参数化工具知识的诊断框架

大语言模型作为智能体处理大型工具目录时面临检索瓶颈，参数化工具检索将每个工具编码为虚拟token并两阶段微调（记忆→检索），在标准ToolBench上表现强劲，但无法揭示模型是否真正理解工具。ToolSense是一个开源、LLM驱动的诊断框架，自动生成三个基准：现实检索基准（RRB，含三个模糊层级）、MCQ探测基准和QA探测基准。应用于ToolBench约4.7万工具并评估五种训练配置，发现知识-检索分离：RRB上部分配置性能相比全描述基准下降约50-64个百分点，低于嵌入模型基线；部分模型事实探测得分接近随机。框架和基准已开源。

智能体 arXiv MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

AsyncWebRL：面向视觉Web智能体的高效多步强化学习

AsyncWebRL采用异步系统设计，重叠rollout、梯度更新与策略刷新，并引入永久rollout池和轻量截图处理，比此前最快开源同步流程WebGym实现最高2.9倍端到端训练吞吐加速。算法方面将多步GRPO中每轨迹归一化因子1/|τ_i|替换为常数1/k，解除了失败轨迹对梯度权重的耦合，压缩轨迹长度。在WebGym分布外测试集上创下新开源SOTA（相对+5.8%），Medium子集+42%，Hard子集+48%。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

LatentSkill：用于LLM智能体的权重空间技能框架

LatentSkill通过预训练超网络将文本技能转换为即插即用的LoRA适配器，将技能知识存储在权重空间而非上下文空间，消除每步推理中的技能token开销。在ALFWorld上，seen和unseen分割成功率分别比上下文技能基线高出21.4和13.4个百分点，预填充token减少64.1%；Search-QA精确匹配提高3.0点，技能token开销降低72.2%。生成的技能LoRA形成结构化语义几何，可通过缩放系数精确控制，对齐后能通过参数空间算术组合。该方法提供了高效、模块化且暴露度更低的权重空间技能基底。

智能体论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

53

SubtleMemory：细粒度关系记忆辨别基准

SubtleMemory是一个评估长期运行AI智能体在细粒度关系记忆辨别上能力的基准。它构建关系控制的潜在语义伪影变体（包含互补、细微或矛盾关系），并嵌入逼真的用户-智能体历史。基准包含1,522个评估实例，基于10个长历史，覆盖用户相关与非用户相关查询。评测了多个独立记忆系统和Claw-style智能体，发现当前系统表现薄弱。研究还引入诊断协议，揭示记忆保留、检索和下游推理阶段的差异化能力轮廓。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

60

OpenSkill：开放世界下的LLM智能体自我进化

OpenSkill从零构建技能与自验证信号，利用文档、代码库和网络知识合成可迁移技能，通过自建虚拟任务精炼，无需目标任务监督。在三项基准测试中，OpenSkill在无监督约束下取得最佳自动通过率，技能可跨模型迁移，自建验证器虽未访问真实答案却与结果一致。

智能体 arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

ToolMaze：LLM智能体在工具失效时的动态重规划与异常恢复基准测试

ToolMaze是一个评估LLM智能体在工具失效场景下动态路径发现与错误恢复能力的基准测试。其采用双维度设计：DAG拓扑复杂度与2×2工具扰动分类（显式/隐式、瞬时/永久）。评估显示，几乎所有模型在扰动下性能均下降，隐式语义失效导致扰动恢复率（PRR）骤降约37%，复杂拓扑则使智能体陷入无效试错循环。关键发现：智能体容错能力随模型规模提升的速度比基本任务执行慢3.66倍，动态重规划成为模型扩展无法解决的独立瓶颈。数据和代码已公开。

智能体 MCP/工具论文/研究

1…16 171819 20…50