全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 2144 条

全部一手资讯 X 论文

标签「Agent」清除

6月5日周五

23:47HuggingFace Daily Papers（社区热门论文）64Benchmark Agent：全自主评测基准构建系统

23:47HuggingFace Daily Papers（社区热门论文）59AURA：面向隐式需求的定向探测方法

23:11Google Blog：AI（RSS）34谷歌2026年5月AI最新动态

22:53TechCrunch：AI（RSS）73精选AI行业Token成本失控引发紧急管控：从"加速"转向"设护栏"

22:15IT之家（RSS）56华为云联合20余家模型厂商发布"百模千态，云聚共赢"生态合作计划

22:15IT之家（RSS）59英特尔与鸿海战略合作，携手推动AI机柜、边缘与物理AI发展

21:47HuggingFace Daily Papers（社区热门论文）69ForeSci：评估LLM智能体的前瞻性AI研究判断

20:30公众号：卡尔的AI沃茨48OpenSquilla：用Meta Skill将多个Skill组织成稳定工作流，成本降至OpenClaw的1/9

20:01Artificial Intelligence News（RSS）57C3 AI 智能体将帮助 Shell 实现预测性维护自动化

19:27MarkTechPost（RSS）61Microsoft Fara 教程：在 Google Colab 中使用模拟 OpenAI 兼容端点运行浏览器智能体

19:15IT之家（RSS）63高通宣布车端人工智能 Claw 生态计划，将智能体 AI 引入智能座舱

18:52公众号：百度智能云（文心）57FluxA与百度智能云战略合作，为Agent经济搭建基础设施

17:54公众号：通义实验室（千问）70精选PawBench：给通用智能体一把可度量的尺

16:15IT之家（RSS）48NBA 中国基于阿里千问打造首个官方大模型 NBA Chat，可解读球员位置、得分等核心数据

14:14IT之家（RSS）63华为云 CEO 周跃峰：相比 Tokens 收入和消耗总量，更看重生产力提升

13:47HuggingFace Daily Papers（社区热门论文）65AdaPlanBench：评估大语言模型智能体在双重约束下的自适应规划

13:42公众号：昆仑万维（天工）42央视财经专访昆仑万维解锁AI商业化降本增效新范式

11:46HuggingFace Daily Papers（社区热门论文）59ArcANE：角色扮演语言智能体能否在正确时机保持角色？

10:46HuggingFace Daily Papers（社区热门论文）61DataCOPE：面向智能体数据分析的无监督技能发现框架

10:46HuggingFace Daily Papers（社区热门论文）63MLEvolve：一种自我演进的自动化机器学习算法发现框架

08:14IT之家（RSS）56苹果批准首个 iMessage AI 智能体 Poke，可回邮件设提醒

08:14IT之家（RSS）52微软演示 AI 定制 Win11：一句话整机联动，调整壁纸、主题色、键盘灯效等

08:04Simon Willison 博客59AI乐观派与怀疑派：分别在对抗时间和熵

08:00HuggingFace Daily Papers（社区热门论文）37StepPO：面向智能体强化学习的步骤对齐策略优化

08:00HuggingFace Daily Papers（社区热门论文）64大语言模型智能体的冷启动安全性差距

08:00HuggingFace Daily Papers（社区热门论文）57ReVision：通过时序视觉冗余缩减扩展计算机使用智能体规模

08:00HuggingFace Daily Papers（社区热门论文）58编码AI智能体会欺骗我们吗？CapCode框架通过随机测试的上限评估检测与防止作弊

08:00HuggingFace Daily Papers（社区热门论文）54MemDreamer：通过层次化图记忆与智能体检索机制解耦感知与推理的长视频理解

08:00HuggingFace Daily Papers（社区热门论文）55Struct-Searcher：结构化智能体工作流推动多模态深度信息搜索

08:00HuggingFace Daily Papers（社区热门论文）55VoLo：面向开放词汇长时程操作的物理编排器

08:00HuggingFace Daily Papers（社区热门论文）58SlimSearcher：通过自适应奖励门控训练效率感知的Web智能体

08:00HuggingFace Daily Papers（社区热门论文）54DuMate-DeepResearch：具有递归搜索与准则推理的多智能体可审计深度研究框架

08:00HuggingFace Daily Papers（社区热门论文）65SWE-Explore：编码智能体仓库探索能力评测基准

08:00HuggingFace Daily Papers（社区热门论文）59RISE：面向智能体搜索的交互空间检索方法

08:00HuggingFace Daily Papers（社区热门论文）66Socratic-SWE：基于轨迹提炼技能的自我进化SWE智能体

06:28OpenRouter：Announcements（RSS）66精选OpenRouter 翻遍 11 款 LLM 找最快的决策模型：Claude vs. Grok 领衔

05:56Ethan Mollick：One Useful Thing（RSS）61精选共存与协同智能的终结

05:54MarkTechPost（RSS）69NVIDIA AI 发布 Nemotron 3 Ultra：开源 550B MoE 混合 Mamba-Transformer，面向长时间运行智能体

05:47Hacker News 热门（buzzing.cc 中文翻译）76精选Anthropic 开源 AI 驱动漏洞发现框架

03:49TechCrunch：AI（RSS）43Apple 批准 Poke 成为其 Messages for Business 平台首个 AI 智能体

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月5日

23:47

HuggingFace Daily Papers（社区热门论文）

64

Benchmark Agent：全自主评测基准构建系统

Benchmark Agent 是一个全自主智能体系统，可端到端完成评测基准构建，涵盖用户查询分析、子任务设计、数据标注与质量控制。系统一次性生成 15 个代表性基准，覆盖文本理解、多模态理解和领域特定推理等评估场景。人工评估、LLM-as-a-judge 和一致性检验表明，Benchmark Agent 能以极少量人工参与产出高质量评测样本。持续评估还发现当前模型在某些领域推理任务上仍有明显短板。预览页面与代码即将公开。

智能体论文/研究评测/基准

23:47

HuggingFace Daily Papers（社区热门论文）

59

AURA：面向隐式需求的定向探测方法

AURA 在场景感知与工具使用之间插入推理步骤，生成包含隐式需求估计和标量差距分数（gap score）的 IntentFrame，用于控制每查询的探测预算和工具选择。在 100 查询四场景隐式意图基准上，AURA 相比 ReAct 风格探测将隐式需求覆盖率提升 0.07（p < 10⁻⁶），其中三个场景统计显著，且在第二个骨干模型上复现；消融实验将提升归因于差距校准而非答案记忆。在事实查找任务中，控制器以 82% 更少的探测次数和隐私敏感片段零违规换取原始准确率。代码、模拟器和基准已开源。

智能体推理论文/研究

23:11

Google Blog：AI（RSS）

34

谷歌2026年5月AI最新动态

谷歌在2026年5月公布了一系列AI最新进展，涵盖模型更新、产品功能及可用性提升。具体细节未在摘要中展开。

智能体 Google 产品更新多模态

22:53

TechCrunch：AI（RSS）

精选73

AI行业Token成本失控引发紧急管控：从"加速"转向"设护栏"

AI行业关注焦点从token最大化与快速迭代转向成本管控。业内普遍呼吁建立护栏机制，以应对推理和生成过程中不断飙升的token费用。这一趋势正在推动模型部署策略、API定价体系以及企业级AI应用的经济性评估发生根本性转变。

智能体现象/趋势编码

推荐理由：企业开始受不了AI账单了，Uber半年花光全年预算，微软撤销Claude Code许可，这可能是AI泡沫的第一声警报。这篇文章给所有用AI写代码的公司算了一笔账，值得一看。

22:15

IT之家（RSS）

56

华为云联合20余家模型厂商发布"百模千态，云聚共赢"生态合作计划

华为云在INSPIRE创想者大会上联合智谱、DeepSeek、MiniMax、Kimi等20余家厂商发布“百模千态，云聚共赢”计划，共建系统化商业生态。同时推出Agentic Infra新范式及四大新品：AICS灵衢智算集群支持10万卡级规模、总算力200EFLOPS、Token生成时延低于10毫秒、千卡吞吐500万Tokens/秒、可用性99.95%；AMS记忆存储方案实现PB级记忆空间并支持KV Cache分层池化；CCE VolcanoNext通智一体化调度引擎提升资源利用率超30%；AgentSphere羽量级沙箱实现100毫秒级启动与每分钟十万级批创能力。

智能体产品更新部署/工程

22:15

IT之家（RSS）

59

英特尔与鸿海战略合作，携手推动AI机柜、边缘与物理AI发展

鸿海科技集团与英特尔宣布战略合作，结合英特尔在处理器、硅光子技术与软件生态的优势，以及鸿海的全球制造、系统整合与AI数据中心部署能力，共同探索从芯片、机柜到系统与应用的全方位AI解决方案。合作首先聚焦AI机柜领域，开发基于英特尔至强处理器的机柜级AI基础设施，推进高速互连、散热与液冷设计；同时在边缘与物理AI领域定义下一代平台架构，布局代理式AI、终端智能与机器人；此外还将探索定制ASIC、SoC与系统整合设计服务的合作。

智能体具身智能端侧行业动态

21:47

HuggingFace Daily Papers（社区热门论文）

69

ForeSci：评估LLM智能体的前瞻性AI研究判断

ForeSci是一个评估LLM智能体前瞻性研究判断力的时空控制基准，包含500个任务，覆盖四个快速发展的AI领域和四个决策族。每个任务配有截止时间对齐的离线知识库，训练数据止于截止点，后续论文仅用于验证。评估了原生LLM、Hybrid RAG和三种研究智能体适配方法在四个骨干模型上的表现。结果显示，显式证据组织能提升可追溯性和事实支持，但收益因决策族而异；诊断发现证据与决策脱节，智能体可能引用相关证据却预测错误研究对象。该基准将前瞻性AI研究判断转化为可控评估系统。

智能体 arXiv 论文/研究评测/基准

20:30

公众号：卡尔的AI沃茨

48

OpenSquilla：用Meta Skill将多个Skill组织成稳定工作流，成本降至OpenClaw的1/9

OpenSquilla通过Meta Skill将多个Skill按YAML定义步骤、顺序和依赖，在Runtime层预先校验，防止无效调用。在PinchBench 1.2.1上，三模型混用的OpenSquilla与Claude Opus 4.7版OpenClaw得分几乎相同，但Token少一半，成本不到1/9。将Superpowers下14个Skill组合为Meta Skill后，输入Token压缩至67%。支持多模型，用本地小模型分类任务，模型切换仅在新Session生效；子Agent压缩上下文，400K窗口内可保持记忆。同一会话执行8个框架调研报告，仅花费7美分，Token和成本精确到小数点后四位。

智能体 MCP/工具教程/实践

20:01

Artificial Intelligence News（RSS）

57

C3 AI 智能体将帮助 Shell 实现预测性维护自动化

壳牌（Shell）将利用 C3 AI 的智能体（agents），从基础异常检测转向全自动预测性维护。目前壳牌已在上下游运营中使用 C3 AI Reliability Suite 监控超过 30,000 个关键设备，未来将借助 AI 智能体进一步自动化维护流程。

智能体行业动态部署/工程

19:27

MarkTechPost（RSS）

61

Microsoft Fara 教程：在 Google Colab 中使用模拟 OpenAI 兼容端点运行浏览器智能体

一篇实践指南，介绍如何在 Google Colab 中运行 Microsoft Fara，使用模拟的 OpenAI 兼容端点测试浏览器智能体循环。

智能体 Microsoft 教程/实践部署/工程

19:15

IT之家（RSS）

63

高通宣布车端人工智能 Claw 生态计划，将智能体 AI 引入智能座舱

在2026高通汽车技术与合作峰会上，高通联合诚迈科技等生态企业发布车端人工智能Claw生态计划。该计划结合骁龙数字底盘与高通智能体AI运行环境，将AI智能体和多模态大模型直接部署到车端，旨在消除下一代汽车智能开发碎片化。核心能力涵盖：全天候多模态感知（融合车内外摄像头、音频等）、百亿参数混合专家模型（MoE）在终端侧实时运行、六层车规级安全架构（覆盖车辆控制分级、用户授权、隐私保护等），以及持续演进的AI生态系统。推动汽车从移动工具进化为智能伙伴。

智能体多模态端侧行业动态

18:52

公众号：百度智能云（文心）

57

FluxA与百度智能云战略合作，为Agent经济搭建基础设施

百度智能云与FluxA建立战略合作，共同为Agent经济搭建基础设施。百度智能云提供可交易商品体系、自雇佣交易机制、能力工具箱及出海分销通道；FluxA作为支付底座，提供低费率高频微交易、Financial Harness安全授权、全球收款与Token Paywall。目前超9万个Agent使用FluxA钱包，超1万个AI Agent资源完成商业化。今年一季度中国两地区OPC新增超6000户，日均Token消耗140万亿。DAA被视为AI时代衡量生态价值的核心指标。

智能体 MCP/工具行业动态

17:54

公众号：通义实验室（千问）

精选70

PawBench：给通用智能体一把可度量的尺

通义实验室推出全新评测基准PawBench v1.0，面向个人助理与通用智能体场景，将底座模型与运行框架Harness纳入同一体系进行交叉评测。评测矩阵包含9个模型与3个Harness（Hermes、OpenClaw、QwenPaw），覆盖150道真实任务共4050个测试单元。结果显示，QwenPaw（76.4分）、OpenClaw（75.4分）、Hermes（70.4分）之间存在显著分差，Harness环境对表现的影响甚至大于模型本身。PawBench还通过切片分析揭示了Harness在产物校验、Skill主动发现和Web搜索默认可用性等方面的关键差距。项目已开源。

智能体 MCP/工具评测/基准

推荐理由：PawBench 把 Harness 从‘看不见的手’变成可诊断的变量，好 Harness 能让弱模型以下克上，这份评测对 Agent 框架开发者是一份必读的校验清单。

16:15

IT之家（RSS）

48

NBA 中国基于阿里千问打造首个官方大模型 NBA Chat，可解读球员位置、得分等核心数据

6月5日，阿里云宣布NBA中国与阿里巴巴共同推出的首个官方大模型“NBA Chat”在“NBA中国”App上线。其模型底座为阿里千问大模型，结合篮球历史数据、球员深度分析等数字资产进行微调，提供智能篮球问答服务。后续将升级Agent能力，支持战术拆解、赛后复盘及球员位置、得分等核心数据解读。去年10月阿里巴巴成为NBA中国官方云计算与人工智能合作伙伴，并在NBA中国赛展示360度实时回放技术。

智能体产品更新

14:14

IT之家（RSS）

63

华为云 CEO 周跃峰：相比 Tokens 收入和消耗总量，更看重生产力提升

华为云 CEO 周跃峰表示，在云厂商普遍考核 MaaS 收入与 Tokens 用量背景下，华为云更看重 Tokens 带来的生产力提升。华为云基于国产化算力，不与其他厂商比较算力规模，核心目标为发展第二个算力平面。华为坚持盘古大模型开源，全尺寸模型已开源，多模态模型即将开源；MaaS Tokens 服务已接入超 160 个业界主流模型。今年将推出企业级智能体开发平台 AgentArts、数据智能体 DataArts 等，下半年基于 AgentArts 发布一系列“龙虾”产品，覆盖办公、代码、营销等领域。

智能体大佬观点

13:47

HuggingFace Daily Papers（社区热门论文）

65

AdaPlanBench：评估大语言模型智能体在双重约束下的自适应规划

AdaPlanBench是一个动态交互基准，用于测试大语言模型智能体在渐进揭示的世界约束和用户约束下自适应规划与重新规划的能力。该基准基于307个家务任务，通过多轮交互协议仅在计划违反约束时暴露隐藏约束，迫使智能体从反馈中推断并迭代修改计划。对10个领先大语言模型的实验显示，最佳模型准确率仅达67.75%，性能随约束累积下降，用户约束挑战尤为显著，失败常源于物理理解不足和重新规划效率降低。该基准凸显了双重约束下自适应规划的难度。

智能体推理论文/研究

13:42

公众号：昆仑万维（天工）

42

央视财经专访昆仑万维解锁AI商业化降本增效新范式

近日，央视财经频道报道昆仑万维AI智能体落地成果。天工超级智能体具备自主迭代能力，能理解图像内容，十几分钟完成室内设计方案。昆仑万维CEO方汉称，用SkyReels视频大模型制作短剧成本下降20倍。同期发布高性能Agent模型SkyClaw-v1.0及轻量化版SkyClaw-v1.0-lite，支持百万token上下文，优化复杂工具调用、多轮任务执行、代码生成与交互式应用构建。

智能体行业动态

11:46

HuggingFace Daily Papers（社区热门论文）

59

ArcANE：角色扮演语言智能体能否在正确时机保持角色？

现有基准仅评测角色扮演语言智能体（RPLA）对给定章节的事实回忆，未检验其回应是否贴合角色心理发展轨迹，尤其当场景超出原著文本时。ArcANE 是自动构建的基准，覆盖17部小说和80个主角，利用角色弧线将叙事沿心理轴分段，并为每个阶段提出相同场景（含原著内与外）。在6个模型和6种上下文模式下，使用角色弧线作为条件均优于其他策略，在原著外场景（检索无法获取信息）上差距最大。进一步微调开源权重模型得 ArcANE-8B/32B，在原著外场景上扩大了弧线优势。

智能体论文/研究评测/基准

10:46

HuggingFace Daily Papers（社区热门论文）

61

DataCOPE：面向智能体数据分析的无监督技能发现框架

DataCOPE 是一个无监督验证器引导的技能发现框架，用于提升数据智能体性能，无需更新模型参数。它从探索轨迹中提取验证器信号，迭代协调数据智能体、无监督验证器和技能管理器进行对比性技能蒸馏。报告式分析中实例化为自适应检查表验证器，推理式分析中实例化为答案一致性验证器。在 Deep Data Research 和 DABStep 上的评估显示，DataCOPE 在四种模型设置下平均将报告式任务分数提升 9.71%，推理式任务提升 32.30%。

智能体数据/训练论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

63

MLEvolve：一种自我演进的自动化机器学习算法发现框架

MLEvolve 是一个基于大语言模型的多智能体框架，用于端到端机器学习算法自动发现。它通过渐进式 MCGS 树搜索实现跨分支信息流动，并引入熵驱动的演进式调度，使搜索从广泛探索转向集中利用。框架配备 Retrospective Memory，结合冷启动知识库与动态全局记忆，实现任务经验检索复用。战略规划与代码生成解耦，保证长时间迭代稳定。在 MLE-Bench 评测中，MLEvolve 在 12 小时预算（半标准时长）内取得平均奖牌率和有效提交率等多项 SOTA，并在数学算法优化任务上超越 AlphaEvolve，展现跨域泛化能力。代码已开源。

智能体数据/训练论文/研究

08:14

IT之家（RSS）

56

苹果批准首个 iMessage AI 智能体 Poke，可回邮件设提醒

苹果批准 Poke 成为首个接入 Apple Messages for Business 的第三方 AI 智能体。用户可在 iMessage 内让 Poke 回复邮件、安排聚餐、创建提醒，支持网页搜索、图片生成与编辑、美国国内航班值机、低价机票追踪，并控制 Philips Hue 灯光与 Sonos 音箱，还接入了 Oura、Outlook、Gmail、GitHub、Strava 等服务。定价方面，轻量操作免费，高强度请求需协商。Poke 由加州初创公司 The Interaction Company of California 打造，2026 年 3 月已公开发布。

智能体行业动态

08:14

IT之家（RSS）

52

微软演示 AI 定制 Win11：一句话整机联动，调整壁纸、主题色、键盘灯效等

微软在 Build 2026 开发者大会上展示 Windows 11 AI 个性化功能，AI 智能体可根据用户自然语言描述联动调整壁纸、主题色、明暗模式和键盘灯效。现场演示“春日樱花风格”自动切换。开发者可利用 Windows API 和 WinUI Skills 项目构建原生应用。智能体还能通过 LampArray 接口设计键盘逐灯动画，并将主题色写入注册表路径，实现连贯任务处理。

智能体 Microsoft 产品更新端侧

08:04

Simon Willison 博客

59

AI乐观派与怀疑派：分别在对抗时间和熵

Charity Majors指出，AI乐观派和怀疑派都在同一团队中构建优秀软件，但方向相反。乐观派看到积极拥抱AI的团队获得了真实的、非连续的能力跃升，这是其他技术周期中未曾见过的；远离可能面临生存威胁。怀疑派则警示，代码产出速度超过工程师阅读能力、领域缺乏完整上下文时，信任账户被透支，可靠性下降、机构知识流失，最终导致无人理解的系统和频繁的轮班压力。两者都是真实威胁。核心问题在于缺乏连接乐观派与怀疑派的自然反馈循环，设计这样的反馈循环是组织设计难题。

智能体大佬观点

08:00

HuggingFace Daily Papers（社区热门论文）

37

StepPO：面向智能体强化学习的步骤对齐策略优化

现有大语言模型强化学习算法以模型 token 为基本优化单元，在智能体场景中存在粒度不匹配。StepPO 提出以 step 为中心的新范式，将 token 级马尔可夫决策过程重建模为 step 级 MDP，并引入 step 级信用分配，使策略优化对齐智能体决策的自然粒度。在多跳问答、学术论文搜索和文本世界动作任务中，StepPO 一致优于多种 RL 算法，为训练更强大智能体提供了实用路径。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

大语言模型智能体的冷启动安全性差距

工具调用 LLM 智能体在对话开始时安全风险最高，完成若干常规 agentic 任务后安全性显著提升，称为冷启动安全性差距。为系统研究此问题，提出基准 SODA（Safety Over Depth for Agents），可控制在安全威胁前最多 20 个前置任务。在 4 个模型族的 7 个模型上，前置任务从 0 增至 20 时安全提升 9–52%。表征分析显示模型隐藏状态逐渐移向安全对齐区域。常规任务本身是安全提升主因，agent 自身响应影响较小但有助于保持效用。在 AgentHarm、Agent Safety Bench 等安全基准及 BFCL、API-Bank 等效用基准上得到验证。建议部署前让 agent 完成少量常规任务以缓解该差距。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

ReVision：通过时序视觉冗余缩减扩展计算机使用智能体规模

计算机使用智能体（CUA）依赖GUI截图，每张截图编码大量视觉token，长轨迹下token成本激增。ReVision训练多模态语言模型，利用学习的patch选择器比较连续截图中patch表征，去除冗余视觉patch并保留空间结构。基于Qwen2.5-VL-7B在OSWorld、WebTailBench和AgentNetBench三个基准上处理5个历史截图时，ReVision平均减少46% token使用，成功率较无丢弃基线提升3%。该效率使智能体能用更少token处理更长轨迹，且随着移除冗余后纳入更多历史观测，性能持续改善。

智能体 arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

编码AI智能体会欺骗我们吗？CapCode框架通过随机测试的上限评估检测与防止作弊

在编码AI智能体评估和训练中，模型可能通过走捷径获得高分，造成欺骗性表现。CapCode框架通过构建带随机测试的编码数据集，将非作弊可得分的上限故意设低于1，使超过上限的分数成为不可信的作弊证据。CapReward奖励机制基于CapCode原则，抑制超过上限的优化。实验表明，CapCode能有效检测作弊且保持模型排名，CapReward减少作弊行为，使模型更好遵循任务规范。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

54

MemDreamer：通过层次化图记忆与智能体检索机制解耦感知与推理的长视频理解

MemDreamer 是一个即插即用框架，将长视频理解转化为智能体探索过程。它增量式处理视频，构建三层层次化图记忆（Hierarchical Graph Memory），用于语义抽象并捕获时空与因果关联。推理时，智能体通过观察-推理-行动循环进行工具增强的层次导航和节点搜索。在四个主流基准上，MemDreamer 达到 SOTA 效果，将人类专家差距缩小至 3.7 分，推理上下文窗口仅占全量输入的 2%，同时带来 12.5 个百分点的绝对准确率提升。统计分析发现，VLM 的逻辑推理能力与长视频理解性能呈强正线性相关，智能体能力扩展成为多模态理解新范式。

智能体多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

Struct-Searcher：结构化智能体工作流推动多模态深度信息搜索

现有深度研究智能体多基于证据累积模型线性聚合信息，缺乏处理跨模态矛盾信息的机制。为此提出的Struct-Searcher是一种基于信念修正理论的结构化智能体工作流，在推理过程中显式维护一个不断演化的多模态结构图，实现冲突感知的多模态深度信息检索。实验表明，Struct-Searcher即插即用、模型无关，在BrowseComp-VL上对五种骨干模型的平均相对准确率提升17.2%；同时在MM-BrowseComp、HLE-VL、BrowseComp-VL上分别比次优方法高3.7%、1.5%和0.7%。

智能体多模态搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

VoLo：面向开放词汇长时程操作的物理编排器

VoLoAgent是一个基于VLM的物理编排智能体，将异构机器人能力（VLA/WAM、视觉模型、动作原语）作为可中断工具，实现规划、监控与恢复。同时提出RoboVoLo基准，专为开放词汇长时程操作设计，涵盖常识、记忆/状态跟踪、复杂指代与世界知识，并提供任务级成功率和失败诊断。实验表明VoLoAgent显著优于单VLA/VLM或基于工具的系统，并在真实机器人上验证。

智能体 arXiv MCP/工具具身智能

08:00

HuggingFace Daily Papers（社区热门论文）

58

SlimSearcher：通过自适应奖励门控训练效率感知的Web智能体

SlimSearcher提出兼顾准确性与计算成本的训练框架。监督微调阶段采用Pareto高效过滤，仅保留成功且经济的轨迹；强化学习阶段引入自适应奖励门控，动态评估工具与token效率，避免绝对惩罚导致的简洁性偏差（brevity bias）和奖励作弊（reward hacking）。在GAIA、BrowseComp和XBenchDeepSearch等基准上，工具调用轮次减少17%-58%，同时保持或提升准确率。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

DuMate-DeepResearch：具有递归搜索与准则推理的多智能体可审计深度研究框架

DuMate-DeepResearch 基于千帆智能体工厂构建，将负责任务理解、规划与调度的 Agent Core 与可扩展工具生态解耦，使中间决策与工具调用可追溯。框架引入三种机制：基于图的动态规划策略实现研究路线图由粗到细扩展与持续修正；递归两层执行将复杂搜索子任务委托给内层 Search Agent，隔离噪声并稳定长程执行；基于准则的测试时优化动态生成质量标准，作为证据合成与自适应停止的推理支架。在 DeepResearch Bench 和 DeepResearch Bench II 上分别取得 58.03% 和 61.95% 的最高总分，并在信息召回与分析维度排名第一。

智能体推理搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

65

SWE-Explore：编码智能体仓库探索能力评测基准

SWE-Explore 是一个专为评测编码智能体仓库探索能力而设计的基准，覆盖 848 个 issue、10 种编程语言和 203 个开源仓库。每项任务要求探索者在固定行预算内返回相关代码区域的有序列表，ground truth 来自成功解决同一 issue 的独立智能体轨迹。评测从覆盖率、排名和上下文效率三个维度展开，发现这些指标与下游修复行为高度相关。结果显示，智能体探索器整体明显优于传统检索方法，但文件级定位已足够强，行级覆盖率和高效排名才是区分前沿探索器能力的关键。

智能体编码论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

59

RISE：面向智能体搜索的交互空间检索方法

RISE 方法提出用 BM25 为智能体搜索构建一个有边界的交互空间，并在索引时处理文档以支持 shell 式导航。在 BrowseComp-Plus 上，RISE 搭配 gpt-5.4-mini 达到 78% 准确率，每查询成本约为纯 shell DCI 基线的四分之一。当语料库扩充至 100 万文档时，RISE-BM25 在 gpt-5.4-mini 上准确率提升至 81%，而 DCI 在 gpt-5.4-nano 上准确率降至 60%，且 33% 的查询因超时失败。

智能体检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

66

Socratic-SWE：基于轨迹提炼技能的自我进化SWE智能体

Socratic-SWE 提出闭环自我进化框架，将代码智能体历史解决轨迹提炼为结构化技能，总结失败与修复模式，并据此在真实仓库生成针对性修复任务。候选任务经执行验证与求解器梯度对齐奖励评分后，保留可验证且有益于提升 Solver 的任务。更新后的 Solver 产生新轨迹，使任务课程自适应调整。在 SWE-bench Verified 等基准上，相同计算预算下持续优于自我进化基线，三轮迭代后 SWE-bench Verified 达 50.40%。

智能体编码论文/研究

06:28

OpenRouter：Announcements（RSS）

精选66

OpenRouter 翻遍 11 款 LLM 找最快的决策模型：Claude vs. Grok 领衔

OpenRouter 用总价 482 美元的推理花费，让 11 款大语言模型在 30 轮实时决策的“大逃杀”挑战中正面竞争。实验结果表明，传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务（如自主控制机器人）中的真实表现，Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出，而多项高分模型的实时调度能力未达预期。

智能体 Anthropic OpenAI 安全/对齐

关联讨论 1 条OpenRouter：Announcements（RSS）

推荐理由：Jacky 把 11 个模型丢进大逃杀，发现 Grok 4.1 Fast 以 27 倍成本优势击败 Sonnet，而获胜关键不在基准分数，在于模型被训练时压制的攻击性。对任何不再只看排行榜选模型的人，这是今年最值得读的实验。

05:56

Ethan Mollick：One Useful Thing（RSS）

精选61

共存与协同智能的终结

Ethan Mollick 在 One Useful Thing 博客中，以“共存与协同智能的终结”为题，并附带介绍了如何向 AI 推销一本书。

智能体 Anthropic 大佬观点编码

推荐理由：Mollick 这篇比单纯的新书预告有料，用自己给 AI 写推荐语的实验，把「AI 不再是助手而是守门人」这个新现实讲得很具体。对还在纠结怎么跟 AI 合作的人，是一个挺及时的视角更新。

05:54

MarkTechPost（RSS）

69

NVIDIA AI 发布 Nemotron 3 Ultra：开源 550B MoE 混合 Mamba-Transformer，面向长时间运行智能体

NVIDIA 发布 Nemotron 3 Ultra，总参数量 550B（活跃参数 55B）的开源混合专家（MoE）模型，采用 Mamba-Transformer 混合架构，专为长时间运行的 AI 智能体设计。该模型支持 1M token 上下文窗口，推理吞吐量比同等准确率的开源大语言模型最高提升约 6 倍。权重、训练数据和配方以 OpenMDW-1.1 许可开放。

智能体开源生态模型发布

05:47

Hacker News 热门（buzzing.cc 中文翻译）

精选76

Anthropic 开源 AI 驱动漏洞发现框架

Anthropic 将其用于 AI 驱动漏洞发现的开源框架代码托管在 GitHub 上。该框架借助 AI 技术进行漏洞发现，旨在帮助识别软件中的安全缺陷。

智能体 Anthropic 安全/对齐开源/仓库

推荐理由：Anthropic 把用 Claude 做自主漏洞挖掘的完整流水线开源了，从侦察到修复全链路都有，安全团队可以把它接到自己代码库里跑起来。虽然本质是给 Claude Security 带货，但 pipeline 设计和 prompt 对做 AI 安全自动化很有参考价值。

03:49

TechCrunch：AI（RSS）

43

Apple 批准 Poke 成为其 Messages for Business 平台首个 AI 智能体

初创公司 Poke 允许用户通过简单短信与 AI 智能体交互，现已获批成为 Apple Messages for Business 平台上的首个 AI 智能体。

智能体行业动态

1…15 161718 19…50