AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2147 条
全部一手资讯X论文
标签「Agent」清除
5月29日周五
07:46OpenAI:官网动态(RSS · 排除企业/客户案例)36Endava如何借助Codex构建智能体驱动的组织
06:06公众号:数字生命卡兹克58Claude Opus 4.8 上线:更精确不偷懒,但主动性减弱,创作仍不及4.6
05:44TechCrunch:AI(RSS)68互联网正在为机器重建
05:29HuggingFace Daily Papers(社区热门论文)65LACUNA:作为递归程序孔的智能体安全模型
05:14The Verge:AI(RSS)65Microsoft 365 Copilot 提速并采用全新设计
05:12Google Research:Blog(网页)79精选创新时代:Google Research 在 I/O 2026
04:14TechCrunch:AI(RSS)56Asana收购无代码智能体构建器Stack AI
04:08Hacker News 热门(buzzing.cc 中文翻译)63Claude Code 中的动态工作流
02:39Claude Code:GitHub Releases(RSS)73同事件精选Claude Code v2.1.154 发布:新增 Opus 4.8 与动态工作流同一事件,精选展示《在Claude Code中引入动态工作流》
02:38Hacker News 热门(buzzing.cc 中文翻译)49Show HN: 继续吗?是/否:一款关于AI代理权限疲劳的60秒游戏
01:29HuggingFace Daily Papers(社区热门论文)61GUI-CIDER: 通过因果内化与密度感知样本重选进行中期训练的GUI智能体
01:21Claude:Blog(网页)78精选在Claude Code中引入动态工作流
01:14TechCrunch:AI(RSS)72同事件精选Anthropic 发布 Opus 4.8 并推出新型"动态工作流"工具同一事件,精选展示《Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级》
01:05Anthropic:Newsroom(网页)85精选Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级
00:33Tomer Tunguz 博客(VC 分析)61精选AI智能体时代下的安全变革
5月28日周四
23:19IT之家(RSS)67混元发布 Hy-Memory:打造记忆力超强的 AI 智能体第二大脑
23:18Artificial Intelligence News(RSS)50Google Pay 为 AI 智能体预备通用商务协议
22:42TechCrunch:AI(RSS)51递归自我改进是新的通用人工智能(AGI)--同样难以定义
22:12The Verge:AI(RSS)61Rivian软件负责人:车载软件无需CarPlay或物理按钮
22:12TechCrunch:AI(RSS)51Visa 投资 Replit 以支持开发者的智能体支付功能
22:07公众号:腾讯混元58Hy-Memory 发布:为 Openclaw 打造的记忆插件
22:04公众号:小米 MiMo58Xiaomi MiMo Orbit 首批 Agent 生态共建合作伙伴公布
21:19IT之家(RSS)51汽车变成"超级秘书":比亚迪发布超级智能体"迪迪虾"
21:11Cloudflare Blog41我们如何构建Cloudflare的数据平台及其上的AI智能体
20:41TechCrunch:AI(RSS)29Vertu 让首席执行官们通过一款起价 6,880 美元的人工智能折叠手机管理公司
20:41The Decoder:AI News(RSS)61Mistral 将 Le Chat 重新命名为 Vibe,押注其聊天机器人的未来是成为全功能的工作智能体
19:31公众号:百度智能云(文心)54百度搭子DuMate发布:你的上班搭子,真干活
18:47Mistral AI:News(网页)81Vibe gets to work.
18:47Mistral AI:News(网页)75AI Now Summit 2026
16:15IT之家(RSS)24VERTU 发布折叠手机 ALPHAFOLD:号称"AI 时代的总裁机",售价 39800 元起
15:15IT之家(RSS)64阿里 Qoder 推出 Cloud Agents,Agent 上线仅需 1 天
14:28HuggingFace Daily Papers(社区热门论文)58ESC-Skills:发现与自我进化的情感支持对话技能
13:28HuggingFace Daily Papers(社区热门论文)63将记忆视为持续演化的连接性
12:28HuggingFace Daily Papers(社区热门论文)65LiveBrowseComp:搜索智能体是在真正搜索,还是在验证既有知识?
12:28HuggingFace Daily Papers(社区热门论文)68MemTrace:大语言模型记忆系统的错误追踪与归因
11:35公众号:面壁智能(MiniCPM)61精选PilotDeck 开源:以 WorkSpace 为核心的智能体操作系统
11:28HuggingFace Daily Papers(社区热门论文)65基于双向进化搜索的大语言模型自我改进方法
11:28HuggingFace Daily Papers(社区热门论文)66多模态智能体推理的智能体探索性策略优化
11:28HuggingFace Daily Papers(社区热门论文)63从小弱点学习:面向小型计算机使用智能体的自动化领域特化
11:28HuggingFace Daily Papers(社区热门论文)71精选AI研究智能体窄化科学探索
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
07:46
OpenAI:官网动态(RSS · 排除企业/客户案例)
36
Endava如何借助Codex构建智能体驱动的组织

Endava通过应用AI工具Codex,成功构建了智能体驱动的组织模式,显著加速了软件交付流程。其核心成果体现在需求分析环节,耗时由数周大幅缩短至数小时。

智能体OpenAI编码行业动态
06:06
公众号:数字生命卡兹克
58
Claude Opus 4.8 上线:更精确不偷懒,但主动性减弱,创作仍不及4.6

Claude Opus 4.8 上线,价格与 4.7 相同($5/M 输入、$25/M 输出),上下文等参数一致。新特性:effort 控制向所有用户开放;模型更精确遵循指令但主动性减弱;代码瑕疵蒙混过关概率降低 4 倍;fast mode 速度 2.5 倍,价格降至之前的 1/3(输入 $10/M、输出 $50/M)。Claude Code 新增 dynamic workflows,可自动拉起数十至上百个子 Agent 并行处理并自验。Benchmark 方面,Terminal-Bench 2.1 仍未超过 GPT-5.5。此外,Anthropic 完成 650 亿美元融资,估值近万亿美元。创作能力虽比 4.7 有进步,但整体仍不如 4.6。

智能体Anthropic编码评测/基准
05:44
TechCrunch:AI(RSS)
68
互联网正在为机器重建

AI 智能体正从实验阶段走向生产环境,AWS、Cloudflare 等公司正在重新设计云基础设施,以迎接一个由机器生成的互联网流量主导、而非人类用户主导的未来。

智能体现象/趋势部署/工程
05:29
HuggingFace Daily Papers(社区热门论文)
65
LACUNA:作为递归程序孔的智能体安全模型

LACUNA 是一种智能体编程模型,旨在弥合运行时与大语言模型编写代码之间的分离。其核心机制是将每个智能体动作定义为类型化调用 agent[T](task),由模型在运行时填充代码,但代码在执行前会经过类型检查。被拒绝的动作(8.6%)不会影响环境,其编译器诊断信息将驱动重试。该检查也限制了动作可使用的工具和数据流。此模型将 ReAct 循环、子智能体、技能等表达为普通控制流。评估显示,在 τ^2-bench 上,该模型解决了 76.0% 的任务,性能与基线智能体相当。

智能体arXiv安全/对齐论文/研究
05:14
The Verge:AI(RSS)
65
Microsoft 365 Copilot 提速并采用全新设计

微软推出了 Microsoft 365 Copilot 的改版,声称加载速度是之前的两倍,并采用了更简洁的设计。更新引入了“渐进式展示”功能,即根据用户的提示词动态展示相关工具和控件,而非一次性显示所有选项。同时,升级后的提示词框现在支持直接进行文本格式化。

智能体Microsoft产品更新
05:12
Google Research:Blog(网页)
精选79
创新时代:Google Research 在 I/O 2026

Google Research 在 I/O 2026 大会上展示了其在多个前沿领域的技术进展,包括应用AI、基础机器学习算法以及量子AI等。本次大会的核心主题是展示其在将科学发现与研究成果转化为现实世界影响方面的持续努力。

智能体Google推理论文/研究
关联讨论 1 条Google Blog:AI(RSS)
推荐理由:Google 把研究成果直接发 Nature,ERA 和 Co-Scientist 这套工具让 AI 从写诗进化到做实验,健康 AI 的临床验证数据也很扎实,搞科研的可以蹲一下访问资格。
04:14
TechCrunch:AI(RSS)
56
Asana收购无代码智能体构建器Stack AI

Asana宣布收购Stack AI。Stack AI是一家专注于构建无代码AI智能体(agent)的公司。此次收购后,Asana将把Stack AI整合到其不断增长的AI工作流工具套件中,以增强其平台上的自动化与智能化能力。

智能体行业动态部署/工程
04:08
Hacker News 热门(buzzing.cc 中文翻译)
63
Claude Code 中的动态工作流

Claude Code 引入了动态工作流功能,该特性允许智能体在执行任务时,根据上下文动态地构建和调整工作流程。文章发布于 2026 年 5 月 28 日。

智能体Anthropic产品更新编码
02:39
Claude Code:GitHub Releases(RSS)
同事件精选73
Claude Code v2.1.154 发布:新增 Opus 4.8 与动态工作流

Claude Code 更新至 v2.1.154 版本,正式引入 Opus 4.8 模型。新功能包括“动态工作流”,可通过 /workflows 指令让 Claude 在后台编排数十到数百个 AI 智能体协同处理复杂任务。Opus 4.8 的快速模式现已可用,成本降低为 2 倍标准费率可实现 2.5 倍速度提升。其他更新有:精简系统提示词成为默认设置(除 Haiku、Sonnet 及 Opus 4.7 及更早版本外),优化多选题决策逻辑,简化 /simplify 命令。此次更新修复了包括后台会话管理、终端渲染在内的多个 bug,并增强了自动模式对数据外泄的检测能力。

智能体AnthropicMCP/工具产品更新
同一事件,精选展示《在Claude Code中引入动态工作流》
推荐理由:Claude Code 这版把多 agent 编排做成了产品功能,动态工作流让一个 prompt 能调度上百个 agent,再加上 Opus 4.8 快速模式只要 2 倍价格,做复杂任务的开发者可以试一下。
02:38
Hacker News 热门(buzzing.cc 中文翻译)
49
Show HN: 继续吗?是/否:一款关于AI代理权限疲劳的60秒游戏

60秒网页游戏「Continue? Y/N」上线,主题为模拟 AI 智能体频繁请求用户授权所导致的决策疲劳。游戏可通过 llmgame.scalex.dev 访问。

智能体现象/趋势
01:29
HuggingFace Daily Papers(社区热门论文)
61
GUI-CIDER: 通过因果内化与密度感知样本重选进行中期训练的GUI智能体

针对多模态大语言模型构建的GUI智能体因缺乏操作世界知识导致任务完成能力受限的问题,本文提出GUI-CIDER中期训练方法。该方法通过三个阶段显式内化知识:首先从GUI轨迹中合成静态规划与动态因果知识文本;然后通过奖励因果结构、惩罚语义冗余进行样本重选;最后使用精炼数据进行中期训练以嵌入知识。实验表明,该方法一致提升了智能体对GUI操作的理解与任务成功率。代码已开源。

智能体多模态论文/研究
01:21
Claude:Blog(网页)
精选78
在Claude Code中引入动态工作流

Claude Code 推出“动态工作流”功能,使 Claude 能端到端处理复杂任务。该功能通过动态编写脚本,在单个会话中并行运行数十到数百个子智能体来完成工作,并会在结果呈现前进行验证。它适用于跨代码库的 bug 查找、大规模迁移(如将 Bun 从 Zig 移植到 Rust)等需要多角度分析的任务。该功能现已在研究预览阶段可用,支持 Claude Code CLI、桌面端、VS Code 扩展以及 API、Amazon Bedrock、Vertex AI 等平台,面向 Max、Team 及已启用的 Enterprise 计划用户。

智能体Anthropic产品更新编码
关联讨论 5 条Claude:Blog(网页)Claude Code:GitHub Releases(RSS)X:邵猛 (@shao__meng)X:Claude Devs (@ClaudeDevs)X:Thariq (@trq212)
推荐理由:动态工作流第一次让 Claude Code 能独立搞定需要并行协调的大规模工程任务,Bun 从 Zig 到 Rust 只用了十一天,这对复杂代码库的维护和迁移是降维打击。
01:14
TechCrunch:AI(RSS)
同事件精选72
Anthropic 发布 Opus 4.8 并推出新型"动态工作流"工具

Anthropic 发布了最新的 Opus 4.8 大语言模型,并为该模型引入了一个名为“Dynamic Workflows”的新工具。该工具旨在协调由多个子代理组成的群组,以执行复杂任务。

智能体Anthropic推理模型发布
同一事件,精选展示《Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级》
推荐理由:Opus 4.8 是 Anthropic 对 Opus 4.7 失望反应的快速回应,亮点不在跑分而在模型能主动标记不确定性,这比正确率更实用。动态工作流让跨子 agent 的代码迁移成为现实,开发团队值得关注。
01:05
Anthropic:Newsroom(网页)
精选85
Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级

Anthropic 发布了新一代模型 Claude Opus 4.8,作为 Opus 4.7 的升级版本,其在编码、智能体技能、推理和实用知识工作等各项基准测试中均取得进步。Claude Opus 4.8 现已可用,价格与前代相同。同步推出的新功能包括:用户可控制任务投入程度、Claude Code 新增“动态工作流”特性,以及 Opus 4.8 的 2.5 倍速模式价格降低为以往的三分之一。早期测试者反馈其在智能体任务中的判断力更可靠、工具调用更高效。该模型在 Online-Mind2Web 测评中得分 84%,超越了 Opus 4.7 和 GPT-5.5。此外,其诚实度与对齐表现也得到提升,代码错误漏检率降低了约 75%。

智能体Anthropic推理模型发布
关联讨论 15 条X:Claude Devs (@ClaudeDevs)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:OpenRouter (@OpenRouter)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)
推荐理由:Opus 4.8看着是常规升级,但动态工作流让Claude Code能啃下跨十万行代码迁移这种硬骨头,快速模式降价三倍更是直接拉低了实时场景的入场券。
00:33
Tomer Tunguz 博客(VC 分析)
精选61
AI智能体时代下的安全变革

Lemonade的CISO Jonathan Jaffe探讨了AI智能体时代的安全新挑战。他指出,AI对攻击者和防御者同样强大,但可被利用的漏洞窗口正在缩小,因为AI能更快地生成、审查和修补代码。为此,安全团队正向工程团队转型,例如Lemonade的安全部门均由工程师组成,并构建了包含智能体的内部AI平台。同时,每个智能体(单个终端上可能运行200到10000个)都需要被赋予身份,并在操作点由策略进行更复杂的管控,这超越了当前身份与访问管理系统的能力。

智能体MCP/工具大佬观点

推荐理由:Jaffe 给出的结论很提气,AI 对防御方的加成被市场严重低估了,尤其每个 Agent 必须拥有身份和策略控制这个预判,值得所有在做 Agent 架构的人看一遍。
5月28日
23:19
IT之家(RSS)
67
混元发布 Hy-Memory:打造记忆力超强的 AI 智能体第二大脑

腾讯混元发布专为 Openclaw 长期协作型 AI 智能体设计的记忆插件 Hy-Memory。它通过6层记忆框架、System1/System2双系统与演化链架构实现长期记忆管理。测试显示,该插件能降低记忆数量70%+,提升信息密度45%,处理长上下文时 token 消耗降低35%,更新速度加快20%,旨在解决记忆碎片化问题,避免智能体降级为简单查询工具。

智能体产品更新
23:18
Artificial Intelligence News(RSS)
50
Google Pay 为 AI 智能体预备通用商务协议

Google Pay 正在彻底改造其支付基础设施,以应对即将到来的 AI 智能体交易浪潮。最新更新引入了通用商务协议和新的服务器架构,旨在将 Google Pay 定位为自主智能体而非人类用户执行购买的中央清算所。

智能体GoogleMCP/工具产品更新
22:42
TechCrunch:AI(RSS)
51
递归自我改进是新的通用人工智能(AGI)--同样难以定义

新一批AI实验室正聚焦于研究递归自我改进(RSI),即让模型能够自主迭代优化自身的能力。其目标是实现模型的自我升级,但目前这一目标被证明难以实现和精确定义。

智能体AnthropicOpenAI开源生态
22:12
The Verge:AI(RSS)
61
Rivian软件负责人:车载软件无需CarPlay或物理按钮

Rivian首席软件官Wassym Bensaid同时担任该公司与大众集团成立的合资公司RV Tech的联席CEO。这家合资公司源于大众近60亿美元投资,旨在为大众及其旗下品牌的未来电动汽车开发操作系统和电子架构。Rivian正准备交付基于新架构的更平价车型R2,并已在R1车型中推出了AI驱动的Rivian Assistant。Bensaid将此视为打造更具“智能体”特性车载软件平台的关键一步。

智能体大佬观点端侧语音
22:12
TechCrunch:AI(RSS)
51
Visa 投资 Replit 以支持开发者的智能体支付功能

Visa 宣布,其超过 1000 名员工已开始使用 Replit 平台进行软件原型设计与开发工作。

智能体行业动态
22:07
公众号:腾讯混元
58
Hy-Memory 发布:为 Openclaw 打造的记忆插件

腾讯混元推出 Hy-Memory,一款为 Openclaw 长期协作型 Agent 设计的记忆插件。它采用 6 层记忆框架、System1/System2 双系统及演化链技术,解决 Agent 长期使用中的记忆漂移与碎片化问题。在 LongMemEval 上得分 85.2,在偏好、时序推理、知识更新维度领先;PersonaMem 评测超越所有竞品。相比其他方案,记忆数量降低 70%+,单条信息密度高 45%+,token 消耗降低 35%,写入速度为 Graphiti 的 8 倍,支持本地嵌入式存储,安装仅需一行命令,提供 Lite/Pro/Ultra 三档。

智能体产品更新开源/仓库
22:04
公众号:小米 MiMo
58
Xiaomi MiMo Orbit 首批 Agent 生态共建合作伙伴公布
智能体开源生态行业动态
21:19
IT之家(RSS)
51
汽车变成"超级秘书":比亚迪发布超级智能体"迪迪虾"

比亚迪发布超级智能体“迪迪虾”,基于整车智能体系打造,实现全仓记忆、跨域互动、端云协同与快慢思考。该智能体具备自然人机交互、主动服务和复杂任务处理能力,支持多轮对话、用户偏好记忆与模糊指令理解。演示中,系统展示了自动调节空调、识别儿童入睡状态、处理包含导航与补能的复杂指令链路等功能,并接入生活服务。比亚迪同步将开放车机生态升级为面向 AI Agent 的“智能体生态”。

智能体产品更新多模态
21:11
Cloudflare Blog
41
我们如何构建Cloudflare的数据平台及其上的AI智能体

Cloudflare构建了名为Town Lake的统一分析平台,并基于此开发了内部AI智能体Skipper。

智能体教程/实践数据/训练部署/工程
20:41
TechCrunch:AI(RSS)
29
Vertu 让首席执行官们通过一款起价 6,880 美元的人工智能折叠手机管理公司

Vertu 推出一款新折叠手机,基于开源项目 Hermes 构建,融合了 AI 智能体工作流、企业系统集成和超高端奢华材质。该设备定价 6,880 美元起。

智能体产品更新端侧
20:41
The Decoder:AI News(RSS)
61
Mistral 将 Le Chat 重新命名为 Vibe,押注其聊天机器人的未来是成为全功能的工作智能体

Mistral AI 正将其聊天机器人 Le Chat 更名为 Vibe,并将聊天、编程智能体及全新的 Work Mode 整合到这一新品牌下。Work Mode 可接入 Google Workspace、Outlook、Slack 或 GitHub,独立处理邮件、报告或代码拉取请求等任务。此外,Mistral 将 Pro 套餐的月费从 17.99 欧元降至 14.99 欧元。此举旨在让 Mistral 更直接地与 OpenAI、Google 和 Anthropic 提供的智能体产品展开竞争。

智能体产品更新行业动态
19:31
公众号:百度智能云(文心)
54
百度搭子DuMate发布:你的上班搭子,真干活

百度搭子DuMate是一款PC端办公AI智能体,能看见用户屏幕、操作软件、处理文件。零门槛安装,不需配置环境;本地优先处理,数据不出设备,复杂任务自动调度上云。支持Word/Excel/PPT输出,内置百度搜索、深度研究等Skills生态。用户下载后可通过邀请码分享好友,双方各得2000积分。

智能体MCP/工具产品更新端侧
18:47
Mistral AI:News(网页)
81
Vibe gets to work.

Mistral AI 推出 Vibe,一款统一工作与编码的 AI 智能体。其工作模式可处理长期多步骤任务,连接 Google Workspace、Outlook、Slack 等应用,进行研究、分析与调度。代码模式支持从 Web 应用到终端的全流程编码。Vibe 运行为推理、智能体任务和编码优化的旗舰 Mistral 模型,并发布了新的 VS Code 扩展。

智能体产品更新编码
18:47
Mistral AI:News(网页)
75
AI Now Summit 2026

Mistral AI 在 AI Now Summit 2026 上宣布多项进展。其工业 AI 解决方案“Mistral for Industrial Engineering”整合了物理模型与工程知识,正与空客、宝马集团和 ASML 合作,加速工程设计与优化。AI 智能体产品 Vibe 进行了升级,增强了推理和智能体任务能力。此外,公司计划在 2026 年第三季度启用位于 Les Ulis、功率达 10 MW 的新数据中心,专注推理操作以增强算力安全。

智能体行业动态
16:15
IT之家(RSS)
24
VERTU 发布折叠手机 ALPHAFOLD:号称"AI 时代的总裁机",售价 39800 元起

VERTU 发布首款书本式折叠屏手机 ALPHAFOLD,定位“AI时代的总裁机”。该机内置名为 Hermes 的系统级 AI 智能体,具备任务拆解、跨应用协同与长期记忆能力,可调用手机内应用完成复杂指令,并提出“Phone-to-ERP”概念以连接企业后台系统。硬件搭载骁龙 8 Elite 处理器,内屏 8.05 英寸,配备 6500mAh 电池。官方售价 39800 元起。

智能体产品更新
15:15
IT之家(RSS)
64
阿里 Qoder 推出 Cloud Agents,Agent 上线仅需 1 天

阿里 Qoder 推出全托管 AI Agent 运行平台 Cloud Agents。该平台提供 Agent 底座、模型服务及运行环境,企业可通过 API 直接调用,能将 Agent 上线时间从 1 个月缩短至 1 天。Cloud Agents 支持独立沙箱、实时事件流追踪与审计,并原生支持 Skills 和 MCP 协议,可扩展多种企业能力。

智能体MCP/工具产品更新
14:28
HuggingFace Daily Papers(社区热门论文)
58
ESC-Skills:发现与自我进化的情感支持对话技能

本文提出ESC-Skills框架,以解决情感支持对话系统可解释性不足与技能改进缺乏体系的问题。该框架首先将局部交互建模为干预单元(IUs),刻画寻求者状态、支持干预与情绪变化间的动态。基于从成功与失败对话中提取的IUs,构建了包含干预指导、适用条件、预期结果与潜在风险的可执行技能库。为进一步提升鲁棒性,框架引入了基于SAGE评估的多角色自我进化精炼流程,通过模拟不同寻求者画像来识别缺失技能与不安全干预,并据此更新技能库。实验证明,该框架在响应质量和对话级情感结果上均有提升,提供了更可解释和可控的支持行为。

智能体arXiv论文/研究
13:28
HuggingFace Daily Papers(社区热门论文)
63
将记忆视为持续演化的连接性

现有记忆增强大语言模型智能体常将记忆视为静态存储,这在动态环境中较为脆弱。为此,FluxMem框架提出将记忆建模为异构图,并通过初始连接形成、反馈驱动细化和长期巩固三个阶段,持续优化其拓扑结构。在执行时,该框架能修复缺失连接、剪除干扰、对齐抽象粒度,并将反复成功的轨迹蒸馏为可复用的程序化回路。在LoCoMo、Mind2Web和GAIA三个基准测试上,FluxMem均达到了SOTA水平,展现出在复杂智能体环境中强大的适应与泛化能力。代码将开源于GitHub。

智能体GitHubMCP/工具论文/研究
12:28
HuggingFace Daily Papers(社区热门论文)
65
LiveBrowseComp:搜索智能体是在真正搜索,还是在验证既有知识?

研究揭示基于LLM的搜索智能体存在“内在知识依赖”:在BrowseComp基准测试中,智能体在无需工具时仍能回答高达44.5%的问题,超过半数的搜索查询源于模型内部假设而非检索线索,移除支撑证据时其表现甚至差于闭卷基准。这表明静态基准可能奖励的是基于记忆的验证。为此,研究引入深度搜索基准LiveBrowseComp,包含335个依赖于基准构建前90天内发布事实的人工问题。在LiveBrowseComp上,所有智能体的闭卷准确率低于2%,搜索增强得分显著下降,且先前模型排名不再可靠。

智能体arXivHugging Face搜索
12:28
HuggingFace Daily Papers(社区热门论文)
68
MemTrace:大语言模型记忆系统的错误追踪与归因

本文研究了大语言模型记忆系统中错误追踪与归因的新问题。我们提出了MemTrace框架,它将记忆管线转化为可执行的记忆演化图,以实现操作信息流的细粒度追踪。我们构建了MemTraceBench基准,数据来自Long-Context、RAG、Mem0和EverMemOS等代表性系统,用于系统研究记忆失效模式。此外,我们引入了一种自动归因方法,通过迭代追踪操作子图来定位失败根因。分析表明,记忆失败具有系统性,源于信息丢失与检索错位等操作级问题。利用这些细粒度归因信号指导下游提示词优化,可构建一个自动纠错的闭环系统,将端到端任务性能最高提升7.62%。

智能体GitHub检索增强论文/研究
11:35
公众号:面壁智能(MiniCPM)
精选61
PilotDeck 开源:以 WorkSpace 为核心的智能体操作系统

清华大学 THUNLP 实验室、面壁智能、OpenBMB 与 AI9stars 联合研发并开源的智能体操作系统 PilotDeck,以 WorkSpace(工作舱)替代传统对话框,每个工作舱拥有独立文件系统、记忆和技能,实现项目隔离。三大核心能力:记忆白盒化,全链路可见可控,支持一键修改和回滚;智能路由,自动识别任务难度动态分配模型,开启后成本节省近 70%,复杂任务仅用 1/6 成本即可反超顶级模型方案;Always-on 常驻任务,AI 主动发现并持续推进工作。支持端云协同,可调用端侧模型作为子 Agent,自动部署 VoxCPM 等模型完成多语言播客等任务。

智能体产品更新端侧部署/工程

推荐理由:PilotDeck把Agent从对话框解放进「工作舱」,记忆可见、成本锐减、能无人值守运行。已开源,值得所有被多任务折磨的开发者试试。
11:28
HuggingFace Daily Papers(社区热门论文)
65
基于双向进化搜索的大语言模型自我改进方法

针对现有大语言模型搜索方法(如 best-of-N 采样、树搜索)依赖稀疏验证信号且探索局限于高概率区域的问题,本文提出了双向进化搜索框架。该框架耦合了前向候选进化和后向目标分解。前向搜索利用进化算子重组部分轨迹,以生成难以通过单次模型展开获得的候选方案;后向搜索则递归分解原始任务,产生密集的中间反馈以指导搜索。理论分析表明,仅靠展开的搜索受限于窄熵壳,而进化算子可使其跳出,后向搜索则能指数级减少找到正确答案所需的样本数。实验显示,在主流后训练算法失效的任务上,BES 能带来一致性能提升;在三个开源问题求解基准的推理测试中,BES 在平均与最佳性能上均优于现有开源框架。

智能体开源/仓库推理论文/研究
11:28
HuggingFace Daily Papers(社区热门论文)
66
多模态智能体推理的智能体探索性策略优化

针对视觉语言模型在工具使用任务中存在的“思考-行动差距”(工具调用尝试率仅约30%,且其中约40%问题的所有工具调用均错误),研究提出AXPO(AI 智能体探索性策略优化)方法。该方法在标准强化学习(如GRPO)流程中,针对工具调用全错的子批次,固定思考前缀并重新采样工具调用及后续内容。在九个多模态基准和三种规模的Qwen3-VL-Thinking模型上,SFT+AXPO的平均性能优于SFT+GRPO(8B模型平均Pass@1和Pass@4均提升1.8个百分点)。8B的SFT+AXPO模型在Pass@4上甚至超越了参数量为其4倍的32B Base模型。

智能体MCP/工具多模态数据/训练
11:28
HuggingFace Daily Papers(社区热门论文)
63
从小弱点学习:面向小型计算机使用智能体的自动化领域特化

针对小型开放计算机使用智能体在特定领域能力较弱且失败案例分布不均的问题,研究团队提出了LearnWeak框架。该框架利用一个更强的参考智能体,自动识别学生智能体在目标领域的弱点,并据此合成针对性任务以构建训练数据。LearnWeak进一步引入错误感知特化目标,能够区分规划与执行错误,实现更精确的行为更新。在OSWorld基准测试中,该方法使EvoCUA-8B和OpenCUA-7B模型在八个领域的平均性能分别提升了11.6和11.1个百分点。

智能体数据/训练论文/研究
11:28
HuggingFace Daily Papers(社区热门论文)
精选71
AI研究智能体窄化科学探索

本研究将AI研究智能体视为科学搜索系统进行评估。通过四个框架和六个大语言模型,从共享种子文献中生成了37,802个科学想法,并与人类论文、后续研究及种子文献进行对比。实验揭示了四个一致的模式:AI生成的想法比同领域人类论文更为集中;更贴近其起始文献,而非后续人类研究;与AI想法最相似的论文后续引用量往往较低;当AI想法与已有工作不同时,差异主要源于对现有技术方法的重组,而非引入全新的研究问题。总体而言,当前的AI研究智能体更擅长局部细化,而非拓展科学探索的广度。

智能体arXiv论文/研究

推荐理由:这篇论文用3万多个AI生成的想法证明,当前AI研究代理更像是在现有研究上修修补补,而不是开拓新方向。所有想靠AI加速科研的团队都该看一下,别高估了AI的「创造力」。
‹ 上一页
1…2223242526…50
下一页 ›