AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 347 条
全部一手资讯X论文
标签「MCP/工具调用」清除
5月20日周三
04:25Google Developers Blog(RSS)65精选更智能的 Google AI Edge Gallery:MCP 集成、通知和会话连续性
01:55IT之家(RSS)68谷歌 Gemini Spark 个人智能体发布:一句话让 AI 干几份活,不用担心乱搞数据
00:39Hacker News:AI 热帖70精选InsForge:面向编程智能体的一体化开源后端平台
5月19日周二
18:27The Decoder:AI News(RSS)67Anthropic为Claude Managed Agents新增自托管沙箱与MCP隧道功能
17:09Claude:Blog(网页)77精选Claude智能体托管平台新增自托管沙箱与MCP隧道功能
12:55HuggingFace Daily Papers(社区热门论文)53代码作为智能体的运行基础
01:06Anthropic:Newsroom(网页)64精选Anthropic收购SDK与MCP服务器工具开发商Stainless
5月18日周一
10:45IT之家(RSS)70精选腾讯 AI 设计智能体 Ardot 公测:一句话生成可编辑设计稿,一键转代码
08:00HuggingFace Daily Papers(社区热门论文)64EnvFactory:通过可执行环境合成与健壮强化学习扩展工具使用智能体
5月17日周日
19:02Hacker News 热门(buzzing.cc 中文翻译)67MCP 欢迎页面
5月16日周六
08:57Simon Willison 博客58datasette-llm-limits 0.1a0 发布
08:00HuggingFace Daily Papers(社区热门论文)57多模态工具使用智能体基准
01:54The Decoder:AI News(RSS)66ChatGPT 现在想访问你的银行账户,以便告诉你别再点外卖了
5月15日周五
17:42公众号:月之暗面(Kimi)54Kimi WebBridge:让 AI 帮你操作浏览器
10:48HuggingFace Daily Papers(社区热门论文)67ATLAS:一个功能词元,兼作智能体操作与潜在视觉推理单元
08:00HuggingFace Daily Papers(社区热门论文)56χ-Bench基准测试:AI智能体在医疗自动化中的能力评估
02:00Claude:Blog(网页)73精选在大型代码库中高效运用Claude Code:最佳实践与入门指南
5月14日周四
15:40IT之家(RSS)74精选"让 Token 消耗降低 61%":腾讯开源 Agent Memory
07:55Claude Code:GitHub Releases(RSS)67精选Claude 工具 v2.1.141 版本更新
5月13日周三
17:39IT之家(RSS)66Anthropic Claude Code 缔造者:数千个 AI 智能体夜间自动为我写代码
12:39IT之家(RSS)66腾讯元宝 App 官宣支持总结微信聊天记录:可提炼要点、汇总清单、整理攻略等
08:00HuggingFace Daily Papers(社区热门论文)55模型自适应工具必要性揭示LLM工具使用中的知行差距
08:00HuggingFace Daily Papers(社区热门论文)56SPIN:基于迭代导航的工业任务结构LLM规划
07:27Hacker News:AI 热帖76精选展示 HN:Statewright--通过可视化状态机提升AI智能体可靠性
04:56Hacker News 热门(buzzing.cc 中文翻译)65Show HN: Needle:我们将"双子座工具召唤"浓缩为一个26M模型
01:54Claude:Blog(网页)73精选Claude进军法律行业
00:24Claude:Blog(网页)58精选Code w/ Claude SF 2026开发者大会:基于AI指数级增长的构建
5月12日周二
12:44HuggingFace Daily Papers(社区热门论文)65Shepherd:一个为元智能体提供形式化执行追踪的运行时基板
12:44HuggingFace Daily Papers(社区热门论文)64面向智能体强化学习的动态技能生命周期管理
10:55Hacker News 热门(buzzing.cc 中文翻译)57交互模型
03:52Simon Willison 博客80精选在脚本的shebang行中使用LLM
02:52Claude Code:GitHub Releases(RSS)72精选Claude Code v2.1.139 版本更新
5月11日周一
17:34IT之家(RSS)64字节火山引擎 Agent Plan 发布:业界首个"Agent 套餐包",每月 40 元起
14:34IT之家(RSS)62腾讯 QClaw 上线"文件空间"功能,打通本地文件、腾讯文档、ima 知识库
08:00HuggingFace Daily Papers(社区热门论文)57RubricEM:超越可验证奖励的、基于评分标准引导策略分解的元强化学习框架
5月10日周日
16:33IT之家(RSS)52马斯克入局 AI 编程赛道:SpaceXAI 桌面编程应用 Grok Build 曝光
08:00HuggingFace Daily Papers(社区热门论文)59LLM代理无需推理已知何时调用工具
5月9日周六
08:00HuggingFace Daily Papers(社区热门论文)56网络中的大语言模型:资源约束下的协同智能
08:00HuggingFace Daily Papers(社区热门论文)54MCP-Cosmos:为复杂任务执行引入世界模型增强的智能体
5月8日周五
20:00OpenRouter:Announcements(RSS)56精选Agent SDK 中的人机协同工具
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月20日
04:25
Google Developers Blog(RSS)
精选65
更智能的 Google AI Edge Gallery:MCP 集成、通知和会话连续性

Google AI Edge Gallery 应用在安卓平台上扩展了设备端 AI 能力,通过引入对开源模型上下文协议(MCP)的实验性支持,使得 Gemma 4 模型能够协调处理跨 Google Workspace 和 Google Maps 等外部数据源的复杂任务。此次更新添加了“定时通知”技能,用于实现日常事务的自动化管理,并新增了持久化聊天记录功能,允许用户近乎即时地恢复长会话上下文。该平台依托开源工具包,积极鼓励社区开发者通过其 GitHub 仓库构建并分享专注实用的工作流、提示配置与工具集成。

GoogleMCP/工具产品更新端侧

推荐理由:MCP 终于跑在 Android 设备上了,虽然是实验性支持,但 Gemma 4 能直连 Workspace 和 Maps,做自动化的开发者可以上手试试。
01:55
IT之家(RSS)
68
谷歌 Gemini Spark 个人智能体发布:一句话让 AI 干几份活,不用担心乱搞数据
智能体GoogleMCP/工具产品更新
00:39
Hacker News:AI 热帖
精选70
InsForge:面向编程智能体的一体化开源后端平台

InsForge是一个专为AI编码智能体设计的一站式开源后端平台。它通过MCP Server和CLI+Skills两种接口,让智能体能像后端工程师一样直接操作数据库、认证、存储、边缘函数、模型网关等全套后端服务,从而端到端地构建全栈应用。平台支持云托管与基于Docker的自托管,可一键部署至Railway、Zeabur等主流平台。

智能体MCP/工具开源/仓库部署/工程

推荐理由:这个项目把后端全家桶变成 MCP 工具,AI 代理可以直接管理数据库和部署,对于正在折腾 agent 的团队,比东拼西凑要快得多。
5月19日
18:27
The Decoder:AI News(RSS)
67
Anthropic为Claude Managed Agents新增自托管沙箱与MCP隧道功能

Anthropic宣布扩展其Claude Managed Agents平台,新增自托管沙箱和MCP隧道两项关键功能。企业现在能够将AI Agent的工具执行环境部署在自己的基础设施中,提升了数据安全性和操作灵活性。值得注意的是,此次更新并未转移Agent本身的控制权,其核心管理仍由Anthropic平台负责。这一举措旨在满足企业对敏感数据处理和本地化部署的需求,同时保持托管服务的便捷性。

智能体AnthropicMCP/工具产品更新
17:09
Claude:Blog(网页)
精选77
Claude智能体托管平台新增自托管沙箱与MCP隧道功能

Anthropic为其Claude智能体托管平台推出两项更新:自托管沙箱允许用户在自有基础设施或合作云平台上运行工具,确保敏感数据与服务保留在用户控制范围内;MCP隧道则通过轻量网关,使智能体能安全连接企业私有网络内的数据库与API,无需暴露于公网。目前沙箱功能已进入公测,隧道处于研究预览阶段。这两项更新进一步增强了企业用户对智能体执行环境与内部资源访问的安全管控能力。

AnthropicMCP/工具产品更新部署/工程

推荐理由:自托管沙箱把agent执行挪到企业自己的基础设施里,敏感数据不再离开边界,这是让金融医疗等合规行业敢用AI agent的关键能力。MCP隧道补上了内网服务连接,组件已经完整。
12:55
HuggingFace Daily Papers(社区热门论文)
53
代码作为智能体的运行基础

近期研究表明,在新兴智能体系统中,代码的角色正从目标输出转变为智能体的运行基础。本文提出“代码作为智能体的运行基础”这一统一视角,系统梳理了支撑智能体系统的三个核心层次:连接智能体与外部世界的操作接口层;支撑长期执行的规划、记忆与反馈控制机制层;以及支持多智能体协作的共享代码层。该视角涵盖了编程助手、操作系统自动化等多个应用领域,并指出了评估验证、状态一致性等工程挑战,为构建可执行、可验证、有状态的智能体系统提供了清晰的路线图。

智能体MCP/工具论文/研究
01:06
Anthropic:Newsroom(网页)
精选64
Anthropic收购SDK与MCP服务器工具开发商Stainless

Anthropic宣布收购SDK与MCP服务器工具开发商Stainless。Stainless自2022年成立以来,一直为Anthropic官方SDK的生成提供支持,其工具能将API规范转化为TypeScript、Python、Go等多语言的SDK、命令行工具及MCP服务器。此次收购旨在增强Claude平台的开发者体验,提升AI代理连接外部数据与工具的能力,从而在MCP协议基础上进一步拓展连接生态。

智能体AnthropicMCP/工具行业动态

推荐理由:Anthropic收购Stainless,表面是SDK团队整合,深层是给Claude的Agent连接能力铺路。未来MCP服务器的质量和数量可能会跨一个台阶,做Agent开发的值得关注。
5月18日
10:45
IT之家(RSS)
精选70
腾讯 AI 设计智能体 Ardot 公测:一句话生成可编辑设计稿,一键转代码

腾讯云正式公测自研AI设计智能体平台Ardot。该平台核心功能包括:用户通过一句话指令即可生成App页面、官网、海报等可编辑设计稿;支持调用团队自有组件库生成规范稿,并能直接导入Figma文件保留原有设计。同时,Ardot具备设计稿一键转换为代码的能力,可对接CodeBuddy等开发工具实现代码还原。平台还提供多人在线实时评论、标注反馈和版本对比等协作功能,其微信小程序即将上线。

智能体MCP/工具产品更新

推荐理由:一句话生成可编辑设计稿不稀奇,但一键转代码加兼容 Cursor 这套组合拳让 Ardot 成了产设研协作的一个新选项,做项目和产品的可以上手试试。
08:00
HuggingFace Daily Papers(社区热门论文)
64
EnvFactory:通过可执行环境合成与健壮强化学习扩展工具使用智能体

EnvFactory 是一个全自动框架,旨在解决大语言模型在智能体强化学习中工具使用能力的瓶颈,即缺乏可扩展、健壮的执行环境和能捕捉隐式推理逻辑的高质量训练数据。该框架能自主探索并验证来自真实资源的有状态可执行环境,并通过拓扑感知采样与校准精炼合成自然的多轮交互轨迹,生成蕴含隐式意图的查询。仅利用7个领域中的85个验证环境,EnvFactory 生成了2,575条SFT和RL轨迹,相比传统方法环境减少五倍,却实现了更优的训练效率与下游性能,在BFCLv3、MCP-Atlas及τ²-Bench等基准上将Qwen3系列模型性能最高提升15%、8.6%和6%,为智能体强化学习提供了可扩展、可扩展且鲁棒的基础。

智能体MCP/工具论文/研究
5月17日
19:02
Hacker News 热门(buzzing.cc 中文翻译)
67
MCP 欢迎页面

MCP(模型上下文协议)推出了全新的欢迎页面,旨在为用户提供更直观的入门体验。该页面整合了关键文档、工具和社区资源,帮助开发者快速理解并集成MCP。页面设计简洁,重点突出了协议的核心概念与最新动态。此举是MCP提升开发者体验、推动协议更广泛采用的重要一步。该页面发布后在Hacker News上获得了101点关注度。

MCP/工具教程/实践
5月16日
08:57
Simon Willison 博客
58
datasette-llm-limits 0.1a0 发布

新插件 datasette-llm-limits 0.1a0 发布,需与 datasette-llm 及 datasette-llm-accountant 配合使用。该插件允许在 Datasette 内为每位用户或全局配置大语言模型(LLM)使用的支出限额。配置示例显示,可为用户设置滚动24小时窗口内的使用额度,金额上限为1.00美元。这为团队管理LLM调用成本提供了细粒度的控制工具。

MCP/工具产品更新部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
57
多模态工具使用智能体基准

针对智能体在真实工作流中需处理多模态输入、调用工具并自我修正的需求,研究团队推出了MM-ToolBench基准。该基准包含来自客户服务与智能创作两大类共100个可执行任务,覆盖20个细分领域,由27个MCP服务器提供324个工具支持。其核心设计理念是“闭环多模态验证”,即智能体必须执行工具、检查输出制品并在不符合要求时进行自我修正。实验表明,该基准极具挑战性,例如Claude Opus 4.6的成功率仅为32.0%,远低于94.0%的人类基准。它旨在为评估和推进下一代全模态工具使用智能体奠定基础。

智能体MCP/工具论文/研究评测/基准
01:54
The Decoder:AI News(RSS)
66
ChatGPT 现在想访问你的银行账户,以便告诉你别再点外卖了

OpenAI 正在将 ChatGPT 转变为个人财务助手。美国地区的 Pro 用户现已能通过 Plaid 连接银行账户,基于真实交易数据获得个性化财务分析。该功能运行于 GPT-5.5 Thinking 模型,未来将向所有用户开放。OpenAI 同时提醒,ChatGPT 并非持牌财务顾问,其分析仅供参考。

MCP/工具OpenAI产品更新推理
5月15日
17:42
公众号:月之暗面(Kimi)
54
Kimi WebBridge:让 AI 帮你操作浏览器

Kimi WebBridge 是一款面向本地 AI Agent 的浏览器插件,使智能体能够直接操控浏览器,执行网页导航、数据提取等任务。

智能体MCP/工具产品更新
10:48
HuggingFace Daily Papers(社区热门论文)
67
ATLAS:一个功能词元,兼作智能体操作与潜在视觉推理单元

针对视觉推理中直接生成图像计算成本高、代理方法存在切换延迟、潜在方法泛化性差等问题,本研究提出ATLAS框架。其核心是引入“功能词元”这一离散单元,它同时作为智能体操作和潜在视觉推理单元。每个词元对应一个内化的视觉操作,无需视觉监督,仍作为标准词元存在于词表中,可通过下一词元预测生成。这避免了生成冗余的中间视觉内容,且与标准的可扩展SFT和RL训练兼容。为应对RL中功能词元的稀疏性问题,研究引入了潜在锚定GRPO(LA-GRPO)以稳定训练。实验表明,ATLAS在多项挑战性基准测试中取得了优异性能,并保持了良好的可解释性。

arXivMCP/工具多模态推理
08:00
HuggingFace Daily Papers(社区热门论文)
56
χ-Bench基准测试:AI智能体在医疗自动化中的能力评估

χ-Bench是一个针对医疗运营自动化的基准测试,评估AI智能体在策略密度、多角色协作和多边交互三项关键能力上的表现。测试涵盖授权、用率管理和护理管理三大领域,要求智能体在模拟20个医疗应用、提供87个工具接口的高保真环境中,依据超过1290份文档的操作手册完成任务。结果显示,在30种配置中,最佳智能体仅解决28%的任务,严格标准下成功率不足20%,且全量任务性能骤降至3.8%。这表明AI在处理复杂、不可逆的企业级应用时仍面临显著挑战。

智能体MCP/工具论文/研究
02:00
Claude:Blog(网页)
精选73
在大型代码库中高效运用Claude Code:最佳实践与入门指南

Claude Code已成功部署于数百万行的单体仓库、遗留系统及分布式架构中。其核心在于围绕模型构建的“工具套件”,而非仅依赖模型本身。该套件包含五个关键扩展点:提供代码库概览的CLAUDE.md文件、实现持续改进的钩子、按需加载专业知识的技能、插件以及MCP服务器。它采用智能体搜索模式,直接在开发者本地实时代码库上操作,无需构建和维护集中式索引,从而避免了传统RAG系统在活跃大型代码库中索引过时的问题。团队对代码库设置的投入程度直接决定了其导航效果。

智能体AnthropicMCP/工具教程/实践

推荐理由:这是 Anthropic 官方出的 Claude Code 大型代码库配置指南,把 CLAUDE.md、hooks、skills 的层级和分工讲得比社区经验更系统,做工程落地的团队可以当作部署手册。
5月14日
15:40
IT之家(RSS)
精选74
"让 Token 消耗降低 61%":腾讯开源 Agent Memory

腾讯云开源了TencentDB Agent Memory,旨在解决Agent长任务中上下文窗口易满、Token成本高的问题。该方案采用“上下文卸载”与“Mermaid任务画布”两项核心技术,将完整信息卸载至外部存储,同时用结构化任务图保留关键状态与执行路径。实验显示,该方案在多任务连续会话中最高可降低61%的Token消耗,并提升任务成功率。项目已适配OpenClaw等主流框架,支持一键集成与本地SQLite存储。

智能体MCP/工具开源/仓库

推荐理由:腾讯开源的这个 Agent Memory,用 Mermaid 画布加上下文卸载,把长任务 Token 省了 61%,而且所有中间信息都可追溯,做复杂 Agent 的开发者可以直接抄作业了。
07:55
Claude Code:GitHub Releases(RSS)
精选67
Claude 工具 v2.1.141 版本更新

Claude 工具发布 v2.1.141 版本,带来多项功能新增与优化。主要更新包括:为钩子输出添加 terminalSequence 字段以支持无控制终端的桌面通知;新增 CLAUDE_CODE_PLUGIN_PREFER_HTTPS 环境变量,便于通过 HTTPS 克隆插件源码;引入 ANTHROPIC_WORKSPACE_ID 变量以在多工作区联盟中限定令牌范围。会话管理方面,claude agents 命令新增 --cwd 参数用于按目录筛选,并优化后台代理的状态归类。用户体验改进包括:在倒带菜单添加“总结至此”选项以压缩早期上下文;长思考超时后旋转指示器变色提供更明确反馈;此外,还修复了 Markdown 表格渲染异常、权限提示逻辑、历史记录管理等超过 30 项问题。

智能体AnthropicMCP/工具产品更新

推荐理由:Claude Code 的小版本但修得扎实,MCP 连接、/bg 权限继承、VSCode 语音等一堆边角都补了,Agent 模式稳定性明显提升,强烈建议升级。
5月13日
17:39
IT之家(RSS)
66
Anthropic Claude Code 缔造者:数千个 AI 智能体夜间自动为我写代码

Anthropic工程师鲍里斯・切尔尼透露,他利用Claude Code的循环指令和例行任务功能,在夜间自动运行数千个AI智能体进行编程开发。他通常同时开启5至10个会话,每个会话包含多个智能体,并通过手机应用管理这些任务。这种模式标志着工程师将AI从聊天机器人转变为全天候自主助手。切尔尼此前在社交平台分享的智能体配置方案已获得超10.4万次收藏和810万次浏览。

智能体AnthropicMCP/工具教程/实践
12:39
IT之家(RSS)
66
腾讯元宝 App 官宣支持总结微信聊天记录:可提炼要点、汇总清单、整理攻略等

腾讯元宝App宣布新增支持总结微信聊天记录功能。用户将微信和元宝升级至最新版本后,可通过转发聊天记录至元宝,由AI自动提炼对话要点、生成清单或表单,并能整理成攻略,例如报销发票表格、旅行方案等。该消费者端AI助手于2024年5月正式发布,今年3月更新了更拟人化的Logo设计。

MCP/工具产品更新
08:00
HuggingFace Daily Papers(社区热门论文)
55
模型自适应工具必要性揭示LLM工具使用中的知行差距

研究发现大语言模型在工具使用上存在系统性“知行差距”——模型认知判断需要工具与实际调用工具的行为存在显著不匹配。基于模型自适应定义评估显示,算术与事实问答场景下不匹配率分别达26.5%-54.0%和30.8%-41.8%。通过对模型内部表征的探测分析发现,不匹配主要发生在从认知判断到动作执行的转换环节,而非认知判断本身。这表明提升工具使用可靠性需同步优化认知识别和行动执行两个层面。

智能体MCP/工具论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
SPIN:基于迭代导航的工业任务结构LLM规划

工业LLM代理系统常将规划与执行分离,但LLM规划器易产生结构无效或过长的流程,导致脆弱失败和额外成本。SPIN是一种规划封装器,结合验证有向无环图(DAG)规划和基于前缀的执行控制。它通过验证与修复提示强制执行严格的DAG契约,在下游执行前生成可执行计划,并增量评估DAG前缀以在满足查询时提前停止。在AssetOpsBench的261个场景中,SPIN将执行任务数从1061降至623,任务完成率从0.638提升至0.706,每次运行的工具调用数从11.81减少至6.82。在MCP Bench上,该封装器同样提升了GPT OSS1和Llama 4 Maverick在规划、落地和依赖关系方面的评分。

智能体MCP/工具论文/研究
07:27
Hacker News:AI 热帖
精选76
展示 HN:Statewright--通过可视化状态机提升AI智能体可靠性

Statewright 是一个通过状态机为AI智能体提供约束的系统,能控制其在各阶段可使用的工具,从而聚焦推理并提升可靠性。它将工作流定义为规划、实施、测试等多个阶段,自动执行工具限制与状态转换。在本地模型测试中,两个模型在5项SWE-bench子任务上应用约束后,正确率从2/10显著提升至10/10。该系统已集成到Claude Code等平台,一个修复测试失败的典型工作流可在46秒内完成。

智能体MCP/工具产品更新编码

推荐理由:Statewright用状态机给AI代理上“紧箍咒”,让13B小模型也能搞定SWE-bench任务,做coding agent的应该立刻装上试试。
04:56
Hacker News 热门(buzzing.cc 中文翻译)
65
Show HN: Needle:我们将"双子座工具召唤"浓缩为一个26M模型

研究团队发布了名为Needle的轻量级模型,它将谷歌Gemini的工具调用能力浓缩至仅2600万参数。该模型在保持核心功能的同时,体积显著缩小,旨在实现更高效的部署与应用。项目代码已在GitHub开源,并在Hacker News社区获得了超过100点的关注度。

智能体MCP/工具开源生态模型发布
01:54
Claude:Blog(网页)
精选73
Claude进军法律行业

Anthropic公司为法律行业发布20多个新的MCP连接器及12个专用插件,将Claude深度集成至合同管理、文档处理等法律核心软件栈。Claude现可直接在Microsoft Word、Outlook等办公应用中无缝工作,具备起草、修订、条款比对等可复用技能,并能自动化处理日常法律事务。公司同时宣布与多个司法公益组织合作,以扩大法律服务的可及性。

智能体AnthropicMCP/工具产品更新

推荐理由:Claude 这次在法律行业的布局很大,20+ 连接器和 12 个插件意味着它不是做表面集成,而是把律师的整套工具链都拉了进来——对律所是效率革命,对做垂直 AI 产品的团队则是教科书级的行业解决方案示范。
00:24
Claude:Blog(网页)
精选58
Code w/ Claude SF 2026开发者大会:基于AI指数级增长的构建

在Code w/ Claude SF 2026开发者大会上,Anthropic宣布提升开发者工具能力。Claude Code的速率限制翻倍,Claude Opus的API限制提高,以支持大规模可靠开发。同时,Claude平台上的托管智能体新增四项功能:“梦想”功能通过回顾会话优化记忆;多智能体编排支持主智能体并行委派子任务;“成果”功能通过定义输出标准提升任务成功率,内部测试显示最难问题成功率最多提升10%;Webhooks提供任务完成通知。大会主题演讲和分组会议录像已上线,并计划在伦敦和东京举办后续活动。

智能体AnthropicMCP/工具产品更新

推荐理由:虽然已是旧闻,但Dreaming和Outcomes这两个功能让agent能自我改进,是构建生产级AI团队的真信号,做Claude开发的值得补课。
5月12日
12:44
HuggingFace Daily Papers(社区热门论文)
65
Shepherd:一个为元智能体提供形式化执行追踪的运行时基板

Shepherd提出了一种函数式编程模型,将元智能体对目标智能体的操作形式化为函数,其核心操作在Lean中实现。该系统将所有智能体-环境交互记录为类似Git的类型化执行追踪,支持对任意历史状态进行分支与重放。其分支智能体进程及文件系统的速度比Docker快5倍,重放时提示缓存复用率超过95%。应用案例表明,其实时监督可将结对编程通过率从28.8%提升至54.7%;反事实元优化在四个基准测试中最高超出基线11个百分点,同时减少高达58%的挂钟时间;在Tree-RL训练中,于选定轮次进行分支展开将性能从34.2%提高至39.4%。该系统已开源。

智能体arXivMCP/工具开源/仓库
12:44
HuggingFace Daily Papers(社区热门论文)
64
面向智能体强化学习的动态技能生命周期管理

研究团队提出SLIM框架,用于动态管理大型语言模型智能体在强化学习中使用的外部技能。该框架将活跃技能集视为与策略学习协同优化的变量,通过留一验证评估技能边际贡献,并执行三项操作:保留高价值技能、淘汰贡献可忽略的旧技能、在持续失败时扩展技能库。在ALFWorld和SearchQA基准测试中,SLIM平均超越最佳基线方法7.1个百分点。实验表明,策略学习与外部技能保留可共存:部分技能被策略内化,另一些则持续提供外部价值,验证了动态技能管理的普适性与优越性。

智能体MCP/工具论文/研究
10:55
Hacker News 热门(buzzing.cc 中文翻译)
57
交互模型

2026年5月11日,thinkingmachines.ai发布关于交互模型的文章,在Hacker News上获得103点关注。交互模型作为人机交互的核心概念,可能涉及人工智能系统与用户互动方式的创新或改进。这一高关注度反映了技术社区对交互模型发展的兴趣,表明该主题在AI领域具有讨论价值。文章链接指向详细内容,但未提供具体技术细节或变化指标,仅从社区反馈可见其影响力。

智能体MCP/工具现象/趋势
03:52
Simon Willison 博客
精选80
在脚本的shebang行中使用LLM

本文介绍了一种创新方法,将LLM工具直接嵌入脚本的shebang行中执行指令。通过LLM的fragments模式,shebang行可执行简单任务,如生成SVG图像;使用-T选项能调用外部工具(如llm_time)创作包含当前时间的俳句;更复杂的是运行YAML模板,其中定义了Python函数作为工具进行数学计算,示例中演示了计算2344乘以5252加134的过程,并通过调试输出展示了分步结果,最终得到12,310,822。这展现了LLM作为脚本解释器的强大扩展性,能够支持从内容生成到数据查询的多样化任务。

MCP/工具教程/实践

推荐理由:Simon 这个 shebang 技巧让 LLM 直接变成脚本解释器,虽然是极客玩法,但对常写自动化脚本的开发者来说可以直接抄走,创意很妙。
02:52
Claude Code:GitHub Releases(RSS)
精选72
Claude Code v2.1.139 版本更新

本次更新引入了多项新功能与优化。核心新增包括:集中管理会话的Agent视图(研究预览)、可设置目标并持续工作的/goal命令、实时调整滚轮速度的/scroll-speed命令,以及查看插件详情的claude plugin details命令。交互界面导航与控制能力得到增强。底层优化涵盖MCP服务器可获取CLAUDE_PROJECT_DIR环境变量、/context all的令牌估算会考虑模型分词器并显示舍入值。此外,修复了超过20项问题,如凭证死锁、内存无限制增长、权限规则、UI显示错误及路径处理等缺陷。

智能体AnthropicMCP/工具产品更新

推荐理由:Claude Code 这波更新给了两个真正改变工作流的杀手功能,agent view 让你一眼看清所有会话,/goal 命令能让 Claude 自己跑完一个任务直到满足条件,做开发的同学可以立刻试试。
5月11日
17:34
IT之家(RSS)
64
字节火山引擎 Agent Plan 发布:业界首个"Agent 套餐包",每月 40 元起

火山引擎发布业界首个“Agent套餐包”Agent Plan,起售价每月40元。该套餐深度整合模型与工具能力,包含字节自研的Doubao-Seed系列SOTA模型及GLM-5.1、Kimi-K2.6等主流三方模型,原生支持文本、代码、图像、视频多模态任务处理。同时提供联网搜索、记忆增强等Harness工具,可自动适配Claude Code、OpenClaw等主流编程与Agent平台。套餐采用AFP(Agent燃料值)统一计费,设有40元、200元、500元和1000元四档月费阶梯。

MCP/工具产品更新行业动态
14:34
IT之家(RSS)
62
腾讯 QClaw 上线"文件空间"功能,打通本地文件、腾讯文档、ima 知识库

腾讯云QClaw正式上线“文件空间”功能,通过一次授权即可一站式打通用户的本地文件、腾讯文档和ima知识库,实现了深度集成与稳定的权限管控。用户可在QClaw内直接操作腾讯文档内容,勾选多份文件交由AI处理,AI能生成可协作的活化文档并支持团队协同编辑。同时,用户可直接调取ima知识库文件进行分析,AI生成的方案也能一键保存回知识库,便于后续使用。

MCP/工具检索增强产品更新
08:00
HuggingFace Daily Papers(社区热门论文)
57
RubricEM:超越可验证奖励的、基于评分标准引导策略分解的元强化学习框架

本文提出RubricEM框架,将评分标准作为结构化策略执行、反馈与记忆共享的核心接口,以训练深度研究智能体。该框架通过自生成评分标准使研究过程具备阶段意识,并采用阶段结构化GRPO进行更密集的语义信用分配。同时,它训练一个共享骨干的反思元策略,将已评估轨迹提炼为可重用的评分标准指导。最终实现的RubricEM-8B模型在四个长文本研究基准测试中表现优异,超越同类开源模型并接近专业系统水平。分析结果揭示了该框架各组成部分的关键作用。

智能体MCP/工具数据/训练论文/研究
5月10日
16:33
IT之家(RSS)
52
马斯克入局 AI 编程赛道:SpaceXAI 桌面编程应用 Grok Build 曝光

SpaceXAI(原xAI)的桌面编程应用Grok Build因网页端按钮意外泄露而曝光。该应用将支持macOS、Linux和Windows系统,直接对标Claude Code和Codex,主打智能体自主编程工作流。它支持插件、MCP、技能模块,并能管理Git仓库、启动开发服务器及处理本地文件。预计将搭载近期内测的Grok 4.3模型,其前端编程能力获好评。尽管具体上线时间未定,但功能泄露和内测权限发放表明发布已准备就绪。

智能体MCP/工具xAI产品更新
08:00
HuggingFace Daily Papers(社区热门论文)
59
LLM代理无需推理已知何时调用工具

针对工具增强型LLM代理过度调用工具的问题,研究提出了When2Tool基准,系统评估工具调用必要性。研究发现,尽管提示优化和“推理后行动”等免训练方法效果有限,但模型隐藏状态已线性编码了工具必要性信息(AUROC达0.89-0.96)。基于此提出的Probe&Prefill方法,通过轻量级线性探针读取隐藏信号并预填充引导句,在测试的所有模型中实现了工具调用减少48%而准确率仅损失1.7%的显著效果,远超现有基线。

智能体GitHubMCP/工具论文/研究
5月9日
08:00
HuggingFace Daily Papers(社区热门论文)
56
网络中的大语言模型:资源约束下的协同智能

大语言模型(LLMs)驱动各类应用,但云服务难以满足低延迟、间歇连接等需求,端侧部署又受算力与内存限制。协同智能作为一种新范式,通过分布在设备与云端的多个LLMs以自然语言协作,在计算、内存、通信和成本等多维约束下优化响应质量。该框架涵盖垂直设备-云协作和水平多智能体协作,并可结合为混合拓扑。研究还探讨协作学习,包括路由策略训练与LLMs合作能力开发,并指出资源异构下的扩展性及可信协同智能等开放挑战。

智能体arXivMCP/工具论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
MCP-Cosmos:为复杂任务执行引入世界模型增强的智能体

针对智能体在任务规划与反应式执行间的割裂问题,MCP-Cosmos框架将生成式世界模型融入模型上下文协议生态。它通过统一MCP、世界模型与智能体三项技术,提出“自带世界模型”策略,使智能体能在潜在空间中模拟状态转移并预先优化计划。实验采用ReAct和SPIRAL两种策略,结合2种规划模型与3种世界模型,在超过20项MCP-Bench任务中验证。结果表明,该框架显著提升了工具成功率与参数准确性等关键指标,并引入“执行质量”新指标,为评估世界模型效能提供了新洞察。

智能体MCP/工具论文/研究
5月8日
20:00
OpenRouter:Announcements(RSS)
精选56
Agent SDK 中的人机协同工具

OpenRouter Agent SDK 引入了一种新工具类型,使智能体能够自动处理常规决策,并在高风险决策时暂停以请求人工输入。该功能通过两个钩子实现,无需编写任何循环管理代码,从而在自动化流程中灵活嵌入关键的人工判断环节。

智能体MCP/工具产品更新

推荐理由:OpenRouter给Agent SDK加了人类介入挂钩,做复杂流程的团队不用自己写循环管理代码了,关键决策能拉人进来确认,是个实用的小升级。
‹ 上一页
1…456789
下一页 ›