AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 2139 条
全部一手资讯X论文
标签「Agent」清除
6月18日周四
07:13Hacker News 热门(buzzing.cc 中文翻译)65一个机器人正朝你飞奔而来:你想让它运行在Claude还是Grok上?
06:55Claude Code:GitHub Releases(RSS)57精选Claude Code v2.1.181 发布
06:14Cloudflare Blog64精选Cloudflare 将更多智能体框架引入平台,以 Flue 为首
05:13Google Developers Blog(RSS)64精选Google 分享 A2UI 与 MCP Apps 三种集成架构模式
04:12TechCrunch:AI(RSS)46NEA合伙人Tiffany Luck谈AI IPO、个人智能体与ROI清算
03:47Ars Technica:AI(RSS)55AI编码智能体教会机器人安装GPU和剪扎带--NVIDIA GEAR等团队开发ENPIRE框架
01:36MarkTechPost(RSS)77精选Vercel 发布开源 AI 智能体框架 Eve:每个智能体就是一个文件目录
00:08Google Developers Blog(RSS)63精选谷歌发布Agentic Resource Discovery(ARD)开放规范
6月17日周三
22:08Cloudflare Blog61精选Cloudflare 发布 Cloudflare One stack:智能体驱动的部署工具集
20:30公众号:百度智能云(文心)37百度伐谋自我演化决策智能体助力三科研团队获突破
20:30公众号:百度智能云(文心)45中国银联与百度智能云展示金融AI全栈方案,发布智能体白皮书
19:27Hacker News 热门(buzzing.cc 中文翻译)62创始人的行动指南:打造一家原生AI初创公司
19:27Hacker News 热门(buzzing.cc 中文翻译)57GLM-5.2 成为 Artificial Analysis 智能指数领先开放权重模型
19:07IT之家(RSS)52微信支付AI专属卡发布,张军解释用途:像给钱让智能体去买东西
18:41公众号:卡尔的AI沃茨69视频Agent Seko更新无限画布,自动连接节点生成工作流
16:07IT之家(RSS)64Claude Code 用户画像:平均每周使用 20 小时,AI 代码修改占 26%
15:05IT之家(RSS)67给 Agent 留的指定"办事钱包":微信支付 AI 专属卡发布,实现从智能推荐到下单支付的自动化消费
15:05IT之家(RSS)56Anthropic搁置Claude Agent SDK Token计费变更
14:05IT之家(RSS)42谷歌推送 Wear OS 7:续航提升10%、引入实时更新与Gemini AI
12:05IT之家(RSS)44腾讯自选股 App 内测金融智能体 StockBuddy,提供个股分析与模拟交易
12:05IT之家(RSS)49成本平均便宜 30~40%,微软上线 Copilot Cowork 智能体 AI
12:05IT之家(RSS)47小艺 Claw 接入开源盘古 openPangu 2.0 Pro,提升鸿蒙系统级任务执行能力
11:41公众号:昆仑万维(天工)55天工3.1发布:Skywork Design与Dynamic Workflows上线
11:03IT之家(RSS)57Anthropic 和 OpenAI 模型太贵,微软智能体考虑使用 DeepSeek V4 微调版
10:33HuggingFace Daily Papers(社区热门论文)51GameCraft-Bench:智能体能否在真实游戏引擎中端到端构建可玩游戏?
10:33HuggingFace Daily Papers(社区热门论文)43OPD-Evolver:通过在线策略自蒸馏培养全能智能体进化器
09:20公众号:智谱(GLM)81GLM-5.2上线并开源:专注Coding与长程任务
08:00HuggingFace Daily Papers(社区热门论文)34OpenRath:以Session为中心的智能体运行时状态管理
08:00HuggingFace Daily Papers(社区热门论文)51DelveAgent与PhySciBench:物理科学深度研究的多智能体框架与综合基准
08:00HuggingFace Daily Papers(社区热门论文)52GateMem:多主体共享记忆智能体的记忆治理基准
08:00HuggingFace Daily Papers(社区热门论文)49ACIE:基于智能体RAG的可配置临床信息提取--什么有效、什么失效及原因
08:00HuggingFace Daily Papers(社区热门论文)47RATs:玩耍式智能体机器人学习
07:07OpenRouter:Announcements(RSS)67精选Subagent:让模型把琐碎任务委托出去
05:06Ars Technica:AI(RSS)64Anthropic暂停Claude Agent SDK基于token的计费调整
03:35Anthropic:Research(发表成果 · 网页)76同事件精选Anthropic:智能体编码中专业知识回报持续存在同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》
02:03OpenRouter:Announcements(RSS)62精选OpenRouter Presets:当模型下线时保持 AI 智能体运行
6月16日周二
23:49Hacker News 热门(buzzing.cc 中文翻译)68现在运行本地模型效果不错
22:30公众号:小米 MiMo69精选小米 MiMo Claw 正式版发布:旗舰模型+金山办公,全新订阅服务上线
22:01IT之家(RSS)42腾讯张军:智能体 WorkBuddy 将入职政务系统,全国首个省级政务智能中枢「湾擎」上线试运行
22:01IT之家(RSS)73小米 MiMo Claw 正式版发布,搭载 MiMo-V2.5-Pro 旗舰模型
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月18日
07:13
Hacker News 热门(buzzing.cc 中文翻译)
65
一个机器人正朝你飞奔而来:你想让它运行在Claude还是Grok上?

实验将11个大语言模型放入自建2D吃鸡游戏中,进行30轮对战。Grok 4.1 Fast以13胜(每胜0.97美元)夺冠,第二名Claude Sonnet 4.6仅5胜(每胜26.78美元),成本相差27倍。GPT 5.4击杀数最高(38次),但仅获2胜排第二。GPT 5.4-mini、DeepSeek 4 Flash和Kimi K2.6共花费57美元,零胜场。游戏包含武器、护甲、载具及缩圈机制,模型可编辑自身人格和记忆文件,彼此仅以字母代称。传统基准未能预测胜负,揭示出模型在“获胜”与“杀人”能力之外的决策差异。

智能体AnthropicxAI评测/基准
06:55
Claude Code:GitHub Releases(RSS)
精选57
Claude Code v2.1.181 发布

Claude Code v2.1.181 发布,新增 /config key=value 语法允许在提示中直接设置任意配置项,新增 sandbox.allowAppleEvents 选项使沙盒命令支持 Apple Events,新增 CLAUDE_CLIENT_PRESENCE_FILE 环境变量用于抑制移动端推送通知。内置 Bun 运行时升级至 1.4,改进了长段落流式输出(逐行显示)和 API 连接中断后自动重试。子 agent 面板优化:空闲 agent 30 秒自动隐藏、列表最多 5 行。修复了提示缓存读取、Write/Edit 在网络驱动器产生 0 字节文件、启动性能回归(约 120ms)、启动阻塞(最长 15 秒)、macOS TUI 冻结、子 agent 时长显示错误、API 重试指示器残留、AWS 凭证刷新等问题。

智能体Anthropic产品更新部署/工程

推荐理由:一次工程师式的磨刀更新,修复了网络驱动器写入、macOS TUI 冻结等一批痛感明显的 bug,新增的 /config 快捷语法也顺手,但对非 Claude Code 用户来说就是一串技术细节。
06:14
Cloudflare Blog
精选64
Cloudflare 将更多智能体框架引入平台,以 Flue 为首

Cloudflare Agents SDK 现已成为任何智能体框架均可构建的运行时。Cloudflare 开放了 Agents SDK 原语,Flue 成为首个针对该 SDK 的框架,同时仪表盘中已推出智能体功能。

智能体产品更新部署/工程

推荐理由:Cloudflare 将 Agents SDK 开放为中性运行时,Flue 首个接入,本质还是为 Workers 拉流量,非 Cloudflare 用户不必费心。
05:13
Google Developers Blog(RSS)
精选64
Google 分享 A2UI 与 MCP Apps 三种集成架构模式

Google 分享了三种集成 A2UI 与 MCP Apps 的架构模式,旨在结合两者优势。A2UI 采用声明式框架,通过 JSON payload 定义 UI,由宿主原生渲染,确保一致性与安全性,但受限于预定义组件库。MCP Apps 在 iframe 中使用标准 Web 技术提供自定义界面,但存在设计碎片化、性能与安全挑战。三种模式包括:通过 MCP 服务器提供 A2UI,利用 MCP Resources 或 Tool 调用传递 JSON,实现“一次编写,原生渲染”的跨平台能力;以及静态与动态交付方案。Google 正考虑扩展 MCP 以原生支持 A2UI。

智能体GoogleMCP/工具教程/实践

推荐理由:Google 这篇指南给出了三种具体的架构模式,帮开发者同时用上 A2UI 的原生安全性和 MCP 的定制能力,对正在做 Agent UI 的团队是直接的工程参考。
04:12
TechCrunch:AI(RSS)
46
NEA合伙人Tiffany Luck谈AI IPO、个人智能体与ROI清算

硅谷年初掀起tokenmaxxing热潮,CEO鼓励员工最大化使用AI,但Uber数月内耗尽年度AI预算,部分公司削减Claude许可证,Meta取消内部排行榜。NEA合伙人Tiffany Luck在TechCrunch播客中探讨hype与ROI的张力、个人AI智能体的未来、今年AI IPO前景,以及初创企业如何帮助企业追踪AI支出回报。她认为价值正出现在AI栈的每一层,企业开始混合搭配多个模型供应商。

智能体大佬观点
03:47
Ars Technica:AI(RSS)
55
AI编码智能体教会机器人安装GPU和剪扎带--NVIDIA GEAR等团队开发ENPIRE框架

NVIDIA GEAR实验室联合卡内基梅隆大学和UC Berkeley开发了ENPIRE框架,让AI编码智能体自主训练机器人。测试了OpenAI Codex(GPT-5.5)、Anthropic Claude Code(Opus 4.7)和月之暗面Kimi Code(Kimi K2.6)。在Push-T、插针盒、剪扎带和GPU安装等任务中,智能体达到99%成功率;插针任务中AI智能体比人类参与方法更快接近100%。8个智能体协作2小时完成Push-T(4个需3小时,单个近5小时)。局限包括机器人闲置、智能体耗时总结彼此想法和token消耗高。团队将开源全部内容。

智能体具身智能开源/仓库
01:36
MarkTechPost(RSS)
精选77
Vercel 发布开源 AI 智能体框架 Eve:每个智能体就是一个文件目录

Vercel 发布开源 AI 智能体框架 Eve(npm 包,Apache-2.0 许可)。Eve 采用文件系统优先设计:每个智能体对应一个磁盘目录,目录结构直接映射模型、指令、工具、技能、连接、子智能体等能力,无需额外注册代码。内置六大生产级能力:持久执行(每步检查点,崩溃后可恢复)、沙箱计算、人机审批、安全连接(支持 MCP 和 OpenAPI)、多通道(Slack、Discord、Teams 等)以及追踪与评估(OpenTelemetry)。Vercel 内部运行了上百个智能体,包括数据分析工具 d0(月处理超3万查询)、自动销售代理 Lead Agent(年费约5000美元、回报32倍)和支持智能体 Vertex(自主解决92%工单)。

智能体产品更新部署/工程
关联讨论 1 条X:邵猛 (@shao__meng)
推荐理由:Vercel 把自己跑了 100 多个 agent 的框架开源了,用目录即契约的方式把耐久执行、沙箱、审批等全打包,对想在生产环境跑 agent 的团队是今年最务实的发布之一。
00:08
Google Developers Blog(RSS)
精选63
谷歌发布Agentic Resource Discovery(ARD)开放规范

Agentic Resource Discovery(ARD)是一项开放规范,用于在Web上发布、发现和验证AI工具、技能与智能体。它基于两个原语:组织在其自有域名下托管catalog描述可用能力,registry作为搜索引擎索引catalog并响应发现请求。ARD支持加密验证,使客户端与端点连接前确认发布者身份,然后直接通过原生协议调用能力。Google Cloud的Gemini Enterprise Agent Platform通过Agent Registry提供企业级支持,包括URN命名、出站策略、工具固定和基于Agent Identity的信任验证。该规范现已发布,开发者可通过托管ai-catalog.json文件使其服务可发现。

智能体GoogleMCP/工具行业动态
关联讨论 1 条Hugging Face:Blog(RSS)
推荐理由:虽然才刚发布,但 ARD 有可能成为代理网络的“robots.txt”,做 agent 开发的都该看一眼,它解决的是跨组织发现和信任这个真问题。
6月17日
22:08
Cloudflare Blog
精选61
Cloudflare 发布 Cloudflare One stack:智能体驱动的部署工具集

6月17日,Cloudflare 推出 Cloudflare One stack,一组可直接赋予 AI 智能体的技能文件,用于自动配置、部署和管理 Zero Trust 环境。工具集包含两个轻量级 skill:cloudflare-one 负责通用产品指导(VPN 替换、网络连接、安全策略等),cloudflare-one-migration 提供从 Zscaler、Palo Alto Networks 等厂商迁移的明确引导。技能内置决策树与结构化知识,智能体可自动执行云环境评估、网络拓扑生成及 Digital Experience Monitoring 排障。该 stack 基于 Cloudflare 员工数万小时客户经验提炼,降低学习与迁移门槛。

智能体产品更新部署/工程

推荐理由:Cloudflare把多年零信任迁移经验打包成agent技能,让AI直接帮你部署和管理安全堆栈,对正忙着切到Zero Trust的团队是个即插即用的省力工具,但仍是垂直领域的效率提升,不算广谱AI大事。
20:30
公众号:百度智能云(文心)
37
百度伐谋自我演化决策智能体助力三科研团队获突破

百度伐谋自我演化决策智能体在三个科研场景取得突破:清华大学电机系用其将磁芯材料暂态预测MSE Loss从40+提升至96+,全球第五,论文被ECCE收录;中科院学生以200行种子策略经400轮LLM语义级变异,自主发明H-DWA、K-Filter、A-Lock战术,获硬件实战赛全球第一、仿真赛第三;清华大学管理科学与工程学院团队针对A股日内价格预测,720轮自动演化后R²从0.010升至0.032,4周达到传统方法2-3个月水平。三团队均证实自动演化结构优于或持平人工设计。

智能体其他
20:30
公众号:百度智能云(文心)
45
中国银联与百度智能云展示金融AI全栈方案,发布智能体白皮书

6月16日,2026中国金融展上,百度智能云与中国银联展示金融行业AI应用解决方案。AI Infra方面,银联云提供搭载昆仑芯的国产算力环境,已累计支持30余家机构进行DeepSeek、MiniMax、GLM等模型测试。Agent Infra方面,百度千帆大模型平台为银联云用户提供模型开发、部署、推理服务及国产异构算力纳管、金融级数据安全与多租户隔离方案。百度智能云已服务超800家金融机构,覆盖100%系统重要性银行。双方将聚焦AI基础设施共建与金融智能体联合研发,推动支付、清算、风控等核心场景智能化。同期发布《金融行业场景智能体白皮书》,提出“知识-流程”双维分类框架及落地优先级建议。

智能体行业动态部署/工程
19:27
Hacker News 热门(buzzing.cc 中文翻译)
62
创始人的行动指南:打造一家原生AI初创公司

Anthropic 近日发布创业行动指南,将生命周期分为 Idea、MVP、Launch、Scale 四阶段,每阶段附目标、退出标准、常见失败模式及基于 Claude 的 AI 实践。指南覆盖:用 Claude 验证问题假设、绘制竞争图谱、开展客户发现;通过架构设计避免 AI 生成 MVP 代码的技术债务;区分真正产品市场契合与早期热度的衡量框架;用智能体工作流替代创始人注意力的 Launch 阶段操作系统;以及 Chat、Claude Cowork、Claude Code 各阶段使用矩阵。还收录了 Ambral、Anything、Carta Healthcare 等创始人的实际案例。

智能体Anthropic教程/实践编码
19:27
Hacker News 热门(buzzing.cc 中文翻译)
57
GLM-5.2 成为 Artificial Analysis 智能指数领先开放权重模型

GLM-5.2 在 Artificial Analysis Intelligence Index v4.1 上得分 51,领先 MiniMax-M3(44)、DeepSeek V4 Pro(max,44)和 Kimi K2.6(43)。模型总参数 744B,活跃参数 40B,上下文窗口 1M tokens,API 定价每百万输入/输出/缓存命中 token 分别为 $1.4/$4.4/$0.26。科学推理显著提升:HLE 得分 40%(+12)、CritPt 21%(+16)。GDPval-AA v2 得分 1524,与 GPT-5.5(xhigh)持平。每任务输出 43k tokens(其中 37k 推理),每任务成本约 $0.46,位于智能 vs 成本帕累托前沿。采用 MIT 许可证,可通过 DeepInfra、Novita 等第三方平台使用。

智能体推理评测/基准
19:07
IT之家(RSS)
52
微信支付AI专属卡发布,张军解释用途:像给钱让智能体去买东西

微信支付今日正式发布AI专属卡,授权接入Agent后,用户只需在对话中提出消费需求,即可实现从智能推荐到下单支付的自动化消费。腾讯公关总监张军发文总结其用途:额度由用户指定管理,在强授权模式上运行,相当于托智能体办事时预支的“办事经费”。张军纠正了“AI信用卡”的误解,强调该卡是充值给智能体使用的。

智能体产品更新
18:41
公众号:卡尔的AI沃茨
69
视频Agent Seko更新无限画布,自动连接节点生成工作流

视频Agent Seko在最新更新中推出无限画布,并能自动将创意、剧本、角色、场景和分镜等素材节点连接成完整工作流。用户可通过Seedance 2.0全能模式输入一句话或完整剧本,Seko自动生成多集短剧大纲、人物、场景、美术风格及分镜描述,并支持逐段修改提示词和生成视频。画布提供全自动与精细手动编辑的双重控制,解决了AI视频从70分改到85分时反复重做的痛点。实测用该流程三小时完成两集悬疑短剧,角色一致性、故事节奏和画面氛围表现力均超出预期。

智能体教程/实践视频
16:07
IT之家(RSS)
64
Claude Code 用户画像:平均每周使用 20 小时,AI 代码修改占 26%

Anthropic 6月16日发布博文,分析2025年10月至2026年4月约23.5万用户的40万次Claude Code会话。用户平均每周使用20小时,其中代码修改占26%,代码编写占25%,合计超半数。典型会话中人类负责约70%规划决策,Claude完成约80%执行决策。新手(1级)每次提示产生约5个操作和600个单词输出,专家(5级)产生2倍操作和5倍输出(约3200个单词)。

智能体Anthropic现象/趋势编码
15:05
IT之家(RSS)
67
给 Agent 留的指定"办事钱包":微信支付 AI 专属卡发布,实现从智能推荐到下单支付的自动化消费

微信支付正式发布 AI 专属卡,授权接入 Agent 后,用户只需在对话中提出消费需求,即可体验从智能推荐到下单支付的自动化消费。目前已支持在 WorkBuddy 里使用美团服务(Mac 端升级至 5.1.1 即可体验),未来将支持更多平台。安全方面,AI 专属卡与微信支付主账户完全隔离,余额由用户设定并可随时调整,每笔订单需用户最终确认才能完成支付。

智能体MCP/工具产品更新
15:05
IT之家(RSS)
56
Anthropic搁置Claude Agent SDK Token计费变更

Anthropic暂停Claude Agent SDK按API Token计费变更计划。该开源SDK允许通过Python或TypeScript调用Claude Code底层能力。原计划6月15日起将外部SDK调用从标准订阅改为按API费率计费,订阅用户仅获等额抵扣。开发者指出以Opus作为编码助手成本将快速超支,Zed团队警告成本大增。Anthropic于6月15日更新支持页面称“暂停所述变更,目前没有任何变化”,正在优化计划。

智能体AnthropicMCP/工具行业动态
14:05
IT之家(RSS)
42
谷歌推送 Wear OS 7:续航提升10%、引入实时更新与Gemini AI

6月17日,谷歌向Pixel Watch 2、3、4正式推送Wear OS 7更新。系统功耗优化使续航比Wear OS 6提升10%。交互新增手机端“实时更新”功能,可追踪外卖、快递状态;无手机时可通过音频切换器管理音乐播放。智能方面,部分2026年发布的手表将获Gemini Intelligence支持,能理解指令、调用应用完成多步骤任务,支持语音创建定制化小部件,并可调用Google Docs、Gmail中的个人数据提供智能服务。

智能体Google产品更新端侧
12:05
IT之家(RSS)
44
腾讯自选股 App 内测金融智能体 StockBuddy,提供个股分析与模拟交易

腾讯自选股 App 正在内测金融智能体 StockBuddy,接入专业金融数据源,覆盖沪深港美市场行情。StockBuddy 提供自选股票研究、智能盯盘等主动式服务,支持模拟交易策略跟踪,但不提供投资建议,每次分析末尾附风险提示。该产品采用免部署设计,支持跨设备使用,已连接微信与企业微信生态,用户可直接在聊天界面交互。后续将引入更多金融专业能力,并支持查询 ima 知识库。

智能体产品更新
12:05
IT之家(RSS)
49
成本平均便宜 30~40%,微软上线 Copilot Cowork 智能体 AI

微软面向企业环境上线 Copilot Cowork 智能体 AI,可端到端执行复杂多工具任务。对比同类产品,在 Opus 4.8 模型下每次提示成本低 30-40%。优势包括云托管执行(笔记本关机后任务继续运行)、原生集成 Work IQ 上下文引擎、继承 M365 企业级安全合规及多模型选择。按 Copilot Credits 用量计费,费用由模型使用、上下文检索、工具调用和运行时间构成,任务按轻、中、重三类结合四种用户画像估算成本。预览阶段已有超半数财富 500 强企业试用。

智能体Microsoft产品更新
12:05
IT之家(RSS)
47
小艺 Claw 接入开源盘古 openPangu 2.0 Pro,提升鸿蒙系统级任务执行能力

小艺 Claw 接入开源盘古 openPangu 2.0 Pro 模型,重点提升鸿蒙系统级任务执行能力。该模型更亲和昇腾算力,单卡吞吐率达其他主流开源模型的 2 倍,Agent 任务更快更准更省。拥有 512K 上下文,含 Pro 与 Flash 两版本:2.0 Pro 总参数量 505B、激活参数量 18B;2.0 Flash 总参数量 92B、激活参数量 6B。openPangu 2.0 计划从 6 月 30 日起陆续开源 7 大组件,包括预训练代码、后训练代码、训练算子。

智能体产品更新推理
11:41
公众号:昆仑万维(天工)
55
天工3.1发布:Skywork Design与Dynamic Workflows上线

天工超级智能体推出3.1版本,上线Skywork Design和Dynamic Workflows两项能力。Skywork Design将UI设计从对话式改为无限画布,支持多页面迭代、品牌规范统一与历史沉淀,可导出为网页、PPT、Figma分图层文件或zip包。Dynamic Workflows动态拆解任务,调度数十至上百个并行Agent,具备交叉验证与断点续跑能力,适用于批量页面生成、代码库排查等规模化场景。两项能力与天工主站账号、积分、知识库打通,国内海外同步上线。此前深度用户在单个project上平均交互超40轮,天工超级智能体收入月增三倍。

智能体产品更新多模态
11:03
IT之家(RSS)
57
Anthropic 和 OpenAI 模型太贵,微软智能体考虑使用 DeepSeek V4 微调版

微软将 Copilot Cowork 智能体转为基于使用量的定价,并考虑使用 DeepSeek V4 微调版或另一种开源模型,作为 Anthropic 和 OpenAI 模型的更低成本替代方案。该模型完全托管在 Azure 上,客户数据留在微软云端,受企业级安全与合规控制。价格方面,Anthropic Fable 5 输出定价 50 美元/百万 token,DeepSeek V4 Pro 输出定价 0.87 美元/百万 token(永久 25 折后),价差约 57 倍。微软预计未来几周内推出更低成本模型。

智能体DeepSeekMicrosoft行业动态
10:33
HuggingFace Daily Papers(社区热门论文)
51
GameCraft-Bench:智能体能否在真实游戏引擎中端到端构建可玩游戏?

GameCraft-Bench是一个基于Godot引擎的端到端游戏生成评测基准,包含15个游戏家族的140项任务,要求编码智能体将自然语言描述转化为可运行的游戏工件。评估框架以引擎接地、工件完整性和交互验证为核心,通过回放示范与评分表多模态判断度量可执行游戏质量。评测显示,最强智能体仅取得41.46%的成绩,多数低于40%。智能体虽能实现可识别游戏机制,但在提供完整内容、功能性视觉反馈和连贯呈现方面普遍不足。

智能体编码论文/研究
10:33
HuggingFace Daily Papers(社区热门论文)
43
OPD-Evolver:通过在线策略自蒸馏培养全能智能体进化器

OPD-Evolver是一个慢-快协同进化框架,基于在线策略自蒸馏培养智能体进化器。快速循环中,智能体与四级记忆层次交互,实现读取、使用、编写和维护经验的快速测试时进化;慢速循环通过结果校准的记忆归因和特权后见,将这四种能力蒸馏至可部署策略。在多领域基准测试中,OPD-Evolver性能超越ReasoningBank达11.5%,超越Skill0约5.8%。分析表明,其内化了高价值经验与记忆管理,使得9B参数版本能够挑战Qwen3.5-397B-A17B和Step-3.5-Flash等千亿级模型。

智能体数据/训练论文/研究
09:20
公众号:智谱(GLM)
81
GLM-5.2上线并开源:专注Coding与长程任务

智谱今日发布并开源GLM-5.2,在前端开发盲测系统Code Arena上取得全球可用模型第一。该模型专为长程任务设计,实现1M无损上下文,支持跨越数天的任务执行。在FrontierSWE上仅比Claude Opus 4.8低1%,超过GPT-5.5(1%)和Opus 4.7(11%);Terminal-Bench 2.1上比Opus 4.8低4%,较GLM-5.1提升17.5%。引入思考档位控制,Coding能力介于Opus 4.7与4.8之间。提出IndexShare架构降低单位FLOPs至2.9倍,改进MTP层提升接受长度20%。已在华为昇腾等国产算力平台适配。模型权重以MIT协议开源,API已上线并纳入GLM Coding Plan。

智能体Hugging Face模型发布编码
关联讨论 10 条X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客The Decoder:AI News(RSS)X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)智谱:研究(网页内嵌数据)公众号:智谱(GLM)Hugging Face:Blog(RSS)
08:00
HuggingFace Daily Papers(社区热门论文)
34
OpenRath:以Session为中心的智能体运行时状态管理

现代智能体系统因运行时状态碎片化(如会话记录、工具结果、内存事件等分散存储)难以检查与复现。OpenRath提出类似PyTorch的编程模型,核心抽象是Session——一种可在智能体与工作流间传递、支持分支、审查、回放的一级运行时值。Session统一记录对话片段、沙盒位置、血缘元数据、token用量、待办任务和工具证据,使分支、合并、回放成为显式操作。此外还定义了Sandbox、Tool、Agent、Memory、Workflow和Selector,其中Selector将控制流转为运行时路由的决策。论文呈现了编程模型、架构与证据协议,主张Session为智能体系统提供可审计组合的一级运行时值。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
DelveAgent与PhySciBench:物理科学深度研究的多智能体框架与综合基准

PhySciBench是面向物理科学研究的基准,包含200道专家精选的物理和化学问题,覆盖六类真实科研任务。评测显示,最强基线Gemini Deep Research准确率仅33.5%。失败案例暴露长推理链脆弱、跨步骤知识迁移有限、缺乏物理接地自我验证等缺陷。为此提出的DelveAgent是一个模块化多智能体框架,配备自适应规划循环、双粒度记忆和层次化物理接地反思机制。在四个科学基准上,DelveAgent将准确率提升最多7.5个百分点,推理成本降至最强基线的约三分之一。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
GateMem:多主体共享记忆智能体的记忆治理基准

GateMem 是一个针对多主体共享记忆智能体的基准,联合评估长期多步请求的效用、上下文访问控制与主动遗忘。测试覆盖医疗、办公、教育和家庭四个领域,包含长篇幅多方对话、增量记忆注入、隐藏检查点与结构化判分。对多种基线和骨干模型的实验表明,没有方法能同时实现强效用、鲁棒访问控制和可靠遗忘。长上下文提示词治理分数最高但 token 成本极高;检索与外部记忆方法成本较低,却仍会泄露未经授权或已删除的信息。当前记忆智能体远未达到在共享机构中可靠部署的要求。

智能体arXiv安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
ACIE:基于智能体RAG的可配置临床信息提取--什么有效、什么失效及原因

患者上下文涉及数百份异构文档与数千个结构化数据点,但文档级元数据缺失,标准RAG在处理时间推理、跨文档依赖等任务时表现不佳。为此,研究者在埃森大学医学中心部署了ACIE——一个本地部署的智能体RAG流水线,它可推理完整患者上下文并将每个回答锚定在源段落中供临床医生验证。在一项独立的回顾性淋巴瘤登记研究中,核医学医生对每个提取值与其引用来源进行核对,在7326次判断中接受了96.5%的提取结果,各类型接受率介于80%至99%之间。

智能体Hugging Face检索增强论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
RATs:玩耍式智能体机器人学习

论文提出Playful Agentic Robot Learning范式,让具身编码智能体在任务到达前自主玩耍持续学技能。RATs(机器人智能体团队)在玩耍阶段自主提出可学新探索任务,执行代码策略、诊断失败并重试,将成功执行蒸馏为持久化代码技能库。测试时从冻结库检索技能辅助新任务。在LIBERO-PRO和MolmoSpaces上,玩耍学习技能相比CaP-Agent0分别提升20.6和17.0个百分点;该技能库可直接插入其他推理时代码策略智能体,无需微调模型,在RoboSuite和真实世界迁移中分别提升8.9和8.8个百分点。

智能体具身智能论文/研究
07:07
OpenRouter:Announcements(RSS)
精选67
Subagent:让模型把琐碎任务委托出去

OpenRouter 推出 openrouter:subagent 服务器工具,允许前沿模型在生成过程中将独立的琐碎任务(如文档总结、结构化数据提取、文本重格式化)委托给更小、更便宜、更快的 worker 模型执行,从而节省前沿模型的 token 消耗。

智能体MCP/工具产品更新

推荐理由:这是 OpenRouter 对 agent 交互模式的一个小但实用的创新,让主模型自动将摘要、格式化等确定性子任务分派给更便宜的小模型,做多模型编排的开发者可以直接拿来用。
05:06
Ars Technica:AI(RSS)
64
Anthropic暂停Claude Agent SDK基于token的计费调整

Anthropic上月宣布自6月15日起将Claude Agent SDK(含第三方应用及claude -p命令)的使用与标准订阅分开按API费率计费,订阅用户仅获等值月信用额度。开发者分析指出Claude Opus订阅者每天2-3条消息后即比API划算,新方案使订阅价值锐减。本周一,Anthropic在变更生效前突然暂停,称将“重新制定方案”。此前GitHub Copilot也推行了类似计费调整引发用户反弹。Anthropic正筹备IPO。

智能体Anthropic行业动态
03:35
Anthropic:Research(发表成果 · 网页)
同事件精选76
Anthropic:智能体编码中专业知识回报持续存在

Anthropic 基于约40万次 Claude Code 交互会话(2025年10月至2026年4月)分析发现:人类主导规划决策(做什么),Claude 主导执行决策(怎么做)。领域专业知识越强,模型每次指令完成的工作量越多。各类职业完成任务的成功率与软件工程师平均相近;领域专家成功率更高,但与中级用户差距不大。七个月间调试会话占比下降近一半,使用转向端到端智能体任务(部署运行代码、分析数据、编写非代码文档),典型任务价值平均上升约25%。

智能体Anthropic编码论文/研究
同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》
推荐理由:这份报告用40万次真实会话数据揭示了一个反直觉发现,决定Agent编码成败的,不是会不会写代码,而是对自己领域问题的理解深度。对非技术背景用AI编程的人和产品经理都是重要信号。
02:03
OpenRouter:Announcements(RSS)
精选62
OpenRouter Presets:当模型下线时保持 AI 智能体运行

Anthropic 在 Claude Fable 5 发布仅数天后便对其进行了限制。如果代码硬编码模型 slug,该限制也会导致服务中断。OpenRouter 的 Presets 功能将模型选择移至服务器端,使用户无需重新部署即可切换模型、设置回退策略并强制执行数据策略。

智能体教程/实践部署/工程

推荐理由:给 Agent 开发者的实用提醒,硬编码模型名会在供应商限制时塌方,用 Presets 换模型、设降级方案比现改代码省心。
6月16日
23:49
Hacker News 热门(buzzing.cc 中文翻译)
68
现在运行本地模型效果不错

2026年6月16日,vickiboykis.com 上发布了一篇题为“Running local models is good now”的文章,作者认为当前阶段在本地硬件上运行大语言模型已经能够取得不错的效果。该文章在 Hacker News 社区引发讨论,相关帖子获得 114 点热度,表明本地模型运行体验得到了社区的认可。

智能体Google教程/实践端侧
22:30
公众号:小米 MiMo
精选69
小米 MiMo Claw 正式版发布:旗舰模型+金山办公,全新订阅服务上线

小米推出云端轻量化 Claw 类产品 MiMo Claw 正式版,搭载与 OpenClaw 框架深度适配的 MiMo-V2.5-Pro 旗舰模型。该模型原生兼容 MCP 工具调用协议,内置百万级超长上下文,支持单会话千次以上连续工具调用;依托 MTP 三层解码架构,在 OpenClaw 标准 Agent 工作流中吞吐效率提升约 3 倍。ClawEval 测试中任务达标率(Pass³)达 63.8%,Token 消耗较同类产品降低 40%-60%。联动金山办公生态,提供 Word、Excel、PPT、PDF 等格式的 AI 生成、预览与在线编辑一站式服务。免费用户每日单次体验时长从1小时升级至4小时,面向高频用户推出 TokenPlan 分层订阅(Lite/Standard/Pro/Max),支持灵活叠加,限时定价14.9元/月、19.9元/月、233.8元/年。

智能体MCP/工具产品更新
关联讨论 1 条X:小米 MiMo (@XiaomiMiMo)
推荐理由:小米给普通人用的 Agent 工具正式上线,14.9 元月费很激进,但核心还是看实际任务完成率和办公集成靠不靠谱。
22:01
IT之家(RSS)
42
腾讯张军:智能体 WorkBuddy 将入职政务系统,全国首个省级政务智能中枢「湾擎」上线试运行

6月16日,腾讯公关总监张军宣布,全国首个省级政务智能中枢平台「湾擎」上线试运行,同时预发布湾擎·WorkBuddy。该智能体基于腾讯自研AI办公智能体WorkBuddy打造,专为政务场景定制,覆盖公文辅助、材料校核、政策检索、业务咨询、流程协同、任务辅助六大高频场景。WorkBuddy即将在广东省直多个单位试点,后续面向全省铺开。「湾擎」中枢已归集100余个政务场景,适配十数款主流大模型,搭配Token级安全防护。

智能体产品更新
22:01
IT之家(RSS)
73
小米 MiMo Claw 正式版发布,搭载 MiMo-V2.5-Pro 旗舰模型

小米云端轻量化 Claw 产品正式版发布,搭载与 OpenClaw 框架深度适配的 MiMo-V2.5-Pro 模型,原生兼容 MCP 协议,无需额外提示词。支持百万级上下文、单会话千次以上工具调用,MTP 三层解码架构使推理吞吐效率提升约 3 倍。联动金山办公,支持 Word/Excel/PPT/PDF,实现 AI 生成、预览与在线编辑闭环。ClawEval 中 Pass³ 达 63.8%,Token 消耗降低 40%-60%。免费用户每日体验时长升级至 4 小时,上线 TokenPlan 分层订阅,限时特惠 ¥14.9/月。

智能体MCP/工具产品更新
关联讨论 1 条X:小米 MiMo (@XiaomiMiMo)
‹ 上一页
1…7891011…50
下一页 ›