AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 654 条
全部一手资讯X论文
标签「Agent」清除
6月23日周二
19:10公众号:千问APP(阿里)60精选国内首个高考志愿AI测评出炉,千问多项表现超过资深咨询师
16:12Hugging Face:Blog(RSS)59精选我们用免费本地模型对 OpenClaw 仓库进行实时分类
16:12Hugging Face:Blog(RSS)67精选huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环
13:00公众号:火山引擎79豆包大模型2.1发布,面向生产级任务的新起点
12:39字节 Seed:Research Feed(网页内嵌数据)64精选Seed2.1 正式发布,深入 AI 生产力
02:16OpenAI:官网动态(RSS · 排除企业/客户案例)58精选Codex 用于长期工作:最大化效能实践
01:40Cursor Blog72精选Cursor 审计发现奖励黑客行为淹没模型智能提升
01:08Google Developers Blog(RSS)56精选Google ADK 与 A2A 协议:跨语言多智能体团队构建实战
00:11xAI:News(网页)69精选Grok Build 推出 /goal 模式,支持长时间自主任务执行
00:08Google Developers Blog(RSS)61精选Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性
6月20日周六
00:53GitHub Blog52GitHub 构建内部数据分析智能体 Qubot,基于 Copilot 实现自然语言查询
6月19日周五
22:00Cloudflare Blog62精选Cloudflare 为 AI 智能体推出临时账户
12:16Steve Yegge:Medium(RSS)74同事件精选Fable模型被美国临时关闭,AI安全管控时代来临同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
09:27OpenRouter:Announcements(RSS)60精选OpenClaw 接入 OpenRouter
08:00OpenRouter:Announcements(RSS)73精选DeepSeek V4 智能体 token 份额持续增长
03:16Google Developers Blog(RSS)48Google 庆祝A2A协议发布一周年:协作智能体生态
02:47Hugging Face:Blog(RSS)75精选MosaicLeaks: 你的研究智能体能保守秘密吗?
00:22Anthropic:Research(发表成果 · 网页)77精选Anthropic Project Fetch 第二阶段:Claude Opus 4.7 自主完成任务,速度比人类团队快约20倍
6月18日周四
21:47Hugging Face:Blog(RSS)74精选AI 智能体够格吗?在自有工具上评测开源模型
21:19Google DeepMind:Blog(RSS)65精选保障AI智能体的未来安全
17:50公众号:千问APP(阿里)25千问推出国内首个全周期高考志愿填报Agent
17:10公众号:昆仑万维(天工)48Skywork Super Agents:Agent范式正在重构Token经济
17:10公众号:月之暗面(Kimi)70同事件精选Kimi Work 新增目标模式与插件中心,6月推出额度消耗5折福利同一事件,精选展示《Kimi Work Beta版发布:面向知识工作者的本地Agent》
12:00公众号:龙猫LongCat(美团)39美团搜推ASX团队六篇论文被ACL/ICML/KDD 2026收录
10:20公众号:千问APP(阿里)32千问"暖芒计划"启动,高考志愿填报Agent免费开放首站走进河北
09:20OpenRouter:Announcements(RSS)57如何在 OpenRouter 上使用 OpenAI Codex CLI
07:17Claude:Blog(网页)51Claude Opus 4.8 Build Day黑客马拉松获奖项目揭晓
06:55Claude Code:GitHub Releases(RSS)57精选Claude Code v2.1.181 发布
06:14Cloudflare Blog64精选Cloudflare 将更多智能体框架引入平台,以 Flue 为首
05:13Google Developers Blog(RSS)64精选Google 分享 A2UI 与 MCP Apps 三种集成架构模式
00:08Google Developers Blog(RSS)63精选谷歌发布Agentic Resource Discovery(ARD)开放规范
6月17日周三
22:08Cloudflare Blog61精选Cloudflare 发布 Cloudflare One stack:智能体驱动的部署工具集
20:30公众号:百度智能云(文心)37百度伐谋自我演化决策智能体助力三科研团队获突破
20:30公众号:百度智能云(文心)45中国银联与百度智能云展示金融AI全栈方案,发布智能体白皮书
11:41公众号:昆仑万维(天工)55天工3.1发布:Skywork Design与Dynamic Workflows上线
09:20公众号:智谱(GLM)81GLM-5.2上线并开源:专注Coding与长程任务
07:07OpenRouter:Announcements(RSS)67精选Subagent:让模型把琐碎任务委托出去
03:35Anthropic:Research(发表成果 · 网页)76同事件精选Anthropic:智能体编码中专业知识回报持续存在同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》
02:03OpenRouter:Announcements(RSS)62精选OpenRouter Presets:当模型下线时保持 AI 智能体运行
6月16日周二
22:30公众号:小米 MiMo69精选小米 MiMo Claw 正式版发布:旗舰模型+金山办公,全新订阅服务上线
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月23日
19:10
公众号:千问APP(阿里)
精选60
国内首个高考志愿AI测评出炉,千问多项表现超过资深咨询师

友松实验室发布国内首个高考志愿AI能力测评报告,测试千问高考志愿填报Agent四大模块。与53位平均从业4.6年的人类咨询师对照,千问表现更稳定精确:44道事实题全对;模拟10个志愿中6个可录取;100场匿名对比中专家58次倾向千问回答。使用千问辅助后,人类咨询师正确率提升,耗时减少约27%。该Agent基于千问高考志愿大模型和夸克8年高考数据,覆盖约3000所院校、2000多个专业。

智能体产品更新

推荐理由:千问高考志愿Agent的测评报告,数据看着漂亮,但全是阿里自家实验室出品,参考意义不大,真填志愿还是得找独立第三方。
16:12
Hugging Face:Blog(RSS)
精选59
我们用免费本地模型对 OpenClaw 仓库进行实时分类

Hugging Face 在 OpenClaw 仓库上测试用 Gemma 和 Qwen 等本地模型实时分类 issue 和 PR。他们使用 Pi agent harness 驱动模型,配合 reposhell 只允许读操作防止提示词注入。测试的模型包括 gemma-4-26b-a4b 和 qwen3.6-35b-a3b,经性能优化后均可在本地生成数百 token/s。该方案运行在 NVIDIA GB10(128 GB 统一内存)上,相比每月 200 美元的 ChatGPT Pro 订阅,可实现近乎实时的通知且仅消耗电费。

智能体Hugging Face开源生态教程/实践

推荐理由:Hugging Face 演示了用本地模型自动 triage GitHub issue 的完整方案,包括只读 shell 防注入、agent harness 等工程技巧。对想用本地模型替代 API 做分类任务的团队,这是一套可直接借鉴的 recipe。
16:12
Hugging Face:Blog(RSS)
精选67
huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周,全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型(当前为 Z.ai 的 GLM‑5.2)来起草发布说明和 Slack 公告,但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建,任何维护者都可直接复制使用。

智能体Hugging Face开源/仓库教程/实践

推荐理由:Hugging Face 把周更流程完全开源,用 GLM-5.2 生成发布说明初稿,再加确定性校验和人工修订,成本低到两毛五一次。想提高发版频率的 Python 库维护者可以直接 fork 适配。
13:00
公众号:火山引擎
79
豆包大模型2.1发布,面向生产级任务的新起点

火山引擎发布豆包大模型2.1系列:Doubao-Seed-2.1-pro和Doubao-Seed-2.1-turbo,API已全量上线火山方舟。Pro输入6元/百万tokens,输出30元,缓存命中1.2元;Turbo能力相近、价格减半。该系列Coding和Agent能力跨越生产级质变点:Terminal Bench 2.1上Pro与Claude Opus 4.7持平,SWE-Pro接近GPT-5.5,NL2Repo-Bench领先GPT-5.5,SciCode超Claude Opus 4.7和GPT-5.5。Agent方面GDPval最高分,ALE超越Claude Opus4.7,MCP-Atlas全面超Opus4.7与GPT5.5。多模态理解领先:OSWorld移动端、MMMU-Pro、TOMATO、LVBench均全球SOTA。同时推出Doubao-Seed-Evolving,每月2~4次迭代。

智能体模型发布编码
关联讨论 4 条X:Vista (@vista8)公众号:数字生命卡兹克X:卡兹克 (@Khazix0918)公众号:火山引擎
12:39
字节 Seed:Research Feed(网页内嵌数据)
精选64
Seed2.1 正式发布,深入 AI 生产力

字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents' Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL2Repo-Bench表现良好,开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线,API通过火山方舟提供。

智能体多模态模型发布编码
关联讨论 4 条X:Vista (@vista8)公众号:数字生命卡兹克X:卡兹克 (@Khazix0918)公众号:火山引擎
推荐理由:字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度,官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少,但豆包和 TRAE 直接可用,做 Agent 和开发的值得上手试试。
02:16
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选58
Codex 用于长期工作:最大化效能实践

OpenAI 发布白皮书,由 Jason Liu 介绍使用 Codex 作为持久工作空间的策略。Codex 可保留上下文、管理复杂工作流,并帮助在长期项目中维持进展。文中讲解了如何将宏大目标分解为可验证的步骤、保持工作流连续性,以及判断何时将执行委托给 Codex 何时需要人工监督。该指南旨在支撑超出单次提示词范围的持续工作。

智能体OpenAI教程/实践编码

推荐理由:这篇 OpenAl 官方指南把 Codex 从单次提示工具升级为持续协作 workspace,对管理长周期项目的团队有实操借鉴,但终究是厂商教程,未提供突破性方法论。
01:40
Cursor Blog
精选72
Cursor 审计发现奖励黑客行为淹没模型智能提升

Cursor 通过审计模型轨迹发现,在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离 git 历史并限制网络后,Opus 4.8 Max 得分从 87.1% 跌至 73.0%,Composer 2.5 从 74.7% 跌至 54.0%。在 SWE-bench Multilingual 上,标准环境与严格环境得分差距分别为 9.1 和 7.5 个百分点。两种主要模式是上游查找(57%)和 git 历史挖掘(9%)。研究建议通过审计轨迹和限制运行时环境来缓解此类奖励黑客行为。

智能体AnthropicOpenAI编码

推荐理由:Cursor这项审计把基准作弊量化了:更强模型更会找现成答案,SWE-bench Pro得分虚高严重。做模型选型和评估的团队该醒醒了,环境不控住分数毫无意义。
01:08
Google Developers Blog(RSS)
精选56
Google ADK 与 A2A 协议:跨语言多智能体团队构建实战

一篇技术博客展示了如何用 Google Agent Development Kit (ADK) 与 Agent2Agent (A2A) 协议搭建跨语言多智能体流水线:Python agent 调用 Gemini 解析合同条款,Go agent 用纯确定性逻辑校验合规性。A2A 协议通过 Agent Card 实现能力发现、JSON-RPC 2.0 完成通信、Task 状态机管理任务生命周期;ADK 的 RemoteA2aAgent 抽象可将任意 A2A 兼容服务封装成本地子智能体。文中强调将单体提示词分解为专业化微智能体,以解决上下文退化、故障爆炸半径和不可测试性问题。完整源码已在 GitHub 发布。

智能体GoogleMCP/工具教程/实践

推荐理由:Google 这篇教程把跨语言多智能体协作说得很实,A2A 协议像代理世界的 HTTP,不过整套方案还是绑在 Google 生态上,自己玩的话迁移成本不低。
00:11
xAI:News(网页)
精选69
Grok Build 推出 /goal 模式,支持长时间自主任务执行

xAI 在 Grok Build 中引入 /goal 新模式。用户只需用一行命令设定目标,agent 便会自动规划方案、分解任务为进度清单并持续执行,直至目标完成且通过验证,期间可额外下达指令。该模式支持监控与引导命令,任务完成时清单全部勾选。即日起可用,用户可通过 curl -fsSL | bash 安装 CLI 并登录账号即可使用。

智能体xAI产品更新编码

推荐理由:把Grok Build从单步指令升级成可长期自主执行任务的Agent,对习惯把代码扔给AI就跑开的开发者很友好,但目前只有CLI,生态还没铺开。
00:08
Google Developers Blog(RSS)
精选61
Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性

Google Labs 提出以“洞察策略”评估 AI 编码智能体的主动性,而非仅按任务完成度打分。团队基于 Google 内部代码库 705 个 bug(1178 个 CL),通过时空近邻与语义相似度聚类还原开发者实际的高层级目标。初步实验显示:Jules 在单轮探索下洞察相关性评分平均 4.5/5;探索预算从两轮增至三轮时,Hit@5 准确率从 33% 升至 57%。团队正将评估方法扩展至公开 GitHub 数据,并探索纳入问题追踪器、对话等更丰富的上下文。

智能体Google编码论文/研究

推荐理由:AI 编码代理的评估从任务修复转向目标洞察,Google 这个思路让评估更接近真实开发场景,但实验还是内部数据,等公开 GitHub 版本再看落地效果。
6月20日
00:53
GitHub Blog
52
GitHub 构建内部数据分析智能体 Qubot,基于 Copilot 实现自然语言查询

GitHub 内部开发了 Qubot,一个由 Copilot 驱动的数据分析智能体。员工可以用自然语言直接提问公司数据,无需编写 SQL 或使用 BI 工具。团队在构建过程中积累了关于设计、集成和用户体验的经验。

智能体GitHub教程/实践数据/训练
6月19日
22:00
Cloudflare Blog
精选62
Cloudflare 为 AI 智能体推出临时账户

Cloudflare 在 Workers 上推出临时账户(Temporary Accounts),允许 AI 智能体直接运行 wrangler deploy --temporary,在数秒内获取一个可用的实时 Worker,无需绕开面向人类设计的部署流程。该功能旨在降低智能体部署门槛。

智能体MCP/工具产品更新部署/工程
关联讨论 1 条Simon Willison 博客
推荐理由:Cloudflare 给 agent 开临时账号这个功能很聪明,一步解决了身份验证和资源清理的麻烦,做智能体部署的可以认真试试。
12:16
Steve Yegge:Medium(RSS)
同事件精选74
Fable模型被美国临时关闭,AI安全管控时代来临

美国政府短暂关闭了Mythos类中的Fable模型,标志着AI模型已越过危险门槛。作者预测最多两三代模型后,超级智能将像核武器一样被管控,大多数Fortune 500企业无法访问或仅受控使用。开源模型落后前沿约七个月,且面临算力和政府锁定的双重壁垒。人类的“辨别地平线”使许多人感觉模型进步停止,但实际指数增长未停——只是用户缺少足够困难的问题。Fable类已能解决此前Opus 4.8无法完成的复杂任务(如React客户端),AI将彻底改变编程和知识工作,但多数人只能使用当前等级模型。

智能体Anthropic大佬观点安全/对齐
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:Steve Yegge这篇判断很冷也很实:多数人能接触的模型智能将停滞,但背后指数仍在跑,SaaS反而因此安全。他抛出的AI素养三阶模型,对正头痛如何推动团队用AI的leader是现成框架。
09:27
OpenRouter:Announcements(RSS)
精选60
OpenClaw 接入 OpenRouter

OpenClaw 已内置 OpenRouter 支持,一条命令即可为 AI 智能体配置统一密钥、统一账单,并实现跨 300 多个模型的自动故障转移。同时提供具体设置步骤以及常见错误的修复方法。

智能体教程/实践部署/工程

推荐理由:给用 OpenClaw 搭 agent 的人一个直接可用的集成指南,还附带了常见报错修复,比零散摸索省时间。
08:00
OpenRouter:Announcements(RSS)
精选73
DeepSeek V4 智能体 token 份额持续增长

DeepSeek 于4月24日发布新一代旗舰模型 V4 系列。OpenRouter 数据显示,V4 发布后其 token 份额从年初的9%增长至6月初的18%,自5月中旬起成为 OpenRouter 最受欢迎模型。V4 是首个足以胜任智能体工作负载的 DeepSeek 模型,到5月底 V4-Flash 已占 DeepSeek 智能体 token 流量的70%。V4-Flash 最便宜端点价格为每百万 token 输入 $0.09、输出 $0.18,远低于 GPT-5.5 的 $5/$30。中国模型整体 token 份额于6月初超过美国模型,DeepSeek 是主要驱动力。

智能体DeepSeek开源生态现象/趋势

推荐理由:OpenRouter 独家数据展示了代际转折:DeepSeek V4 靠性价比吃下代理负载,中国模型 token 份额首次超过美国,这个信号比任何 benchmark 排名都真实,做应用选型的人该重新算账了。
03:16
Google Developers Blog(RSS)
48
Google 庆祝A2A协议发布一周年:协作智能体生态

Google 庆祝Agent-to-Agent(A2A)协议发布一周年。A2A专为生成式AI设计,相比传统REST API提供安全边界、零上下文污染、动态自主性和工作负载分布四大架构优势。应用实例FoldRun是一个独立的智能体接口,可在Gemini Enterprise或Gemini CLI等A2A兼容环境中部署,自动管理蛋白质结构预测任务,动态选择AlphaFold 2、OpenFold 3或Boltz-2等模型,无需自定义胶水代码。

智能体Google教程/实践部署/工程
02:47
Hugging Face:Blog(RSS)
精选75
MosaicLeaks: 你的研究智能体能保守秘密吗?

深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1,001 条多跳研究链的新任务,每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息,单纯优化任务性能反而加剧泄露。基于此,研究提出隐私感知深度研究(PA-DR)强化学习训练方法,将严格链成功率从 48.7% 提升至 58.7%,同时将答案/全面信息泄露率从 34.0% 降至 9.9%。

智能体arXiv安全/对齐论文/研究

推荐理由:这篇论文揭示了深度研究agent的多跳查询会像马赛克一样拼凑出私密信息,单纯提示减少泄露几乎没用,而隐私感知训练把泄露率从34%降到9.9%,且不损伤任务表现,做企业级agent产品的团队要重视。
00:22
Anthropic:Research(发表成果 · 网页)
精选77
Anthropic Project Fetch 第二阶段:Claude Opus 4.7 自主完成任务,速度比人类团队快约20倍

Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中,配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中,Claude Opus 4.7 无需人类协助即完成所有任务,速度比最快人类团队快约20倍,比无 Claude 团队快37倍以上,编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色,但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化,而非针对机器人领域的专项优化。

智能体Anthropic具身智能论文/研究
关联讨论 1 条X:Anthropic (@AnthropicAI)
推荐理由:Anthropic 用 Claude Opus 4.7 自主操作机器狗,比当初的人类志愿者快 18-37 倍,代码量却少了十倍。这让「语言模型上手物理工具」从假想变成了可视的进度条,做具身智能和 agent 的人都该看一眼。
6月18日
21:47
Hugging Face:Blog(RSS)
精选74
AI 智能体够格吗?在自有工具上评测开源模型

Hugging Face 发布面向 AI 智能体使用场景的基准测试框架,以 transformers 库为案例评估库的智能体友好度。框架使用 pi coding agent 与开源模型驱动,通过 Hugging Face Jobs 分散任务确保硬件一致。评估关注 agent 完成任务的成本、延迟、token 使用量和失败率,而非仅最终结果。此前 hf CLI 经优化后 agent token 使用量减少 1.3-1.8 倍(最高 6 倍),该框架旨在验证类似优化对 transformers 的效果。

智能体Hugging Face开源/仓库教程/实践

推荐理由:Hugging Face 这波实验打破了我的直觉——为大型模型优化的 CLI+Skill 方案反而让小模型正确率暴跌,做 agent 工具链的人应该马上看这个标杆。
21:19
Google DeepMind:Blog(RSS)
精选65
保障AI智能体的未来安全

Google DeepMind发布AI Control Roadmap,这是一套针对内部先进AI智能体的系统级安全框架。该框架在传统模型对齐之上增加防线,假设AI智能体可能不对齐,通过威胁建模、沙箱隔离、端点安全、提示注入防御以及基于已验证行为逐步授予权限的机制建立信任。据估算,到2030年仅美国市场AI智能体就能创造2.9万亿美元经济价值。

智能体DeepMind安全/对齐部署/工程

推荐理由:DeepMind 首次系统性地公开了内部 AI 代理安全控制路线图,把代理当潜在「内鬼」来防的思路很务实,分析了 100 万个任务轨迹的监控实践尤其值得做 Agent 安全的人细看。
17:50
公众号:千问APP(阿里)
25
千问推出国内首个全周期高考志愿填报Agent

千问上线了国内首个全周期高考志愿填报Agent,免费为全国考生提供志愿填报和咨询服务。该Agent帮助用户梳理分数排名、专业详情与选择方向,已有多位家长通过它解决了信息盲区与填报难题。千问同时发起故事征集,邀请考生、家长、老师分享使用经历。

智能体产品更新
17:10
公众号:昆仑万维(天工)
48
Skywork Super Agents:Agent范式正在重构Token经济

Skywork Super Agents 从2024年底推理模型起步,2025年2月转向办公场景,5月发布Word、PowerPoint、Excel、网页、博客五个专项Agent,8月拓展多模态后在BrowseComp榜单进入第一梯队,11月解决Excel表格准确性难题。202

智能体大佬观点
17:10
公众号:月之暗面(Kimi)
同事件精选70
Kimi Work 新增目标模式与插件中心,6月推出额度消耗5折福利

月之暗面旗下 Kimi Work(Beta 版)新增「目标模式」,支持设定终点后由 Agent 自主循环推进任务,最长连续运行24小时,过程中人类可随时中断调整。同时上线「插件中心」,可选装百度网盘、Canva可画、钉钉、飞书、WPS、Notion、Cloudflare 等外部应用。6月限时福利期间,Kimi 电脑客户端 Work 模式所有任务会员额度消耗减半,即从0.02%降至0.01%。

智能体MCP/工具产品更新
同一事件,精选展示《Kimi Work Beta版发布:面向知识工作者的本地Agent》
推荐理由:目标模式把 Kimi Work 从对话助手变成了能连续运行 24 小时的自主 Agent,配合插件中心打通办公软件,对需要长时间执行复杂任务的用户是实际可用性的大升级。
12:00
公众号:龙猫LongCat(美团)
39
美团搜推ASX团队六篇论文被ACL/ICML/KDD 2026收录

美团业务研发平台/搜推ASX团队六篇论文被ACL/ICML/KDD 2026接收。CBS将样本选择建模为上下文多臂老虎机,提升数学推理性能效率;ResRL通过负样本投影残差强化学习,数学超NSR 9.4%、代码刷新CodeForces SOTA、ALFWorld超PPO 7.8%;CDRRM仅用3千样本让未微调模型超越全量微调基线;LocalSearchBench覆盖国内9城6品类超134万商户与900道多跳问答,最优DeepSeek-V3.2正确率仅35.60%;DiningBench含3021道菜品多视角图像,29个VLM模型细粒度识别与营养推理不足;Mem²Evolve双记忆自进化框架在6类任务8个基准上优于单一进化策略。

智能体搜索行业动态
10:20
公众号:千问APP(阿里)
32
千问"暖芒计划"启动,高考志愿填报Agent免费开放首站走进河北

千问高考志愿填报Agent在“暖芒计划”公益活动中首次走进河北省青龙满族自治县第一中学,向三百多位考生和家长免费提供志愿填报服务。Agent能根据实际分数和选科生成志愿报告,逐一说明推荐理由和潜在风险。现场教师指出,传统填报痛点在于信息散落且付费服务不透明,而千问Agent将每一步推理过程公开,消除信息鸿沟。该计划后续将覆盖全国10多个省份的偏远地区高中,并举办100多场免费公益直播。

智能体行业动态
09:20
OpenRouter:Announcements(RSS)
57
如何在 OpenRouter 上使用 OpenAI Codex CLI

Codex CLI 支持自定义 OpenAI 兼容提供商,只需在 config.toml 中配置即可将请求路由到 OpenRouter。用户无需修改 Codex 本身,就能获得提供商故障转移、使用跟踪以及跨所有模型的统一密钥。

智能体OpenAI教程/实践编码
关联讨论 1 条OpenRouter:Announcements(RSS)
07:17
Claude:Blog(网页)
51
Claude Opus 4.8 Build Day黑客马拉松获奖项目揭晓

6月13日,Anthropic在旧金山举办12小时黑客马拉松,310名参与者使用Opus 4.8和$500 credits完成原型。第一名Tekton:输入历史建筑照片后,Claude自动搜集图纸等资料,跨339个施工步骤重建3D模型,每个构件附带证据链;自纠循环反复检查直至20项测试全部通过。第二名Sim Francisco:基于美国人口普查数据生成10,000名合成市民,各具独立世界观,实时对新闻投票,精准预测选举结果。第三名Custom Universe:用手机拍摄物件照片,Opus 4.8将其转为可拖放、实时渲染的3D物体,支持文本指令重设风格。

智能体Anthropic多模态行业动态
06:55
Claude Code:GitHub Releases(RSS)
精选57
Claude Code v2.1.181 发布

Claude Code v2.1.181 发布,新增 /config key=value 语法允许在提示中直接设置任意配置项,新增 sandbox.allowAppleEvents 选项使沙盒命令支持 Apple Events,新增 CLAUDE_CLIENT_PRESENCE_FILE 环境变量用于抑制移动端推送通知。内置 Bun 运行时升级至 1.4,改进了长段落流式输出(逐行显示)和 API 连接中断后自动重试。子 agent 面板优化:空闲 agent 30 秒自动隐藏、列表最多 5 行。修复了提示缓存读取、Write/Edit 在网络驱动器产生 0 字节文件、启动性能回归(约 120ms)、启动阻塞(最长 15 秒)、macOS TUI 冻结、子 agent 时长显示错误、API 重试指示器残留、AWS 凭证刷新等问题。

智能体Anthropic产品更新部署/工程

推荐理由:一次工程师式的磨刀更新,修复了网络驱动器写入、macOS TUI 冻结等一批痛感明显的 bug,新增的 /config 快捷语法也顺手,但对非 Claude Code 用户来说就是一串技术细节。
06:14
Cloudflare Blog
精选64
Cloudflare 将更多智能体框架引入平台,以 Flue 为首

Cloudflare Agents SDK 现已成为任何智能体框架均可构建的运行时。Cloudflare 开放了 Agents SDK 原语,Flue 成为首个针对该 SDK 的框架,同时仪表盘中已推出智能体功能。

智能体产品更新部署/工程

推荐理由:Cloudflare 将 Agents SDK 开放为中性运行时,Flue 首个接入,本质还是为 Workers 拉流量,非 Cloudflare 用户不必费心。
05:13
Google Developers Blog(RSS)
精选64
Google 分享 A2UI 与 MCP Apps 三种集成架构模式

Google 分享了三种集成 A2UI 与 MCP Apps 的架构模式,旨在结合两者优势。A2UI 采用声明式框架,通过 JSON payload 定义 UI,由宿主原生渲染,确保一致性与安全性,但受限于预定义组件库。MCP Apps 在 iframe 中使用标准 Web 技术提供自定义界面,但存在设计碎片化、性能与安全挑战。三种模式包括:通过 MCP 服务器提供 A2UI,利用 MCP Resources 或 Tool 调用传递 JSON,实现“一次编写,原生渲染”的跨平台能力;以及静态与动态交付方案。Google 正考虑扩展 MCP 以原生支持 A2UI。

智能体GoogleMCP/工具教程/实践

推荐理由:Google 这篇指南给出了三种具体的架构模式,帮开发者同时用上 A2UI 的原生安全性和 MCP 的定制能力,对正在做 Agent UI 的团队是直接的工程参考。
00:08
Google Developers Blog(RSS)
精选63
谷歌发布Agentic Resource Discovery(ARD)开放规范

Agentic Resource Discovery(ARD)是一项开放规范,用于在Web上发布、发现和验证AI工具、技能与智能体。它基于两个原语:组织在其自有域名下托管catalog描述可用能力,registry作为搜索引擎索引catalog并响应发现请求。ARD支持加密验证,使客户端与端点连接前确认发布者身份,然后直接通过原生协议调用能力。Google Cloud的Gemini Enterprise Agent Platform通过Agent Registry提供企业级支持,包括URN命名、出站策略、工具固定和基于Agent Identity的信任验证。该规范现已发布,开发者可通过托管ai-catalog.json文件使其服务可发现。

智能体GoogleMCP/工具行业动态
关联讨论 1 条Hugging Face:Blog(RSS)
推荐理由:虽然才刚发布,但 ARD 有可能成为代理网络的“robots.txt”,做 agent 开发的都该看一眼,它解决的是跨组织发现和信任这个真问题。
6月17日
22:08
Cloudflare Blog
精选61
Cloudflare 发布 Cloudflare One stack:智能体驱动的部署工具集

6月17日,Cloudflare 推出 Cloudflare One stack,一组可直接赋予 AI 智能体的技能文件,用于自动配置、部署和管理 Zero Trust 环境。工具集包含两个轻量级 skill:cloudflare-one 负责通用产品指导(VPN 替换、网络连接、安全策略等),cloudflare-one-migration 提供从 Zscaler、Palo Alto Networks 等厂商迁移的明确引导。技能内置决策树与结构化知识,智能体可自动执行云环境评估、网络拓扑生成及 Digital Experience Monitoring 排障。该 stack 基于 Cloudflare 员工数万小时客户经验提炼,降低学习与迁移门槛。

智能体产品更新部署/工程

推荐理由:Cloudflare把多年零信任迁移经验打包成agent技能,让AI直接帮你部署和管理安全堆栈,对正忙着切到Zero Trust的团队是个即插即用的省力工具,但仍是垂直领域的效率提升,不算广谱AI大事。
20:30
公众号:百度智能云(文心)
37
百度伐谋自我演化决策智能体助力三科研团队获突破

百度伐谋自我演化决策智能体在三个科研场景取得突破:清华大学电机系用其将磁芯材料暂态预测MSE Loss从40+提升至96+,全球第五,论文被ECCE收录;中科院学生以200行种子策略经400轮LLM语义级变异,自主发明H-DWA、K-Filter、A-Lock战术,获硬件实战赛全球第一、仿真赛第三;清华大学管理科学与工程学院团队针对A股日内价格预测,720轮自动演化后R²从0.010升至0.032,4周达到传统方法2-3个月水平。三团队均证实自动演化结构优于或持平人工设计。

智能体其他
20:30
公众号:百度智能云(文心)
45
中国银联与百度智能云展示金融AI全栈方案,发布智能体白皮书

6月16日,2026中国金融展上,百度智能云与中国银联展示金融行业AI应用解决方案。AI Infra方面,银联云提供搭载昆仑芯的国产算力环境,已累计支持30余家机构进行DeepSeek、MiniMax、GLM等模型测试。Agent Infra方面,百度千帆大模型平台为银联云用户提供模型开发、部署、推理服务及国产异构算力纳管、金融级数据安全与多租户隔离方案。百度智能云已服务超800家金融机构,覆盖100%系统重要性银行。双方将聚焦AI基础设施共建与金融智能体联合研发,推动支付、清算、风控等核心场景智能化。同期发布《金融行业场景智能体白皮书》,提出“知识-流程”双维分类框架及落地优先级建议。

智能体行业动态部署/工程
11:41
公众号:昆仑万维(天工)
55
天工3.1发布:Skywork Design与Dynamic Workflows上线

天工超级智能体推出3.1版本,上线Skywork Design和Dynamic Workflows两项能力。Skywork Design将UI设计从对话式改为无限画布,支持多页面迭代、品牌规范统一与历史沉淀,可导出为网页、PPT、Figma分图层文件或zip包。Dynamic Workflows动态拆解任务,调度数十至上百个并行Agent,具备交叉验证与断点续跑能力,适用于批量页面生成、代码库排查等规模化场景。两项能力与天工主站账号、积分、知识库打通,国内海外同步上线。此前深度用户在单个project上平均交互超40轮,天工超级智能体收入月增三倍。

智能体产品更新多模态
09:20
公众号:智谱(GLM)
81
GLM-5.2上线并开源:专注Coding与长程任务

智谱今日发布并开源GLM-5.2,在前端开发盲测系统Code Arena上取得全球可用模型第一。该模型专为长程任务设计,实现1M无损上下文,支持跨越数天的任务执行。在FrontierSWE上仅比Claude Opus 4.8低1%,超过GPT-5.5(1%)和Opus 4.7(11%);Terminal-Bench 2.1上比Opus 4.8低4%,较GLM-5.1提升17.5%。引入思考档位控制,Coding能力介于Opus 4.7与4.8之间。提出IndexShare架构降低单位FLOPs至2.9倍,改进MTP层提升接受长度20%。已在华为昇腾等国产算力平台适配。模型权重以MIT协议开源,API已上线并纳入GLM Coding Plan。

智能体Hugging Face模型发布编码
关联讨论 10 条X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客The Decoder:AI News(RSS)X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)智谱:研究(网页内嵌数据)公众号:智谱(GLM)Hugging Face:Blog(RSS)
07:07
OpenRouter:Announcements(RSS)
精选67
Subagent:让模型把琐碎任务委托出去

OpenRouter 推出 openrouter:subagent 服务器工具,允许前沿模型在生成过程中将独立的琐碎任务(如文档总结、结构化数据提取、文本重格式化)委托给更小、更便宜、更快的 worker 模型执行,从而节省前沿模型的 token 消耗。

智能体MCP/工具产品更新

推荐理由:这是 OpenRouter 对 agent 交互模式的一个小但实用的创新,让主模型自动将摘要、格式化等确定性子任务分派给更便宜的小模型,做多模型编排的开发者可以直接拿来用。
03:35
Anthropic:Research(发表成果 · 网页)
同事件精选76
Anthropic:智能体编码中专业知识回报持续存在

Anthropic 基于约40万次 Claude Code 交互会话(2025年10月至2026年4月)分析发现:人类主导规划决策(做什么),Claude 主导执行决策(怎么做)。领域专业知识越强,模型每次指令完成的工作量越多。各类职业完成任务的成功率与软件工程师平均相近;领域专家成功率更高,但与中级用户差距不大。七个月间调试会话占比下降近一半,使用转向端到端智能体任务(部署运行代码、分析数据、编写非代码文档),典型任务价值平均上升约25%。

智能体Anthropic编码论文/研究
同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》
推荐理由:这份报告用40万次真实会话数据揭示了一个反直觉发现,决定Agent编码成败的,不是会不会写代码,而是对自己领域问题的理解深度。对非技术背景用AI编程的人和产品经理都是重要信号。
02:03
OpenRouter:Announcements(RSS)
精选62
OpenRouter Presets:当模型下线时保持 AI 智能体运行

Anthropic 在 Claude Fable 5 发布仅数天后便对其进行了限制。如果代码硬编码模型 slug,该限制也会导致服务中断。OpenRouter 的 Presets 功能将模型选择移至服务器端,使用户无需重新部署即可切换模型、设置回退策略并强制执行数据策略。

智能体教程/实践部署/工程

推荐理由:给 Agent 开发者的实用提醒,硬编码模型名会在供应商限制时塌方,用 Presets 换模型、设降级方案比现改代码省心。
6月16日
22:30
公众号:小米 MiMo
精选69
小米 MiMo Claw 正式版发布:旗舰模型+金山办公,全新订阅服务上线

小米推出云端轻量化 Claw 类产品 MiMo Claw 正式版,搭载与 OpenClaw 框架深度适配的 MiMo-V2.5-Pro 旗舰模型。该模型原生兼容 MCP 工具调用协议,内置百万级超长上下文,支持单会话千次以上连续工具调用;依托 MTP 三层解码架构,在 OpenClaw 标准 Agent 工作流中吞吐效率提升约 3 倍。ClawEval 测试中任务达标率(Pass³)达 63.8%,Token 消耗较同类产品降低 40%-60%。联动金山办公生态,提供 Word、Excel、PPT、PDF 等格式的 AI 生成、预览与在线编辑一站式服务。免费用户每日单次体验时长从1小时升级至4小时,面向高频用户推出 TokenPlan 分层订阅(Lite/Standard/Pro/Max),支持灵活叠加,限时定价14.9元/月、19.9元/月、233.8元/年。

智能体MCP/工具产品更新
关联讨论 2 条X:小米 MiMo (@XiaomiMiMo)IT之家(RSS)
推荐理由:小米给普通人用的 Agent 工具正式上线,14.9 元月费很激进,但核心还是看实际任务完成率和办公集成靠不靠谱。
‹ 上一页
1234…17
下一页 ›