18:00

公众号：小红书技术（dots.llm）

AICon 上海 2026|小红书质效：Agent 基建的规模化落地路径

小红书质效研发团队在 AICon 上海 2026 公布两项 Agent 基础设施实践。Self-GC 系统通过 ContextObject 对象化建模与三阶段提交机制（Async Plan、Rehearsal、Delayed Commit），将上下文转为可索引的生命周期管理，生产环境实现 10%-20% 输入 Token 下降且保持 90%+ 无影响率。Seal 企业级 AI 个人助理依托 NEX 沙箱实现运行时隔离，结合 Self-GC 与 SealRouter（Auto 模型路由）达成成本减半，并采用 L0-L2 分层记忆体系构建可溯源知识闭环，从 3 天内测到两周完成全员覆盖。

智能体 MCP/工具教程/实践

17:55

The Decoder：AI News（RSS）

Claude Tag 嵌入 Slack，Anthropic 称内部 65% 的代码由该工具生成

Anthropic 推出 Claude Tag，允许团队在 Slack 任意频道中通过 @Claude 标记并分配任务。该公司表示，其内部产品团队已有 65% 的代码由该工具生成。

智能体 Anthropic 产品更新编码

17:50

公众号：火山引擎

三大Agent开发运营产品升级，帮企业建好"1+N+X"Agent体系

火山引擎在FORCE大会上提出企业Agent落地“1+N+X”体系：“1”是AgentSphere数字员工派遣站，“N”是开箱即用应用，“X”是基于TRAE、扣子、HiAgent持续进化的业务应用。TRAE企业版上线TRAE Work，实现一个账号切换IDE与办公端、一个后台统一管理，内部开发94%代码由AI贡献。亚信科技应用后单人日均节省约1.8小时，代码贡献率提升42%，千行代码缺陷率降低35%。扣子升级3.0，强化多端协同与行业知识沉淀。HiAgent 3.0构建开发-运行-管理闭环，引入Learning Loop实现Agent持续进化。某车企经AgentSphere统一纳管后，活动筹备周期从4周压缩至5个工作日，效率提升约3.5倍。

智能体产品更新部署/工程

17:44

IT之家（RSS）

仅需 @ 即可调用：Anthropic 推出 AI 虚拟团队成员 Claude Tag

Anthropic 于当地时间 6 月 23 日推出 AI 虚拟团队成员 Claude Tag，是 Claude Code 的演进版本，更主动且适合团队协作。Claude Tag 率先在 Slack 上推出，用户可在频道中 @Claude 委派任务。工具支持多人协作、自主学习、异步运行，并能主动追踪信息与任务。Anthropic 产品团队 65% 的代码由 Claude Tag 内部版本生成，应用场景已从工程扩展到数据追踪、客户服务。

智能体 Anthropic 产品更新

16:44

IT之家（RSS）

荣耀产品线总裁方飞：7月将发布下一代终端操作系统AgenticOS

荣耀产品线总裁方飞在MWC26上海宣布，荣耀将于今年7月发布以人为中心的下一代终端操作系统AgenticOS。该系统具备意图驱动（以意图为中心而非应用）、自然交互（声音、手势、眼神等）、主动智能（Agent内核，主动规划/服务/执行）及天生跨端（一脑调度万端，多设备多Agent协同）四大特性。此外，年初发布的“机器人手机”Robot Phone预计今年下半年上市，搭载行业最小的4DoF云台系统，体积比主流方案缩小70%。

智能体产品更新多模态端侧

16:18

Berryxia.AI@berryxia

Anthropic内部演讲：99%工程师运行300+自改进agent swarm

Anthropic内部透露，99%工程师运行300+自改进agent swarm。核心是“close the loop”——模型自验证输出，包含计划、动态工作流、自我检查并迭代。效果远超多数300美元agent课程，但token消耗更高。

智能体 Anthropic 大佬观点

15:49

StepFun@StepFun_ai

阶跃星辰针对AI智能体开发中的计费痛点推出Step Plan，并与Step 3.7 Flash模型搭配，在真实Claude Code环境中测试。引用的开发者推文指出，每次API调用都在屏幕角落显示费用数字，导致他分心、停止测试新模型；而固定费率后端解决了这一问题。Step Plan正是阶跃星辰为减少这种干扰而做的尝试，让开发者更专注于构建。

Chidanand Tripathi: I almost stopped testing new models altogether. Not because they were bad. Because every call left a number climbing in ...

智能体产品更新编码

15:37

eric zakariasson@ericzakariasson

有趣地观察到Anthropic从以最佳模型为护城河转向构建工具生态系统，与常见开发和非开发工作流进行恰当集成。如果我是CTO，我只会要一个Slack集成，可以在任何时候切换模型……以避免锁定。主推文：在Slack中与模型无关的智能体。

Gergely Orosz: Interesting to observe Anthropic going from the moat being the best model to building a tooling ecosystem with right int...

智能体 Anthropic 大佬观点

15:04

数字生命卡兹克@Khazix0918

体验微信小微Agent：微信有史以来最大更新，但智能与便捷仍有不足

微信小微Agent常驻左上角，支持语音/文本输入，基座模型为微信自研WeLM（WeLM-V4-80B MoE，激活3B）及DeepSeek。可发消息、红包、语音通话，但每一步需用户确认，且禁止批量发送、读取聊天记录、转发笔记等。已打通朋友圈（限最近2天）、公众号、视频号，支持通过小程序进行本地生活、出行、充值等操作。当前权限“只读不动”，不能删除好友或取消关注。作者认为这是微信最大更新，但在智能程度和便捷性上仍有不足。

智能体 MCP/工具评测/基准

14:50

Alibaba Cloud@alibaba_cloud

认识 Qwen3.7-Plus，为跨 GUI 交互、工具使用和编码的多模态智能体执行而构建。从视觉输入到代码和实际任务执行，它专为长期运行的现实世界智能体工作流而设计。今天在阿里云上试用，限时 20% 折扣。 🔗 ： https://int.alibabacloud.com/m/1000414123/

智能体多模态模型发布

14:30

公众号：千问APP（阿里）

超1400万人，正在和千问聊高考

自6月7日高考至今，千问上高考相关咨询量持续走高，累计咨询人数超过1400万，近期连续5日增长超过100%。考生和家长最关心就业前景（如“未来最不容易失业的专业”）和校园环境（如“宿舍别太差”）。基于千问高考志愿大模型和夸克8年数据经验，千问支持高考志愿报告、志愿日历、志愿问答等能力，可免费生成定制化志愿报告。团队已提前备好算力资源，以应对接下来20多个省份集中出分的咨询高峰。

智能体行业动态

13:39

MiniMax (official)@MiniMax_AI

用户@whosamberella为学习仿人机器人知识，利用MiniMax M3进行调研，并在OpenCode中搭建了一个仿人机器人目录网站（humanoid-index-one.vercel.app）。其SVG原型不仅能展示，还能帮助学习不同仿人机器人的特征。MiniMax将其过程概括为：研究→综合→构建。

Amber Shen: I wanted to learn about humanoid robots 🤖, then decided the most reasonable thing to do was build myself a humanoid cat...

智能体教程/实践

12:42

IT之家（RSS）

阿里千问发布首个原生语言世界模型 Qwen-AgentWorld

6 月 24 日，阿里巴巴千问发布 Qwen-AgentWorld，首个原生语言世界模型，提供 35B-A3B 与 397B-A17B 两种规模，单一模型覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大智能体交互领域。模型基于超 1000 万条真实环境交互轨迹，经 CPT → SFT → RL 三阶段训练。同步发布的 AgentWorldBench 评测中，Qwen-AgentWorld-397B-A17B 取得最高整体模拟质量，超越 GPT-5.4、Claude Opus 4.8 与 Gemini 3.1 Pro。模型与评测基准已开源，可从 Hugging Face 和 ModelScope 获取。

智能体 Hugging Face 模型发布

12:20

Alibaba Cloud@alibaba_cloud

市场数据变化很快。你的 BI 应该更快。General Agents + Smart Q Skill Package 帮助交易者分析跨主流交易平台的跨平台数据--从 T+0 区间到价差信号以及收盘交易回顾。博客：https://int.alibabacloud.com/m/1000414772/ Quick BI @quick68554 ： https://int.alibabacloud.com/m/1000407094/ #QuickBI #SmartQ #EcommerceAnalytics #AIAnalytics #DataDriven

智能体教程/实践

12:17

宝玉@dotey

宝玉分享极客风 Skills 管理方式

为解决多 Agent 下 Skills 存放混乱问题，宝玉提出：Skills 只装在项目内以节省 LLM 上下文窗口；所有原件统一存放于 ~/GitHub，每个项目通过软链接指向原件，再为 Claude Code 创建 .claude/skills → .agents/skills 入口。更新只需拉取一次源码，所有项目自动同步；修复 bug 可直接反哺开源项目。用户可用自然语言让 Agent 自动创建软链接，无需记忆命令。

LinearUncle: 我快疯了。日常同时用 4个 coding agent,skills 各写各的: /.agents/skills、/.codex/skills、~/.claude/skills 已经一团浆糊,CC 里找不到 Codex 的 skill,反过来...

智能体 Anthropic 教程/实践编码

11:55

HuggingFace Daily Papers（社区热门论文）

精选70

NatureBench：AI编码智能体能否匹配Nature系列论文已发表SOTA？

NatureBench是一个跨学科基准测试，包含90个从Nature系列同行评审论文中提取的任务，用于评估AI编码智能体能否超越复现、实现发现。基准基于NatureGym自动化管线，为每个任务提供标准化容器化环境，解决环境碎片化问题。在严格禁用网络搜索的协议下评估10种前沿智能体配置，最强模型仅在17.8%任务上超过已发表SOTA（g>0.1准则）。分析表明，智能体成功主要依赖方法论翻译，失败主因为方法选择错误和计算预算不足。已发布基准、NatureGym管线及公共排行榜。

智能体 GitHub 开源生态评测/基准

推荐理由：这个基准把AI agent丢进Nature论文的复现池里游了一圈，发现最强的配置也只能在17.8%的任务上超越SOTA，而且靠的是方法翻译而非发明——对做科研agent的团队来说，既是冷水也是路线图。

11:55

HuggingFace Daily Papers（社区热门论文）

EDV：逃离自我确认陷阱的"执行-蒸馏-验证"智能体经验学习框架

大语言模型智能体在开放世界交互中自我进化时，单智能体循环易陷入自我确认陷阱——将错误但自洽的轨迹误判为成功，导致错误累积。EDV 框架将经验学习解耦为执行、蒸馏、验证三阶段：多异构智能体并行探索产生多样化轨迹；第三方智能体对比分析减少归纳偏差；执行组通过共识机制验证候选经验，仅批准内容写入记忆。在 tau2-bench、Mind2Web 和 MMTB 三个长周期基准上，EDV 持续超越强基线，验证了可靠经验构建对鲁棒自我演化的关键作用。代码已开源。

智能体 Hugging Face 开源/仓库论文/研究

11:54

Qwen：Blog Retrieval（API）

精选81

Qwen-AgentWorld：面向通用智能体的语言世界模型

Qwen 团队发布 Qwen-AgentWorld，一个以环境建模为训练目标的原生语言世界模型，在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域（Web、OS、Android）共七个域。模型使用超 1000 万条真实交互轨迹训练，在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量，超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练，也可作为统一智能体基础模型，经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。

智能体 arXiv Hugging Face MCP/工具

关联讨论 3 条

推荐理由：Qwen把世界模型做成了一个可开源的通用产品，覆盖七域，做agent RL的可以直接拿它仿真训练，可控性甚至超过真实环境，做agent的团队应该认真看看。

11:40

公众号：通义实验室（千问）

Qwen-AgentWorld 开源：让 Agent 学会"先预测，再行动"

通义千问推出首个原生语言世界模型 Qwen-AgentWorld，覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域。模型基于超 1000 万条真实交互轨迹，经 CPT→SFT→RL 三阶段训练，在 AgentWorldBench 上超越 GPT-5.4（58.25）和 Claude Opus 4.8，Qwen-AgentWorld-397B-A17B 取得 58.71 分。两种范式已验证其能力：作为解耦环境模拟器实现可控 Sim RL，在 WideSearch 上超越真实环境 RL（F1 50.3% vs 45.6%）；作为智能体基础模型，LWM 预热可迁移至七个基准（三个完全未出现在训练集中）。模型与评测基准已开源。

智能体推理模型发布

关联讨论 3 条

11:20

公众号：卡尔的AI沃茨

实测Codex Record & Replay：把RPA自动化工作流重做了一遍

Codex新功能Record & Replay可将浏览器操作录制成可复用的Skill。实测解决两个痛点：定向信息搜索时自动打开X搜热点、统计高赞帖子、提取关键词重新查询，输出带互动指标的表格和短关键词库，满足60%-70%图文素材需求；视频剪辑上传能完成静音检测、加速、导出GIF等固定流程，但上传可能被网站安全策略拦截，建议先让Codex出Plan判断可行性。Codex能理解意图，例如自动在输入Grok前增加中文关键词组合。目前依赖Computer Use和图片理解，操作慢且偶有误判，但已能将人的操作转化为Agent下次可执行的上下文，替代传统RPA和Replay。

智能体 OpenAI 搜索教程/实践

10:49

HuggingFace Daily Papers（社区热门论文）

OpenThoughts-Agent：开源数据流水线训练智能体模型

OpenThoughts-Agent（OT-Agent）项目提出一套完全开源的数据 curation 流水线，专门用于训练智能体模型。研究团队通过 100 余项对照消融实验，系统探索了任务来源与多样性的影响，并构建了包含 10 万条样本的数据集。基于该数据集微调 Qwen3-32B 后，模型在 7 项智能体基准测试中平均准确率为 44.8%，比现有最强的开源数据智能体模型 Nemotron-Terminal-32B（40.9%）高 3.9 个百分点。训练数据展现出强扩展性，同等计算资源下各数据规模均优于其他开源数据集。所有数据、流水线、实验记录及模型已在 openthoughts.ai 公开发布。

智能体 Hugging Face 开源生态数据/训练

10:49

HuggingFace Daily Papers（社区热门论文）

Qwen-AgentWorld：用于通用智能体的语言世界模型

Qwen-AgentWorld-35B-A3B和Qwen-AgentWorld-397B-A17B是首批能通过长链式推理模拟7个领域智能体环境的语言世界模型。它们基于超过1000万条真实环境交互轨迹，经连续预训练（注入状态转移与专业语料）、监督微调（激活下一状态预测推理）和强化学习（混合规则与评分奖励提升仿真保真度）三阶段训练而成。配套基准AgentWorldBench利用5个前沿模型在9个已建立基准上的真实交互构建，实验表明Qwen-AgentWorld显著优于现有前沿模型。该模型既可充当解耦环境模拟器支持智能体强化学习，也可作为统一智能体基础模型，通过世界模型训练预热提升下游7个智能体基准的性能。

智能体开源生态论文/研究

关联讨论 3 条

10:49

HuggingFace Daily Papers（社区热门论文）

ReMMD：面向多模态虚假信息检测的现实多语言多图像智能体验证框架

提出ReMMD框架，包含基准ReMMDBench（500样本、2756张图片、5种单语及2种跨语言设置、多图像帖子、5类真实性标签与8类失真标签）及持久记忆验证器ReMMD-Agent。该Agent将帖子分解为原子点，构建可重用证据集，输出结构化L1/L2/L3预测。在闭源系统、开源LVLMs、MMD-Agent和T2-Agent对比中，ReMMD-Agent搭配GPT-5.2取得最佳五类真实性性能，准确率41.80%，macro-F1 39.12%，成本较MMD-Agent降低17.5%，较T2-Agent降低79.9%。项目已在HuggingFace开源。

智能体多模态论文/研究

10:20

Alibaba Cloud@alibaba_cloud

阿里云FFA2026议程公布，Apache Fluss 1.0发布

阿里云宣布距FFA2026大会仅剩2天，全部11个分论坛议程已上线，覆盖7大Data+AI方向：多模态与向量计算、AI智能体、AI平台实践、智能DevOps、Agentic Lake、实时分析与实时数据。同时设汽车AI和具身AI行业专场。Apache Fluss 1.0在大会上首次亮相，具备专为AI智能体设计的实时上下文能力。大会将于6月26-27日在深圳举办。

智能体多模态开源/仓库数据/训练

10:17

Berryxia.AI@berryxia

出差途中用Bloome Agent自动做合同，体验"老板待遇"

用户出差在飞机上，通过Bloome Agent直接生成两份客户续费合同，无需打开电脑、无需多言。Agent还主动记忆并询问之前的报价信息，整体体验轻松愉快。用户感叹AI时代让“顶级牛马”也能享受老板般的待遇。

智能体大佬观点

10:10

公众号：数字生命卡兹克

同事件精选63

微信上线AI智能体"小微"内测

微信近日内测AI智能体“小微”，常驻左上角，支持语音或文本输入，调用WeLM-V4-80B（MoE激活3B）与DeepSeek模型。可向个人/群聊发消息、发起视频通话、发红包或转账，需用户逐项确认；可查询朋友圈（限最近2天）、公众号、视频号，支持创建提醒、笔记、小工具，并能操作奶茶咖啡、打车、电影票等小程序至最后一步后交给用户。小微具备记忆功能，可记录地址等。聊天记录上下文仅在特定入口可用且限最近2天。整体策略“只读不动”，禁止批量发送、定时、删除联系人等操作。微信以谨慎节奏接入AI，是国民级应用全面拥抱AI的重要信号。

智能体搜索教程/实践

同一事件，精选展示《微信Agent小微灰度内测：主入口发消息红包，子入口可读聊天记录》

推荐理由：微信Agent内测体验一手展示，功能上打通通讯录、朋友圈和小程序，却处处需确认且只读不动，是微信在AI时代极其谨慎的第一步。不过一句话生成小工具的能力，已经为小程序生态打开了AI分发的新可能。

09:51

小互@xiaohu

字节豆包专业版上线付费：68元/月起，学生特惠38元/月

豆包推出专业版，开启付费。三级阶梯定价：标准68元/月、加强200元/月、高级500元/月，额度依次递增。专注应用开发、数据分析等场景，支持办公任务模式，可操作本地电脑、调用Skills、内置Office套件。由豆包2.1Pro模型驱动。学生认证后标准套餐38元/月，活动期6个月。

智能体产品更新端侧

09:27

IT之家（RSS）

豆包正式推出专业版，连续包月68元起、最高500元

豆包今日发布基于豆包2.1系列大模型的豆包专业版，新增办公任务模式（接入豆包2.1 Pro），支持操作本地电脑、浏览器、调用Skills技能、定时任务，内置Office办公套件，可完成Office办公、应用开发、数据分析、专业设计、流程自动化、金融分析等任务，并能创建、修改、部署带后端数据库的生产级在线应用。定价三档：标准套餐68元/月、加强200元/月、高级500元/月。大学生认证后标准套餐38元/月。免费版用户持续获得新模型更新。

智能体 MCP/工具产品更新

09:10

公众号：豆包（字节）

精选77

今天，豆包正式推出专业版

豆包专业版基于豆包2.1系列大模型上线，面向复杂办公与生产力场景。办公任务模式接入可执行Agent任务的豆包2.1模型，支持操作本地电脑、浏览器、调用Skills技能、定时任务，内置Office办公套件，并可生成带后端数据库的在线应用。免费用户可体验豆包2.1 Turbo版办公任务模式，专业版接入豆包2.1 Pro模型。定价：标准套餐68元/月（连续包月），加强套餐200元/月，高级套餐500元/月。大学生认证后标准套餐38元/月，持续6个月。

智能体产品更新多模态

推荐理由：豆包专业版不是简单的会员升级，而是把Agent能力装进办公场景，操作本地电脑、生成应用这些功能，让AI从对话工具变成了真正的生产力帮手。

08:45

TechCrunch：AI（RSS）

印度 MoEngage 全现金收购 Aampe，押注 AI 智能体营销未来

印度客户互动软件公司 MoEngage 全现金收购旧金山初创公司 Aampe，交易金额数千万美元。Aampe 为每位客户分配专属 AI 智能体，根据个体行为而非传统人群细分实现个性化消息推送。其客户包括 Swiggy、Grab 和 Taxfix，过去一年年经常性收入增长 150%。MoEngage 计划借此争夺从 Salesforce Marketing Cloud 和 Adobe Experience Cloud 迁移的企业客户，近期已签下三到四个数百万美元年合同额订单。约 20 名 Aampe 员工将加入，MoEngage 员工总数增至约 820 人。

智能体行业动态

08:44

meng shao@shao__meng

Apodex深度研究测试：AI Agent公司如何选择产品方向

博主用自进化重型求解器Apodex测试“AI Agent公司如何选择产品方向”。Deep Discovery模式下，Apodex拆解为开发者工具、企业工作流、研究助手三条线，补充VC视角、市场规模等来源，持续验证后给出排序：1. 垂直企业工作流Agent（有明确买方和成本替代逻辑）；2. 垂直研究助手（需针对法律、金融等高价值场景）；3. 开发者工具（竞争被Codex、Cursor、Claude Code等占据）。Apodex强调先验证后下结论，适合变量多、需取舍的复杂议题。体验入口apodex.ai，Hugging Face可下载模型。

智能体推理评测/基准

08:18

ginobefun@hongming731

BestBlogs 早报：Claude Tag 智能体身份、AI 编码代价、Harness 架构

Anthropic 为 Claude Tag 推出智能体身份模型，Claude 在团队频道拥有独立账号，权限按频道配置可覆写，撤销身份即可终止访问。AI 编码代价方面，Meta 一次 AI 生成代码（无人工验证）导致 Instagram 密码重置漏洞，CISO 离职；Amazon 核心平台中断；GitHub 因负载增长三倍不稳定。腾讯云开发者介绍 Harness 工程：同一 LLM 换装更精巧外架构后，TerminalBench 2.0 通过率从 52.8% 升至 66.5%，排名从 30 名外进入前 5。

智能体现象/趋势编码

08:18

ginobefun@hongming731

BestBlogs 06-24早报：智能体身份、Seed2.1、M3等

Anthropic 为 Claude Tag 推出智能体身份访问模型，赋予 AI 独立账号体系。Meta 因 AI 生成代码未经人工复核导致 Instagram 漏洞

ginobefun: http://x.com/i/article/2069568375752445952

智能体现象/趋势编码

08:17

Berryxia.AI@berryxia

Claude Tag：在Slack里@Claude让它当团队成员干活

Anthropic 推出 Claude Tag，让 Claude 以团队成员身份加入 Slack。用户可指定频道和工具，通过 @Claude 委托任务（拆解任务、写 PR、跑数据分析、处理故障）。频道内一个 Claude 实例可供多人接力使用，并积累上下文；开启环境模式后，它会主动跟进沉寂线程并提醒相关信息。该功能被视为 Claude Code 的团队版进化，Anthropic 内部已大量使用。目前面向 Enterprise 和 Team 计划开放 beta 测试。

Claude: Introducing Claude Tag, a new way for teams to work with Claude. In Slack, Claude joins as a team member with access to ...

智能体 Anthropic MCP/工具产品更新

08:00

HuggingFace Daily Papers（社区热门论文）

多步工具使用的强化学习为何崩溃以及监督信号如何修复它

大语言模型在多步工具使用的强化学习（RL）训练中常出现灾难性崩溃——模型性能骤降且工具调用结构失效。研究发现，崩溃源于特定控制 token 的概率尖峰，但底层工具使用能力并未丢失，仅被格式掩盖。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号，发现将监督微调（SFT）与 RL 交错训练可显著提升稳定性，但在格式和内容分布外（OOD）评估中性能下降。代码已开源。

智能体 GitHub 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

验证地平线：编程智能体奖励无银弹

随着基础模型推理能力与工程框架增强，生成长代码方案已不困难，可靠验证反成瓶颈。验证器仅为人类意图的代理，意图天然欠指定，优化会拉大代理与意图差距（奖励破解或信号饱和）。论文沿可扩展性、忠实性、鲁棒性三维度刻画验证信号质量，研究测试验证器、评分标准验证器、用户验证器及自动化智能体验证器四种构造。实验表明针对性设计能抑制奖励破解、提升任务质量。核心结论：无固定奖励函数能随策略能力增长保持有效，验证必须与生成协同进化。

智能体 arXiv 编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

进展优势：后训练中被忽视的免费午餐--面向LLM智能体的步骤级评分信号

研究表明，强化学习后训练本身即可提供有效的步骤级评分信号，无需单独训练奖励模型。研究者在随机马尔可夫决策过程中推导出隐式优势函数——进展优势，即RL训练后策略与参考策略的对数概率比恰好还原最优优势函数。该信号无需人工标注、领域无关，且是标准RL后训练管线的副产品。在五个基准和四个模型族上，进展优势在测试时缩放、不确定性量化和失败归因三项应用中持续优于基于置信度的基线，甚至超越专门训练的奖励模型。

智能体数据/训练论文/研究

07:17

Berryxia.AI@berryxia

GLM-5.2 火出圈，Flowith Matrix 接入并送 1000 万 tokens

GLM-5.2 近期火爆出圈，尤其海外用户兴奋，国内用户则因抢不到 coding plan 而不爽。Flowith 的 Matrix 产品已接入智谱 GLM-5.2，提供 1M 上下文窗口，适用于 long-horizon coding、产品构建和复杂多步执行。Matrix 作为 agentic workspace，用户可直接在其中构建产品、部门、工作流甚至整个 agent 公司。所有 Matrix beta 用户可领取 1000 万免费 tokens（限时），这标志着强模型与执行环境的进一步融合，个人或小团队的能力边界被推远。

Flowith: matrix @matrix_build is partnering with @Zai_org to bring glm-5.2 directly into the hands of anyone who creates real com...

智能体产品更新编码

06:51

Andrej Karpathy@karpathy

Claude Tag 面世：AI 以团队成员身份嵌入 Slack

Anthropic 推出 Claude Tag，让 Claude 以团队成员身份加入 Slack 频道，可被 @提及并委派任务。团队可为其配置频道访问权限和工具，从而实现异步协作。Andrej Karpathy 评价这是 LLM UI/UX 的第三次重大重新设计：从访问网站、下载 App，演进为自包含、持久、异步的组织级实体，无缝融入人类工作流，能处理多种工作负载。

Claude: Introducing Claude Tag, a new way for teams to work with Claude. In Slack, Claude joins as a team member with access to ...

智能体 Anthropic MCP/工具大佬观点

06:09

Google AI Developers@googleaidevs

Gemini Interactions API 是您处理文本、多模态输入、工具使用和管理智能体的统一接口，所有这些都集成在一个端点上。从提示词到产品，比以往更快。阅读开发者指南 ⬇️ https://x.com/GoogleAIStudio/status/2069450021955592406

Google AI Studio: http://x.com/i/article/2069439163758170112

智能体 Google MCP/工具产品更新