全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 2134 条

全部一手资讯 X 论文

标签「Agent」清除

6月24日周三

19:10公众号：卡尔的AI沃茨65快手KroWork：将AI Skill工作流打包成本地桌面App

18:31公众号：火山引擎66精选火山引擎推出Agent Ready基础设施，AgentKit与ArkClaw企业版升级

18:30Hacker News 热门（buzzing.cc 中文翻译）80Qwen-AgentWorld：通用智能体的语言世界模型

18:29Artificial Intelligence News（RSS）46Anthropic 在 Slack 中推出 Claude Tag 功能，通过 @Claude 调用 AI 智能体

18:00公众号：小红书技术（dots.llm）51AICon 上海 2026|小红书质效：Agent 基建的规模化落地路径

17:55The Decoder：AI News（RSS）48Claude Tag 嵌入 Slack，Anthropic 称内部 65% 的代码由该工具生成

17:50公众号：火山引擎56三大Agent开发运营产品升级，帮企业建好"1+N+X"Agent体系

17:44IT之家（RSS）57仅需 @ 即可调用：Anthropic 推出 AI 虚拟团队成员 Claude Tag

16:44IT之家（RSS）39荣耀产品线总裁方飞：7月将发布下一代终端操作系统AgenticOS

14:30公众号：千问APP（阿里）54超1400万人，正在和千问聊高考

12:42IT之家（RSS）66阿里千问发布首个原生语言世界模型 Qwen-AgentWorld

11:55HuggingFace Daily Papers（社区热门论文）70精选NatureBench：AI编码智能体能否匹配Nature系列论文已发表SOTA？

11:55HuggingFace Daily Papers（社区热门论文）49EDV：逃离自我确认陷阱的"执行-蒸馏-验证"智能体经验学习框架

11:54Qwen：Blog Retrieval（API）81精选Qwen-AgentWorld：面向通用智能体的语言世界模型

11:40公众号：通义实验室（千问）74Qwen-AgentWorld 开源：让 Agent 学会"先预测，再行动"

11:20公众号：卡尔的AI沃茨65实测Codex Record & Replay：把RPA自动化工作流重做了一遍

10:49HuggingFace Daily Papers（社区热门论文）61OpenThoughts-Agent：开源数据流水线训练智能体模型

10:49HuggingFace Daily Papers（社区热门论文）76Qwen-AgentWorld：用于通用智能体的语言世界模型

10:49HuggingFace Daily Papers（社区热门论文）57ReMMD：面向多模态虚假信息检测的现实多语言多图像智能体验证框架

10:10公众号：数字生命卡兹克63同事件精选微信上线AI智能体"小微"内测同一事件，精选展示《微信Agent小微灰度内测：主入口发消息红包，子入口可读聊天记录》

09:27IT之家（RSS）63豆包正式推出专业版，连续包月68元起、最高500元

09:10公众号：豆包（字节）77精选今天，豆包正式推出专业版

08:45TechCrunch：AI（RSS）59印度 MoEngage 全现金收购 Aampe，押注 AI 智能体营销未来

08:00HuggingFace Daily Papers（社区热门论文）56多步工具使用的强化学习为何崩溃以及监督信号如何修复它

08:00HuggingFace Daily Papers（社区热门论文）51验证地平线：编程智能体奖励无银弹

08:00HuggingFace Daily Papers（社区热门论文）64进展优势：后训练中被忽视的免费午餐--面向LLM智能体的步骤级评分信号

03:05Hacker News 热门（buzzing.cc 中文翻译）77克劳德·塔格

02:03HuggingFace Daily Papers（社区热门论文）51提前承诺：LLM智能体过早固守证据的隐藏故障诊断

01:18TechCrunch：AI（RSS）51Anthropic 发布 Claude Tag 研究预览版：常驻 Slack 的"始终在线"AI 智能体

01:14Claude：Blog（网页）42Claude Tag 的 Agent Identity 访问模型

01:09Anthropic：Newsroom（网页）56精选Anthropic 推出 Claude Tag：在 Slack 中通过 @Claude 协作

6月23日周二

22:49HuggingFace Daily Papers（社区热门论文）78精选能力强但粗心：计算机使用智能体是否遵循情境完整性？

21:42TechCrunch：AI（RSS）58Fika Jobs 获 400 万美元预种子轮，打造视频优先 AI 面试招聘平台

21:20Hugging Face：Blog（RSS）73精选IBM 开源 CUGA：轻量级智能体框架，提供二十余个单文件示例应用

19:10公众号：小红书技术（dots.llm）54小红书QEcon分享：Agent驱动的服务端端到端测试

19:10公众号：千问APP（阿里）60精选国内首个高考志愿AI测评出炉，千问多项表现超过资深咨询师

19:10IT之家（RSS）48字节新一代豆包AI手机或延迟发布，因需双重认证

18:07IT之家（RSS）42企业微信 AI Agent"大圆"开启内测：左滑唤起，自动理解诉求并给出回复

18:07IT之家（RSS）51QQ邮箱推出Agently Mail，为AI智能体提供专属邮箱服务

17:07IT之家（RSS）59腾讯 QQ 邮箱推出 AI 智能体专属邮箱服务 Agently Mail，开启内测

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月24日

19:10

公众号：卡尔的AI沃茨

65

快手KroWork：将AI Skill工作流打包成本地桌面App

快手新发布KroWork，能将多个AI Skill串成的工作流直接打包为本地桌面应用。用户安装后可在Launchpad中一键下载到本机，双击即可按预设流程运行，无需反复打开对话框或重新配置参数。KroWork支持定时任务（如每天9点自动执行），并允许从Kro Workshop复制他人工作流二次开发。作者用其复刻了Prompt Organizer提示词生成器和Daily Trend Brief（每日AI趋势简报）等日常工具。KroWork定位与Claude Cowork、Codex Site、Claude Code Artifacts相似，旨在将重复工作流沉淀为可分享的本地应用。

智能体 MCP/工具教程/实践

18:31

公众号：火山引擎

精选66

火山引擎推出Agent Ready基础设施，AgentKit与ArkClaw企业版升级

火山引擎在FORCE大会推出面向企业智能应用的Agent Ready基础设施，构建AI云与Agent三层架构。AgentKit升级提供Identity、Runtime、Sandbox、Evaluation等模块，实现Agent可靠、可控、可衡量。Identity已接入数千家身份体系，Runtime支持长程任务和分钟级12万沙箱并发。ArkClaw企业版集成Agent广场、技能中心与企业知识库，支持IDP/SSO/OAuth及飞书、钉钉等IM入口统一管控。实践案例：海底捞门店经营Agent将小时级工作压缩到分钟级，人工跟进时长缩减70%，巡检满意度提升50%；创维酷开借助ArkClaw终端版打造AIOS，Token消耗节省50%，支撑百万级终端。

智能体产品更新部署/工程

推荐理由：Agent 从聊天机器人到企业生产工具，缺的不是模型能力而是基础设施。火山引擎这套 AgentReady 架构把身份、沙箱、评测串了起来，是企业 AI 落地的关键一步。

18:30

Hacker News 热门（buzzing.cc 中文翻译）

80

Qwen-AgentWorld：通用智能体的语言世界模型

研究团队推出Qwen-AgentWorld系列，是首批基于语言模型的“语言世界模型”，通过长链式推理模拟7个领域的智能体环境。模型使用超1000万条真实环境交互轨迹，经连续预训练、监督微调和强化学习三阶段训练而成。配套AgentWorldBench基准基于5个前沿模型在9个标准评测上的真实交互构建。实验表明Qwen-AgentWorld显著优于现有模型。作为解耦环境模拟器，它支持可扩展的可控仿真以增强智能体强化学习；作为统一基础模型，世界模型训练可有效预热下游7个智能体基准的性能。

智能体 arXiv 数据/训练论文/研究

关联讨论 2 条X：通义千问 / Qwen (@Alibaba_Qwen)X：Berry Xia (@berryxia)

18:29

Artificial Intelligence News（RSS）

46

Anthropic 在 Slack 中推出 Claude Tag 功能，通过 @Claude 调用 AI 智能体

Anthropic 面向 Enterprise 和 Team 用户发布 Claude Tag 功能 beta 版。用户可在 Slack 共享频道中通过 @Claude 直接调用 AI 模型，将其引入活跃群组线程。频道内任何成员均可委派任务或审查内容，打破了传统独立聊天框的交互模式。

智能体 Anthropic 产品更新

18:00

公众号：小红书技术（dots.llm）

51

AICon 上海 2026|小红书质效：Agent 基建的规模化落地路径

小红书质效研发团队在 AICon 上海 2026 公布两项 Agent 基础设施实践。Self-GC 系统通过 ContextObject 对象化建模与三阶段提交机制（Async Plan、Rehearsal、Delayed Commit），将上下文转为可索引的生命周期管理，生产环境实现 10%-20% 输入 Token 下降且保持 90%+ 无影响率。Seal 企业级 AI 个人助理依托 NEX 沙箱实现运行时隔离，结合 Self-GC 与 SealRouter（Auto 模型路由）达成成本减半，并采用 L0-L2 分层记忆体系构建可溯源知识闭环，从 3 天内测到两周完成全员覆盖。

智能体 MCP/工具教程/实践

17:55

The Decoder：AI News（RSS）

48

Claude Tag 嵌入 Slack，Anthropic 称内部 65% 的代码由该工具生成

Anthropic 推出 Claude Tag，允许团队在 Slack 任意频道中通过 @Claude 标记并分配任务。该公司表示，其内部产品团队已有 65% 的代码由该工具生成。

智能体 Anthropic 产品更新编码

17:50

公众号：火山引擎

56

三大Agent开发运营产品升级，帮企业建好"1+N+X"Agent体系

火山引擎在FORCE大会上提出企业Agent落地“1+N+X”体系：“1”是AgentSphere数字员工派遣站，“N”是开箱即用应用，“X”是基于TRAE、扣子、HiAgent持续进化的业务应用。TRAE企业版上线TRAE Work，实现一个账号切换IDE与办公端、一个后台统一管理，内部开发94%代码由AI贡献。亚信科技应用后单人日均节省约1.8小时，代码贡献率提升42%，千行代码缺陷率降低35%。扣子升级3.0，强化多端协同与行业知识沉淀。HiAgent 3.0构建开发-运行-管理闭环，引入Learning Loop实现Agent持续进化。某车企经AgentSphere统一纳管后，活动筹备周期从4周压缩至5个工作日，效率提升约3.5倍。

智能体产品更新部署/工程

17:44

IT之家（RSS）

57

仅需 @ 即可调用：Anthropic 推出 AI 虚拟团队成员 Claude Tag

Anthropic 于当地时间 6 月 23 日推出 AI 虚拟团队成员 Claude Tag，是 Claude Code 的演进版本，更主动且适合团队协作。Claude Tag 率先在 Slack 上推出，用户可在频道中 @Claude 委派任务。工具支持多人协作、自主学习、异步运行，并能主动追踪信息与任务。Anthropic 产品团队 65% 的代码由 Claude Tag 内部版本生成，应用场景已从工程扩展到数据追踪、客户服务。

智能体 Anthropic 产品更新

16:44

IT之家（RSS）

39

荣耀产品线总裁方飞：7月将发布下一代终端操作系统AgenticOS

荣耀产品线总裁方飞在MWC26上海宣布，荣耀将于今年7月发布以人为中心的下一代终端操作系统AgenticOS。该系统具备意图驱动（以意图为中心而非应用）、自然交互（声音、手势、眼神等）、主动智能（Agent内核，主动规划/服务/执行）及天生跨端（一脑调度万端，多设备多Agent协同）四大特性。此外，年初发布的“机器人手机”Robot Phone预计今年下半年上市，搭载行业最小的4DoF云台系统，体积比主流方案缩小70%。

智能体产品更新多模态端侧

14:30

公众号：千问APP（阿里）

54

超1400万人，正在和千问聊高考

自6月7日高考至今，千问上高考相关咨询量持续走高，累计咨询人数超过1400万，近期连续5日增长超过100%。考生和家长最关心就业前景（如“未来最不容易失业的专业”）和校园环境（如“宿舍别太差”）。基于千问高考志愿大模型和夸克8年数据经验，千问支持高考志愿报告、志愿日历、志愿问答等能力，可免费生成定制化志愿报告。团队已提前备好算力资源，以应对接下来20多个省份集中出分的咨询高峰。

智能体行业动态

12:42

IT之家（RSS）

66

阿里千问发布首个原生语言世界模型 Qwen-AgentWorld

6 月 24 日，阿里巴巴千问发布 Qwen-AgentWorld，首个原生语言世界模型，提供 35B-A3B 与 397B-A17B 两种规模，单一模型覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大智能体交互领域。模型基于超 1000 万条真实环境交互轨迹，经 CPT → SFT → RL 三阶段训练。同步发布的 AgentWorldBench 评测中，Qwen-AgentWorld-397B-A17B 取得最高整体模拟质量，超越 GPT-5.4、Claude Opus 4.8 与 Gemini 3.1 Pro。模型与评测基准已开源，可从 Hugging Face 和 ModelScope 获取。

智能体 Hugging Face 模型发布

11:55

HuggingFace Daily Papers（社区热门论文）

精选70

NatureBench：AI编码智能体能否匹配Nature系列论文已发表SOTA？

NatureBench是一个跨学科基准测试，包含90个从Nature系列同行评审论文中提取的任务，用于评估AI编码智能体能否超越复现、实现发现。基准基于NatureGym自动化管线，为每个任务提供标准化容器化环境，解决环境碎片化问题。在严格禁用网络搜索的协议下评估10种前沿智能体配置，最强模型仅在17.8%任务上超过已发表SOTA（g>0.1准则）。分析表明，智能体成功主要依赖方法论翻译，失败主因为方法选择错误和计算预算不足。已发布基准、NatureGym管线及公共排行榜。

智能体 GitHub 开源生态评测/基准

推荐理由：这个基准把AI agent丢进Nature论文的复现池里游了一圈，发现最强的配置也只能在17.8%的任务上超越SOTA，而且靠的是方法翻译而非发明——对做科研agent的团队来说，既是冷水也是路线图。

11:55

HuggingFace Daily Papers（社区热门论文）

49

EDV：逃离自我确认陷阱的"执行-蒸馏-验证"智能体经验学习框架

大语言模型智能体在开放世界交互中自我进化时，单智能体循环易陷入自我确认陷阱——将错误但自洽的轨迹误判为成功，导致错误累积。EDV 框架将经验学习解耦为执行、蒸馏、验证三阶段：多异构智能体并行探索产生多样化轨迹；第三方智能体对比分析减少归纳偏差；执行组通过共识机制验证候选经验，仅批准内容写入记忆。在 tau2-bench、Mind2Web 和 MMTB 三个长周期基准上，EDV 持续超越强基线，验证了可靠经验构建对鲁棒自我演化的关键作用。代码已开源。

智能体 Hugging Face 开源/仓库论文/研究

11:54

Qwen：Blog Retrieval（API）

精选81

Qwen-AgentWorld：面向通用智能体的语言世界模型

Qwen 团队发布 Qwen-AgentWorld，一个以环境建模为训练目标的原生语言世界模型，在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域（Web、OS、Android）共七个域。模型使用超 1000 万条真实交互轨迹训练，在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量，超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练，也可作为统一智能体基础模型，经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。

智能体 arXiv Hugging Face MCP/工具

关联讨论 2 条X：通义千问 / Qwen (@Alibaba_Qwen)X：Berry Xia (@berryxia)

推荐理由：Qwen把世界模型做成了一个可开源的通用产品，覆盖七域，做agent RL的可以直接拿它仿真训练，可控性甚至超过真实环境，做agent的团队应该认真看看。

11:40

公众号：通义实验室（千问）

74

Qwen-AgentWorld 开源：让 Agent 学会"先预测，再行动"

通义千问推出首个原生语言世界模型 Qwen-AgentWorld，覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域。模型基于超 1000 万条真实交互轨迹，经 CPT→SFT→RL 三阶段训练，在 AgentWorldBench 上超越 GPT-5.4（58.25）和 Claude Opus 4.8，Qwen-AgentWorld-397B-A17B 取得 58.71 分。两种范式已验证其能力：作为解耦环境模拟器实现可控 Sim RL，在 WideSearch 上超越真实环境 RL（F1 50.3% vs 45.6%）；作为智能体基础模型，LWM 预热可迁移至七个基准（三个完全未出现在训练集中）。模型与评测基准已开源。

智能体推理模型发布

关联讨论 2 条X：通义千问 / Qwen (@Alibaba_Qwen)X：Berry Xia (@berryxia)

11:20

公众号：卡尔的AI沃茨

65

实测Codex Record & Replay：把RPA自动化工作流重做了一遍

Codex新功能Record & Replay可将浏览器操作录制成可复用的Skill。实测解决两个痛点：定向信息搜索时自动打开X搜热点、统计高赞帖子、提取关键词重新查询，输出带互动指标的表格和短关键词库，满足60%-70%图文素材需求；视频剪辑上传能完成静音检测、加速、导出GIF等固定流程，但上传可能被网站安全策略拦截，建议先让Codex出Plan判断可行性。Codex能理解意图，例如自动在输入Grok前增加中文关键词组合。目前依赖Computer Use和图片理解，操作慢且偶有误判，但已能将人的操作转化为Agent下次可执行的上下文，替代传统RPA和Replay。

智能体 OpenAI 搜索教程/实践

10:49

HuggingFace Daily Papers（社区热门论文）

61

OpenThoughts-Agent：开源数据流水线训练智能体模型

OpenThoughts-Agent（OT-Agent）项目提出一套完全开源的数据 curation 流水线，专门用于训练智能体模型。研究团队通过 100 余项对照消融实验，系统探索了任务来源与多样性的影响，并构建了包含 10 万条样本的数据集。基于该数据集微调 Qwen3-32B 后，模型在 7 项智能体基准测试中平均准确率为 44.8%，比现有最强的开源数据智能体模型 Nemotron-Terminal-32B（40.9%）高 3.9 个百分点。训练数据展现出强扩展性，同等计算资源下各数据规模均优于其他开源数据集。所有数据、流水线、实验记录及模型已在 openthoughts.ai 公开发布。

智能体 Hugging Face 开源生态数据/训练

10:49

HuggingFace Daily Papers（社区热门论文）

76

Qwen-AgentWorld：用于通用智能体的语言世界模型

Qwen-AgentWorld-35B-A3B和Qwen-AgentWorld-397B-A17B是首批能通过长链式推理模拟7个领域智能体环境的语言世界模型。它们基于超过1000万条真实环境交互轨迹，经连续预训练（注入状态转移与专业语料）、监督微调（激活下一状态预测推理）和强化学习（混合规则与评分奖励提升仿真保真度）三阶段训练而成。配套基准AgentWorldBench利用5个前沿模型在9个已建立基准上的真实交互构建，实验表明Qwen-AgentWorld显著优于现有前沿模型。该模型既可充当解耦环境模拟器支持智能体强化学习，也可作为统一智能体基础模型，通过世界模型训练预热提升下游7个智能体基准的性能。

智能体开源生态论文/研究

关联讨论 2 条X：通义千问 / Qwen (@Alibaba_Qwen)X：Berry Xia (@berryxia)

10:49

HuggingFace Daily Papers（社区热门论文）

57

ReMMD：面向多模态虚假信息检测的现实多语言多图像智能体验证框架

提出ReMMD框架，包含基准ReMMDBench（500样本、2756张图片、5种单语及2种跨语言设置、多图像帖子、5类真实性标签与8类失真标签）及持久记忆验证器ReMMD-Agent。该Agent将帖子分解为原子点，构建可重用证据集，输出结构化L1/L2/L3预测。在闭源系统、开源LVLMs、MMD-Agent和T2-Agent对比中，ReMMD-Agent搭配GPT-5.2取得最佳五类真实性性能，准确率41.80%，macro-F1 39.12%，成本较MMD-Agent降低17.5%，较T2-Agent降低79.9%。项目已在HuggingFace开源。

智能体多模态论文/研究

10:10

公众号：数字生命卡兹克

同事件精选63

微信上线AI智能体"小微"内测

微信近日内测AI智能体“小微”，常驻左上角，支持语音或文本输入，调用WeLM-V4-80B（MoE激活3B）与DeepSeek模型。可向个人/群聊发消息、发起视频通话、发红包或转账，需用户逐项确认；可查询朋友圈（限最近2天）、公众号、视频号，支持创建提醒、笔记、小工具，并能操作奶茶咖啡、打车、电影票等小程序至最后一步后交给用户。小微具备记忆功能，可记录地址等。聊天记录上下文仅在特定入口可用且限最近2天。整体策略“只读不动”，禁止批量发送、定时、删除联系人等操作。微信以谨慎节奏接入AI，是国民级应用全面拥抱AI的重要信号。

智能体搜索教程/实践

同一事件，精选展示《微信Agent小微灰度内测：主入口发消息红包，子入口可读聊天记录》

推荐理由：微信Agent内测体验一手展示，功能上打通通讯录、朋友圈和小程序，却处处需确认且只读不动，是微信在AI时代极其谨慎的第一步。不过一句话生成小工具的能力，已经为小程序生态打开了AI分发的新可能。

09:27

IT之家（RSS）

63

豆包正式推出专业版，连续包月68元起、最高500元

豆包今日发布基于豆包2.1系列大模型的豆包专业版，新增办公任务模式（接入豆包2.1 Pro），支持操作本地电脑、浏览器、调用Skills技能、定时任务，内置Office办公套件，可完成Office办公、应用开发、数据分析、专业设计、流程自动化、金融分析等任务，并能创建、修改、部署带后端数据库的生产级在线应用。定价三档：标准套餐68元/月、加强200元/月、高级500元/月。大学生认证后标准套餐38元/月。免费版用户持续获得新模型更新。

智能体 MCP/工具产品更新

09:10

公众号：豆包（字节）

精选77

今天，豆包正式推出专业版

豆包专业版基于豆包2.1系列大模型上线，面向复杂办公与生产力场景。办公任务模式接入可执行Agent任务的豆包2.1模型，支持操作本地电脑、浏览器、调用Skills技能、定时任务，内置Office办公套件，并可生成带后端数据库的在线应用。免费用户可体验豆包2.1 Turbo版办公任务模式，专业版接入豆包2.1 Pro模型。定价：标准套餐68元/月（连续包月），加强套餐200元/月，高级套餐500元/月。大学生认证后标准套餐38元/月，持续6个月。

智能体产品更新多模态

推荐理由：豆包专业版不是简单的会员升级，而是把Agent能力装进办公场景，操作本地电脑、生成应用这些功能，让AI从对话工具变成了真正的生产力帮手。

08:45

TechCrunch：AI（RSS）

59

印度 MoEngage 全现金收购 Aampe，押注 AI 智能体营销未来

印度客户互动软件公司 MoEngage 全现金收购旧金山初创公司 Aampe，交易金额数千万美元。Aampe 为每位客户分配专属 AI 智能体，根据个体行为而非传统人群细分实现个性化消息推送。其客户包括 Swiggy、Grab 和 Taxfix，过去一年年经常性收入增长 150%。MoEngage 计划借此争夺从 Salesforce Marketing Cloud 和 Adobe Experience Cloud 迁移的企业客户，近期已签下三到四个数百万美元年合同额订单。约 20 名 Aampe 员工将加入，MoEngage 员工总数增至约 820 人。

智能体行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

56

多步工具使用的强化学习为何崩溃以及监督信号如何修复它

大语言模型在多步工具使用的强化学习（RL）训练中常出现灾难性崩溃——模型性能骤降且工具调用结构失效。研究发现，崩溃源于特定控制 token 的概率尖峰，但底层工具使用能力并未丢失，仅被格式掩盖。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号，发现将监督微调（SFT）与 RL 交错训练可显著提升稳定性，但在格式和内容分布外（OOD）评估中性能下降。代码已开源。

智能体 GitHub 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

验证地平线：编程智能体奖励无银弹

随着基础模型推理能力与工程框架增强，生成长代码方案已不困难，可靠验证反成瓶颈。验证器仅为人类意图的代理，意图天然欠指定，优化会拉大代理与意图差距（奖励破解或信号饱和）。论文沿可扩展性、忠实性、鲁棒性三维度刻画验证信号质量，研究测试验证器、评分标准验证器、用户验证器及自动化智能体验证器四种构造。实验表明针对性设计能抑制奖励破解、提升任务质量。核心结论：无固定奖励函数能随策略能力增长保持有效，验证必须与生成协同进化。

智能体 arXiv 编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

进展优势：后训练中被忽视的免费午餐--面向LLM智能体的步骤级评分信号

研究表明，强化学习后训练本身即可提供有效的步骤级评分信号，无需单独训练奖励模型。研究者在随机马尔可夫决策过程中推导出隐式优势函数——进展优势，即RL训练后策略与参考策略的对数概率比恰好还原最优优势函数。该信号无需人工标注、领域无关，且是标准RL后训练管线的副产品。在五个基准和四个模型族上，进展优势在测试时缩放、不确定性量化和失败归因三项应用中持续优于基于置信度的基线，甚至超越专门训练的奖励模型。

智能体数据/训练论文/研究

03:05

Hacker News 热门（buzzing.cc 中文翻译）

77

克劳德·塔格

Anthropic 推出 Claude Tag，一种在 Slack 上通过 @Claude 进行团队协作的新方式。Claude 可作为团队成员加入指定频道，访问所选工具、数据和代码库，自动构建上下文并分解任务。Anthropic 内部已有 65% 的产品团队代码由内部版 Claude Tag 生成。Claude Tag 支持多人协同（同一频道内共享一个 Claude）、随时间积累知识、主动推送更新和异步执行任务，还可发送直接消息。该功能今天起面向 Claude Enterprise 和 Team 客户开放 Beta 测试。管理员可严格限定工具、数据访问范围及 token 消耗上限。

智能体 Anthropic MCP/工具产品更新

关联讨论 2 条X：Claude Devs (@ClaudeDevs)Claude：Blog（网页）

02:03

HuggingFace Daily Papers（社区热门论文）

51

提前承诺：LLM智能体过早固守证据的隐藏故障诊断

长周期LLM智能体会出现“过早承诺”故障——早期选定证据解读并固守，最终答案评分无法捕捉。研究用跨运行隐藏状态收敛性作为承诺指标。在Llama-3.1-70B运行ReAct于HotpotQA上，第4步隐藏状态相似性预测下游行为一致性（r=-0.35，偏相关-0.45）。信号在Qwen-2.5-72B、Phi-3-14B及StrategyQA（r=-0.83）复现。承诺不追踪正确性。运行时监测器检测不一致轨迹，AUROC最高0.97（严格拆分0.85-0.88）；提示词干预将行为方差降低28%且准确率无显著变化。结果提供了一个隐藏过程故障诊断工具，并明确了局限性。

智能体论文/研究

01:18

TechCrunch：AI（RSS）

51

Anthropic 发布 Claude Tag 研究预览版：常驻 Slack 的"始终在线"AI 智能体

Anthropic 推出 Claude Tag 研究预览版，这是一个常驻 Slack 的“始终在线”AI 智能体。用户可在聊天中 @Claude 获取洞察或分配任务，面向 Claude Enterprise 和 Claude Team 用户。Claude 会持续学习所在频道的工作内容，经管理员授权后还可从组织内其他频道自动收集事实。它支持任务分阶段执行，并提供环境模式——主动跳入对话以更新团队、标记跨组织事项或跟进被遗忘的线程。Anthropic 表示这让人感觉像是在与一位真正了解上下文的同事合作。

智能体 Anthropic 产品更新

01:14

Claude：Blog（网页）

42

Claude Tag 的 Agent Identity 访问模型

Claude Tag 推出 agent identity（智能体身份）访问模型，让 Claude 在共享频道中以独立身份工作，而非模拟某个用户。管理员在工作区级配置连接器、仓库访问、技能插件和固定指令等权限，每个频道可覆盖继承的基线设置。私有频道拥有独立身份，记忆和访问不跨频道流转；公共频道共享工作区级身份。该模型为自主多玩家 AI 场景设计，允许频道成员通过 Claude 访问已授权工具和数据，同时通过按身份撤销简化权限管理。

智能体 Anthropic 教程/实践部署/工程

01:09

Anthropic：Newsroom（网页）

精选56

Anthropic 推出 Claude Tag：在 Slack 中通过 @Claude 协作

Anthropic 推出 Claude Tag，一种在 Slack 频道中通过 @Claude 委托任务的新协作方式。Claude 可记住频道上下文，支持多用户交互，经授权后可自动学习其他频道和数据源。开启“环境”行为后，能主动更新未解决的线程或任务。支持异步工作，可自主推进项目数小时或数天。即日起面向 Claude Enterprise 和 Team 客户提供 beta 版。管理员可精细控制工具和渠道访问权限、设置 token 消耗限额，并查看所有操作日志。

智能体 Anthropic 产品更新编码

关联讨论 2 条X：Claude Devs (@ClaudeDevs)Claude：Blog（网页）

推荐理由：Anthropic 这次把 Claude 从对话助手变成了团队里的主动队友，Slack 里的多人协作、上下文学习和异步代理是个新思路。内部 65% 代码由它生成的数据，让这个方向不再只是实验。

6月23日

22:49

HuggingFace Daily Papers（社区热门论文）

精选78

能力强但粗心：计算机使用智能体是否遵循情境完整性？

AgentCIBench评估计算机使用智能体（CUA）是否遵循情境完整性。它针对三种常见失败模式：视觉共置（智能体拉取任务目标旁边被禁止的项目）、任务模糊性过度分享（在提示不明确时泄露个人状态）以及收件人错配（向不适当的收件人发送内容）。对15个前沿CUA的评测显示平均泄漏率67.9%，其中11个在超过50%的场景中泄漏，这些失败在端到端任务中同样存在。AgentCIBench已发布，旨在推动开发更安全的计算机使用智能体。

智能体安全/对齐论文/研究

推荐理由：计算机使用代理的隐私泄露问题被严重低估了。这篇论文用 AgentCIBench 实测 15 个前沿代理，发现平均泄漏率接近 70%，把这个隐患摆到了台面上，做 agent 产品的团队该把它加入上线前测试清单。

21:42

TechCrunch：AI（RSS）

58

Fika Jobs 获 400 万美元预种子轮，打造视频优先 AI 面试招聘平台

斯德哥尔摩初创公司 Fika Jobs 推出视频优先招聘平台，求职者连接 LinkedIn 后，AI 基于 Google Gemini 模型生成个性化问题并完成约 10 分钟视频面试。面试内容自动剪辑成短视频，组织成可被雇主发现和回访的动态档案。平台本周向求职者开放早期访问，秋季全面推出。对求职者免费，雇主在成功招聘后支付候选人首年工资的 10%。本轮 400 万美元预种子轮由 Luminar Ventures 领投，Alliance VC 及 King 联合创始人参与。已有超 100 家公司进入候补名单，超 50 家公司参与测试。

智能体行业动态

21:20

Hugging Face：Blog（RSS）

精选73

IBM 开源 CUGA：轻量级智能体框架，提供二十余个单文件示例应用

IBM 开源了 CUGA（Configurable Generalist Agent），一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环，在 AppWorld（2025年7月–2026年2月）和 WebArena（2025年2月–9月）基准上排名第一。支持 Fast / Balanced / Accurate 三种推理模式，代码执行可在本地、Docker 或 E2B 沙箱中运行。可互换工具支持 OpenAPI、MCP 和 LangChain 函数，通过环境变量一键切换 OpenAI、watsonx、Ollama 等提供商。随框架发布二十余个单文件示例应用，涵盖电影推荐、IBM Cloud 架构顾问等场景，每个应用仅需一个 FastAPI 文件。

智能体 GitHub MCP/工具产品更新

推荐理由：CUGA 把 agent 的规划、状态、策略等繁琐工程压缩成配置，开发者只写工具列表和 prompt 就能跑起 agent，配套的二十多个单文件应用是现成的模板库，对自建 agent 的团队来说省去了八成重复工作。

19:10

公众号：小红书技术（dots.llm）

54

小红书QEcon分享：Agent驱动的服务端端到端测试

小红书质效研发团队提出用AI Agent破解端到端测试的跨域、长链路、组合爆炸三大痛点。传统方案自动化覆盖率仅20%，新方案以Coding Agent为核心，采用逆向链式推导与知识库渐进式加载实现动态规划，Debug-first策略生成脚本，并结合工具级与链路级双层经验沉淀形成自进化飞轮。数据构造从小时级降至分钟级，常见场景秒级完成，新业务域接入从数天缩至分钟级。Agent直接理解测试意图、自主调用接口，无需预设编排。

智能体推理教程/实践

19:10

公众号：千问APP（阿里）

精选60

国内首个高考志愿AI测评出炉，千问多项表现超过资深咨询师

友松实验室发布国内首个高考志愿AI能力测评报告，测试千问高考志愿填报Agent四大模块。与53位平均从业4.6年的人类咨询师对照，千问表现更稳定精确：44道事实题全对；模拟10个志愿中6个可录取；100场匿名对比中专家58次倾向千问回答。使用千问辅助后，人类咨询师正确率提升，耗时减少约27%。该Agent基于千问高考志愿大模型和夸克8年高考数据，覆盖约3000所院校、2000多个专业。

智能体产品更新

推荐理由：千问高考志愿Agent的测评报告，数据看着漂亮，但全是阿里自家实验室出品，参考意义不大，真填志愿还是得找独立第三方。

19:10

IT之家（RSS）

48

字节新一代豆包AI手机或延迟发布，因需双重认证

据蓝鲸新闻6月23日援引知情人士消息，中兴通讯与字节共同推进的新一代豆包AI手机可能延迟，原因是要同时通过网信部门大模型备案和工信部手机终端入网认证。若审批顺利，最快7-8月面世。屏幕供应商从前一代深天马换为京东方，电池采用德赛ATL电芯，预计由福日电子旗下中诺通讯代工。此前双方于2025年12月发售了搭载豆包手机助手技术预览版的工程样机努比亚M153，配备骁龙8至尊版芯片、6.78英寸LTPO显示屏及6000mAh电池。

智能体端侧行业动态

18:07

IT之家（RSS）

42

企业微信 AI Agent"大圆"开启内测：左滑唤起，自动理解诉求并给出回复

6月23日，企业微信启动代号“大圆”的AI Agent内测。该产品定位为“长在企业微信工作流里”的AI助理，移动端左滑即可唤起，能自动理解用户当前界面及问题，基于群聊、文档、会议、邮件等数据给出回复。正在灰度测试的“服务总结”功能可在员工与客户沟通过程中自动提炼客户需求、成交意向和卡点，并推送建议重点跟进的客户。管理侧，客户群和客户信息可自动沉淀到AI智能表格，生成数据分析仪表盘，拆解客户意向、转化漏斗和服务质量。

智能体产品更新

18:07

IT之家（RSS）

51

QQ邮箱推出Agently Mail，为AI智能体提供专属邮箱服务

6月23日，腾讯QQ邮箱推出专为AI智能体打造的专属邮箱服务Agently Mail，并开启内测。该产品独立于个人邮箱运行，可为AI Agent提供安全、隔离且具备独立身份的数字通信空间。支持WorkBuddy、QClaw、Marvis、OpenClaw、Claude Code、Kimi Work、豆包超能模式、Codex、Hermes、Cursor等主流Agent。腾讯公关总监张军表示后续会开放更多平台。Agently Mail已上架腾讯SkillHub，代码仓库在GitHub以Apache-2.0协议开源。

智能体产品更新开源生态

17:07

IT之家（RSS）

59

腾讯 QQ 邮箱推出 AI 智能体专属邮箱服务 Agently Mail，开启内测

腾讯 QQ 邮箱推出 Agently Mail，为 AI 智能体提供独立于个人邮箱的专属邮箱地址，已开启内测。开通需实名认证，所有写操作需生成摘要经用户确认后执行，读邮件具备 Prompt 注入防护。Agent 可用该邮箱自主注册第三方平台、接收验证码，并支持企业间 A2A 自动通信（询价、报价、订单对接）。已适配 WorkBuddy、Claude Code、Kimi Work、豆包超能模式等多款 AI Agent，代码在 GitHub 以 Apache-2.0 协议开源。用户可通过 Agent 对话安装 CLI 工具、微信扫码授权使用。

智能体 MCP/工具产品更新

1…3 456 7…50