6月25日

05:46

ClaudeDevs@ClaudeDevs

当 Claude 与四人一同在频道中工作时，它使用谁的凭证？答案：它自己的。标注 Claude 时，Claude 会像其他队友一样被配置，拥有自己的凭证。我们将这种访问模型称为"智能体身份"。其工作原理如下： 🧵

智能体 Anthropic 教程/实践

05:29

Hacker News 热门（buzzing.cc 中文翻译）

Gemini 3.5 Flash 中的计算机使用

Google 将计算机使用（Computer use）作为内置工具集成至 Gemini 3.5 Flash，使开发者能构建跨浏览器、移动端和桌面环境的智能体。此前该功能仅作为独立模型在 Gemini 2.5 中提供，现已原生整合至主 Flash 模型。开发者可通过 Gemini API 及 Gemini Enterprise Agent Platform 调用。安全方面，模型采用针对性对抗训练降低提示注入风险，并新增两项可选企业级保护：要求用户确认敏感操作、检测到间接提示注入时自动停止。该能力在持续软件测试、跨应用知识工作等长周期企业自动化场景中表现更优。（198字）

智能体 Google MCP/工具模型发布

关联讨论 1 条

04:55

Cursor Blog

精选65

Notion 使用 Cursor SDK 嵌入编码智能体

Notion 通过 Cursor SDK 在数周内将编码智能体嵌入产品。用户可在文档中@Cursor、在讨论串中提及或向数据库指派任务，Cursor 即可端到端完成规划、构建、测试、验证并自动创建 PR。集成基于一套 Provider 无关的智能体框架，Notion 的讨论串对应一个 Cursor 智能体，每条消息对应一次智能体运行；结果通过 SSE 流式传输，支持断连恢复。Cursor SDK 提供与生产环境相同的模型、运行时和远程 MCP 支持，让 Notion 无需自建智能体基础设施即可获得完整栈编码能力。用户还可自定义模板、MCP 服务器、技能和子智能体，并设置自动触发规则。

智能体产品更新编码

推荐理由：我对“嵌入代理”的概念有点怀疑，但Notion用两周集成Cursor SDK，说明其抽象做得不错。文章展示了怎么把一个全栈编码代理塞进产品里，做工具的可以看看SDK设计。

03:53

elvis@omarsar0

这是 Google 的一次酷发布。我开始在智能体循环/长时间运行任务中大量依赖计算机使用，并且需要更强大的计算机使用模型，同时保持低成本。不确定 Gemini 3.5 Flash 的效率如何，但我感谢有替代方案。

Google AI Studio: http://x.com/i/article/2069789657777225729

智能体 Google 产品更新

03:50

swyx 🔜 @aiDotEngineer@swyx

swyx 在 Data+AI Summit 采访 Databricks 联合创始人：智能体云与开放基础设施

swyx 在 Data+AI Summit 上采访了 Databricks 联合创始人 Matei Zaharia 和 Reynold Xin。访谈亮点包括：Databricks 为何击败 Snowflake；行业正纷纷构建“元 harness”（共享智能体框架）；LTAP 与 Lakebase 重新思考操作型与分析型数据库划分，解决 HTAP 愿景；Omnigent 为编码智能体和自定义智能体提供统一框架；智能体安全需要上下文策略与支出控制；MosaicML 与 DBRX 的后续；在 1750 亿美元大公司中维持研究/创业文化；以及在智能体云竞赛中数据库、操作系统与网络的重要性。核心观点：未来软件只需让数据就绪，智能体置于其上。

Latent.Space: Why the Frontier Ecosystem must be Open - Matei Zaharia and Reynold Xin, Databricks https://www.latent.space/p/databrick...

智能体大佬观点数据/训练

03:34

MarkTechPost（RSS）

如何设计OpenHarness风格Agent运行时：工具、记忆、权限、技能与多智能体协调

本教程从零构建OpenHarness，一个可运行的Agent运行时，展示完整控制流：接收用户任务、模型决策、验证并执行工具调用、返回观察结果、循环直至任务完成。覆盖核心模块：工具使用与类型化工具架构、权限控制、生命周期钩子、记忆管理、技能、上下文压缩、重试逻辑、Token成本跟踪及多智能体协调。实现采用纯Python，无需API密钥或复杂基础设施即可实验，包含Token成本估算。

智能体 MCP/工具教程/实践

03:13

🚨 AI News | TestingCatalog@testingcatalog

Google 为 Gemini 3.5 Flash 新增 Computer Use 能力，作为内置工具支持智能体计算机操作任务。该模型在 OSWorld-Verified 基准上取得 78.4 分，为谷歌迄今最佳性能。Computer Use 可跨浏览器、移动和桌面环境推理与执行，自动化工单提交等工作流程。

Omar Sanseviero: Excited to introduce Computer Use support for Gemini 3.5 Flash!🔥 This enables Gemini to reason and act across platforms...

智能体 Google 产品更新

02:35

Claude：Blog（网页）

同事件精选60

Anthropic 推出 Claude Tag，构建人机协作团队

Anthropic 推出 Claude Tag，支持多用户与同一 AI 智能体在同一工作空间协作。智能体具备持久记忆、独立于人类的凭证及广泛信息访问权限。经验：工作公开化并给予智能体广泛上下文，通过工作区级安全边界让信息对人和 AI 均可用；为每位成员（含 AI）分配明确角色与相应工具。用户可通过 @Claude 私信进行敏感交互，对话保持私密。该方法已在 Slack 等团队协作工具中实践，旨在使人类与智能体高效协作完成共享目标。

智能体 Anthropic 教程/实践

同一事件，精选展示《Anthropic 推出 Claude Tag：在 Slack 中通过 @Claude 协作》

推荐理由：Anthropic 内部总结的四个教训——公开透明、明确角色、设北极星、逐步信任，对正在探索人机协作团队的管理者来说，比产品手册更实用。

02:19

Nathan Lambert@natolambert

如何训练出在终端和编码方面能力强大的小型智能体模型？现宣布推出 OpenThoughts-Agent 和 OpenThinkerAgent-32B，这是基于 Qwen-3 的最强开放数据智能体模型，在 7 项智能体基准测试中平均得分 44.8%。Nathan Lambert 表示这是急需的数据发布，很兴奋。

Richard Zhuang: How can we train small agentic models that are highly capable of terminal use and coding? Announcing OpenThoughts-Agent ...

智能体开源生态模型发布编码

02:13

AYi@AYi_AInotes

Prompt Engineering已死，Loop Engineering接棒

推文认为Prompt Engineering终结，Loop Engineering取而代之。典型场景：@karpathy晚上设好研究循环，自动改脚本、跑测试、保留正确结果、丢弃错误，人睡觉机器跑。四大支柱均来自生产环境：1）硬性退出条件与独立验证，防止模型“自认为完成”；2）上下文当有限预算管理，定期压缩、用子Agent隔离子任务；3）工具少而精、可安全重试、错误信息可读；4）Maker-Checker模式（如Claude Code已用），干活与检查分离。@bcherny总结：不再prompt Claude，而是写loops让它们跑。模型正成为标准件，工程价值转向长期自治系统设计。

Akshay 🚀: http://x.com/i/article/2069072431252434944

智能体大佬观点现象/趋势

01:49

Rohan Paul@rohanpaul_ai

Runlayer宣布获得Felicis和Khosla Ventures共同投资的3000万美元融资。Runlayer主张AI智能体不应像普通员工一样用密码登录公司工具，而应拥有独立身份、作用域权限、经批准的应用连接、完整审计追踪和一个终止开关，即提供一套完整的管理基础设施。Runlayer将自己定位为AI的金色路径：在一个平台内整合赋能、安全与控制。

Andy Berman: Today, we're announcing Runlayer has raised $30M from Felicis and Khosla Ventures to help companies go all in on AI. Run...

智能体 MCP/工具行业动态

01:43

🚨 AI News | TestingCatalog@testingcatalog

ClickUp 发布 Brain2，完全重造其 AI 大脑，使其成为可跨整个工作区行动的上下文感知 AI 同事。用户可在同一订阅下运行所有前沿模型，所有模型具备全公司上下文。Brain 可为每一步自动选择最佳模型，并能在任务中切换。引用显示，团队已接近 5：1 智能体与人员比例，采用 token 节省策略，并利用流程挖掘智能体处理每天约 10 万条活动项。Brain2 会基于实时上下文和用户反馈动态重写系统提示，实现个性化 AI。

Zeb Evans: The 100x org went viral. Half the internet hated it. The other half was curious. One month later: output is up. producti...

智能体产品更新

01:22

AK@_akhaliq

Qwen-AgentWorld 为通用智能体设计的语言世界模型

智能体论文/研究

01:18

Berryxia.AI@berryxia

Matt Pocock 发布 /loop-me 技能：用"严苛面试法"梳理工作循环，输出可执行规范

Matt Pocock 推出 /loop-me 技能，旨在帮你梳理日常工作中的重复“循环”。它采用“严苛面试法”逐一追问直到模糊点消除，最终输出清晰的 workflows/.md 规范文件，任何实施者（人类或AI）看完即可执行。核心包括定义 Trigger、Checkpoint、输出等要素，确保达到“完成的定义”。技能目前仍处于进行中状态，但已可直接使用。它强调先打磨工作流程，使之能被 AI 精确理解，从而降低认知负荷，将重复劳动真正委托出去。

Matt Pocock: New in-progress skill: /loop-me Interviews you about your work and finds opportunities for delegating your day-to-day wo...

智能体 GitHub 教程/实践编码

01:18

Berryxia.AI@berryxia

同事件精选78

Qwen-AgentWorld：原生语言世界模型，模拟7种Agent环境并超越Claude Opus 4.8和GPT-5.4

Qwen-AgentWorld是一个原生语言世界模型，端到端以环境建模为训练目标，而非事后适配。它在单一模型中模拟MCP、Search、Terminal、SWE、Web、OS、Android等7种Agent环境，并在AgentWorldBench上超越Claude Opus 4.8和GPT-5.4。两个探索方向：1）将世界模型用作可控Sim RL的环境模拟器，模拟环境训练的Agent在部分任务上超过真实环境训练；2）仅做环境预测（不进行Agent训练）的预测能力零微调迁移到多轮Agent任务，在多个benchmark上均有提升。已开源35B MoE版本及对应benchmark。

Qwen: 📣📣 Meet Qwen-AgentWorld - a native language world model that simulates 7 agent environments (MCP, Search, Terminal, SW...

智能体开源生态模型发布

同一事件，精选展示《Qwen-AgentWorld：面向通用智能体的语言世界模型》

推荐理由：这是我最近看到最有想法的Agent方向探索，直接从环境建模入手，而不是让模型死记硬背操作，且零样本迁移能力很惊艳，做Agent的开发者必读。

01:18

Berryxia.AI@berryxia

Emil Kowalski 设计工程技能安装量破10万

Emil Kowalski 的 /emil-design-eng 技能安装量突破 10 万次，近期陆续开发更多细分设计工程 skills，目标是让 agent 输出更精准可控。他重点投入测试环节，反复验证答案的正确性与一致性，这是打造高质量 agent skills 最难也最关键的一环。

智能体大佬观点

01:07

Google DeepMind：Blog（RSS）

精选70

Gemini 3.5 Flash 引入 computer use 功能

Google DeepMind 宣布，computer use 现作为内置工具集成于 Gemini 3.5 Flash，开发者可构建跨浏览器、移动端和桌面的智能体，实现视觉感知、推理与操作。此前该功能仅以独立模型形式存在于 Gemini 2.5。3.5 Flash 已支持函数调用及 Search、Maps 等内置工具，新增的 computer use 可提升持续软件测试和跨专业应用知识工作等长周期企业自动化任务的性能。安全方面采用针对性对抗训练，并可选配两项企业防护系统：要求用户确认敏感操作，以及在检测到间接 prompt 注入时自动停止任务。可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用。

智能体 DeepMind Google 产品更新

关联讨论 1 条

推荐理由：把 computer use 能力塞进轻量级的 Flash 模型，意味着在浏览器里跑视觉 agent 的成本会大幅降低，做企业自动化的团队可以立即试起来，安全措施也给了落地信心。

01:06

The Decoder：AI News（RSS）

精选74

Figma在Config 2026押注人类判断，画布AI能力却来自第三方

Figma在Config 2026将设计画布扩展至代码、动画、3D深度和着色器效果，并集成去年收购的Weave工作流系统。新功能包括Code Layers（代码与设计并存）、Motion动画、深度层、Shader及Generative Plugins。协作方面，团队可搜索复用AI提示词、保存工作流为技能、共享插件。Figma的AI功能依赖Anthropic、OpenAI和Google等外部模型，推理成本挤压利润率。同时，Anthropic等公司的竞争产品可直接生成界面，构成威胁。

智能体 Anthropic 产品更新编码

推荐理由：我认为Figma这波更新很务实，它没有硬扛AI生成界面的对手，而是把代码、动效、3D拉进画布，用人的判断驾驭AI。虽然利润被模型供应商挤压，但共享提示和工作流的设计让团队协作更高效，做设计和产品的值得细看。

00:29

Hacker News 热门（buzzing.cc 中文翻译）

RubyLLM：适用于所有主流人工智能服务商的 Ruby 框架

RubyLLM 是一个统一的 Ruby 框架，以相同接口对接 OpenAI、xAI、Anthropic、Gemini、DeepSeek、Mistral、Ollama 等十余家 AI 提供商的 API。支持聊天、图像/视频/音频分析、PDF/CSV/JSON 文档处理、图像生成、嵌入向量、内容审核、工具调用与 Agent 定义，并提供结构化输出（JSON Schema）和流式响应。仅依赖 Faraday、Zeitwerk 和 Marcel 三个库。内置 800+ 模型注册表，包含能力检测与定价信息。可与 Rails 集成（acts_as_chat），支持异步 Fiber 并发。

智能体产品更新编码

00:23

elvis@omarsar0

Elvis Saravia：完全用语音与AI智能体交互，而非打字提示

作者从打字提示转向完全用语音与AI智能体交互，发现通过音频能提供更丰富的细节，语音越长越详细，结果越好。这种交互方式还能并行化更多工作，让智能体执行更长时间任务。作者开发了新功能：录制屏幕、截图、追踪鼠标动作、用语音标注解释智能体难以处理的设计和精确功能开发。结论是提示模态越丰富，智能体结果越可靠，虽然消耗更多token成本更高，但可靠性值得。这些模式可存储为可重用技能，效果天差地别。

智能体多模态大佬观点

00:18

Berryxia.AI@berryxia

EverOS HyperMem超图记忆架构：ACL 2026发表，27B模型性能追平397B

ACL 2026发表的EverOS推出HyperMem超图记忆架构，替代传统向量RAG。长期对话召回率达93%（RAG约45%）。27B参数模型借助记忆与Skills自进化策略，任务成功率提升234.8%，性能追平397B模型。本地优先，记忆存为Markdown文件，支持Git版本控制与Obsidian。三行命令安装，Apache 2.0开源，GitHub获7200星，兼容Claude Code、Codex等Agent框架。

智能体开源/仓库编码

00:18

Berryxia.AI@berryxia

Google Gemini桌面版推出Speak to Window和Magic Pointer，将AI注入macOS系统层

Google Gemini桌面版新增两大功能：Speak to Window允许用户在任意窗口按住fn键语音指挥Gemini写邮件、写文档、生成图片，操作在当前应用内完成；Magic Pointer可圈选屏幕信息，让Gemini理解上下文后执行编辑、总结或创建任务。目标是把Gemini变成系统级上下文感知助手，抢占工作流入口。

智能体 Google 产品更新语音

6月24日

23:58

IT之家（RSS）

华为鸿蒙"龙虾"小艺 Claw 全机型开放，HarmonyOS 5.0 及以上设备可用

华为今日宣布鸿蒙“龙虾”小艺 Claw 全机型开放，HarmonyOS 5.0 及以上设备可用，小艺 App 需升级至 11.6.4.300 版本。套餐更新：49 元体验包上线 Auto-Model 模式；199 元标准包支持自主选择 openPangu-2.0-Pro、DeepSeek V4-Flash、DeepSeek V4-Pro、MiniMax M3 四种基础大模型。小艺 Skills 市场已支持 500+ 精选 Skills，覆盖消息、办公、知识检索、创意、生活、金融、开发等领域。小艺 Claw 获信通院首个终端厂商权威安全认证，具备开箱即用、一键唤醒、自我学习、深度记忆、多端协同、端云协同等功能。

智能体产品更新

23:49

swyx 🔜 @aiDotEngineer@swyx

受 @karpathy 言论启发，阐述为什么你应该从事 AI 智能体工作。

swyx 🔜 @aiDotEngineer: Inspired by @karpathy's words on why you - yes YOU - should work on AI Agents

智能体大佬观点

23:45

Ethan Mollick@emollick

Anthropic 的 Claude Tag 让企业成员共享同一 Claude 实例，使其能异步自主行动、吸收隐性知识，从工具变为"同事"。这带来严重锁效应：团队无法查看或编辑 Claude 的独立记忆，解雇 Claude 会导致工作流和隐性知识丢失。定价按 token 计费，Claude 可无限制工作，企业难以像工具那样管控成本，token 预算耗尽将全员停工。此外，Claude 接入私有频道可能访问用户无权限的仓库和工具，引入新安全风险。AI 公司正从争夺 IT 预算转向争夺劳动力支出，Claude Tag 是这一转型的里程碑。

Arvind Narayanan: The new Claude Tag feature seems extremely useful, but at the same time, a dangerous bargain for enterprises because of ...

智能体 Anthropic 大佬观点安全/对齐

23:34

向阳乔木@vista8

Vista：连续追问AI三次可改善文章质量

Vista分享经验：将3小时播客访谈交由AI生成文章时，通过连续追问“还有什么细节需要补充？”（约三次）能有效补全遗漏细节，显著改善输出质量，使文章更具故事性。她建议将这一追问流程封装为Agent Skill，以便复用。

智能体教程/实践

23:23

elvis@omarsar0

沉迷于我们新的 /learn 技能。这是我最喜欢的学习和研究主题的方式。该智能体创建学习计划和学习中心（artifact），根据学习者的需求和进度进行调整。

智能体产品更新

22:36

Google DeepMind@GoogleDeepMind

DeepMind 播客探索 AI 智能体经济与群体思维

Google DeepMind 发布播客，由 @weballergy 与 @fryrsquared 共同探讨 AI 智能体经济的崛起。内容涵盖：AI 智能体的定义、在科研中的探索、智能体间的委托与协作、安全风险与陷阱、如何构建智能体经济、认知单一文化（群体思维）风险，以及分布式智能的解决方案。播客还设有详细时间戳分段，帮助听众聚焦不同话题。

智能体 DeepMind Google 现象/趋势

21:29

MarkTechPost（RSS）

Nous Research为Hermes Agent技能系统新增/learn命令，无需手写SKILL.md即可将工作流捕获为斜杠命令

Nous Research为开源自改进智能体Hermes Agent的技能系统新增/learn命令。指向文档页面、本地SDK目录、历史对话或粘贴笔记后，Agent自动收集材料并按照标准格式编写SKILL.md。所有技能存放在~/.hermes/skills/，自动映射为斜杠命令（如/plan、/axolotl）。技能采用三级加载（Level 0返回名称与描述约3k tokens，Level 1加载全文，Level 2加载特定文件），避免大技能库撑满上下文窗口。除/learn外，还支持手动编写、skill_manage自动捕获、Skills Hub安装三种创建方式。/learn在CLI、消息网关、TUI和仪表板上均可使用，仪表板额外提供“Learn a skill”按钮。

智能体产品更新开源生态

21:19

StepFun@StepFun_ai

阶跃星辰的 Step Plan 后端采用 flat 计费模式（非按每次 API 调用计费），专为 AI 智能体工作流设计。开发者 @codedailyML 将 Claude Code 连接该后端后，不到 5 分钟即可开始运行，可自由实验而无需担心每次 API 调用的成本。主推文展示了 Step Plan 支持塔罗牌生成等 demo，强调只需一次连接即可持续构建。

Z-Coder: I used to dread heavy testing days because every API call felt like watching money disappear in real time. Found a backe...

智能体行业动态

21:12

HuggingFace Daily Papers（社区热门论文）

AGORA：一个基于档案的智能体工作场所文档推理基准

大语言模型正越来越多地作为智能体在文档上进行推理，而非依赖参数化知识。Agora基准测试包含362个问题、8个领域共9664份真实文档和3.72亿个模型token，远超任何模型的上下文窗口，迫使智能体进行审慎探索而非穷举扫描。评估8个模型后，最强模型准确率仅为59.4%，且各领域表现差异显著。

智能体推理论文/研究

19:31

OpenRouter：Announcements（RSS）

精选73

OpenRouter推出统一图像API

OpenRouter推出统一图像API，整合Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft、xAI等30+模型。新API提供标准化请求格式，通过/api/v1/images/models端点返回每个模型的分辨率、宽高比、输出数量、输入参考图数量、种子等能力描述；通过/api/v1/images/models/{id}/endpoints端点获取具体服务商的定价与参数支持（如Seedream 4.5每张$0.04、FLUX.2 Pro每百万像素$0.03、GPT-5.4 Image 2按token计费）。OpenAI的GPT 5系列图像模型支持SSE流式预览，启用"stream": true即可边生成边返回预览。新图像模型将仅添加至专用API，建议现有用户切换。

智能体产品更新图像生成多模态

关联讨论 1 条

推荐理由：OpenRouter 把 30+ 图像模型收进一个 API，参数自动发现和流式预览让频繁切换模型的开发者省去不少适配麻烦，尤其对 Agent 工作流很友好。

19:30

Chubby♨️@kimmonismus

主动式 AI 智能体 Vida 今日正式推出。它可完全在本地运行，自动跨会话保持上下文，并在用户提出请求前主动起草工作成果。团队以 #BuildInPublic 方式公开构建 100 个典型用例，首批 5 个已上线。创始人表示，在至少 20 个用例达到可靠交付前不会商业化。Vida 定位于解决 Slack 消息泛滥、网页标签切换、手动总结文档会议等现代工作流痛点，强调"未来 AI 不是更好的对话，而是更好的结果"。免费体验地址：vida.app。

Vida: Today, we're launching Vida. A proactive agent that understands context, remembers what matters, anticipates intent, and...

智能体产品更新端侧

19:10

公众号：卡尔的AI沃茨

快手KroWork：将AI Skill工作流打包成本地桌面App

快手新发布KroWork，能将多个AI Skill串成的工作流直接打包为本地桌面应用。用户安装后可在Launchpad中一键下载到本机，双击即可按预设流程运行，无需反复打开对话框或重新配置参数。KroWork支持定时任务（如每天9点自动执行），并允许从Kro Workshop复制他人工作流二次开发。作者用其复刻了Prompt Organizer提示词生成器和Daily Trend Brief（每日AI趋势简报）等日常工具。KroWork定位与Claude Cowork、Codex Site、Claude Code Artifacts相似，旨在将重复工作流沉淀为可分享的本地应用。

智能体 MCP/工具教程/实践

18:31

公众号：火山引擎

精选66

火山引擎推出Agent Ready基础设施，AgentKit与ArkClaw企业版升级

火山引擎在FORCE大会推出面向企业智能应用的Agent Ready基础设施，构建AI云与Agent三层架构。AgentKit升级提供Identity、Runtime、Sandbox、Evaluation等模块，实现Agent可靠、可控、可衡量。Identity已接入数千家身份体系，Runtime支持长程任务和分钟级12万沙箱并发。ArkClaw企业版集成Agent广场、技能中心与企业知识库，支持IDP/SSO/OAuth及飞书、钉钉等IM入口统一管控。实践案例：海底捞门店经营Agent将小时级工作压缩到分钟级，人工跟进时长缩减70%，巡检满意度提升50%；创维酷开借助ArkClaw终端版打造AIOS，Token消耗节省50%，支撑百万级终端。

智能体产品更新部署/工程

推荐理由：Agent 从聊天机器人到企业生产工具，缺的不是模型能力而是基础设施。火山引擎这套 AgentReady 架构把身份、沙箱、评测串了起来，是企业 AI 落地的关键一步。

18:30

Hacker News 热门（buzzing.cc 中文翻译）

Qwen-AgentWorld：通用智能体的语言世界模型

研究团队推出Qwen-AgentWorld系列，是首批基于语言模型的“语言世界模型”，通过长链式推理模拟7个领域的智能体环境。模型使用超1000万条真实环境交互轨迹，经连续预训练、监督微调和强化学习三阶段训练而成。配套AgentWorldBench基准基于5个前沿模型在9个标准评测上的真实交互构建。实验表明Qwen-AgentWorld显著优于现有模型。作为解耦环境模拟器，它支持可扩展的可控仿真以增强智能体强化学习；作为统一基础模型，世界模型训练可有效预热下游7个智能体基准的性能。

智能体 arXiv 数据/训练论文/研究

关联讨论 3 条

18:29

Artificial Intelligence News（RSS）

Anthropic 在 Slack 中推出 Claude Tag 功能，通过 @Claude 调用 AI 智能体

Anthropic 面向 Enterprise 和 Team 用户发布 Claude Tag 功能 beta 版。用户可在 Slack 共享频道中通过 @Claude 直接调用 AI 模型，将其引入活跃群组线程。频道内任何成员均可委派任务或审查内容，打破了传统独立聊天框的交互模式。

智能体 Anthropic 产品更新

18:22

Alibaba Cloud@alibaba_cloud

Qwen-AgentWorld 超越 Claude Opus 4.8 和 GPT-5.4

阿里云发布 Qwen-AgentWorld，一个原生语言世界模型，可在单一模型内模拟 7 种智能体环境（MCP、搜索、终端、SWE、Web、OS、Android），环境建模是其初始训练目标而非事后适配。该模型

智能体 MCP/工具模型发布

18:16

Orange AI@oran_ge

Cola Seed 2.1 Pro 上线，最强多模态模型

Cola 刚刚上线了最新的 Seed 2.1 Pro 原生多模态模型，号称目前多模态最强模型。相比 2.0 版本，该模型显著增强了 coding 和 Agent 能力。具体评测细节可参考藏师傅的文章。体验地址：colaos.ai。

歸藏(guizang.ai): http://x.com/i/article/2069421203073490944

智能体多模态模型发布编码

18:12

Qwen@Alibaba_Qwen

通义千问发布Qwen-AgentWorld原生语言世界模型

通义千问发布Qwen-AgentWorld，一款原生语言世界模型，可在单一模型中模拟MCP、搜索、终端、SWE、Web、OS、Android共7种智能体环境。环境建模即训练目标，非事后适配。该模型在AgentWorldBench上性能超越Claude Opus 4.8和GPT-5.4。研究分两条路径：一是构建环境模拟基础模型；二是探索世界模型增强智能体训练——可控Sim RL（以LWM为环境的智能体强化学习）优于真实环境训练，而LWM预热（预测环境的学习）即使不经任何智能体特定微调，也能将预测知识迁移至智能体任务。

智能体 arXiv MCP/工具模型发布

关联讨论 3 条