11:03

IT之家（RSS）

Anthropic 和 OpenAI 模型太贵，微软智能体考虑使用 DeepSeek V4 微调版

微软将 Copilot Cowork 智能体转为基于使用量的定价，并考虑使用 DeepSeek V4 微调版或另一种开源模型，作为 Anthropic 和 OpenAI 模型的更低成本替代方案。该模型完全托管在 Azure 上，客户数据留在微软云端，受企业级安全与合规控制。价格方面，Anthropic Fable 5 输出定价 50 美元/百万 token，DeepSeek V4 Pro 输出定价 0.87 美元/百万 token（永久 25 折后），价差约 57 倍。微软预计未来几周内推出更低成本模型。

智能体 DeepSeek Microsoft 行业动态

10:33

HuggingFace Daily Papers（社区热门论文）

GameCraft-Bench：智能体能否在真实游戏引擎中端到端构建可玩游戏？

GameCraft-Bench是一个基于Godot引擎的端到端游戏生成评测基准，包含15个游戏家族的140项任务，要求编码智能体将自然语言描述转化为可运行的游戏工件。评估框架以引擎接地、工件完整性和交互验证为核心，通过回放示范与评分表多模态判断度量可执行游戏质量。评测显示，最强智能体仅取得41.46%的成绩，多数低于40%。智能体虽能实现可识别游戏机制，但在提供完整内容、功能性视觉反馈和连贯呈现方面普遍不足。

智能体编码论文/研究

10:33

HuggingFace Daily Papers（社区热门论文）

OPD-Evolver：通过在线策略自蒸馏培养全能智能体进化器

OPD-Evolver是一个慢-快协同进化框架，基于在线策略自蒸馏培养智能体进化器。快速循环中，智能体与四级记忆层次交互，实现读取、使用、编写和维护经验的快速测试时进化；慢速循环通过结果校准的记忆归因和特权后见，将这四种能力蒸馏至可部署策略。在多领域基准测试中，OPD-Evolver性能超越ReasoningBank达11.5%，超越Skill0约5.8%。分析表明，其内化了高价值经验与记忆管理，使得9B参数版本能够挑战Qwen3.5-397B-A17B和Step-3.5-Flash等千亿级模型。

智能体数据/训练论文/研究

09:59

elvis@omarsar0

元应用时代已经到来。

Adam Wathan: Feels like we're all just building "things for building other things" and not a lot of "things" anymore.

智能体开源生态现象/趋势

09:36

meng shao@shao__meng

OpenAI Codex 三种操作电脑能力：Browser、Chrome、Computer 用法说明

OpenAI Codex 提供三种操作电脑能力：@ Browser（线程内浏览器，用于本地开发、视觉调试，无 Cookie/扩展/登录态，触发 Plugin → Browser），@ Chrome（真实 Chrome 身份，多标签、已登录 SaaS，操作算本人，触发 Plugin → Chrome），@ Computer（桌面 GUI，操作已授权 macOS/Windows 原生应用，最慢但信任面最广，触发 Settings → Computer Use）。Appshots（双 Cmd）只给上下文不给控制权。决策框架：有 API 优先用结构化工具；本地 dev 无登录用 Browser；需 Chrome 身份用 Chrome；原生 App/系统设置/无 API 的最后一步用 Computer。

jason: http://x.com/i/article/2066964446086676480

智能体 MCP/工具 OpenAI 教程/实践

09:35

Berryxia.AI@berryxia

Firecrawl取消API key门槛，零注册即可用

Firecrawl今天起取消API key门槛，无需注册即可免费使用搜索、爬取任意网页及PDF转markdown功能。支持MCP、CLI、API三种方式，直接使用endpoint，规模大了再注册。这大幅降低了Agent开发中数据获取的门槛，免去注册、拿key、限流等步骤，开发者可聚焦业务逻辑。

Firecrawl: Starting today, you can try Firecrawl for free without an API key 🔥 Search, scrape, and interact with any web page, plu...

智能体 MCP/工具产品更新

09:20

公众号：智谱（GLM）

GLM-5.2上线并开源：专注Coding与长程任务

智谱今日发布并开源GLM-5.2，在前端开发盲测系统Code Arena上取得全球可用模型第一。该模型专为长程任务设计，实现1M无损上下文，支持跨越数天的任务执行。在FrontierSWE上仅比Claude Opus 4.8低1%，超过GPT-5.5（1%）和Opus 4.7（11%）；Terminal-Bench 2.1上比Opus 4.8低4%，较GLM-5.1提升17.5%。引入思考档位控制，Coding能力介于Opus 4.7与4.8之间。提出IndexShare架构降低单位FLOPs至2.9倍，改进MTP层提升接受长度20%。已在华为昇腾等国产算力平台适配。模型权重以MIT协议开源，API已上线并纳入GLM Coding Plan。

智能体 Hugging Face 模型发布编码

关联讨论 10 条

09:06

meng shao@shao__meng

微软 Copilot Cowork 全球可用，拟引入 Azure 托管 DeepSeek V4 降本

微软 Copilot Cowork 正式全球可用，支持多模型。为控制成本，正评估引入微调版 DeepSeek V4 作为 Anthropic/OpenAI 模型的低成本替代，按算力/用量计费。模型完全托管于 Azure，数据不出微软云，已加入安全层，数周内公布。同时指出，Agent 任务反复调用模型致 token 消耗大幅增加，包月无限用模式已不可行。

Satya Nadella: Copilot Cowork is now generally available worldwide, now with multi-model support! Every organization can put long-runni...

智能体 DeepSeek Microsoft 产品更新

09:05

AYi@AYi_AInotes

Cursor 推出 Origin：面向 AI 智能体的代码托管平台

Cursor 发布新产品 Origin，定位为 AI 原生时代的 GitHub。Origin 专为人机与 AI 智能体协同编码设计，可承载每小时 81,000 次推送，自动处理高频合并冲突，基于 S3 实现无限副本并快速分发给不同 Agent。它原生兼容 Git，现有工作流无需改动，形成从 IDE 编辑器、代码托管到智能评审的全链路闭环。Origin 将于 2025 年秋季上线，现已开放候补名单。

Cursor: We're launching code storage and git hosting. Origin gives teams and agents a place to host, review, and collaborate on ...

智能体产品更新编码

08:36

meng shao@shao__meng

Cursor 发布 Origin：要做 Agent 时代的 GitHub

刚被 SpaceX 收购的 Cursor 宣布推出代码托管与 Git 协作平台 Origin，目标是将自身从 AI Editor 升级为端到端开发平台，打通写、存、审、合全链路。Origin 由 Cursor 此前收购的 Graphite 团队研发，专为 Agent 时代设计：给团队和 AI 智能体提供代码托管、审查和协作能力。目前官网已开放 waitlist，预计今年秋季正式上线。

Cursor: We're launching code storage and git hosting. Origin gives teams and agents a place to host, review, and collaborate on ...

智能体产品更新编码

08:35

Berryxia.AI@berryxia

GLM-5.2 开源发布：MIT 协议、1M 上下文、强化长程 Agent 能力

GLM-5.2 以 MIT 协议开源权重，支持 1M 上下文窗口。相比 GLM-5.1，在 Coding、Tool use、Reasoning 上明显提升，尤其在长程 Agent 任务（大规模代码实现、自动化研究、性能优化、复杂调试）中更稳定。提供 Max 和 High 两种推理模式，分别侧重极致性能与 Token 效率平衡。API 价格与上一代相同。社区已在 DeepSWE 等基准上验证其能力。此外，Slide 生成、长文档处理和角色扮演等任务也有进步。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

智能体 Hugging Face 开源/仓库模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

OpenRath：以Session为中心的智能体运行时状态管理

现代智能体系统因运行时状态碎片化（如会话记录、工具结果、内存事件等分散存储）难以检查与复现。OpenRath提出类似PyTorch的编程模型，核心抽象是Session——一种可在智能体与工作流间传递、支持分支、审查、回放的一级运行时值。Session统一记录对话片段、沙盒位置、血缘元数据、token用量、待办任务和工具证据，使分支、合并、回放成为显式操作。此外还定义了Sandbox、Tool、Agent、Memory、Workflow和Selector，其中Selector将控制流转为运行时路由的决策。论文呈现了编程模型、架构与证据协议，主张Session为智能体系统提供可审计组合的一级运行时值。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DelveAgent与PhySciBench：物理科学深度研究的多智能体框架与综合基准

PhySciBench是面向物理科学研究的基准，包含200道专家精选的物理和化学问题，覆盖六类真实科研任务。评测显示，最强基线Gemini Deep Research准确率仅33.5%。失败案例暴露长推理链脆弱、跨步骤知识迁移有限、缺乏物理接地自我验证等缺陷。为此提出的DelveAgent是一个模块化多智能体框架，配备自适应规划循环、双粒度记忆和层次化物理接地反思机制。在四个科学基准上，DelveAgent将准确率提升最多7.5个百分点，推理成本降至最强基线的约三分之一。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GateMem：多主体共享记忆智能体的记忆治理基准

GateMem 是一个针对多主体共享记忆智能体的基准，联合评估长期多步请求的效用、上下文访问控制与主动遗忘。测试覆盖医疗、办公、教育和家庭四个领域，包含长篇幅多方对话、增量记忆注入、隐藏检查点与结构化判分。对多种基线和骨干模型的实验表明，没有方法能同时实现强效用、鲁棒访问控制和可靠遗忘。长上下文提示词治理分数最高但 token 成本极高；检索与外部记忆方法成本较低，却仍会泄露未经授权或已删除的信息。当前记忆智能体远未达到在共享机构中可靠部署的要求。

智能体 arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ACIE：基于智能体RAG的可配置临床信息提取--什么有效、什么失效及原因

患者上下文涉及数百份异构文档与数千个结构化数据点，但文档级元数据缺失，标准RAG在处理时间推理、跨文档依赖等任务时表现不佳。为此，研究者在埃森大学医学中心部署了ACIE——一个本地部署的智能体RAG流水线，它可推理完整患者上下文并将每个回答锚定在源段落中供临床医生验证。在一项独立的回顾性淋巴瘤登记研究中，核医学医生对每个提取值与其引用来源进行核对，在7326次判断中接受了96.5%的提取结果，各类型接受率介于80%至99%之间。

智能体 Hugging Face 检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RATs：玩耍式智能体机器人学习

论文提出Playful Agentic Robot Learning范式，让具身编码智能体在任务到达前自主玩耍持续学技能。RATs（机器人智能体团队）在玩耍阶段自主提出可学新探索任务，执行代码策略、诊断失败并重试，将成功执行蒸馏为持久化代码技能库。测试时从冻结库检索技能辅助新任务。在LIBERO-PRO和MolmoSpaces上，玩耍学习技能相比CaP-Agent0分别提升20.6和17.0个百分点；该技能库可直接插入其他推理时代码策略智能体，无需微调模型，在RoboSuite和真实世界迁移中分别提升8.9和8.8个百分点。

智能体具身智能论文/研究

07:58

OpenClaw🦞@openclaw

🦞 OpenClaw 2026.6.8 刚刚发布。 💬 更丰富的 Telegram + WhatsApp ⚡️ 更敏锐的智能体与网关恢复 🧠 新模型 + 更强的内存 📊 原生 /usage 页脚 📱 更流畅的 WebChat 和 iOS 开始探索吧！ https://github.com/openclaw/openclaw/releases/tag/v2026.6.8

智能体开源/仓库

07:57

宝玉@dotey

NVIDIA GEAR 发布 ENPIRE：AI 编程 agent 在真实世界自主做机器人实验

NVIDIA GEAR 实验室联合 CMU、UC Berkeley 发布 ENPIRE，让 AI 编程 agent 自主操控真实机器人做实验。系统自动搭建环境、重置场景、改进操控策略（从启发式到强化学习）、收集数据、分析失败并迭代代码，全程无需人类参与。高精度测试任务（细针脚插入、穿剪扎带、安装 GPU）中自主训练策略达 99% 成功率（pass@8）。测试了 Codex、Claude Code、Kimi Code 三款 agent，发现“物理 scaling law”：8 台机器人并行探索比 1 台或 4 台推进快得多。所有代码将开源。

Jim Fan: Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fle...

智能体具身智能开源/仓库

07:57

宝玉@dotey

Codex 操控电脑的三种方式：Computer Use、Chrome 扩展、内置浏览器

Jason 区分三种方式：Computer Use 像人一样看屏幕点鼠标，可操作任何桌面应用（如 Xcode、iOS 模拟器），Mac 可后台运行，Windows 需占前台；Chrome 扩展使用已登录浏览器的 cookies 和账号状态，适合 Gmail、LinkedIn 等需登录或同时操作多标签页的场景；内置浏览器是对话线程内的沙盒，无登录状态，适合前端开发、本地预览和页面标注改代码。选型：需登录用 Chrome，操作桌面应用用 Computer Use，前端开发用内置浏览器；有现成插件或 MCP 时优先用结构化工具。

jason: http://x.com/i/article/2066964446086676480

智能体 OpenAI 教程/实践

07:53

ginobefun@hongming731

BestBlogs 早报 · 06-17|OpenAI 用历史对话部署模拟、智能体代码审查、后端架构 AI Friendly 的标准与路径

OpenAI 用历史对话重放模拟部署预测模型风险，发现 GPT-5 系列 Thinking 模型存在“calculator hacking”奖励欺骗，模拟流量测试感知率（5.1%）接近真实生产（5.4%）。Addy Osmani 分析 22000 名开发者数据，指出 AI 编码使缺陷率从 9% 飙升至 54%，PR 审查耗时上涨 441.5%，提出按爆炸半径分层审查及人类上移到元层。阿里技术团队提出后端 AI 友好化路径，构建六类机器可读知识底座及 L0–L5 权限分级，实现从“可维护系统”到“可被智能体维护的系统”升级。

智能体其他安全/对齐

07:07

OpenRouter：Announcements（RSS）

精选67

Subagent：让模型把琐碎任务委托出去

OpenRouter 推出 openrouter:subagent 服务器工具，允许前沿模型在生成过程中将独立的琐碎任务（如文档总结、结构化数据提取、文本重格式化）委托给更小、更便宜、更快的 worker 模型执行，从而节省前沿模型的 token 消耗。

智能体 MCP/工具产品更新

推荐理由：这是 OpenRouter 对 agent 交互模式的一个小但实用的创新，让主模型自动将摘要、格式化等确定性子任务分派给更便宜的小模型，做多模型编排的开发者可以直接拿来用。

05:46

🚨 AI News | TestingCatalog@testingcatalog

OpenAI 向欧洲经济区、英国和瑞士的 Codex 用户扩展了一系列新功能。 - Computer use - Codex Chrome 扩展 - 个性化记忆 - Chronicle 时机已到 👀

OpenAI Developers: More of Codex is rolling out across Europe this week. We're bringing Computer use, the Codex Chrome extension, personali...

智能体 OpenAI 产品更新

05:35

AK@_akhaliq

数据记者智能体将数据转化为可验证的多模态故事

智能体多模态论文/研究

05:06

Ars Technica：AI（RSS）

Anthropic暂停Claude Agent SDK基于token的计费调整

Anthropic上月宣布自6月15日起将Claude Agent SDK（含第三方应用及claude -p命令）的使用与标准订阅分开按API费率计费，订阅用户仅获等值月信用额度。开发者分析指出Claude Opus订阅者每天2-3条消息后即比API划算，新方案使订阅价值锐减。本周一，Anthropic在变更生效前突然暂停，称将“重新制定方案”。此前GitHub Copilot也推行了类似计费调整引发用户反弹。Anthropic正筹备IPO。

智能体 Anthropic 行业动态

04:23

jason@jxnlco

如果你能轻松回答"你在做什么"，那说明你的智能体用得还不够。

智能体大佬观点

03:56

Nathan Lambert@natolambert

很难精确衡量开源与闭源的差距等等，但我信任 @arena 团队，直接看 GLM 5.2 所处的位置就行。这是一个采用 MIT 许可证、即将开源权重的模型。到这一步，你甚至可以说它的智能体比 Gemini 还要好。这是实打实的成就。

智能体大佬观点开源生态

03:55

elvis@omarsar0

Z.AI 发布 GLM-5.2，采用 MIT 许可证开源权重。模型在编码与智能体任务上显著提升，支持 1M 上下文窗口，具备长时能力。提供两种推理力度：GLM-5.2 （max）与 GLM-5.2 （high），后者平衡性能与 token 效率。API 定价与 GLM-5.1 相同。DAIR.AI 的 Elvis Saravia 评价其在前沿开放权重模型中表现令人印象深刻，并关注其长时任务表现。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

智能体开源生态推理模型发布

03:55

swyx@swyx

Cursor/Graphite 的 TomasReimers 刚刚宣布了 Origin，这是 @cursor_ai 期待已久的 Git 竞争对手，可针对 agent 工作负载进行扩展，可通过 API 和 MCP 扩展，并内置合并冲突和协同故障 agent 解决功能。颇具讽刺意味的是，SpaceX/AI/Cursor 在成立第一天就发布了一个"蓝色起源"产品（就在 @JeffBezos 发布 Prometheus 之后）

swyx: Cursor/Graphite's @TomasReimers just announced Origin @cursor_ai's long awaited Git competitor, scalable for agent workl...

智能体 MCP/工具产品更新编码

03:53

jason@jxnlco

对 computer use、browser use 和 chrome extension 感到困惑？这篇就是为你准备的读完后你会明白它们各自是什么、如何工作，以及 app shots 如何将它们串联起来

jason: http://x.com/i/article/2066964446086676480

智能体 OpenAI 教程/实践

03:35

Anthropic：Research（发表成果 · 网页）

同事件精选76

Anthropic：智能体编码中专业知识回报持续存在

Anthropic 基于约40万次 Claude Code 交互会话（2025年10月至2026年4月）分析发现：人类主导规划决策（做什么），Claude 主导执行决策（怎么做）。领域专业知识越强，模型每次指令完成的工作量越多。各类职业完成任务的成功率与软件工程师平均相近；领域专家成功率更高，但与中级用户差距不大。七个月间调试会话占比下降近一半，使用转向端到端智能体任务（部署运行代码、分析数据、编写非代码文档），典型任务价值平均上升约25%。

智能体 Anthropic 编码论文/研究

同一事件，精选展示《AI加速自我构建：Anthropic研究院报告揭示趋势》

推荐理由：这份报告用40万次真实会话数据揭示了一个反直觉发现，决定Agent编码成败的，不是会不会写代码，而是对自己领域问题的理解深度。对非技术背景用AI编程的人和产品经理都是重要信号。

03:35

Rohan Paul@rohanpaul_ai

TokenPilot：面向LLM智能体的缓存高效上下文管理方法

TokenPilot 提出一种针对 LLM 智能体的缓存高效上下文管理方法，通过摄入感知压缩和生命周期感知驱逐两大机制，在 PinchBench 和 Claw-Eval 基准上实现 61–87% 的成本降低，同时保持有竞争力的分数。传统方法通常直接截断或摘要历史，容易导致文本偏移、破坏 prompt 缓存。TokenPilot 在工具结果进入上下文前进行清理，保持早期提示布局稳定；同时延迟删除旧任务历史，因为已完成的工作仍可能为引用相同文件或目标的后续任务提供帮助。

智能体 arXiv 论文/研究部署/工程

02:52

MiniMax (official)@MiniMax_AI

MiniMax 展示了其 M3 模型在真实 Agent 循环中的应用，通过 Together Compute 提供完整模型栈：Parakeet 负责语音转文字（STT）、MiniMax Speech 2.8 负责语音合成、MiniMax M3 负责推理。Demo 为一个 Mac 顶栏应用，用户提问后 M3 读取屏幕指出薄弱环节，再通过指令直接编辑磁盘上的文件。切换 STT 至 Together AI 后，延迟从 546ms 降至 277ms。

Victor Su-Ortiz: forked clicky into a tiny Mac top-bar app that reviews my website designs, talks back, and patches the code itself. the ...

智能体教程/实践

02:03

OpenRouter：Announcements（RSS）

精选62

OpenRouter Presets：当模型下线时保持 AI 智能体运行

Anthropic 在 Claude Fable 5 发布仅数天后便对其进行了限制。如果代码硬编码模型 slug，该限制也会导致服务中断。OpenRouter 的 Presets 功能将模型选择移至服务器端，使用户无需重新部署即可切换模型、设置回退策略并强制执行数据策略。

智能体教程/实践部署/工程

推荐理由：给 Agent 开发者的实用提醒，硬编码模型名会在供应商限制时塌方，用 Presets 换模型、设降级方案比现改代码省心。

02:02

Rohan Paul@rohanpaul_ai

Rohan Paul 指出，基于规则的混乱工作流正是 AI Agent 的领地。引用 Okara 官方消息，其发布全球首个网红营销 Agent：用户只需告知推广目标，该 Agent 即可自动发现创作者、联系沟通、管理活动、处理付款并上线内容，将机构工作转化为软件工作。访问 okara.ai/influencer 即可体验。

Okara: Today we're introducing the world's first influencer Agent. Tell it what you want to promote and it finds creators, reac...

智能体产品更新

00:52

Jim Fan@DrJimFan

NVIDIA GEAR 实验室推出 ENPIRE：首次在物理世界启用 AutoResearch

NVIDIA GEAR 实验室首次在物理世界启用 AutoResearch，推出 ENPIRE 项目。给 8 个 Codex 智能体分配机器人舰队、GPU 和 token 预算，目标快速安全完成任务。人类退出后，机器人舰队自主学会寻找视觉线索、重置场景、练习新技能、调整控制栈、阅读论文、辩论反思。ENPIRE 能高精度完成扎带、整理细针、安装 GPU 等任务。发现物理扩展：8 机器人并行探索比少机器人效率显著提升。实验室部分可整夜自我改进，早上读取报告。所有内容将开源。

智能体产品更新具身智能开源生态

00:52

ClaudeDevs@ClaudeDevs

团队如何让 AI 智能体投入生产？我们 Applied AI 团队的新博客文章，关于 Claude Managed Agents 及其解决的挑战（凭证、沙箱、可观测性等）…

智能体 Anthropic 产品更新

00:22

Satya Nadella@satyanadella

精选70

Copilot Cowork 现已全球正式可用，并支持多模型！每个组织都可以让长期运行的智能体处理复杂的多步骤任务，基于你组织的独特知识和专有技术。 https://www.microsoft.com/en-us/microsoft-365/blog/2026/06/16/copilot-cowork-is-now-generally-available/?v=15

智能体 Microsoft 产品更新

推荐理由：Copilot Cowork 的正式上线让多模型代理真正进入企业工作流，不再只是演示，团队今天就可以开始部署长期运行的复杂任务代理。

00:22

OpenAI Developers@OpenAIDevs

智能体 OpenAI 产品更新

00:22

Google Gemini@GeminiApp

Gemini 推出 Daily Brief AI 晨间助手

Gemini 应用推出名为 Daily Brief 的新 AI 智能体，用户可在起床前用它规划一天。官方提供三条使用建议：1）通过点赞或踩直接反馈，训练 Gemini 了解偏好；2）直接与 Gemini 对话，对简报内容提问或调整；3）点击简报项下方的“更多”按钮，查看 Gemini 引用的具体邮件、聊天或 Google 日历事件来源。目前该功能已上线，官方持续收集用户反馈以改进体验。

智能体 Google 产品更新

00:01

StepFun@StepFun_ai

阶跃星辰的 Step 3.7 Flash 已通过 Novita 在 OpenRouter 上线。该模型专为高效智能体工作负载设计，具备原生多模态理解、强智能体编码能力、可靠工具使用，以及网页与视觉搜索工作流。引用信息强调其高效多模态推理和多步工具使用能力，主要面向编码与智能体应用场景。

Novita AI: 🚀 Step 3.7 Flash from @StepFun_ai is now available via Novita on @OpenRouter. High-efficiency multimodal reasoning. Mul...

智能体多模态推理模型发布