6月20日

08:24

Tibo@thsottiaux

Remote / local handoff in Codex！一步步消除边界。当你让模型掌握主导权时，实际上需要的底层设施更少。

Guinness Chen: Codex can now hand off threads between local and remote hosts. Start work on your laptop, send it to a remote box before...

智能体 OpenAI 产品更新编码

08:00

HuggingFace Daily Papers（社区热门论文）

OpenBioRQ：未解决生物医学研究问题的智能体基准测试

OpenBioRQ 是一个包含 12,553 个未解决生物医学研究问题的智能体基准测试，覆盖 12 个领域。问题无固定答案密钥，迫使模型通过多步工具调用自主验证证据，从而评估其真实性及弃权能力。当前智能体极少捏造引用（超 99% 可解析），但约 15.9% 的链接指向无关论文。难度锚定在三个开源模型都无法回答的问题上；在最难子集中同系列模型仅解决约 17%，而前沿智能体（Gemini-3-Pro、Opus-4.7、GPT-5.5）表现跨度达 29-60%。困难问题中出现“智能体崩溃”——模型停止使用工具。引入冻结的每问题检查表后，评分者间一致性从 Spearman 0.35 提升至 0.82。

智能体数据/训练论文/研究

06:54

MarkTechPost（RSS）

精选77

NVIDIA Research 发布 SpatialClaw：免训练空间推理框架

NVIDIA Research 发布 SpatialClaw，一个免训练的空间推理框架。它通过将代码作为动作接口，让智能体调用感知工具（Depth Anything 3、SAM 3）并自由组合输出，解决视觉语言模型在 3D 空间判断上的弱点。在 20 项基准测试中平均准确率达 59.9%，比近期智能体 SpaceTools 高 11.2 个百分点，比无工具基线高 6.5 点，比结构化工具调用高 3.2 点。框架无需重新训练，同一提示词和工具集可跨所有基准和骨干网络运行，支持 Qwen3.5/3.6 及 Gemma4 等 26B 至 397B 参数的模型。

智能体具身智能开源/仓库推理

推荐理由：NVIDIA 把空间推理的动作接口从工具调用换成代码，这个思路很巧，20 个基准平均拉升到 59.9%，无训练即插即用，做机器人和视频理解的人该直接跑一下 repo。

03:02

HuggingFace Daily Papers（社区热门论文）

LedgerAgent：面向策略合规工具调用智能体的结构化状态管理方法

客服领域的工具调用智能体需跨轮维护任务状态并遵守领域策略。标准方法将状态隐含在提示词中，易导致信息过时或策略违规。LedgerAgent 是一种推理时方法，将观察到的任务状态单独维护于分类账中并渲染到提示词；在改变环境的工具调用前，用分类账检查状态依赖的策略约束以阻止违规。在四个客服领域和混合开源/闭源模型上，LedgerAgent 的平均 passk 指标优于标准基于提示的工具调用方法，在多轮一致性指标上提升最大。

智能体 MCP/工具论文/研究

02:53

宝玉@dotey

精选75

baoyu-design Skill迭代：修复导出样式与渐变丢失问题，支持AI配图导出PPTX

宝玉分享 baoyu-design Skill 的迭代过程：用户测试发现导出问题（样式表未铺满整页、渐变色丢失），他在本地复现后让 Agent 分析原因、给出解决方案并添加测试覆盖，修复后效果改善。该 Skill 可在制作 PPT、动画视频或网站时调用 AI 生图配图，支持 Codex 内置画图或配合 baoyu-image-gen Skill 调用 Codex CLI 画图，并能连同图片一起导出为 PPTX，在 PowerPoint/Keynote 中二次编辑。迭代循环：自己用 → 发现问题 → 让 Agent 分析 → 出方案 → 确认 → 更新 Skill。

宝玉: baoyu-design skill 更新:可以在制作 PPT、动画视频或者网站时调用 AI 生图技能配图了,当然需要你本地 Agent 有配置画图 Skill。如果是 Codex 可以直接调用内置画图工具,如果你用 Claude Cod...

智能体教程/实践

推荐理由：宝玉分享了一套用 Agent 自我诊断、自动修复 Skill 的迭代方法，从复现 bug 到让 AI 提出解决方案，开发者的打磨循环变成纯对话了，做 Agent 工具的人可以直接套用。

01:01

AYi@AYi_AInotes

Theo 用 Codex 通宵清理 GitHub 僵尸 PR：分诊、关闭、复活双线程并行

开发者 Theo 让 Codex 通宵处理 GitHub 仓库中过时的 PR：自动分诊判断价值，关闭无用的，复活过时的。每个被复活的 PR 同时运行两个线程——Build 线程负责修复冲突和更新代码，Review 线程负责审查代码，形成写手+审稿人的双保险，降低单点幻觉风险。人类只需在关键节点做决策。工作流将仓库维护从个人拖延症转变为 agent 排班制度，实现“睡觉时自动干活，醒来只看决策”。主推文作者拆解出三步：Triage 分诊、关闭无用、复活并行推进，可直接复制使用。

Theo - t3.gg: I underestimated how cool this workflow is. Had Codex go through a bunch of stale PRs last night. Closed all the useless...

智能体教程/实践编码

00:53

GitHub Blog

GitHub 构建内部数据分析智能体 Qubot，基于 Copilot 实现自然语言查询

GitHub 内部开发了 Qubot，一个由 Copilot 驱动的数据分析智能体。员工可以用自然语言直接提问公司数据，无需编写 SQL 或使用 BI 工具。团队在构建过程中积累了关于设计、集成和用户体验的经验。

智能体 GitHub 教程/实践数据/训练

00:53

elvis@omarsar0

从提示智能体到循环工程：AI编程的新主张

AI编程圈出现新主张：不应再手动提示编码智能体，而应设计循环自动完成提示、读取输出、判断完成，并在出错时重新提示。Boris Cherny（Claude Code创建者）和Peter Steinberger均持此观点。文章梳理了循环的五种演进形态（ReAct、AutoGPT、ralph loop、/loop与/goal、编排），并拆解六大组装部件：触发机制、隔离工作区、项目上下文记录、工具连接、独立验证智能体等。核心转变是从编写代码升级到编写驱动代码的系统。

智能体 Anthropic 教程/实践编码

00:53

elvis@omarsar0

对"循环工程（loop engineering）"趋势有许多想法。我用我的写作智能体花了几分钟总结了我的一些研究、笔记以及与学生们、创始人们和初创公司的讨论。还处于非常早期，但智能体的新工作方式即将出现，能力将有阶跃式变化。

elvis: http://x.com/i/article/2068004233849290752

智能体大佬观点

00:03

Berryxia.AI@berryxia

搭建AI Agent团队有多难：从玩具到员工跨越四道门槛

搭AI Agent团队远非“5分钟教程”那么简单。环境配置（Python 3.10+等）劝退八成新手。Agent编排面临从众效应、角色不一致等缺陷，Anthropic采用Subagents模式，Cognition甚至发文称“不要构建多Agent”。上下文管理是最大隐性杀手，同一模型因上下文工程不同分差36个百分点。工具接入缺乏行为合约，API调用失败频发。低代码平台、单Agent SDK正降低门槛，但多Agent自由协作仍是难题。

智能体 Anthropic 现象/趋势

6月19日

23:50

TechCrunch：AI（RSS）

信实工业推出多款AI服务，涵盖通话、应用与家居

印度信实工业在年度股东大会上发布AI服务：Jio Call Agent可加入电话会议转录、总结并执行叫车、订餐等任务，通过“Hey Jio”激活，今年晚些时候面向超5亿用户上线；MyJio应用新增AI版，支持自然语言激活eSIM、选择漫游套餐；家庭显示设备TeleFrame利用AI智能体推送天气、日程提醒；还推出医疗、教育、农业和中小企业AI套件，支持22种印度语言。公司计划投资1100亿美元建设AI基础设施，并与Google、Meta、Nvidia合作。此外，Jio Platforms董事会批准IPO草案，拟发行最多2.7亿股新股。

智能体产品更新语音

23:22

elvis@omarsar0

自动化SKILL.md生成：三阶段流水线论文

关键要点：OpenAI昨日为Codex推出了从交互中打包技能的类似功能；论文提出三阶段流水线（GUI轨迹分割→聚类候选技能→训练技能感知策略）。聚类纯度优异（5/8簇达0.95以上），但可读性未迁移：GRPO仅将技能步骤准确率从18.5%提至20.5%，在BrowseComp+上无改善，甚至输给简单频率先验。作者指出三个缺陷：弱边界检测器、无序片段表示、离线奖励模型。

智能体 arXiv 数据/训练论文/研究

22:22

Artificial Intelligence News（RSS）

SAP 与 Google Cloud 部署智能体商务架构

SAP 与 Google Cloud 联合部署智能体商务架构，通过 Universal Commerce Protocol 标准化零售商、支付网关与自主智能体之间的数据交换，实现从搜索、交易到售后的全序列自动化执行。SAP Commerce Cloud 集成 Google Gemini 能力构建 Shopping Assistant，支持聊天、语音和文本交互，实时查询库存确保推荐可行。该架构基于 SAP Business Data Cloud Connect for Google BigQuery 的双向零拷贝数据链接，融合天气、位置等外部变量与客户画像、交易历史等内部行为数据，由 SAP Engagement Cloud 驱动自主智能体编排个性化互动。SAP 研究显示，78% 的企业认为 AI 对 2026 年保留客户至关重要，但仅 37% 的公司跨客户体验平台共享数据、39% 跨 CRM 共享。

智能体 Google 行业动态部署/工程

22:00

Cloudflare Blog

精选62

Cloudflare 为 AI 智能体推出临时账户

Cloudflare 在 Workers 上推出临时账户（Temporary Accounts），允许 AI 智能体直接运行 wrangler deploy --temporary，在数秒内获取一个可用的实时 Worker，无需绕开面向人类设计的部署流程。该功能旨在降低智能体部署门槛。

智能体 MCP/工具产品更新部署/工程

关联讨论 1 条

推荐理由：Cloudflare 给 agent 开临时账号这个功能很聪明，一步解决了身份验证和资源清理的麻烦，做智能体部署的可以认真试试。

21:52

Rohan Paul@rohanpaul_ai

通用智能体必须记住什么？

该论文指出，通用智能体不能仅依赖当前观测，必须记住隐藏环境规则。当两个隐藏域在相同可见状态下要求相反动作时，仅凭观察无法区分当前场景。作者证明，要在两个域都表现良好的智能体，必须为不同域维持不同的内部记忆状态。核心结论：好的通用智能体不是对当前所见做出反应，而是必须携带来自先前经验的隐藏上下文。

智能体 arXiv 论文/研究

20:19

fofr@fofrAI

当智能体说它要手动操作时 👀

智能体大佬观点

19:19

Chubby♨️@kimmonismus

某人在Reddit上搭建了一个WoW私服，包含1800个机器人，并通过DeepSeek API实现AI聊天。死互联网理论，但可玩。一个没有真实玩家的MMORPG，却不知何故仍然感觉像人类。

智能体 DeepSeek 现象/趋势

17:59

fofr@fofrAI

如何组建一支协调的AI智能体团队

设置一个编排器智能体，由它配置Gemini Managed Agents或modal cpu实例，在独立环境中启动子智能体。先执行深度研究任务，探索管理智能体团队的最佳实践（角色、技能、跨通信与规划），再将最佳推荐应用于各智能体。重复该循环（可逐步增加智能体数量）。之后给团队一个空代码仓库，挑战其构建产品、建立最佳实践，让智能体观察问题、提出修复建议并快速迭代，从而暴露竞争条件、完善规划方法。

智能体教程/实践

15:19

AYi@AYi_AInotes

Codex Record & Replay：手动演示教AI干活

Codex 上线 Record & Replay 新功能，解决用户写长 prompt 描述不清流程的痛点。用户在 macOS 上手动完成一次操作（如填写报销单、添加视频标签），AI 静默记录每一步，自动整理成可检查、可复用的 skill。下次执行时只需更换参数（如文件名、日期范围），其余步骤按既定规则自动完成。目前仅 macOS 可用，需开启 Computer Use 权限，详细指引见评论区。

AYi: 人类到今天都写不出一颗煎蛋的物理方程, 一颗鸡蛋打进热油锅,它怎么凝固、怎么摊开、边缘怎么变焦, 没有任何一个公式能描述清楚,这种例子在物理世界里多到数不过来。而这恰恰是当下通用 AI 范式的天花板,视频生成、VLA 学的都是像素层面的统...

智能体 OpenAI 教程/实践编码

13:30

小互@xiaohu

Codex 推出 Record & Replay 功能：演示一次操作即可自动复用

Codex 推出 Record & Replay 功能，用户可在电脑上演示一次操作流程，Codex 观察并自动生成可复用的 Skill。下次遇到同类任务，Codex 即可自动执行。官方以“发 YouTube 视频”演示：手动走完拉元数据、配缩略图和字幕、上传存为私密、核对等流程，新对话中 Codex 自动完成无差错。该功能适用于报销贴票、文件批量重命名归档、每周数据填报表、网上订票等重复性电脑操作，实现从“每次写提示词”到“演示一次就够”的跨越。

智能体 OpenAI 产品更新

13:29

Hacker News 热门（buzzing.cc 中文翻译）

精选73

我们在 Elasticsearch 上构建了一个持久化代理内存层，其召回率为0.89

Agent Builder 正式上市（GA）。基于 Elasticsearch 的持久化内存层将记忆分为情景、语义、程序三类，分别存入独立索引，各设不同写速率与过期规则。召回采用 BM25 与 Jina v5 稠密向量的 RRF 融合，再经交叉编码器重排序。在 168 道 QA 题评估中，R@10 平均 0.89，零跨租户泄漏。该层可通过支持 MCP 协议的客户端访问，不绑定特定运行时，已开源至 GitHub。

智能体 GitHub MCP/工具教程/实践

推荐理由：Elastic 把这套代理记忆架构连同评估数据一次性放出来，三种记忆类型、混合召回、衰减和隔离全挤在一个查询里，做 Agent 持久记忆的开发者可以直接抄，召回 0.89 的工程决策讲得清楚。

12:19

AYi@AYi_AInotes

精选76

DeepSeek研究员开源AutoResearch：AI自主跑通285B模型RL研究闭环

DeepSeek研究员Deli Chen将AutoResearch协议开源，并发布Self-play综述论文。其AI智能体首次完全自主地在DeepSeek 285B模型上完成完整RL研究闭环——从实验设计、写代码、提交GPU任务、debug到结论总结，全程零人工干预。系统调用了GRPO工具，被视为持续学习研究的开端。

Deli Chen: 🧵 Deli AutoResearch SKILL is now officially open source! 🎉 https://victorchen96.github.io/auto_research/framework.html...

智能体 DeepSeek 开源/仓库

推荐理由：Deli Chen 开源的不是模型，是能让 AI 自己跑通 RL 研究全流程的「后厨系统」，从实验设计到 debug 全自动，五个工程思路可以直接抄作业。

12:16

Steve Yegge：Medium（RSS）

同事件精选74

Fable模型被美国临时关闭，AI安全管控时代来临

美国政府短暂关闭了Mythos类中的Fable模型，标志着AI模型已越过危险门槛。作者预测最多两三代模型后，超级智能将像核武器一样被管控，大多数Fortune 500企业无法访问或仅受控使用。开源模型落后前沿约七个月，且面临算力和政府锁定的双重壁垒。人类的“辨别地平线”使许多人感觉模型进步停止，但实际指数增长未停——只是用户缺少足够困难的问题。Fable类已能解决此前Opus 4.8无法完成的复杂任务（如React客户端），AI将彻底改变编程和知识工作，但多数人只能使用当前等级模型。

智能体 Anthropic 大佬观点安全/对齐

同一事件，精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》

推荐理由：Steve Yegge这篇判断很冷也很实：多数人能接触的模型智能将停滞，但背后指数仍在跑，SaaS反而因此安全。他抛出的AI素养三阶模型，对正头痛如何推动团队用AI的leader是现成框架。