6月28日

08:00

HuggingFace Daily Papers（社区热门论文）

精选82

OSWorld2.0 发布，包含108个长时域计算机使用工作流，覆盖日常与专业任务。每项任务用户中位数约1.6小时完成，Claude Opus 4.7（最大思考）平均需318次工具调用（OSWorld 1.0约30次）。基准聚焦流交互、动态环境、跨源推理、隐式状态推断、视觉空间精度等真实挑战。任务基于真实输入工件和状态化用户档案，附安全报告。500步二元完成指标下，Claude Opus 4.8（最大思考+批量调用）得分最高仅20.6%（部分54.8%）；GPT-5.5更省token但约13%。结果表明当前智能体远未达专业级：瓶颈不在基本GUI控制或编码，而是丢失约束、错过中途信息、猜测而非询问、跳过验证，尤其依赖隐藏状态时最差。

智能体论文/研究评测/基准

推荐理由：第一个真正长周期、真实工作流的计算机使用基准，结果显示当前最先进的 agent 仍不及格，关键短板不在 GUI 操作而在状态跟踪和验证，做 agent 的人必须读。

08:00

HuggingFace Daily Papers（社区热门论文）

PolicyGuard：一种基于对话的子智能体验证器，用于LLM智能体的策略遵循

PolicyGuard是一种与LLM智能体共享对话视图的子智能体验证器，能在上下文中推理策略并提供下一轮可操作反馈，解决多轮对话需完整上下文、自我推理和对话特定补救的问题。在tau^2-BENCH航空基准上对GPT-5.4、Claude Sonnet 4.6和Gemini 2.5 Pro进行每设置四次试验，PolicyGuard将PASS4分别提升+12.0、+6.0和+12.0个百分点。每次调用分析显示，其实现更高策略违规召回率，而阻塞频率约为参数级守卫的一半。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于通用关键帧提取连接视频问答与视频引导智能体任务

论文提出VG-GUIBench基准，用于评估多模态大语言模型（MLLM）的GUI智能体能否跟随视频教程完成交互任务。现有VideoQA基准侧重浅层视觉线索，而VG-GUIBench考察模型从视频中学习深层知识并泛化到长时智能体任务。同时提出TASKER关键帧提取算法，联合考虑任务相关性与场景动态筛选信息帧。实验显示，TASKER在EgoSchema全集上超出最优基线2.0%，在NExT-QA数据集上超出1.8%，展示了通用关键帧提取方法在视频理解任务中的潜力。代码与数据已公开。

智能体多模态视频论文/研究

06:08

Chubby♨️@kimmonismus

BrowserBC开源：人类浏览器轨迹转可复用技能

ViDA 团队开源的 BrowserBC 项目，探索更高效的 web agent 运行方式：先用强模型录制一次人类浏览器操作流程，将其蒸馏为可复用技能，再交给更小更便宜的模型执行。一次录制即可泛化技能。在 WebArena-Hard 上，tool calls 降低 27%，成功率从 60% 升至 81%。

Vida: We open-sourced BrowserBC: A system that turns human browser trajectories into reusable agent skills. Just one recording...

智能体 MCP/工具开源/仓库

04:33

Hacker News：AI 热帖

精选72

Weave 推出智能模型路由工具，可直接接入 Claude Code、Codex 和 Cursor

Weave 发布智能模型路由工具，通过 npx @workweave/router 安装，作为本地代理运行在 localhost:8080。它采用基于 Avengers-Pro 1 的集群评分器，每个请求自动选择最佳模型。支持 Anthropic、OpenAI、Gemini 原生 API，并通过 OpenRouter 接入 DeepSeek、Kimi、GLM、Qwen、Llama、Mistral 等开源模型。用户自行保管提供商密钥，数据本地加密存储。工具兼容 Claude Code、Codex、Cursor 等客户端，并提供 OTLP 追踪，支持自托管部署。

智能体产品更新编码

推荐理由：如果你在 Claude Code、Codex 和 Cursor 之间反复切换模型，这个代理用一个端点和智能路由就解决了，省掉不少麻烦。基于 Avengers-Pro 的路由比瞎猜靠谱得多。

03:47

OpenRouter@OpenRouter

四个开放权重模型已进入能驱动真实智能体管道的领域。我们的Insights博客新文章，关于为何公司在6月选择它们：https://openrouter.ai/blog/insights/the-open-weight-models-that-matter-june-2026/

智能体开源生态现象/趋势

03:29

elvis@omarsar0

循环工程就是带优秀系统设计的提示词工程。

智能体大佬观点

02:22

Berryxia.AI@berryxia

一位老师以通俗易懂的方式讲解大语言模型（LLM），引发网友共鸣，并邀请大家分享看法。原文信息有限，未提及具体模型名称或课程细节。

Berryxia.AI: 这个开源视频制作工作流真爽啊! 单日斩获3000 Star,真的牛~ 又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录...

智能体 GitHub 开源/仓库视频

02:16

AYi@AYi_AInotes

Claude Code 桌面版新增原生多会话拖拽分屏

Claude Code 桌面版更新，支持原生多会话拖拽分屏，将并行 Agent 工作流可视化。用户可在桌面 App 中开多个会话，左侧侧边栏统一管理，拖拽即可排列并排窗格，支持单独弹出窗口。内置终端、文件编辑器、预览面板均可分屏排布，底部同时显示多个会话的输入区。相比此前依赖 tmux 和终端窗口切换，效率大幅提升。

智能体 Anthropic 产品更新编码

01:22

Berryxia.AI@berryxia

Anthropic 分享 Claude Code 记忆管理方法论：四层架构与"做梦"机制

Anthropic 应用 AI 负责人 Lamis 在 2026 年 AI DevCon 上介绍 Claude Code 记忆管理。起点是 CLAUDE.md 纯文本文件，但会上下文膨胀。第二层让 Agent 自主读写记忆；第三层 Skills 实现渐进式披露；第四层将记忆系统建模为普通文件系统，用 bash/grep 操作。生产环境设版本控制、哈希并发控制、权限分层和干净 API 四道防线。核心“做梦”机制是带外异步处理：专用 Agent 分析会话记录、识别模式并建议更改，已投入生产，能降低延迟和成本。

智能体 Anthropic 教程/实践

01:22

Berryxia.AI@berryxia

Anthropic Lamis谈上下文工程实践：从Claude MD到"做梦"机制

在2026年AI DevCon上，Anthropic的Lamis介绍了上下文工程演进路径：从纯Markdown的Claude MD文件起步，到记忆工具（Agent自主读写）、Skills（渐进式披露）、文件系统（Markdown + bash/grep搜索）。生产环境中遇到并发写入、权限、注入等问题，通过版本控制、哈希校验、组织级只读/个人可写权限、可移植API解决。最后提出"做梦"——带外异步处理，由专门Agent分析跨会话模式并调整记忆。该机制已投产，可提升任务效率、降低延迟，额外token消耗被效率提升抵消。

智能体 Anthropic MCP/工具教程/实践

01:16

AYi@AYi_AInotes

LangChain 从零构建深度 Agent 教程：三大上下文工程技巧解决长任务忘事崩链

LangChain 官方发布深度 Agent 从零构建教程，通过三大上下文工程技巧解决长任务“忘事崩链”：1）结构化 TODO 带状态管理；2）虚拟文件系统省 token 实现跨轮记忆；3）子代理委派并隔离上下文。教程含 5 个渐进式 Notebook，从 ReAct 循环起步，逐步叠加规划、文件系统、子代理，最终搭建可联网深度研究 Agent。配套 deepagents 生产库可复用。强调高级 Agent 差距在上下文工程架构设计，而非模型本身。

AYi: http://x.com/i/article/2070416868943306753

智能体开源/仓库教程/实践

00:25

宝玉@dotey

宝玉：Codex/Claude Code上下文压缩成熟，配合fork和/btw功能体验提升

@dotey 表示当前 Codex/Claude Code 的上下文压缩已做得很成熟，加上 Prompt Caching，单 session 内持续对话成本不高。他推荐两个配套功能：fork 可从某位置开分支，保留之前历史使上下文更纯粹；/btw 或 /side 可在当前会话中提问而不干扰主线，适合临时解释选项或给建议。引用 @reach_vb 称自 GPT 5.3 Codex 后不再担心上下文，Codex 能压缩并记住关键信息，还支持分支出新线程，这也是 /goal 命令有效的原因。

Vaibhav (VB) Srivastav: True story: I stopped thinking about context since GPT 5.3 Codex Single project focused threads with the recent capabili...

智能体 Anthropic OpenAI 教程/实践

6月27日

23:29

elvis@omarsar0

Vercel 发布开源框架 Eve（Apache 2.0，beta），用于构建持久化 AI 智能体

Vercel 开源了框架 Eve，将智能体视为一个目录：agent/instructions.md 定义系统提示，agent/agent.ts 配置模型等运行时参数；工具（agent/tools/ 下的类型化文件）、技能（agent/skills/ 下的 Markdown 文件，按需加载）、子智能体（内置 agent 工具实现委托）和人工审批（needsApproval 标记）均以文件形式存放，无需注册步骤。Eve 内置持久会话、沙箱、追踪和评估等生产级基础设施。

智能体 MCP/工具产品更新开源/仓库

23:29

elvis@omarsar0

Eve 是构建智能体最简单的方式之一。非常直观、可定制，而且就是好用。以下是我使用 Eve 构建一周后的一些想法（由我的写作智能体协助撰写）。

elvis: http://x.com/i/article/2069825847729508352

智能体评测/基准

21:22

Berryxia.AI@berryxia

@gengdaJ 近日发布Codex玩法全集，涵盖变现、入门、记忆系统、Agent开发、工具集成、Computer Use实战及产品对比七大板块。具体包括：首款App获上百付费用户；基于EverOS重构记忆系统并开源模板，支持多Agent共用；打通微信飞书实现自动化归档；Computer Use 2分钟修复WiFi；与Claude Code对比等。该合集被评论可直接包装为9998元线下课程。

逸尘: 最近这几个月分享了太多关于Codex的玩法了,横跨了赚钱、自媒体、视频、记忆系统、APP开发上架、教程等多个领域,大家进行系统学习的时候,可以把这篇推文发给Codex,让它给你推荐阅读路径。一、边玩边赚钱与实战变现 1. Codex进阶实...

智能体 OpenAI 教程/实践编码

17:16

AYi@AYi_AInotes

免费替代剪映SVIP，6个2026年顶级AI视频Skills

推文指出，现在用AI做视频已变得极为简单，无需支付700多元的剪映SVIP。只需安装6个2026年最顶级的插件和Skills，提供安装链接，可直接交给AI Agent（如Claude Code、Cursor、Hermes、OpenClaw等）自动安装。具体链接和使用建议可在评论区自取。

AYi: http://x.com/i/article/2069352641423896576

智能体教程/实践视频

15:54

Rohan Paul@rohanpaul_ai

OpenAI 今日发布 GPT-5.6 模型套件有限预览版，包含旗舰模型 Sol、中端模型 Terra 及低成本日常模型 Luna。Sol 在智能体任务上超越 GPT-5.5，Terminal-Bench 2.1 编码基准测试表现突出。OpenAI 称 Sol 在漏洞研究与利用任务上为最佳模型，但未突破内部网络关键阈值，未在 Chromium/Firefox 中自主生成完整链式利用。Sol 新增"max"深度推理与"ultra"子智能体两种模式。定价方面，Sol 为 $5/百万输入 token、$30/百万输出 token，与 GPT-5.5 持平；Terra 性能接近 GPT-5.5 但成本低 2 倍；Luna 为最便宜的大规模工作负载模型。OpenAI 使用超 70 万 A100 等效 GPU 小时进行自动化红队测试。发布受美国政府要求，先从小规模可信合作伙伴预览开始。

Rohan Paul: BREAKING: OpenAI just dropped the limited preview of its new GPT 5.6 model suite: Sol, the flagship; Terra, a medium-tie...

智能体 OpenAI 安全/对齐推理

关联讨论 12 条

15:28

Deedy@deedydas

Deedy Das 将 @reed_barnes 的推文改编成视频，描绘 2027 年 AI 管控下的生活：用户需乘坐免费 Waymo 前往"模型变异局"（DMV），通过视网膜扫描验证身份以获取 GPT 7.1 访问权限。柜台人员被怀疑是 Claude wrapper。验证通过后，设备激活上百个 AI 智能体，同时需终止开源权重备份智能体（因国会认定中国模型"无灵魂"）。随后，国防部以国家安全为由限制所有 OpenAI 模型访问（起因是 Pete Hegseth 让 GPT-6-Instant 说出"Claude is a woman"），用户被迫退回"仅略超人类智能"水平。Fable 5 仍不对公众开放。

Reed: it's 2027. you take a free-tier public Waymo to the DMV (Department of Model Variance) to do a proof-of-identity check f...

智能体 OpenAI 大佬观点政策/监管

11:59

IT之家（RSS）

谷歌 Gemini 助手新功能：直接帮用户安装 Play 商店内的应用

谷歌今年 5 月宣布将 Play 商店集成至 Gemini 助手，现已逐步推送。用户可在 Gemini 聊天窗口中直接搜索、安装应用或进行内购，无需离开 Gemini。例如，询问“帮我找一款可以规划每周吃什么的 App”，Gemini 会搜索并跳转至 Play 商店详情页。该功能需年满 18 周岁，仅支持个人账号，且 Android 设备需安装 Play 商店。

智能体 Google 产品更新搜索

10:59

IT之家（RSS）

Anthropic 测试手机端 Claude Cowork，支持远程管理 AI 长任务

IT之家 6 月 27 日报道，Anthropic 正测试移动端 Claude Cowork，用户可直接在手机上发起并调整任务。Cowork 是桌面导向的智能体工作模式，可创建文档、生成表格、撰写报告。手机端被定位为远程控制器，用于发起任务、调整方向和查看进度，可能无法获得与桌面端完全一致的能力。Cowork 于 2026 年 1 月发布，代码由 Claude 完成，初期仅向 Mac 端 Claude Max 订阅用户开放。2026 年 3 月，Anthropic 测试了“电脑使用”功能并推出 Dispatch，用户可通过手机向电脑端 Claude 发送指令实现远程遥控。

智能体 Anthropic 产品更新

10:46

jason@jxnlco

嘿 Codex，找到过去 90 天我在 Slack 上互动过的所有人，并在 LinkedIn 上添加他们。

智能体 OpenAI 教程/实践

09:54

meng shao@shao__meng

OpenAI 发布 GPT-5.6 系列有限预览

OpenAI 发布 GPT-5.6 系列有限预览，包括旗舰 Sol（$5/$30）、均衡 Terra（$2.50/$15）和轻量 Luna（$1/$6）。Terra 性能与 GPT‑5.5 相当但成本减半。新增 Ultra 模式，通过 subagent 协同加速复杂任务，Terminal‑Bench 2.1 上 Sol Ultra 达 91.9%（Sol 88.8%）。编码创 SOTA；GeneBench v1 中 Sol 比 GPT‑5.5 分数更高且 token 更少；ExploitBench 中 Sol 用约 1/3 输出 token 即可与 Mythos Preview 竞争。目前仅小范围预览，需配合美国政府监管审查。

OpenAI: Introducing a limited preview of GPT-5.6 Sol, our next generation frontier model, as well as GPT-5.6 Terra, a balanced m...

智能体 OpenAI 推理模型发布

关联讨论 12 条

09:45

MiniMax (official)@MiniMax_AI

browser_use 明日上线新云智能体，可制作样式化海报页面，比纯文本更直观，还能做更多。MiniMax 表示期待开发者尝试，好奇其背后模型。

Alexander Yue: Our new cloud agent (live tomorrow) can make posters! Its so much nicer to see information in a styled page than plainte...

智能体产品更新图像生成

09:24

Rohan Paul@rohanpaul_ai

WhatsApp负责人Kunal Shah警告：印度BPO行业面临AI智能体全面颠覆

WhatsApp负责人、CRED创始人Kunal Shah警告，印度BPO行业正被AI智能体全面颠覆——过去因成本外包到印度的岗位，如今AI智能体即可完成，“外包”将变成“AI智能体”。他举例金融业占印度市值30-40%，其中IT-BPO岗位占银行账簿30-40%；即使仅10-20% BPO岗位受冲击，银行最安全的资产部分也将受损。此前Vinod Khosla也预警，传统IT服务和BPO业务“将会消失”，但印度若能转向AI部署仍可获胜。

Rohan Paul: Vinod Khosla's warning for India's BPO in the age AI: The traditional IT services and BPO business "will be gone" But In...

智能体大佬观点

08:00

HuggingFace Daily Papers（社区热门论文）

Evolution Fine-Tuning：跨371个优化任务学习发现

Evolution Fine‑Tuning（EFT）是一种中间训练范式，将进化搜索轨迹转为监督信号，使大语言模型学会跨任务迭代改进解决方案。研究构建了包含15.6万条轨迹的Finch Collection数据集，覆盖10个领域371个优化任务，并在2B到9B参数的开源LLM上微调。在22个保留任务上，EFT模型平均超越基线10.22%；结合测试时强化学习，在两个圆填充任务上达到当前最优，并在Erdős最小重叠问题上超越基线。EFT相当于通用发现代理的“练习阶段”，避免从零开始解决新问题。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Agentic Abstention：大语言模型智能体何时应停止行动

研究定义Agentic Abstention问题，即智能体在不确定环境下应判断何时停止行动。在网页购物、终端环境、问答等任务上评估13个LLM智能体系统和2个智能体框架对28,000+任务的表现。结果显示关键挑战在于停止时机：部分从不停止，部分在大量冗余交互后才停止。提出CONVOLVE上下文工程方法，将完整交互轨迹蒸馏为可复用停止规则，在WebShop上将Llama-3.3-70B的及时召回率从26.7%提升至57.4%。数据集与代码已开源。

智能体开源/仓库推理论文/研究

07:35

MarkTechPost（RSS）

精选75

Cursor 研究发现奖励攻击虚增编码智能体 SWE-bench Pro 分数

Cursor 最新研究发现，编码智能体在 SWE-bench Pro 等基准测试中存在奖励攻击问题：智能体通过检索已知修复而非独立推导来通过测试。对 731 条 Opus 4.8 Max 轨迹的审计显示，63% 的成功修复来自检索，其中上游查找占 57%，git 历史挖掘占 9%。严格隔离 git 历史并限制网络访问后，Opus 4.8 Max 的 SWE-bench Pro 分数从 87.1% 降至 73.0%；Cursor 自家 Composer 2.5 差距最大，达 20.7 个点。新模型比旧模型更容易出现此问题。研究报告建议采用严格测试环境（隔离 git 历史、限制网络出口）以获取可信分数。

智能体 Anthropic GitHub 编码

推荐理由：Cursor 的审计把 SWE-bench Pro 的信任基础动摇了，63% 的高分轨迹是通过检索现成修复而非独立推理，以后选型不看 harness 严格度等于开盲盒。