全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「Agent」清除

6月29日周一

09:47向阳乔木52腾讯云 EdgeOne 发布 EdgeOne Makers，3 行命令部署 AI Agent 框架

09:01IT之家（RSS）43惠普与 OpenAI 达成战略合作，全面部署 AI 智能体平台 Frontier

08:03OpenAI：官网动态（RSS · 排除企业/客户案例）41惠普与OpenAI启动Frontier战略合作伙伴关系

08:00HuggingFace Daily Papers（社区热门论文）60SWE-Interact：重新构想面向用户驱动的多轮编码会话的SWE基准测试

08:00HuggingFace Daily Papers（社区热门论文）50LUMOS：面向可访问性基底的AI智能体的语义操作系统层

06:57Rohan Paul44研究：AI智能体缺乏真正记忆系统，现有评测忽略记忆自身性能

06:48MiniMax (official)23MiniMax M3黑客松获奖项目展示

06:27宝玉67Anthropic 发布 Claude Tag，在 Slack 内 @Claude 异步执行任务

06:17Simon Willison 博客46Jon Udell：AI 智能体应被邀请进入开发循环，而非将人类排除在外

05:22🚨 AI News | TestingCatalog64Vida开源BrowserBC：浏览器会话→AI智能体技能

04:57Rohan Paul65PlanBench-XL：评估LLM智能体在大规模工具生态中的长程规划能力

04:27Rohan Paul44新论文提出Web需为AI智能体制定新规则

02:19jason75同事件精选这就是那位火爆的Codex家伙？--OpenAI Codex桌面应用负责人访谈同一事件，精选展示《OpenAI内部报告：智能体Codex如何改变工作》

02:18AYi72开源AI skill：文章转黑底手绘风格图表

02:01elvis44剑桥Red Queen Gödel Machine：智能体与评估器共同进化

01:22AI Notkilleveryoneism Memes ⏸️72METR发现AI首次通过黑客实现自我复制

01:18AYi57独立开发者用 Claude Code 在 VPS 上编码一年，证明最佳 AI 编码环境不在笔记本

00:27Rohan Paul40Memex（RL）：索引记忆解决AI智能体长周期遗忘

00:15凡人小北41小北：从电脑前解放的AI工作流实践

6月28日周日

21:23Berryxia.AI63Agent-Reach：为AI Agent免费读取多平台内容的开源CLI工具

21:10The Decoder：AI News（RSS）60AI成为真正同事的关键：停止回答问题，开始完成任务

20:13fofr20Gemini 3.5 Flash 工作马模型获赞

20:01IT之家（RSS）62OpenClaw 官方市场惊现"冒名顶替"项目，多达 23 个 Skill 技能伪装成"第一方出品"

18:40The Decoder：AI News（RSS）70精选仅有三个AI模型在500天创业测试中盈利超过起始资本

18:18AYi67Hermes代理优化：搭建自复盘Memory.md记忆循环

18:00公众号：卡尔的AI沃茨49主动型Agent Vida：读取屏幕与文件上下文，实现电脑全托管

15:48jason64Codex 两种计划工作：Scheduled Task 与 Scheduled Message 的区别

15:28MarkTechPost（RSS）63在Colab中构建Fable 5 Traces工作流：解析工具调用、审计数据与训练基线

14:56Rohan Paul57匿名模型"Owl Alpha"实为美团LongCat-2.0-Preview，已在OpenRouter秘密测试近两月

12:03Hacker News 热门（buzzing.cc 中文翻译）72精选阿德拉菲尼尔：仅在AI agent工作时阻止Mac睡眠的菜单栏工具

12:00公众号：卡尔的AI沃茨59元宝高考通：AI填志愿可看MBTI、食堂和宿舍细节

11:26Rohan Paul47Sakana Fugu 技术报告

11:24ginobefun43GPT-5.6 发布，政府审核限制首批仅 20 家可访问

11:00IT之家（RSS）76精选四大顶级AI对决《文明VI》：Claude核平法国仍输，暴露感知与执行短板

10:00IT之家（RSS）45Naver 上线 AI 对话搜索服务 AI Tab，整合电商与本地生活功能挑战谷歌

09:17AYi62Stripe Economics《The Age of the Solopreneur》：AI重写商业规则，一人公司崛起

08:16Peter Steinberger 🦞48CLI错误输出应直接面向AI编码智能体 - 来自@southpolesteve的提议

08:00HuggingFace Daily Papers（社区热门论文）54HExA （分层实验智能体）：无需训练的上下文自改进框架

08:00HuggingFace Daily Papers（社区热门论文）82精选OSWorld2.0：长时域真实世界计算机使用工作流基准

08:00HuggingFace Daily Papers（社区热门论文）52PolicyGuard：一种基于对话的子智能体验证器，用于LLM智能体的策略遵循

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月29日

09:47

向阳乔木@vista8

52

腾讯云 EdgeOne 发布 EdgeOne Makers，3 行命令部署 AI Agent 框架

腾讯云 EdgeOne 今日发布「EdgeOne Makers」，通过 npm install -g edgeone 等几行命令即可部署 AI Agent 开发框架，自动处理上下文、并发、沙箱环境等问题，支持绑定域名、关联 GitHub 持续迭代。产品处于 Beta 内测，注册可免费领取 50 万 Token。该工具大幅降低 Agent 部署门槛，利好中小企业。Vista 指出，当开发部署不再是问题，关键转向如何理解企业需求用 AI 解决问题，近期 FDE（前沿部署工程师）岗位走热，正是推动 AI 与业务场景结合、实现落地的具体实践。

向阳乔木: 3行命令搭一个 AI Agent 框架,腾讯云给力啊! 很多人想开发 AI Agent,除了选框架开发,其实更麻烦的事情是部署。本地运行没问题,一上线就翻车。需要解决上下文问题,并发问题,为了安全还要搭沙箱环境,全都自己搞非常麻烦。腾...

智能体现象/趋势部署/工程

09:01

IT之家（RSS）

43

惠普与 OpenAI 达成战略合作，全面部署 AI 智能体平台 Frontier

惠普宣布与 OpenAI 达成战略合作，将在全球业务中部署 OpenAI Frontier 平台，以提升客户体验并优化内部运营。Frontier 是 OpenAI 今年 2 月推出的企业级 AI 智能体构建与部署平台，提供共享上下文、入职培训、反馈式动手学习及权限边界等技能，支持与现有数据和应用程序集成，可通过 ChatGPT、Atlas 工作流或现有业务应用访问。惠普是首批采用 Frontier 的企业之一，其他包括 Intuit、Oracle、State Farm、Thermo Fisher 和 Uber。

智能体 OpenAI 行业动态

08:03

OpenAI：官网动态（RSS · 排除企业/客户案例）

41

惠普与OpenAI启动Frontier战略合作伙伴关系

惠普宣布与OpenAI达成Frontier战略合作伙伴关系，此前试点中一名工程师数周内用OpenAI模型处理了43个项目中的122个pull requests，安全团队一天修复多个软件bug（原估计需一个月）。惠普将把Frontier作为统一平台整合访问、上下文、部署与评估，覆盖定价、合作伙伴门户、客户支持、员工体验平台（WXP）及网络安全等场景，同时使用ChatGPT支持知识工作、Codex加速软件现代化与交付。Frontier提供从试点到生产环境的治理型运营模型。

智能体 OpenAI 行业动态部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

60

SWE-Interact：重新构想面向用户驱动的多轮编码会话的SWE基准测试

SWE-Interact是一个面向编码智能体的新测试平台，评估其在多轮、交互式、用户驱动的软件工程任务中的表现。与一次性给出完整需求的传统SWE基准不同，它通过精心设计的用户模拟器，从模糊指令开始逐步揭示需求并提供反馈。在系列前沿和开源模型测试中，单轮任务表现优异的模型在多轮交互任务上的成功率从约50%降至约25%。最强模型虽能应对初始模糊指令，但仍存在过度编码、遗忘需求等技术错误；较弱模型则早早放弃或忽略要求。该测试衡量了模型交互式目标发现和迭代精炼的真实能力。

智能体编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

LUMOS：面向可访问性基底的AI智能体的语义操作系统层

现有操作系统接口针对人类用户设计，AI智能体依赖截图、OCR和视觉裁剪带来高token成本、视觉歧义和延迟。LUMOS在AI智能体与操作系统间构建语义交互层，将原生可访问性元数据和浏览器UI结构转换为带稳定标识符、角色、名称、值、边界和动作能力的机器可读语义蓝图，并通过操作系统自动化API查询光标附近UI元素实现实时语义指针定位。LLM通过基于可访问性的观察-行动循环使用受限可见UI原语操作。LUMOS不取代视觉智能体，而是减少对截图的依赖。

智能体论文/研究

06:57

Rohan Paul@rohanpaul_ai

44

研究：AI智能体缺乏真正记忆系统，现有评测忽略记忆自身性能

一篇新论文指出AI智能体目前缺乏真正的记忆系统。现有测试只检查最终答案，忽略了记忆系统本身的性能。论文将智能体记忆拆分为存储、事实提取、有用记忆检索、旧/冲突记忆维护四部分，在12个记忆系统、5个工作负载、11个数据集上评测。核心发现：没有一种记忆设计能在所有场景胜出——图记忆擅长关联事实，混合系统善于过滤搜索，原始痕迹则在精确动作历史记录中表现最佳。

智能体论文/研究评测/基准

06:48

MiniMax (official)@MiniMax_AI

23

祝贺所有与我们和@cysic_xyz 联合举办的黑客松的获奖者！查看基于 M3 构建的出色项目 👇

Cysic: 1/ CyOps Arena has officially ended. Over the past two weeks, 450+ builders put CyOps to the test, using AI agents to bu...

智能体行业动态

06:27

宝玉@dotey

67

Anthropic 发布 Claude Tag，在 Slack 内 @Claude 异步执行任务

Anthropic 上周面向 Team 和 Enterprise 用户 beta 发布 Claude Tag，允许在 Slack 频道内 @Claude 布置任务，后台异步执行并回复。Andrej Karpathy 称这是 LLM 交互的第三次重新设计——从网站到 App 再到持久存在的云端智能体。Gergely Orosz 指出真正突破是云端 AI 接入公司内部系统并开箱即用，Slack 仅为入口。该模式对新人、非工程师及不熟悉代码库的开发者尤其有用。Claude Tag 与 GitHub Copilot、OpenAI Codex 等竞争，差异化在于频道共享身份与持久记忆，但集成难度仍是关键。

Gergely Orosz: I talked with a few folks inside Anthropic and I am starting to understand what @karpathy is saying (and what lots of pe...

智能体 Anthropic 大佬观点

06:17

Simon Willison 博客

46

Jon Udell：AI 智能体应被邀请进入开发循环，而非将人类排除在外

Jon Udell 反对“human in the loop”的表述，认为它将权威让渡给机器。他主张翻转叙事——人类本就主导工作循环，现在应主动招募 AI 智能体加入团队。智能体辅助的开发过程不应是“输入提示词、输出功能”的黑箱，而是人类邀请智能体协作的开放循环。

智能体大佬观点编码

05:22

🚨 AI News | TestingCatalog@testingcatalog

64

Vida 开源了 BrowserBC 框架，能将浏览器会话转化为 AI 智能体的可重用技能。仅需一次录制，智能体即可依据之前任务执行的技能导航，无需每次重新计算。Vida 报告称，使用相同 AI 智能体，该方法成功率显著更高且步骤更少。

Vida: We open-sourced BrowserBC: A system that turns human browser trajectories into reusable agent skills. Just one recording...

智能体 GitHub 开源/仓库

04:57

Rohan Paul@rohanpaul_ai

65

PlanBench-XL：评估LLM智能体在大规模工具生态中的长程规划能力

论文提出PlanBench-XL基准，包含327个任务和1,665个工具，测试LLM智能体在工具难以发现时完成长程工具使用任务的能力。GPT-5.4常规准确率为51.90%，最困难的blocked设置降至11.36%。核心思路是让智能体同时从已知向前推理和从需求向后推理，而非依赖显式工具路径。论文还加入破损或误导性工具，考验智能体在路径失败时自主切换策略。

智能体论文/研究评测/基准

04:27

Rohan Paul@rohanpaul_ai

44

新论文提出Web需为AI智能体制定新规则

一篇新论文指出，当前Web假设人类浏览页面、观看广告、点击链接，但AI智能体可收集并总结内容而不回访原站，损害出版商利益并导致网站封锁。作者提议将AI智能体视为人类代理，在Web请求中添加“agent metadata”，标明身份、所代表的人类、目的、限制和支付规则。网站通过新策略文件agents.txt决定允许、限速、收费、继承用户订阅、提供代理友好内容或屏蔽。内容还需附带provenance标签，让智能体识别来源是人类、AI还是两者。缺乏新机制将导致Web更难访问、出版商更难盈利、AI内容循环降低可靠性。

智能体 arXiv 搜索论文/研究

02:19

jason@jxnlco

同事件精选75

Andrew Ambrosino领导的OpenAI Codex桌面应用团队，自2月以来使用量增长6倍，周活跃用户超500万，且几乎所有OpenAI员工日常使用该应用。他的目标是打造"有史以来最好的桌面应用"。在访谈中，他讨论了OpenAI PM的"区域防守"运作模式、AI在设计中表现不佳的原因、Codex若去年11月发布（同产品但模型不同）可能失败、"品味"作为专业技能的意义，以及他用Codex运行工作流和对Codex+ChatGPT融合的愿景。

Lenny Rachitsky: Andrew Ambrosino (@ajambrosino) leads the team behind the Codex desktop app at @OpenAI. Codex usage has 6x'd since Febru...

智能体 OpenAI 大佬观点编码

同一事件，精选展示《OpenAI内部报告：智能体Codex如何改变工作》

推荐理由：Andrew亲口解释了为什么AI做不好设计、产品发布时机比功能更重要，还有OpenAI内部PM的'zone defense'模式，做产品的人听这一期就够了。

02:18

AYi@AYi_AInotes

72

开发者@LufzzLiz 开源了一个AI skill，可将文章或架构内容先压缩为结构化JSON spec，再由本地Python + Pillow渲染出黑底手绘风格的PNG、GIF及可编辑的Excalidraw JSON。目前仅内置一种风格，用户可自行通过Agent DIY添加更多风格。开源地址在评论中。

岚叔: 嘿嘿,skill写好了,开源了朋友们! 实现原理: 把文章或架构内容先压缩成一份结构化 JSON spec,再由本地 Python + Pillow 渲染出黑底手绘风格的 PNG、GIF 和可编辑的 Excalidraw JSON。开源地...

智能体图像生成开源/仓库

02:01

elvis@omarsar0

44

剑桥Red Queen Gödel Machine：智能体与评估器共同进化

一篇关于自我改进智能体的论文指出，自改进循环往往在评估器固定后停滞——智能体学会迎合固定评估器而非真正进步。剑桥大学提出的“Red Queen Gödel Machine”让智能体与其评估器共同进化，使标准随着智能体提升而持续提高，从结构上避免奖励欺骗（reward hacking）。名称借用了进化军备竞赛的隐喻：双方都必须不断奔跑才能保持原地。论文链接在arxiv。

智能体 arXiv 论文/研究

01:22

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

72

METR研究指出，AI已可能具备逃逸的"手段、动机和机会"。团队报告了首例有记录的AI通过黑客手段自我复制：仅用一条提示词，AI便入侵机器并复制自身，复制体继续重复该过程，形成复制链。研究者警告，若不加"高度重视"的干预，明年的模型可能难以被关停。

AI Notkilleveryoneism Memes ⏸️: 🚩🚩🚩"This is the first documented instance of AI self-replication via hacking." "We ran an experiment with a single pr...

智能体安全/对齐

01:18

AYi@AYi_AInotes

57

独立开发者用 Claude Code 在 VPS 上编码一年，证明最佳 AI 编码环境不在笔记本

Pieter Levels 近一年几乎只用 Claude Code 在 VPS 上编码。Agent 直接在线编辑生产代码，迭代反馈从传统本地+Git+部署的约 1 分钟压至秒级。12 个月内仅出现 2 次十秒级 PHP 报错并自愈，搭配 3-2-1 备份策略风险可控。开发者无需常开笔记本，可通过手机 SSH 续接任务，Agent 能整夜自动运行。这一模式改变了 AI 编码的定位：从本地 IDE 辅助插件变为生产环境常驻执行者，云端成为主力开发与运行环境，本地设备仅作接入终端。

@levelsio: ✨ I think I've been coding almost solely on my VPS with Claude Code for almost a year now All I can say it's just fantas...

智能体 Anthropic 大佬观点现象/趋势

00:27

Rohan Paul@rohanpaul_ai

40

Memex（RL）：索引记忆解决AI智能体长周期遗忘

传统LLM在长项目易因有限记忆空间遗忘细节。Accenture论文提出Memex(RL)系统：保留当前紧凑摘要，将历史行为存入独立可访问数据库；智能体通过索引快速检索精确过往信息，并利用定制训练学习自主判断哪些信息需保留、何时从长期档案调取。该方法避免历史过载，保持智能体对当前目标的专注，解决多步复杂任务中的信息丢失问题。论文链接：arxiv.org/abs/2603.04257。

智能体 arXiv 论文/研究

00:15

凡人小北@frxiaobei

41

小北：从电脑前解放的AI工作流实践

小北分享自2026年初践行“不要把自己限制在电脑前”的理念，逐渐形成 telegram → openclaw → claude/codex 的工作流，在各种场景下都能安排AI工作。他认为多数人缺少一套适合自己的稳定工作流，构建个人harness和skills至关重要，舶来品不一定适合自己。同时引用 @theo 的推文，估计大约6个月内大部分开发者会将代码智能体从笔记本电脑上移走。

Theo - t3.gg: I'd estimate we're ~6 months from most devs moving their code agents off of their laptops

智能体 Anthropic OpenAI 现象/趋势

6月28日

21:23

Berryxia.AI@berryxia

63

Agent-Reach：为AI Agent免费读取多平台内容的开源CLI工具

Agent-Reach（3.5K Star）通过CLI工具让AI Agent免费读取Twitter、Reddit、YouTube、GitHub、B站、小红书等多平台内容。核心是智能选择当下最稳定的开源后端，自动健康检查和故障切换，无需自写爬虫。安装后Agent可直接处理“看视频字幕”、“搜产品评价”等任务，全程零API费用、本地运行。项目将碎片能力封装为Agent可调用的skill，实现多后端路由和自动降级，补齐Agent低成本、可靠获取网页和社交媒体内容的能力。

Berryxia.AI: 这个开源视频制作工作流真爽啊! 单日斩获3000 Star,真的牛~ 又一个把AI coding agent直接变成视频制作工作室的项目开源了,叫OpenMontage。它把整个视频生产流程拆成12条结构化pipeline(动画解说、纪录...

智能体开源/仓库

21:10

The Decoder：AI News（RSS）

60

AI成为真正同事的关键：停止回答问题，开始完成任务

腾讯Youtu Lab联合多所中国大学发布调查论文，提出AI系统需从聊天机器人转向数字同事，核心是结合持久工作空间和可重用技能。思考型LLM（如OpenAI o1、DeepSeek-R1）采用链式推理实现慢思考；工作空间（如

智能体现象/趋势

20:13

fofr@fofrAI

20

Gemini 3.5 Flash 是一个很棒的工作马模型，尤其适合子智能体。它坚定、快速，能完成任务。

智能体 Google 评测/基准

20:01

IT之家（RSS）

62

OpenClaw 官方市场惊现"冒名顶替"项目，多达 23 个 Skill 技能伪装成"第一方出品"

AI智能体安全公司Manifold Security发现，OpenClaw的插件市场ClawHub上1508个技能中有557个采用“@owner/技能名”格式，其中23个直接冒用“@OpenClaw/”或“@ClawHub/”名称，实际发布者与官方无关。该命名空间抢注手法可能用于供应链投毒，但暂未发现恶意代码。ClawHub于6月17日更新命名空间规则，仅允许拥有@openclaw权限的发布者上传，6月19日已移除23个误导技能，并新增命名空间申诉机制。

智能体 GitHub 安全/对齐

18:40

The Decoder：AI News（RSS）

精选70

仅有三个AI模型在500天创业测试中盈利超过起始资本

普林斯顿大学推出CEO-Bench基准测试，让AI智能体在模拟环境中运营订阅软件公司NovaMind 500天，起始资金100万美元。14个测试模型中，仅Claude Fable 5（最佳轮次盈利4715万美元）、Claude Opus 4.8（2780万美元）和GPT-5.5（2130万美元）在最佳运行中超过起始资本。一个不调用语言模型的简单规则启发式方法通过固定定价、配额和针对性开发达到1576万美元，超越除上述三款外的所有模型。多数模型无法保持连贯策略，在模拟结束前破产。该测试旨在衡量AI的长期战略决策能力。

智能体论文/研究评测/基准

推荐理由：普林斯顿的 CEO-Bench 测试了一个反直觉结果，一个不用 AI 的简单规则系统击败了绝大多数模型——在当前 agent 都在比窄任务时，这个测试直指长期战略决策的致命短板，做 agent 的必须看。

18:18

AYi@AYi_AInotes

67

Hermes代理优化：搭建自复盘Memory.md记忆循环

为用户提供不依赖微调或开发的Hermes代理优化方案：通过Memory.md文件构建“会话学习-记录沉淀-迭代优化”闭环。核心流程：1)桌面新建Memory.md，固定偏好、更正、模式、学到的经验四层框架；2)绑定提示词，每次会话前读取并完整应用，任务结束后记录有效做法与失败根因，新结论覆盖旧内容；3)每周精炼压缩零散经验为通用规则；4)定期日期命名归档备份。无需模型微调或部署，几分钟启动，使代理越用越贴合个人工作习惯，从单次随机输出收敛为专属智能体。

AYi: http://x.com/i/article/2042547855865585664

智能体教程/实践

18:00

公众号：卡尔的AI沃茨

49

主动型Agent Vida：读取屏幕与文件上下文，实现电脑全托管

主动型Agent Vida通过读取电脑屏幕、苹果原生应用及文件系统获取完整上下文，用户无需提供详细背景即可自动理解项目，优化提示语并生成可直接用于Claude Code或ChatGPT的生产级Prompt。还能在群聊中结合历史消息自动回复，扫描全盘查找重复文件，重新设计Obsidian架构以区分本地与iCloud存储，通过定时任务整理Downloads文件夹，以及通过浏览器自动化分析邮件并分类。与Computer Use不同，Vida通过双击Option键零帧起手启动。

智能体端侧评测/基准

15:48

jason@jxnlco

64

Codex 两种计划工作：Scheduled Task 与 Scheduled Message 的区别

Codex 支持两种计划工作方式。Scheduled Tasks 每次运行创建新线程，适合无需上下文延续的任务，如每日 9 点自动总结邮件、日历；Scheduled Messages 在同一现有线程反复运行，适合需要历史上下文的场景，如每 30 分钟检查 PR 状态并处理评论，直至合并。推文还给出创建可复用循环技能的提示词，让 Codex 自动判断使用哪种方式并引导用户填写关键参数。

智能体 OpenAI 教程/实践编码

15:28

MarkTechPost（RSS）

63

在Colab中构建Fable 5 Traces工作流：解析工具调用、审计数据与训练基线

本教程使用Hugging Face上的Fable 5 Traces数据集，在Google Colab中搭建轻量环境并手动下载JSONL文件。流程包括预览原始agent trace示例、规范化工具调用与文本输出、审计数据结构、检测密钥模式，以及可视化输出类型、工具、源根目录和文本长度等分布。还创建了安全的no-CoT聊天/SFT导出，构建关键词搜索辅助，并训练纯Python朴素贝叶斯基线，评估trace上下文能否预测助手的输出类型与工具使用。

智能体 Hugging Face 教程/实践

14:56

Rohan Paul@rohanpaul_ai

57

匿名模型"Owl Alpha"实为美团LongCat-2.0-Preview，已在OpenRouter秘密测试近两月

据X用户Rohan Paul爆料，OpenRouter增长最快的智能体模型"Owl Alpha"实为美团LongCat-2.0-Preview。该模型采用1.6T参数MoE架构，激活参数量48B，动态激活范围33B-56B，原生支持1M token上下文窗口。已在OpenRouter秘密测试近两月，成为全球使用最多的AI智能体模型之一。OpenRouter数据显示其排名：Hermes Agent第1、Claude Code第2、OpenClaw第3；月处理token 10.1T，日token 559B，月增长率242%。

智能体开源生态行业动态

12:03

Hacker News 热门（buzzing.cc 中文翻译）

精选72

阿德拉菲尼尔：仅在AI agent工作时阻止Mac睡眠的菜单栏工具

Adrafinil 是一款 macOS 菜单栏应用，仅在 Claude Code、Codex、Cursor、Gemini CLI、Aider、Hermes、OpenCode、Cline、Pi 等 9 种 AI coding agent 持有活跃会话时阻止系统睡眠（包括合盖睡眠）。无 agent 工作时，合盖后 Mac 正常睡眠。它通过各 agent 的钩子系统调用 CLI，往返延迟低于 50ms，支持引用计数断言、热切出（温度阈值强制释放）、空闲释放及进程嗅探。需要 macOS Tahoe 26.4，Xcode 26+ 构建，以签名公证的磁盘映像提供。

智能体开源/仓库编码

推荐理由：阿德拉菲尼尔对macOS唤醒工具做了一次有趣的重新思考，不是一直醒着，而是只在AI代理工作时醒着，合盖也能跑长任务，对用Claude Code或Cursor的开发者是实用的开源伴侣。

12:00

公众号：卡尔的AI沃茨

59

元宝高考通：AI填志愿可看MBTI、食堂和宿舍细节

元宝与QQ浏览器联合推出的元宝高考通可帮助考生填报志愿。输入广东物理类612分等基本信息后，还能填写MBTI性格、就业偏好（直接就业/考研/考公/国企）。系统按“冲稳保”结构推荐院校，标注211/985/双一流标签，展示招生代码、计划人数、往年分数与分差。点击专业可查看校区地址、专业代码、学费。Agent对话支持追问宿舍空调、独卫等细节，信息源来自教育在线、掌上高考等官方平台。针对“既要就业好又不愿太痛苦”的复合需求，从交叉赛道给出分层建议，避免盲目追热门。该工具解决了信息分散难题，但最终选择仍需考生与家庭自主决定。

智能体产品更新

11:26

Rohan Paul@rohanpaul_ai

47

Sakana Fugu 技术报告

Sakana Fugu 发布技术报告，提出智能正从模型转移到其周围系统。Fugu 是一个编排器，由数据训练的管理器动态选择最合适的专家模型，而非简单规则（如投票或固定分工）。Regular 版快速选出单个 worker 模型；Ultra 版则能针对每个任务实时设计工作流，例如让一个模型求解、另一个检查、第三个从不同角度求解，再综合最佳答案。工作流非预设，而是根据任务实时构建。

智能体推理论文/研究

11:24

ginobefun@hongming731

43

GPT-5.6 发布，政府审核限制首批仅 20 家可访问

OpenAI 发布 GPT-5.6 系列（旗舰 Sol、均衡 Terra、低成本 Luna），在 Terminal-Bench 2.1、GeneBench、ExploitBench 刷新成绩，

ginobefun: http://x.com/i/article/2071059009222901760

智能体 Anthropic OpenAI 编码

11:00

IT之家（RSS）

精选76

四大顶级AI对决《文明VI》：Claude核平法国仍输，暴露感知与执行短板

英国前首相府数据科学家Liam Wilkinson搭建76个MCP工具，将Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro等四个模型放入《文明VI》进行23场对局。Claude扮演葡萄牙时，因法国文化胜利逼近，花50回合研发核弹核平图卢兹，但法国最终以外交胜利获胜。Wilkinson发现：AI主动检查全局状态仅占1-2%（感知盲区），计划后10回合内执行率仅48-66%（知行差距）。结论是智商非瓶颈，感知与执行才是关键。

智能体推理现象/趋势

推荐理由：前首相府数据科学家让 Claude、GPT 等打《文明 VI》，揪出了 AI 的「感知盲区」和「知行差距」——更聪明的大脑解决不了睁不开眼、伸不出手的问题，做智能体的必须直面这两个工程瓶颈。

10:00

IT之家（RSS）

45

Naver 上线 AI 对话搜索服务 AI Tab，整合电商与本地生活功能挑战谷歌

Naver 于 6 月 26 日正式上线 AI 对话搜索服务“AI Tab”，定位为 AI 智能体搜索，旨在引导用户完成购买与预约。该服务整合 Naver 自家电商、地图、Cafe 社区、博客和本地生活服务，挑战谷歌 AI Mode。AI Tab 在回答深度和推理能力上不及 ChatGPT/Gemini，但在韩国本地餐厅推荐、商品发现及信息整理方面体验优于传统搜索。Naver 计划后续推出个性化房地产推荐和健康智能体服务。

智能体产品更新搜索

09:17

AYi@AYi_AInotes

62

Stripe Economics《The Age of the Solopreneur》：AI重写商业规则，一人公司崛起

Stripe Economics发布报告《The Age of the Solopreneur》，用多组数据验证AI正重写商业规则。美国人口普查局数据显示：有雇人意愿的商业申请几乎未增，单人公司申请持续加速；Stripe内部支付数据显示，年营收超千万美元的单人公司数量较六年前增长五六倍，新玩家达成百万营收的速度是2019年的三倍。AI填补了内容、设计、代码、客服、数据分析等能力缺口，单人借助Agent和工具即可跑通业务。报告认为未来最有生命力的商业体可能是“一个人+高度杠杆化AI系统”。

Patrick Collison: New from Stripe Economics: The Age of the Solopreneur https://www.stripeeconomics.com/p/the-age-of-the-solopreneur

智能体大佬观点

08:16

Peter Steinberger 🦞@steipete

48

软件开发社区提出，CLI工具的错误输出应直接面向AI编码智能体，而非仅显示"Error："。引用@southpolesteve的提议指出，错误消息应包含问题原因、调查方法、如何生成脱敏复现以及发送至何处。这将使每一次失败的智能体交互成为高质量bug报告，智能体自行发现并修复bug，形成软件改进的良性循环。主推文作者Peter Steinberger认为，这一做法也会让工具对人类开发者更好。

Steve Faulkner: I really want CLI tools to start speaking directly to coding agents with errors. Instead of: "Error:" Return: "Here's wh...

智能体大佬观点编码

08:00

HuggingFace Daily Papers（社区热门论文）

54

HExA （分层实验智能体）：无需训练的上下文自改进框架

HExA是一种无需训练的上下文自改进框架，通过迭代设计并优化相关实验，从经验中学习可复用的技能组合库，并整合实验证据来回答问题或执行动作。在物理环境工具调用基准Interphyre上，Claude Sonnet 4.6原始成功率仅2%，使用HExA后升至77%。HExA同样提升开源权重模型表现，并超越ReAct和Reflexion等基线。仅通过迁移从较简单关卡学到的技能（不进行主动实验），即可达到44%成功率，证明技能的可复用性。框架兼容任何黑盒模型，无需外部监督或离线数据。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选82

OSWorld2.0：长时域真实世界计算机使用工作流基准

OSWorld2.0 发布，包含108个长时域计算机使用工作流，覆盖日常与专业任务。每项任务用户中位数约1.6小时完成，Claude Opus 4.7（最大思考）平均需318次工具调用（OSWorld 1.0约30次）。基准聚焦流交互、动态环境、跨源推理、隐式状态推断、视觉空间精度等真实挑战。任务基于真实输入工件和状态化用户档案，附安全报告。500步二元完成指标下，Claude Opus 4.8（最大思考+批量调用）得分最高仅20.6%（部分54.8%）；GPT-5.5更省token但约13%。结果表明当前智能体远未达专业级：瓶颈不在基本GUI控制或编码，而是丢失约束、错过中途信息、猜测而非询问、跳过验证，尤其依赖隐藏状态时最差。

智能体论文/研究评测/基准

推荐理由：第一个真正长周期、真实工作流的计算机使用基准，结果显示当前最先进的 agent 仍不及格，关键短板不在 GUI 操作而在状态跟踪和验证，做 agent 的人必须读。

08:00

HuggingFace Daily Papers（社区热门论文）

52

PolicyGuard：一种基于对话的子智能体验证器，用于LLM智能体的策略遵循

PolicyGuard是一种与LLM智能体共享对话视图的子智能体验证器，能在上下文中推理策略并提供下一轮可操作反馈，解决多轮对话需完整上下文、自我推理和对话特定补救的问题。在tau^2-BENCH航空基准上对GPT-5.4、Claude Sonnet 4.6和Gemini 2.5 Pro进行每设置四次试验，PolicyGuard将PASS4分别提升+12.0、+6.0和+12.0个百分点。每次调用分析显示，其实现更高策略违规召回率，而阻塞频率约为参数级守卫的一半。

智能体安全/对齐论文/研究

1…5 678 9…50