6月8日

03:11

Peter Steinberger 🦞@steipete

这是您的月度提醒：您不应再手动提示编码智能体了。您应该设计循环来提示您的智能体。

智能体教程/实践编码

03:07

Rohan Paul@rohanpaul_ai

Meta-Agent Challenge：当前AI智能体能否自主构建更好的智能体？

一项新研究提出Meta-Agent Challenge（MAC）基准，测试AI智能体能否在没有人类设计帮助的情况下自主构建更优智能体。智能体需在安全工作区内自行发明策略、编写代码、测试并从失败中学习。实验覆盖数学、科学问答、竞赛编程、代码修复和长终端任务5个领域。结果显示，当前智能体大多无法超越人工设计的强智能体系统，仅Claude等少数封闭前沿模型取得较好表现。研究认为，当前智能体更像是强大的执行者，而非具备可靠自改进能力的工程师。

智能体 arXiv 论文/研究评测/基准

02:31

宝玉@dotey

精选81

ChatGPT 要变 AgentGPT 了

OpenAI 正筹备 ChatGPT 自 2022 年上线以来最大规模改版，从聊天机器人转向超级应用/Agent 平台，整合编程工具 Codex、图像生成及第三方应用（Canva、Booking）。高管称“聊天已死”，目标成为跨平台个人 AI 助手，未来甚至省去用户输入提示词。改版预计未来几周在网页和手机端上线。商业压力：ChatGPT 有 9 亿周活用户、5000 万付费用户、月收入 20 亿美元但未盈利；企业客户贡献约 40% 收入，目标年底达 50%；Codex 桌面版周活超 500 万。竞争对手 Anthropic 估值已达 9650 亿美元。OpenAI 刚完成 1220 亿美元融资，估值 8520 亿美元，IPO 目标估值可能超 1 万亿美元。

金融汪: 根据《金融时报》报道:Open AI 正在筹划对ChatGPT推出以来的最大规模改革 "聊天已死" AI的未来不在于回答问题的聊天机器人,而在于能够为用户执行任务的智能体,也就是Agent!

智能体 OpenAI 行业动态

关联讨论 2 条

推荐理由：ChatGPT要从聊天框升级成超级应用，把Codex和Agent全塞进去，这是OpenAI在IPO前最重要的一次产品赌注，对开发者和普通用户都会改变使用习惯。

02:07

Rohan Paul@rohanpaul_ai

推理模型后训练数据入门：改进的关键在可验证反馈而非数据规模

论文指出，更好的推理模型更依赖可验证的训练证据，而非原始数据规模。推理数据的关键不是简单问答对，而是提供答案、步骤、工具操作或完整尝试好坏判断的反馈信号。每个训练样本应描述为包含任务、模型行为、检查信号和元数据的记录。研究者按检查方式分类：数学和代码用精确规则、智能体工具用环境检查，无精确检查器时用人类或模型判断。常见误区包括：长推理链可能虚假、更难样例对部分模型无效、更大数据集仍可能缺失关键覆盖。智能体数据应保留失败动作、重试、恢复、状态差异和终端检查等“混乱”信息，因为学习信号常在其中。

智能体 arXiv 推理数据/训练

01:31

宝玉@dotey

baoyu-design：在本地复现 Claude Design 的开发工作流

宝玉分享开发模式：先用 Claude Design 设计 App UI/UX，生成 HTML+CSS+React+data.js（优于 Figma，利于 AI 理解和 Git 版本管理）；再用 Claude Opus 4.8 实现 MVP（GPT 5.5 在 UI 实现上差距明显）。因反复在本地与网页间导出替换设计稿繁琐，他编写工具解析 HAR 文件、解密 Claude Design 二进制内容，分析其 Prompt 和内置组件，将核心逻辑本地化集成到 Cursor（利用网页标记功能），配合 Opus 4.8 即可本地运行。最终开源 GitHub 项目“baoyu-design”。

宝玉: 最近为了研究 Claude Design,专门写了一个工具,可以解析 HAR 文件,解密 Claude Design 传输的二进制内容,这样可以方便的看到请求的 Prompt

智能体 Anthropic GitHub MCP/工具

01:07

elvis@omarsar0

论文提出用代码压缩率衡量AI智能体是否真正发现新知识

本周一篇AI论文探讨自我改进智能体是否真正发现新知识，还是仅重新组合已知信息。作者将行为分为三类：检索（查询已有笔记本）、搜索（组合现有工具）和发现（发明新概念），并用范畴论和左Kan扩展定义——若旧版本能产生相同结果则非发现。他们构建Builder/Breaker agent研究蛋白质力学，四轮中R²从0.48升至0.68再降至0.54和0.41，看似变差实则不断挑战更难蛋白质并重写理论：数据增长近10倍，模型代码仅增长1.3倍。论文提出用代码压缩率作为真实发现信号。链接：arxiv.org/abs/2606.01444。

智能体 arXiv 大佬观点推理