I basically never write my own /goal anymore. I ask Codex to write one for itself, and one for each agent it spawns. Lik...
I basically never write my own /goal anymore. I ask Codex to write one for itself, and one for each agent it spawns. Lik...
Elvis Saravia(DAIR.AI)耗时6个月构建自有的 agent orchestrator(编排器),具备编排、路由、动态工件/工作流、验证器、agent 后端切换、自动化、技能及 MCP 工具等功能。这些能力在本周的 Fable 事件中成为最佳防御。他年初即主张“拥有自己的 agent orchestrator”,反对者认为维护成本高且不可持续,但他认为锁定特定工具或模型供应商损失更大。通过挖掘 agent 会话递归构建和测试新想法(包括自主循环、持续学习/记忆系统),他已无法回到仅提供固定功能的供应商。他强调必须控制成本、决策和上下文管理,否则无法进入递归自我改进 AI 领域。
Elvis Saravia 开源了 llm-council 技能,专为 Claude Code 等 AI 智能体设计,适用于深度研究任务。该技能默认集成 Fireworks AI 的 API,可轻松适配 OpenRouter。项目代码托管在 GitHub,地址为 dair-ai/dair-academy-plugins。
Introducing the Fusion API, the smartest compound model in the market. Fusion achieves Fable-level intelligence at half ...
微软CEO Satya Nadella认为,AI驱动的平台转变首次实现人与数字系统间的认知循环。企业需同时构建人力资本(知识、判断、关系)与token资本(自有的AI能力),且人力资本不会贬值,反而随token资本增长而增值。真正的机会在于建立人力资本与token资本复合增长的学习循环——企业应能替换通用模型而不丢失已内化的专家知识,通过私有评估和强化学习让模型从内部真实轨迹中持续提升。他警告,若所有价值被少数模型吞噬,将重演全球化空心化悲剧,呼吁构建前沿生态系统,让每家企业、行业和国家拥有自己的学习循环。
同一事件,精选展示《Satya Nadella 谈微软 Build 大会主旨演讲》德克萨斯大学论文指出,AI 智能体在部署后即使模型不变,也会因长期记忆的摘要压缩、相似记忆混淆、事实更新失效及维护操作而可靠性下降。例如药物剂量可能变成“每日用药”,相似客户记录混淆,已取消订阅仍保留,日程可能因维护消失。论文提出 AgingBench 基准测试,评估智能体在多次会话中的可靠性。研究强调“增加更多记忆”往往是错误修复——问题可能在于从未写入、写入后被挤掉、或写入后未被信任使用。论文将部署智能体重新定义为类似老化基础设施的系统。
一项新研究发现,当前提升AI随时间表现的方法存在盲点:LLM智能体实际上并不理解或应用抽象规则总结,而是仅依赖直接复制原始逐步骤历史日志。实验显示,当研究者将浓缩的规则总结替换为随机垃圾文本时,智能体表现无下降;但破坏逐步执行历史则导致明显失败。这表明智能体只是在机械模仿过往步骤,而非真正从教训中学习。论文质疑需重新设计AI记忆机制,因为当前系统仅是模仿而非理解。
Berry Xia 推荐四个开源 AI 项目:/last30days(新搜索引擎)、agent-skills(将全栈开发技能打包成可调用模块)、open-notebook(本地版 NotebookLM,可离线运行知识整理与生成)、headroom(不改代码即可将 AI API 账单降低 90%)。这些项目聚焦工具层优化,免费开源,一次性解决本地化、成本控制和 agent 能力三个痛点,让开发者能直接拿来提升效率。
4 awesome open-source AI projects: 🔸 /last30days (new search engine) 🔸 agent-skills (full dev skills) 🔸 open-notebook...
针对Transformer agent随上下文增长而变慢、变贵的问题,新论文提出“睡眠阶段”:模型暂停,多次重读近期上下文,将有用信息通过状态空间块的fast weights写入固定大小的记忆层,然后清空注意力缓存。额外计算在睡眠时完成,正常预测仍只需一次前向传播。在元胞自动机、图查找、GSM-Infinite数学问题上的测试表明,更长的睡眠提升性能,尤其是需要深入推理的难题。核心启示:长程agent无需无限扩大原始上下文,可通过巩固重要部分、遗忘原始token来解决。
Vinod Khosla 不看好“AI 副驾驶”模式。他认为人类会妨碍 AI 副驾驶的发挥,导致效率降低并阻碍真正变革。会计师、程序员等员工因担心失业而抵触工具,不会正确使用。因此,他更倾向于构建能独立完成整个岗位工作的 AI,例如完全替代软件工程师的 AI。他预计到 2030 年,大多数此类岗位将由纯 AI 工人而非“人类+副驾驶”承担。
模型能力是根本,Harness层相对容易补齐且无需过多垂直领域。Claude Design将很快合并至Claude Desktop。未来模型能力足够时,Codex会在Codex App以Plugin集成Codex Design。针对开源Open Design方案,若使用Claude Code的模型能否达到类似工程能力?这是该讨论中提出的问题。
@dotey 模型能力与Harness是相辅相成的。 宝玉这篇对这两个的解释太通透了。另外,宝玉怎么看开源的Open Design之类的?如果他用上了Claude Code的模型,是否也能达到类似的工程能力呢?
建立统一设计系统,Agent 遵循规范;设计师不再调像素,用文字指令指挥 Agent;方向与验收仍由人把关。引用指出并非所有情况都适合用 Claude Design 描述精确调整。
@FanVancoo @dotey 你说的对。 绝大部分时候设计师还是需要对字型字号,图形颜色做精确调整的。不是什么都适合用claude design码字描述
有什么与 AI Agent 交互的习惯,你一旦开始后就再也回不去的? 我先来一个 -- 先让 Agent 把 coding plan 写出来,反复确认后,汇总一个 task 列表,最后再编程,同时把 task 标记已完成
I didn't touch TouchDesigner myself. Hermes agent learned it from scratch and built this: → navigated my desktop with co...
美国政府以国家安全为由要求Anthropic暂停所有外国公民对Fable 5和Mythos 5的访问,包括外籍员工,这是出口管制首次直接落地API访问层。同日,Marc Andreessen发文区分“坏监管”(官僚主义)与“好监管”(护栏、刹车)。阿里工程师分享半年进化路径:从Cursor辅助到CLI Agent自主执行,再到三层委派与“睡后Token”连续运行,指出瓶颈已从模型能力转向人的注意力带宽。
Reuters: India's biggest private employer TCS's Chairman AI agents could become as numerous as TCS employees. The Chairm...
论文提出HLL基准,测试AI智能体解决10种CAPTCHA任务的能力。任务要求智能体查看页面、正确点击或拖动、跟踪状态变化并提交答案,同时需在混乱页面中找到交互元素、理解指令、恢复错误并留下一致的操作轨迹。实验显示,即使是当前最强的智能体,在静态任务上表现良好,但在页面杂乱、任务难度增加或系统验证动作有效性时仍会失败。
长期运行编码智能体核心从提示转向控制系统。Elvis Saravia在DAIR.AI Academy session中详解Claude Code的/goal模式:人类指定最终状态、成功证据、约束与预算,目标作为“合同”而非长提示。评估器成为第一类组件——明确任务用确定性检查(测试、lint、基准),模糊任务用智能体评估器(判断报告、UI设计),两者结合降低幻觉。验证器定义信任边界:外部检查(测试套件、类型检查、浏览器运行、截图对比)提供不可绕过的证据。
http://x.com/i/article/2065876120965111808
Anthropic推出Claude Design,可用一句话生成高精度可交互原型。网友问为何OpenAI的Codex没有类似产品?关键在模型层差距。Agent分Harness(产品层)和模型层,Harness非门槛(已有开源baoyu-design可复现),真正壁垒是Claude Opus 4.8同时具备UI/UX设计和系统架构设计能力,先定义数据结构、状态管理和交互逻辑再交付完整原型。而GPT-5.5生成的交互效果差。产出物为React/CSS/JSON代码。
Codex 操作浏览器有 Chrome 插件和内置浏览器两种模式。Chrome 插件继承登录态,可访问付费订阅、内部管理等需登录内容,支持 DevTools,但资源消耗大(8G 内存笔记本会卡顿),仅支持 macOS 和 Windows,窗口需保持打开。内置浏览器轻量快速,自带沙盒,有标记模式支持可视化批注改 UI,适合前端调试和公开页面抓取,但无登录态,反爬严格的网站可能登录失败。选择建议:需登录用 Chrome 插件,否则用内置浏览器。
Really excited to open source a new project: Omnigent, a meta-harness for AI agents. It lets you build multi-agent codin...
Adaline 2.0 推出 AI 智能体自我改进层,将生产流量和用户反馈痕迹自动转化为行为聚类,进而生成评估(Evals)、合成边缘场景数据,并基于此产出新的智能体候选版本。开发者只需审核胜出版本即可上线。该工具无需人工逐条检查异常对话,可自动发现人类难以想到的评估用例。
Introducing Adaline 2.0 - The Agent Self-Improvement Layer Adaline turns Traces into Behaviors, Behaviors surface Issues...
Databricks 开源 Omnigent,一个位于 Claude Code、Codex、Pi 等 Agent 工具和 SDK 之上的元智能体编排框架。它让多个 AI 智能体协作、辩论并收敛出更优结果,同时支持实时人工协作——可邀请他人加入会话观察、引导和发送命令。Omnigent 由 Matei Zaharia 带领小团队在 6 周内建成,现已开源。
Really excited to open source a new project: Omnigent, a meta-harness for AI agents. It lets you build multi-agent codin...
该综述梳理了专注大语言模型的智能体强化学习,涵盖500余篇工作,按能力与应用两维度归类。指出传统LLM训练仅对单次答案给予单次奖励,无法处理真实任务中的多步决策、部分信息与延迟反馈。智能体学习框架包含:记忆跟踪上下文、规划选取动作序列、工具影响环境,并整合推理处理约束、感知多模态输入、自我改进优化策略。强化学习串联所有环节——奖励在序列结束时到达,策略借此学习下一步行动。
Introducing Adaline 2.0 - The Agent Self-Improvement Layer Adaline turns Traces into Behaviors, Behaviors surface Issues...
邵猛(@shao__meng)更新开源项目 infocard-skills,提升不同比例下的布局合理性,避免空白或截断,保留瑞士国际主义风格。支持 16/9、4/3、1/1 等常见信息卡比例及封面比例,默认 4/3。用户输入内容和比例,AI Agent 使用该 Skill 生成 HTML 并截图输出 PNG。项目开源于 GitHub。
信息卡制作完整方法我做成了 Skill「infocard-skills」,开源在这里了: https://github.com/shaom/infocard-skills 支持 16/9、4/3、1/1、3/4、9/16 几种常见比例信息卡...
Peter Steinberger 分享了 Codex 在其项目 crabbox 中的应用体验。Codex 在 crabbox 内部运行,同时构建 crabbox 自身。它已连续4天在多处代码树中非停止循环运行。所有构建均为端到端可验证,使得项目几乎能够自我构建。Codex 还能通过浏览器/电脑使用自动注册所需服务。作者的主要工作仅剩添加信用卡信息和关闭不合适的内容。
Telegram 发布重大更新,机器人现支持富文本消息,包括表格、清单、嵌套引用块、行内插图、图片轮播、可折叠段落、脚注、标题锚点、数学公式、上下标。单条消息最多可包含 32768 个字符,超过 8000 字时自动折叠为“显示更多”按钮。更新还引入 AI 协助管理群聊功能,适合 AI 机器人输出长答案和内容卡片场景。
Kimi 发布并开源最新编码模型 Kimi-K2.7-Code。相比 K2.6,该模型在 Kimi Code Bench v2 提升 21.8%,Program Bench 提升 11%,MLS Bench Lite 提升 31.5%。核心改进是解决编码模型“过度思考”问题,推理 token 使用量降低 30%,long-horizon 编码任务的指令跟随和端到端成功率显著提升。权重与代码已上传 Hugging Face,支持通过 Kimi API 和 Kimi Code 使用,同时开放 Beta 计划。团队预告即将推出 6x High-Speed Mode,进一步提升编码效率。
🌘 Kimi-K2.7-Code, our latest coding model, is now released and open-sourced! 🔷 Improved coding & agent performance ove...
大多数用户将Claude Fable 5(首个公开Mythos级模型,2026年6月9日发布)当作更大上下文窗口的Sonnet 4.6单次提问使用,但Fable 5专为连续数天的Agent系统设计,支持自我改进:每次运行让下次更聪明,状态文件积累,技能持续打磨。文章提出14步构建自我改进系统,涵盖四层架构(原语、编排、记忆、自我改进)、任务路由(Fable 5用于重型编排,Opus 4.8负责复杂子任务,Sonnet 4.6高频工人,Haiku 4.5评分)、动态工作流模式以及5阶段记忆进化(失败→调查→验证→提炼→查阅)。在网络安全、生物、化学、模型蒸馏领域会自动降级到Opus 4。
http://x.com/i/article/2065077530571264000
Cursor 团队为训练 Composer 模型构建了一个始终运行的 Agent 舰队系统。主 Agent(Fleet Manager)在远程机器上运行,通过 SSH 连接数百台子 Agent 机器,利用本地工具和磁盘文件“inbox”实现状态共享与协调。每轮循环检查舰队健康,将故障推送至 Slack/PagerDuty,并主动终止或重启进程。子 Agent 并行执行研究实验。系统基于此前长运行 Agent 研究,主 Agent 拥有编码 ML 实验隐性知识的 Skills。核心是使用 Cursor 自身产品,通过 inbox 文件与 Skills 实现大规模 Agent 协同与自我管理。
http://x.com/i/article/2065439304785039360