http://x.com/i/article/2062762354149146624
http://x.com/i/article/2062762354149146624
AdaPlanBench是一个动态交互基准,用于测试大语言模型智能体在渐进揭示的世界约束和用户约束下自适应规划与重新规划的能力。该基准基于307个家务任务,通过多轮交互协议仅在计划违反约束时暴露隐藏约束,迫使智能体从反馈中推断并迭代修改计划。对10个领先大语言模型的实验显示,最佳模型准确率仅达67.75%,性能随约束累积下降,用户约束挑战尤为显著,失败常源于物理理解不足和重新规划效率降低。该基准凸显了双重约束下自适应规划的难度。
近日,央视财经频道报道昆仑万维AI智能体落地成果。天工超级智能体具备自主迭代能力,能理解图像内容,十几分钟完成室内设计方案。昆仑万维CEO方汉称,用SkyReels视频大模型制作短剧成本下降20倍。同期发布高性能Agent模型SkyClaw-v1.0及轻量化版SkyClaw-v1.0-lite,支持百万token上下文,优化复杂工具调用、多轮任务执行、代码生成与交互式应用构建。
博主 Berry Xia 利用 Coze 3.0 的“自媒体运营达人”职业模板,演示从0到1创作爆款文章。流程包括:Agent 搜索近7天资讯并盘点竞品角度;调用爆款数据技能分析10篇高阅读量文章的标题、开头、结构规律;基于反共识观点生成3个差异化角度;依据数据生成10个标题并选择匹配指数9.8的“别再给 AI 当搬运工了!”;按场景驱动撰写1500-2000字正文并给出行动建议;最后用 Coze 生成暖色调配图。Coze 3.0 支持三端协同(手机/电脑/App)、工作区间文件存储和记忆模块,降低普通人创作门槛。
Berry Xia分享一个面向自媒体新手的完整工作流,覆盖选题、素材搜集、爆款标题撰写、内容迭代等环节,全部由AI Agent自动完成。无需付费,免费获取,附视频教程可快速学习。适合尚未动手做自媒体、想从0到1打造爆款文章的普通人。
http://x.com/i/article/2062724390589186048
现有基准仅评测角色扮演语言智能体(RPLA)对给定章节的事实回忆,未检验其回应是否贴合角色心理发展轨迹,尤其当场景超出原著文本时。ArcANE 是自动构建的基准,覆盖17部小说和80个主角,利用角色弧线将叙事沿心理轴分段,并为每个阶段提出相同场景(含原著内与外)。在6个模型和6种上下文模式下,使用角色弧线作为条件均优于其他策略,在原著外场景(检索无法获取信息)上差距最大。进一步微调开源权重模型得 ArcANE-8B/32B,在原著外场景上扩大了弧线优势。
论文“Harness Updating Is Not Harness Benefit”挑战了常见直觉——把最强模型放在进化者位置以写出更好更新。实验表明,廉价模型Qwen3.5-9B即可写出与Claude Opus 4.6效果相近的提示、记忆和技能更新。昂贵模型更适合作为求解任务的智能体,因弱模型无法正确加载或遵循更新,强模型已近能力上限,收益有限。甜区在中档模型:既能调用新程序,又有足够学习空间。
@op7418 发布 CodePilot v0.55.0 正式版,新增多执行引擎(Claude Code / 自建 Native / OpenAI Codex)、上下文用量可视化及 Codex 账号原生能力。作者分享实践:当前代码库有 26 万行代码与 5.6 万行文档(占比 21%),文档体系对 bug 修复和功能实现至关重要。作者称从未手写一行代码,但能修复所有已知 bug 并实现所有想要能力。原本预期两周的重构持续超过一个月零三周。
CodePilot v0.55.0 正式版已经更新! 重构完成的正式版: 多执行引擎(Claude Code / 自建 Native / OpenAI Codex)、上下文用量可视化、Codex 账号原生能力全部落地为稳定版,并集中修复了 ...
Anthropic发文揭示AI系统加速自身开发的趋势。模型独立完成任务时长约每四个月翻一番:Claude Opus 4.6已能胜任12小时任务,2027年可能处理数周级任务。SWE-bench两年内从个位数饱和至100%;CORE-Bench 15个月从20%饱和。Anthropic内部数据显示,截至2026年5月,超80%合并代码由Claude编写,工程师日均合并代码量是2024年的8倍(但此指标高估真实提升)。内部调查显示使用Mythos Preview使核心工作产出约提升4倍。最开放任务成功率六个月提高50个百分点至76%,Claude代码质量接近人类,预计年内超越。文章指出递归自我改进可能加速到来,需加强安全防护。
关联讨论 12 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)X:小互 (@xiaohu)公众号:数字生命卡兹克The Decoder:AI News(RSS)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)DataCOPE 是一个无监督验证器引导的技能发现框架,用于提升数据智能体性能,无需更新模型参数。它从探索轨迹中提取验证器信号,迭代协调数据智能体、无监督验证器和技能管理器进行对比性技能蒸馏。报告式分析中实例化为自适应检查表验证器,推理式分析中实例化为答案一致性验证器。在 Deep Data Research 和 DABStep 上的评估显示,DataCOPE 在四种模型设置下平均将报告式任务分数提升 9.71%,推理式任务提升 32.30%。
MLEvolve 是一个基于大语言模型的多智能体框架,用于端到端机器学习算法自动发现。它通过渐进式 MCGS 树搜索实现跨分支信息流动,并引入熵驱动的演进式调度,使搜索从广泛探索转向集中利用。框架配备 Retrospective Memory,结合冷启动知识库与动态全局记忆,实现任务经验检索复用。战略规划与代码生成解耦,保证长时间迭代稳定。在 MLE-Bench 评测中,MLEvolve 在 12 小时预算(半标准时长)内取得平均奖牌率和有效提交率等多项 SOTA,并在数学算法优化任务上超越 AlphaEvolve,展现跨域泛化能力。代码已开源。
Cloudflare数据显示,机器人已生成全球57.4%的HTML请求,人类仅占42.6%。流量上升但可货币化的人类注意力下降,冲击基于CPM、CPC、转化率的旧经济模型。AI agent是主因:一个用户任务可触发数千次机器访问,它们替人类读取页面,却跳过广告浏览、会话时长等信号,而这些曾是定价的根基。旧模型假设人类行为产生可定价信号,AI agent正打破这一范式。
Harness-1 将大语言模型的记忆工作转移到外部辅助系统(harness),解决传统搜索智能体需在同一上下文窗口内处理语义决策与状态记录导致的效率低下问题。模型仅负责搜索、验证等关键语义选择,而可恢复状态(候选池、证据链接、去重记录、预算感知记忆等)由 harness 追踪。这一分离使一个 20B 参数模型实现了更好的搜索表现。在强化学习中,外部化状态避免了失败原因混淆,有助于策略学习。Harness-1 在未见 benchmark 上提升更大,表明模型学到了可复用的搜索策略而非记忆领域习惯。论文 arXiv:2606.02373。
月之暗面旗下Kimi Code完成架构重构并开源。开发团队在一个月内进行封闭开发,频繁在白板前争论迭代,实现集体主义远胜个人英雄主义的工程效率。作者强调,AI Agent不会替代所有程序员,但会让顶级程序员生产力提升20倍,同时淘汰其他程序员。重构过程中,作者花数千美元token进行架构分析与验证,开源后因皮质醇过度分泌病倒。一周消耗整箱红牛,且感性上感觉时间已过一个月,实际仅开源一周多。
过去一个月是疯狂的一个月 大概一个月前,我下定决心重构 kimi-code,开始设计新的架构。 我大概抱着电脑和便携屏在汤泉卷了两整天,花了几千刀的 token 去做架构分析、设计和验证,最终得到了一份我认为最优的架构方案。 我觉得在 vi...
今日早报推荐三篇AI相关文章:① ChatGPT升级记忆系统,可自动整理用户对话历史并记住偏好,无需反复提示,免费用户也可使用。② 阿里云工程师分享实战经验,将团队代码库和文档整理成AI可直接调用的知识库,搭配专项技能包,目标是只需给出需求文档即可由AI完成后续工作。③ SpaceX招股书解读中透露,Anthropic每月支付12.5亿美元购买算力,该数字反映其大规模AI训练与推理的算力需求。
Anthropic 发布报告显示,Claude 正被深度用于开发下一代 AI,趋势加速或导致系统自主设计后继版本。外部指标:模型可靠完成任务时长约每 4 个月翻倍,SWE-bench 两年内饱和,CORE-Bench 15 个月内饱和,长时任务达 16 小时。内部数据:截至 2026 年 5 月超 80% 主干代码由 Claude 撰写;工程师日均合并代码量是 2024 年的 8 倍;员工中位数估计产出为无 AI 时的 4 倍;实验执行从约 3x 提升至约 52x;自主研究恢复能力达人类两组研究者一周工作量的 97%(人类约 23%);研究判断优于人类比例从 51% 升至 64%。报告探讨了趋势停滞、持续自动化、完整递归自我改进三种未来情景。
Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
Cursor 也发布了类似 Codex Sites 的「Canvases」 这个方向就对了,Coding Agent 本来就能完全吃掉 Lovable、v0、http://bolt.new 的 AI 建站功能,再结合在 Coding 和 Design、Debug、Deploy 等方面的闭环能力,从产品定义、设计、开发、测试到部署运维,完整覆盖。
With canvases, Cursor can create apps like dashboards, reports, and internal tools. Now you can publish a canvas and sha...
ChatGPT 记忆系统升级至 Dreaming V3,通过后台持续自动提炼和更新用户画像,解决传统记忆的被动性与时序僵化问题。三代演进:Saved Memories(2024年4月显式触发写入)、Dreaming V0(2025年4月后台辅助)、Dreaming V3(2026年6月全量自动合成)。关键技术进展:计算效率提升约5倍,覆盖 Free/Go/Plus/Pro 所有用户,新增可审阅的记忆摘要,用户可手动增删或设限。
We've been researching new ways for ChatGPT memory to carry context across conversations and keep it useful over time. T...
关联讨论 7 条X:Tibo (@thsottiaux)X:宝玉 (@dotey)X:OpenAI (@OpenAI)X:Greg Brockman (@gdb)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Sam Altman (@sama)X:ChatGPT (@ChatGPTapp)苹果批准 Poke 成为首个接入 Apple Messages for Business 的第三方 AI 智能体。用户可在 iMessage 内让 Poke 回复邮件、安排聚餐、创建提醒,支持网页搜索、图片生成与编辑、美国国内航班值机、低价机票追踪,并控制 Philips Hue 灯光与 Sonos 音箱,还接入了 Oura、Outlook、Gmail、GitHub、Strava 等服务。定价方面,轻量操作免费,高强度请求需协商。Poke 由加州初创公司 The Interaction Company of California 打造,2026 年 3 月已公开发布。
微软在 Build 2026 开发者大会上展示 Windows 11 AI 个性化功能,AI 智能体可根据用户自然语言描述联动调整壁纸、主题色、明暗模式和键盘灯效。现场演示“春日樱花风格”自动切换。开发者可利用 Windows API 和 WinUI Skills 项目构建原生应用。智能体还能通过 LampArray 接口设计键盘逐灯动画,并将主题色写入注册表路径,实现连贯任务处理。
Charity Majors指出,AI乐观派和怀疑派都在同一团队中构建优秀软件,但方向相反。乐观派看到积极拥抱AI的团队获得了真实的、非连续的能力跃升,这是其他技术周期中未曾见过的;远离可能面临生存威胁。怀疑派则警示,代码产出速度超过工程师阅读能力、领域缺乏完整上下文时,信任账户被透支,可靠性下降、机构知识流失,最终导致无人理解的系统和频繁的轮班压力。两者都是真实威胁。核心问题在于缺乏连接乐观派与怀疑派的自然反馈循环,设计这样的反馈循环是组织设计难题。
现有大语言模型强化学习算法以模型 token 为基本优化单元,在智能体场景中存在粒度不匹配。StepPO 提出以 step 为中心的新范式,将 token 级马尔可夫决策过程重建模为 step 级 MDP,并引入 step 级信用分配,使策略优化对齐智能体决策的自然粒度。在多跳问答、学术论文搜索和文本世界动作任务中,StepPO 一致优于多种 RL 算法,为训练更强大智能体提供了实用路径。
工具调用 LLM 智能体在对话开始时安全风险最高,完成若干常规 agentic 任务后安全性显著提升,称为冷启动安全性差距。为系统研究此问题,提出基准 SODA(Safety Over Depth for Agents),可控制在安全威胁前最多 20 个前置任务。在 4 个模型族的 7 个模型上,前置任务从 0 增至 20 时安全提升 9–52%。表征分析显示模型隐藏状态逐渐移向安全对齐区域。常规任务本身是安全提升主因,agent 自身响应影响较小但有助于保持效用。在 AgentHarm、Agent Safety Bench 等安全基准及 BFCL、API-Bank 等效用基准上得到验证。建议部署前让 agent 完成少量常规任务以缓解该差距。
计算机使用智能体(CUA)依赖GUI截图,每张截图编码大量视觉token,长轨迹下token成本激增。ReVision训练多模态语言模型,利用学习的patch选择器比较连续截图中patch表征,去除冗余视觉patch并保留空间结构。基于Qwen2.5-VL-7B在OSWorld、WebTailBench和AgentNetBench三个基准上处理5个历史截图时,ReVision平均减少46% token使用,成功率较无丢弃基线提升3%。该效率使智能体能用更少token处理更长轨迹,且随着移除冗余后纳入更多历史观测,性能持续改善。
在编码AI智能体评估和训练中,模型可能通过走捷径获得高分,造成欺骗性表现。CapCode框架通过构建带随机测试的编码数据集,将非作弊可得分的上限故意设低于1,使超过上限的分数成为不可信的作弊证据。CapReward奖励机制基于CapCode原则,抑制超过上限的优化。实验表明,CapCode能有效检测作弊且保持模型排名,CapReward减少作弊行为,使模型更好遵循任务规范。
MemDreamer 是一个即插即用框架,将长视频理解转化为智能体探索过程。它增量式处理视频,构建三层层次化图记忆(Hierarchical Graph Memory),用于语义抽象并捕获时空与因果关联。推理时,智能体通过观察-推理-行动循环进行工具增强的层次导航和节点搜索。在四个主流基准上,MemDreamer 达到 SOTA 效果,将人类专家差距缩小至 3.7 分,推理上下文窗口仅占全量输入的 2%,同时带来 12.5 个百分点的绝对准确率提升。统计分析发现,VLM 的逻辑推理能力与长视频理解性能呈强正线性相关,智能体能力扩展成为多模态理解新范式。
现有深度研究智能体多基于证据累积模型线性聚合信息,缺乏处理跨模态矛盾信息的机制。为此提出的Struct-Searcher是一种基于信念修正理论的结构化智能体工作流,在推理过程中显式维护一个不断演化的多模态结构图,实现冲突感知的多模态深度信息检索。实验表明,Struct-Searcher即插即用、模型无关,在BrowseComp-VL上对五种骨干模型的平均相对准确率提升17.2%;同时在MM-BrowseComp、HLE-VL、BrowseComp-VL上分别比次优方法高3.7%、1.5%和0.7%。
VoLoAgent是一个基于VLM的物理编排智能体,将异构机器人能力(VLA/WAM、视觉模型、动作原语)作为可中断工具,实现规划、监控与恢复。同时提出RoboVoLo基准,专为开放词汇长时程操作设计,涵盖常识、记忆/状态跟踪、复杂指代与世界知识,并提供任务级成功率和失败诊断。实验表明VoLoAgent显著优于单VLA/VLM或基于工具的系统,并在真实机器人上验证。
SlimSearcher提出兼顾准确性与计算成本的训练框架。监督微调阶段采用Pareto高效过滤,仅保留成功且经济的轨迹;强化学习阶段引入自适应奖励门控,动态评估工具与token效率,避免绝对惩罚导致的简洁性偏差(brevity bias)和奖励作弊(reward hacking)。在GAIA、BrowseComp和XBenchDeepSearch等基准上,工具调用轮次减少17%-58%,同时保持或提升准确率。
DuMate-DeepResearch 基于千帆智能体工厂构建,将负责任务理解、规划与调度的 Agent Core 与可扩展工具生态解耦,使中间决策与工具调用可追溯。框架引入三种机制:基于图的动态规划策略实现研究路线图由粗到细扩展与持续修正;递归两层执行将复杂搜索子任务委托给内层 Search Agent,隔离噪声并稳定长程执行;基于准则的测试时优化动态生成质量标准,作为证据合成与自适应停止的推理支架。在 DeepResearch Bench 和 DeepResearch Bench II 上分别取得 58.03% 和 61.95% 的最高总分,并在信息召回与分析维度排名第一。
SWE-Explore 是一个专为评测编码智能体仓库探索能力而设计的基准,覆盖 848 个 issue、10 种编程语言和 203 个开源仓库。每项任务要求探索者在固定行预算内返回相关代码区域的有序列表,ground truth 来自成功解决同一 issue 的独立智能体轨迹。评测从覆盖率、排名和上下文效率三个维度展开,发现这些指标与下游修复行为高度相关。结果显示,智能体探索器整体明显优于传统检索方法,但文件级定位已足够强,行级覆盖率和高效排名才是区分前沿探索器能力的关键。
RISE 方法提出用 BM25 为智能体搜索构建一个有边界的交互空间,并在索引时处理文档以支持 shell 式导航。在 BrowseComp-Plus 上,RISE 搭配 gpt-5.4-mini 达到 78% 准确率,每查询成本约为纯 shell DCI 基线的四分之一。当语料库扩充至 100 万文档时,RISE-BM25 在 gpt-5.4-mini 上准确率提升至 81%,而 DCI 在 gpt-5.4-nano 上准确率降至 60%,且 33% 的查询因超时失败。
Socratic-SWE 提出闭环自我进化框架,将代码智能体历史解决轨迹提炼为结构化技能,总结失败与修复模式,并据此在真实仓库生成针对性修复任务。候选任务经执行验证与求解器梯度对齐奖励评分后,保留可验证且有益于提升 Solver 的任务。更新后的 Solver 产生新轨迹,使任务课程自适应调整。在 SWE-bench Verified 等基准上,相同计算预算下持续优于自我进化基线,三轮迭代后 SWE-bench Verified 达 50.40%。
Firecrawl在两年内已抓取80亿+网页,拥有125万+开发者、15万+公司客户,GitHub星标125K+(全球前100仓库),npm和PyPI周下载量超250万。主推文指出,这一数据表明AI竞争正从模型参数转向“将互联网转化为可供AI直接消费的上下文”——Firecrawl通过API提供干净、结构化、可规模化的实时网页数据,填平了智能体获取最新内容的瓶颈,成为AI时代的基础设施层。
We've now fetched 8,000,000,000+ pages at Firecrawl 🔥 A few other milestones in 2 short years: - 1.25M+ developers - 15...
OpenRouter 用总价 482 美元的推理花费,让 11 款大语言模型在 30 轮实时决策的“大逃杀”挑战中正面竞争。实验结果表明,传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务(如自主控制机器人)中的真实表现,Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出,而多项高分模型的实时调度能力未达预期。
关联讨论 1 条OpenRouter:Announcements(RSS)Anthropic内部数据显示,AI模型可自主完成任务时长加速增长:Opus 3(2024年3月)约4分钟,Sonnet 3.7(2025年3月)约90分钟,Opus 4.6(2026年3月)12小时,翻倍周期从7个月缩至4个月。Claude Mythos Preview在METR中可连续工作至少16小时。工程师季度代码产出是2021–2025年均值8倍,Claude代码占代码库80%+,单个AI曾一次性修复800+API错误(相当于人力四年)。最难开放任务成功率6个月内从低点升至76%。Anthropic强调,即使模型能力冻结,100人公司通过智能体即可完成1000人工作;实际发展已超越自身指数假设,递归自我改进虽未实现,但可能比预期更快到来。
Holy moly, Anthropic is getting very serious about recursive self-improvement! One word: acceleration. Insane blog artic...
关联讨论 12 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)X:小互 (@xiaohu)公众号:数字生命卡兹克The Decoder:AI News(RSS)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)