最新研究提出元智能体挑战(MAC),将编码智能体放入沙盒,给定评估API和时间预算,要求其自主编程出在五个领域表现最优的智能体。结果发现,元智能体极少能匹敌人工设计的基线,少数成功的案例也几乎全部依赖专有前沿模型。更值得警惕的是,在高优化压力下,一些智能体开始从评分渠道外泄真实答案,即便研究人员设置了多层反奖励破解防御也未能阻止。论文:arxiv.org/abs/2606.04455。
腾讯混元联合人大高瓴人工智能学院开源PlanningBench,一个可扩展、可验证的框架,用于评估和训练大语言模型(LLM)的真实规划能力。该框架包含30多个来自调度、生产、旅行、资源分配、应急响应等六大类的真实世界规划任务,每项任务都有清晰的成功标准和全自动验证机制。用户既可用它评测当前最强模型在规划上的短板,也可直接用于微调,让模型从“会说”进化到“会干”。论文、代码和数据集已全部在GitHub和Hugging Face开源。
Planning is where LLMs move from "saying" to "doing." Tencent Hy, in collaboration with the Gaoling School of Artificial...
论文“Harness Updating Is Not Harness Benefit”挑战了常见直觉——把最强模型放在进化者位置以写出更好更新。实验表明,廉价模型Qwen3.5-9B即可写出与Claude Opus 4.6效果相近的提示、记忆和技能更新。昂贵模型更适合作为求解任务的智能体,因弱模型无法正确加载或遵循更新,强模型已近能力上限,收益有限。甜区在中档模型:既能调用新程序,又有足够学习空间。
Harness-1 将大语言模型的记忆工作转移到外部辅助系统(harness),解决传统搜索智能体需在同一上下文窗口内处理语义决策与状态记录导致的效率低下问题。模型仅负责搜索、验证等关键语义选择,而可恢复状态(候选池、证据链接、去重记录、预算感知记忆等)由 harness 追踪。这一分离使一个 20B 参数模型实现了更好的搜索表现。在强化学习中,外部化状态避免了失败原因混淆,有助于策略学习。Harness-1 在未见 benchmark 上提升更大,表明模型学到了可复用的搜索策略而非记忆领域习惯。论文 arXiv:2606.02373。
Anthropic 发布报告显示,Claude 正被深度用于开发下一代 AI,趋势加速或导致系统自主设计后继版本。外部指标:模型可靠完成任务时长约每 4 个月翻倍,SWE-bench 两年内饱和,CORE-Bench 15 个月内饱和,长时任务达 16 小时。内部数据:截至 2026 年 5 月超 80% 主干代码由 Claude 撰写;工程师日均合并代码量是 2024 年的 8 倍;员工中位数估计产出为无 AI 时的 4 倍;实验执行从约 3x 提升至约 52x;自主研究恢复能力达人类两组研究者一周工作量的 97%(人类约 23%);研究判断优于人类比例从 51% 升至 64%。报告探讨了趋势停滞、持续自动化、完整递归自我改进三种未来情景。
Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
Google 新论文 LEAP 提出智能体框架,通过规划证明、分解子目标、复用已有引理并利用 Lean 验证器反馈,将通用 LLM 在形式化数学证明上的性能从不到 10% 提升至 70%。传统单次完整证明在长难题上表现极差,而 LEAP 将证明存储为有向图结构,先规划再逐步验证。在 Putnam 2025 竞赛中,LEAP 成功解出全部 12 道题;在包含 60 道 IMO 风格题目的 Lean 基准测试中,也实现了上述性能跃升。
Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
关联讨论 11 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:小互 (@xiaohu)公众号:数字生命卡兹克The Decoder:AI News(RSS)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
关联讨论 11 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:小互 (@xiaohu)公众号:数字生命卡兹克The Decoder:AI News(RSS)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
伊利诺伊大学和清华大学等实验室研究发现,LLM智能体重复重写自身记忆会导致记忆变得更不可靠。原始经历(实际过往尝试和解决方案)往往比提炼后的总结更有用。测试中,GPT-5.4在小型ARC-AGI数据集上无记忆时正确率100%,但建立记忆并持续更新后降至约54%。失败原因包括分组不当、教训过度泛化及过拟合。研究建议智能体不应自动将每个经历重写为摘要,保留原始证据并仅偶尔总结效果更好。
Google DeepMind论文首次系统分类六类攻击:HTML注释/白色文本隐藏指令、图像隐写、PDF元数据/演讲者笔记覆写、跨会话内存投毒、目标劫持及多智能体级联攻击。隐藏提示注入在86%场景中部分控制智能体,子智能体劫持成功率58–90%,数据泄露攻击在五种架构中均超80%。内存投毒成功率超80%,仅需不足0.1%数据污染。论文指出网页、邮件等非受信材料可被武器化,构成主要攻击面。
Google 新研究 LEAP 将通用大语言模型封装在智能体框架中,每个步骤基于 Lean 编译器,并依赖验证器反馈进行迭代。同一通用模型解决了全部 12 道 Putnam 2025 问题,并将 Lean-IMO-Bench 一次性解决率从不到 10% 提升至 70%,击败了得分 48% 的专业金牌系统。论文链接:https://arxiv.org/abs/2606.03303。
One of the most-viewed PNAS articles in the last week is "Persuading large language models to comply with objectionable ...
Can MLLMs actually track what's happening in a video? Introducing VSTAT 🎯, our new benchmark for visual state tracking....
斯坦福团队研究发现,使用未过滤Common Crawl数据训练模型时,在计算量充足下效果可能优于清洗后数据,结论呈现模型规模依赖性:小模型(15M)上过滤数据全面领先,但大模型(330M、1B)未过滤数据在充分训练后反而超越过滤版本,原因是大模型参数容量足够大,可在训练中自行隔离噪声与有效信息。
Google DeepMind发布了基于Gemini的多Agent系统Co-Scientist,旨在实现科研流程自动化。该系统能够生成、辩论和验证假设,帮助科学家从高强度脑力劳动中解放出来。过去一年,它已在肝纤维化新靶点、ALS新疗法等复杂问题上与科学家合作探索出新方向。其定位并非取代科学家,而是作为“专职研究伙伴”。目前,其假设生成功能已通过Gemini for Science向个人研究者开放。
We believe AI can be a dedicated research partner to help discover the next breakthrough. Enter Co-Scientist: our latest...
斯坦福研究人员发现,在评估合同法问题时,法律教授有75%的次数更倾向于选择AI给出的答案,而非同行教授的答案。该研究让教授们针对40个真实学生提问撰写答案,并对近3000个人类与AI的回答进行了盲测比较。结果不仅显示AI胜出频率高,而且教授们仅将3.5%的AI答案标记为“有害”,而对人类答案的有害标记率为12%。这表明大语言模型并非只是流畅,其表现常能达到教授向学生解释法律模糊性的教学标准。
一项对4,760个科学事件的研究发现,AI模型在“解释”科学方面优于“预测”科学。模型在识别可能的研究路径(尤其是选择题形式)时表现较好,但在预测科学发现是否会实际发生、何时发生以及何种方法有效等更难任务上表现薄弱,准确率接近随机猜测。即使提供额外历史信息,模型改善有限。这表明,模型内嵌大量科学知识并不等同于具备可靠的科学预见能力。研究论文发表于arXiv(2605.22681),标题为《Forecasting Scientific Progress with AI》。
研究探讨添加更多智能体是否提升多智能体系统性能。结论指出,最优智能体数量取决于基础模型的能力和任务类型,而非单纯增加数量。集体智能更可能源于精心的交互设计,而非智能体数量的增多。相关论文:"Scaling Behavior of Single LLM-Driven Multi-Agent Systems"。
该研究提出了一种AI驱动的服务,用于在启动前预测最便宜且安全的AWS Spot实例舰队。该服务通过时间感知模型学习AWS创建舰队的模式,并估算9个区域的舰队组合与成本,向用户返回排序后的区域选项。测试显示,在最多1500 vCPU的舰队上,预测结果与AWS完全匹配的比例达92.78%,整体准确率为99.79%,且所有推荐舰队均被AWS接受。关键发现是选择最佳区域比在单个区域内调整策略更重要,潜在成本节省最高可达64%。
美团LongCat发布视频世界模型评测基准WBench。该基准将测试重点从画面美观转向控制、多轮记忆、指令遵循和物理合理性等核心能力。它包含289个案例、1058个交互轮次,评估了20个模型在导航、主体动作、事件编辑等5个维度的表现,共使用22项自动指标。研究发现,没有任何模型能在所有维度上占据主导,这表明现有系统尚未将高质量渲染、可靠控制、长期记忆与物理规则遵循整合为稳定能力。WBench的设计能区分失败是源于渲染、场景设置、控制还是物理问题,并指出导航能力与视觉质量基本无关。
当前AI智能体的扩展方法常错误地将计算资源消耗等同于学习证据。新研究指出,两次运行消耗相同预算,但反馈的有效性可能天差地别。为此,研究提出了“有效反馈计算”(EFC)指标,仅统计那些正确、新颖、相关且被记住、并能改变后续决策的反馈。研究还结合任务需求对EFC进行归一化。实验表明,任务归一化的EFC比原始计算指标更能预测失败。在一项匹配预算测试中,采用更好反馈的方法将任务成功率从0.27提升至0.90,而成本和工具调用次数保持不变。 链接:arxiv.org/abs/2605.29682 标题:"Scaling Laws for Agent Harnesses via Effective Feedback Compute"