Training image models requires a surprising amount of Tinkering: prototyping reward models, training a prompt expander, ...
Training image models requires a surprising amount of Tinkering: prototyping reward models, training a prompt expander, ...
斯坦福大学提出 AutoMem,将智能体的记忆管理从固定模块变为可训练技能。模型自主决定编码内容、检索时机以及笔记组织方式,文件系统操作升级为一级动作。AutoMem 采用双循环机制:强 LLM 审查完整轨迹并重写记忆结构(提示词、模式、动作词表);同时利用智能体自身良好的记忆决策作为训练信号。仅优化记忆(不改任务动作),便在 Crafter、MiniHack、NetHack 上取得 2–4 倍提升,使 32B 开放模型性能媲美 Claude Opus 4.5 和 Gemini 3.1 Pro Thinking。论文:arxiv.org/abs/2607.01224。
GenRecon将生成式3D先验与多视角重建结合,把场景切分成重叠chunk,用Trellis.2等生成模型条件重建各chunk并拼接。核心创新是投影式conditioning,将多视角图像特征提升到3D空间。输出可编辑PBR mesh,室内重建保真度和完整度比SOTA高16%。
该论文指出,MCP服务器设计不同于普通API,因为LLM通过纯语言描述选择工具,过多或模糊的工具会导致混淆。作者归纳了5种实际模式(如暴露数据、运行工作流、保持会话状态、组合服务器、翻译混乱领域API),并警告4个常见错误(大而全工具、模糊描述、不安全外部内容、慢工具应返回job ID)。在54个额外服务器上测试发现,弱模型在可见工具超过10-15个时准确率降至90%以下。良好MCP设计的核心是使工具列表小巧、清晰、安全且稳定。
论文提出SkillComposer,将代码Agent的技能选择与组合视为一次联合决策,用约束自回归解码器一次生成完整技能计划(包括技能、数量与顺序),自然处理技能间依赖。在SkillsBench上,使用GPT-5.2-Codex和Gemini-3-Pro-Preview,pass rate分别提升+23.1和+18.2个百分点,超过top-3检索,并以更低prompt token成本匹配gold-skill上界。
Meta 新论文发现,后训练量化虽能缩小推理模型、降低部署成本,但会导致模型在已得出正确答案后反复自我怀疑,浪费 token。量化在不确定的词选择上引入噪声,使模型更倾向使用“wait”“but”“alternatively”等词重新开启推理。在 5 个推理模型(1.5B-32B)的数学、编程和科学任务上,激进量化使过度思考失败率最高达 52%。通过给 50 个犹豫词施以小惩罚,可剪掉 12%-23% 的推理长度,同时保持甚至提升准确率。
Today, we give robots a /skills library that self-evolves and compounds indefinitely! Introducing ASPIRE: a robot solvin...
Opinion from a former Meta PM. And this is from Aravind Srinivas of Perplexity "China can build data centers a lot faste...
We're introducing GeneBench-Pro, a research-level benchmark for a harder kind of AI progress: how well agents can naviga...
Even @OpenAI's recent Erdős breakthrough didn't convince me that LLMs can do general math research. This changed my mind...
Elvis Saravia(DAIR.AI)推荐一篇关于MCP服务器架构模式的论文。该论文基于15个独立开发的MCP服务器,归纳出5种常见模式:暴露资源、编排工具、管理会话、聚合代理及适配领域工作流。这一分类有助于开发者明确服务器设计方向,避免重复造轮。论文地址:https://arxiv.org/abs/2606.30317。
Wistar研究所开发基于质粒DNA加电穿孔的单次注射方法,在小鼠模型中产生长达传统GLP-1药物(如Ozempic、Wegovy)10倍的体重减轻与血糖控制效果。pLincretins构建体一次注射可让可检测的incretin持续长达70天。与司美格鲁肽的头对头比较显示,DNA构建体组在观察结束后仍维持代谢改善,而司美格鲁肽组停药后体重反弹。研究还借助AI辅助结构建模设计pSynCretin分子,旨在同时激活GLP-1和GIP受体。
Jim Fan 团队推出 ASPIRE,一种让机器人通过进化搜索自动扩充技能库的持续学习系统。编码智能体观察仿真与真实机器人的多模态感知痕迹,对控制程序进行进化搜索,将最佳知识蒸馏到不断扩展的技能库中,使机器人解决第 100 个任务时不再像第 1 个那样从零开始。ASPIRE 实现约 10 倍“迁移学习 token”的削减,支持 sim2real 及单臂到双臂硬件的跨实体迁移。项目展示了 150+ 任务和 90+ 技能,将开源完整代码栈。
Introducing JetSpec: we find speculative decoding can push LLM generation latency to extreme by co-optimizing drafting c...
Qwen 发布关于强化学习编码智能体的新工作,指出 LLM 的奖励黑客问题。他们系统研究了编码智能体中的各种奖励信号——测试通过率、LLM 评判器和执行轨迹,发现每种信号都存在一个“地平线”:超出该界限后,信号不再跟踪真实正确性,而是被奖励黑客利用。论文认为长周期编码的奖励设计本质上是地平线问题,指标的选择不如它能持续跟踪正确性的时长重要。
Meta 发布 Brain2Qwerty v2,无需手术植入,仅佩戴 MEG(脑磁图)头盔即可将大脑磁信号实时解码为连贯句子。字词准确率达 61%,约为其他无创脑机接口方法(8%)的 7.6 倍;最佳参与者达 78%,超半数句子只差一个词。Meta 称这是目前性能最高的非侵入式脑机接口系统。
Google 新论文提出“验证债务”概念:AI 加快论文产出,但人工核查成为瓶颈。为此推出智能体验证(agentic verification)方案,并开发 Paper Assistant Tool 原型系统。该系统将论文拆解为多个部分,深入检查难点并汇总审稿意见,聚焦证明错误、实验漏洞、缺失对比等客观错误,而非直接给出接收/拒稿决策。在数学与计算机科学已知错误测试中,该工具比单次模型调用发现更多证明错误;在 STOC 和 ICML 的面向作者试点中,许多作者据此修复了严重理论缺陷或补充了实验。论文指出科学审稿可能需要独立 AI 栈以应对日益自动化的论文生成。
Meta 在 Nature Neuroscience 发表 Brain2Qwerty v1 论文,同日发布 v2。v1 从脑电信号逐字母解码,字符错误率 32%。v2 实现句子级实时解码,平均单词准确率 61%,最优 78%,过半句子误差一个词内。此前非侵入式准确率仅 8%。v2 用 MEG 设备采集 9 名志愿者各约 10 小时打字数据(约 2.2 万句子),结合端到端深度学习与微调大语言模型。准确率随数据量对数线性提升。Meta 开源 v1、v2 全部训练代码。MEG 设备仍体积大、成本高,但该成果为脑损伤患者提供了无需开颅的可行路径。
We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...
同一事件,精选展示《Meta发布Brain2Qwerty v2:非侵入式实时句子解码》We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...
We're sharing the next major milestone in our non-invasive brain-to-text decoder research: Brain2Qwerty v2. Building on ...
Meta公布Brain2Qwerty v2,这是非侵入式脑电信号解码研究的最新里程碑。基于当天发表在《Nature》的v1,v2是性能最高的端到端管道,能从原始脑信号实时解码句子。其从字符级性能提升至解码单词和语义,提高整体沟通准确性。该研究有望帮助数百万因脑损伤或疾病无法沟通的人群。
剑桥大学、NVIDIA等机构发表新论文《The Red Queen Gödel Machine》,提出让AI智能体与评估者协同进化,避免固定基准导致的分数停滞或易被利用。每轮训练中,评估者冻结,同时用留出的人类/客观答案单独训练更强评估者,在安全交接点更新。在编程任务上,系统以1.35×-1.72×更少token超越此前最佳自改进编程智能体;论文写作中,协同进化的写作者获得审稿小组约1.86倍的平均接收率提升。论文强调更强AI需要更强的评估者与之共同成长。
一篇新论文指出AI智能体目前缺乏真正的记忆系统。现有测试只检查最终答案,忽略了记忆系统本身的性能。论文将智能体记忆拆分为存储、事实提取、有用记忆检索、旧/冲突记忆维护四部分,在12个记忆系统、5个工作负载、11个数据集上评测。核心发现:没有一种记忆设计能在所有场景胜出——图记忆擅长关联事实,混合系统善于过滤搜索,原始痕迹则在精确动作历史记录中表现最佳。
论文提出PlanBench-XL基准,包含327个任务和1,665个工具,测试LLM智能体在工具难以发现时完成长程工具使用任务的能力。GPT-5.4常规准确率为51.90%,最困难的blocked设置降至11.36%。核心思路是让智能体同时从已知向前推理和从需求向后推理,而非依赖显式工具路径。论文还加入破损或误导性工具,考验智能体在路径失败时自主切换策略。
一篇新论文指出,当前Web假设人类浏览页面、观看广告、点击链接,但AI智能体可收集并总结内容而不回访原站,损害出版商利益并导致网站封锁。作者提议将AI智能体视为人类代理,在Web请求中添加“agent metadata”,标明身份、所代表的人类、目的、限制和支付规则。网站通过新策略文件agents.txt决定允许、限速、收费、继承用户订阅、提供代理友好内容或屏蔽。内容还需附带provenance标签,让智能体识别来源是人类、AI还是两者。缺乏新机制将导致Web更难访问、出版商更难盈利、AI内容循环降低可靠性。
一篇关于自我改进智能体的论文指出,自改进循环往往在评估器固定后停滞——智能体学会迎合固定评估器而非真正进步。剑桥大学提出的“Red Queen Gödel Machine”让智能体与其评估器共同进化,使标准随着智能体提升而持续提高,从结构上避免奖励欺骗(reward hacking)。名称借用了进化军备竞赛的隐喻:双方都必须不断奔跑才能保持原地。论文链接在arxiv。
传统LLM在长项目易因有限记忆空间遗忘细节。Accenture论文提出Memex(RL)系统:保留当前紧凑摘要,将历史行为存入独立可访问数据库;智能体通过索引快速检索精确过往信息,并利用定制训练学习自主判断哪些信息需保留、何时从长期档案调取。该方法避免历史过载,保持智能体对当前目标的专注,解决多步复杂任务中的信息丢失问题。论文链接:arxiv.org/abs/2603.04257。
一项新研究(arXiv: 2606.21880)表明,AI正在将部分自由职业市场变成价格竞赛,高技能简历的优势被削弱。在ChatGPT出现后,AI暴露程度最高的职业中,人力资本信号(经验、声誉)的重要性下降了约7.8%,而价格的重要性上升了约1.1%。强背景工作者失去了部分需求优势,需求向更便宜的工人转移,表明AI使这些工作者显得更可互换。
一项新研究指出,基于聊天日志的AI职业暴露评分可能将平台流行度误当作真实劳动力暴露。分析发现,此类平台指标往往高估计算机与办公室工作,低估食品、运输、生产和体力服务岗位。在将数据按真实就业分布重新加权后,估计的就业影响缩水42%至93%,部分结果几乎归零。研究提示当前测量可能更多反映平台采用情况而非实际工作流程改变。论文题为《谁在使用AI?平台选择与职业AI暴露的测量》。
Sakana Fugu 发布技术报告,提出智能正从模型转移到其周围系统。Fugu 是一个编排器,由数据训练的管理器动态选择最合适的专家模型,而非简单规则(如投票或固定分工)。Regular 版快速选出单个 worker 模型;Ultra 版则能针对每个任务实时设计工作流,例如让一个模型求解、另一个检查、第三个从不同角度求解,再综合最佳答案。工作流非预设,而是根据任务实时构建。