Elvis Saravia 推荐一篇试图明确“智能体”定义的论文。Eric Xing 及其同事从哲学与科幻视角出发,分析智能体架构的五维度:目标、身份、决策、自我调节和学习。论文指出,真正“智体性”需这些维度以特定方式组合,从而区分自动化与智能体。论文地址:arxiv.org/abs/2606.23991。
Elvis Saravia 推荐一篇试图明确“智能体”定义的论文。Eric Xing 及其同事从哲学与科幻视角出发,分析智能体架构的五维度:目标、身份、决策、自我调节和学习。论文指出,真正“智体性”需这些维度以特定方式组合,从而区分自动化与智能体。论文地址:arxiv.org/abs/2606.23991。
面壁智能 OpenBMB 联合清华NLP、哈工大、东北大学提出元认知框架 Know More, Know Clearer,应对 LLM 因认知错位导致的幻觉。框架包含三项:结构性衰减定律(准确率随不确定性指数衰减);Know More(CGKE)将知识空间分为掌握/混淆/缺失三区针对性增强;Know Clearer(CDKC)基于 GRPO 对齐置信度,使平均 ECE 从 60.41 降至 24.34。在 11 个 QA 基准上,CDKC 将 Llama-3.1-8B 从 30.91% 提升至 55.50%(+24.59 点),Qwen2.5-7B 从 25.76% 提升至 48.29%(+22.53 点)。自知识基准上 CBS 达 73.43%、CAE 达 68.18%,正确决策率 63.37%,边界识别 79.07%,达到最佳平衡。
Should FP4 training still default to E2M1?🤔 With fine-grained scaling + RHT, the bottleneck may shift from dynamic rang...
微软新论文Next-Latent Prediction (NextLat) 提出一种自监督学习方法,在常规token预测基础上增加预测下一隐藏状态的任务,迫使Transformer学习紧凑的内部世界模型。该方法在地图式世界建模、数学推理、图规划、故事预测等任务上表现更优,生成速度通过自推测解码最高提升3.3x,且无需改变Transformer架构或减慢正常推理。
Next-token prediction is myopic. What if transformers learn to predict their own next latent state? 🌠 We present Next-L...
该论文提出“热力学智能”概念,将智能定义为通过信息与控制显著提高罕见有效结果概率的能力。现有评测仅关注任务成功率,而论文指出大脑、大语言模型、控制器等智能体的共同点:系统将自身纳入世界模型,并基于模型选择行动以改变未来概率。有效未来需满足在被动行为下罕见且仍有效。作者提出“罕见有效提升”度量,衡量系统比被动基线更频繁产生此类未来的倍数。高提升取决于系统能否准确识别罕见有效未来。核心论点:智能是物理层面的概率转移过程,而非测试分数或类人行为标签。
该报告针对LLM多智能体系统的通信瓶颈,构建了五维分类法(对方、有效载荷、交互状态、发现机制、模式灵活性),系统梳理了9个积极维护的开源智能体协议,覆盖MCP和A2A的实际格局。报告发现两个突出模式:每个智能体间协议都采用混合有效载荷与会话状态持久化组合,而去中心化发现机制仍极为罕见。领域正悄然标准化有状态会话,但发现与策略执行层仍留白。该报告为今年选择通信层时提供了九大协议的真实对比参考。
TMax 是面向终端任务的开源 RL 配方,基于 Qwen 3.5 较小密集模型,在默认设置和 65k token 预算下超越此前开源工作。训练需 8 节点 H100(2 训练+6 推理)运行 2-3 天,配方经约 100 次训练才稳定。发布模型权重、数据及训练 rollouts。配方工作强调从零获得初始基线成本高昂(1 万至百万美元),需要明确决策阶梯和稳定性改进。
Trained some terminal agents with friends! Introducing Tmax, open RL terminal agent models. Under default settings and s...
Rohan Paul引用新论文指出,尽管LLM智能体有时能通过交互发现隐藏结构,但其推断世界模型的能力存在根本局限:随着隐藏世界复杂度增加,AI智能体的表现迅速落后,难以将积累的反馈转化为稳定的内部模型,尤其在提问规划、记忆利用和反馈整合方面表现薄弱。结论是,在复杂环境中,LLM智能体建立可靠心智模型的速度跟不上难度增长。
皮尤研究中心最新报告显示,仅16%美国成年人预期AI在未来20年帮助社会,40%预期伤害。24%每天使用聊天机器人,51%从未使用。聊天机器人首要用途是搜索信息(42%),38%上班族用于工作,10%用于情感支持,4%用于陪伴。ChatGPT使用率最高(44%),其次Gemini(24%)、Copilot(17%)、Meta AI(14%)、Grok(8%)、Claude(6%)、Character.ai(3%)。30%称聊天机器人提升生产力,28%认为帮助了解信息。60%成年人阅读AI搜索摘要,表明AI正影响信息摄入。
论文《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法:将人类判断前置到可复用评估资产中,专家在上游策划评估智慧,而非在测试循环中逐一审查输出。现有方法各有局限:Benchmark测量固定能力,人工审核不具可扩展性,LLM-as-Judge存在评估器设计问题,红队测试偶发,trace审计需明确证据规则。AI智能体需作为行为系统评估,因其多轮推理、调用工具、维护上下文、遵循策略并在不确定性下行动。
微软与约克大学新论文指出,许多研究在未经严格测试的情况下就将理解、共情、焦虑等人类属性赋予LLM,往往一开始就把这些概念内嵌到测试设计中。作者论证,原则上老策略游戏《帝国时代II》也能实现逻辑门、训练小型感知机,作为计算基底。若同样的语言模型以山羊移动作为bit在游戏中重建,输出相似句子,人们将不再认为它“理解”或“有共情”。论文并非否定AI认知,而是揭示测量问题:许多关于LLM类人属性的声称依赖于界面和观察者的预设,而不是系统本身。
关键要点:OpenAI昨日为Codex推出了从交互中打包技能的类似功能;论文提出三阶段流水线(GUI轨迹分割→聚类候选技能→训练技能感知策略)。聚类纯度优异(5/8簇达0.95以上),但可读性未迁移:GRPO仅将技能步骤准确率从18.5%提至20.5%,在BrowseComp+上无改善,甚至输给简单频率先验。作者指出三个缺陷:弱边界检测器、无序片段表示、离线奖励模型。
该论文指出,通用智能体不能仅依赖当前观测,必须记住隐藏环境规则。当两个隐藏域在相同可见状态下要求相反动作时,仅凭观察无法区分当前场景。作者证明,要在两个域都表现良好的智能体,必须为不同域维持不同的内部记忆状态。核心结论:好的通用智能体不是对当前所见做出反应,而是必须携带来自先前经验的隐藏上下文。
OpenAI 最新研究显示,在真实人类情境中进行强化学习(RL)训练,可使模型将安全、有用行为迁移到未训练的任务。关键发现是跨领域迁移:仅用健康数据训练,模型在抵制敲诈、代码奖励黑客和欺骗测试等非健康行为上也得到改善。模型可能学到通用行为习惯——先核实再断言、被纠正时让步、不奉承用户、避免看似有用实则破坏任务的捷径。即使训练数据中移除健康与科学内容,模型在健康评估上仍表现更好。训练后的模型更难被引导向有害行为,同时保持对有益指令的响应,实现了安全研究期待的非对称性。OpenAI 表示,希望模型在承担更长、更高风险任务时,能将有益安全行为带入新领域并在压力下保持。
As AI takes on longer, higher-stakes tasks, we want models to carry beneficial and safe behavior into new domains beyond...
Announcing AA-Briefcase, the benchmark for the next era of agentic knowledge work AA-Briefcase is our new benchmark for ...
Jeff Dean 等 Google 同事发布论文,回顾 TPU v2 到 Ironwood 五代训练超算的演进,将于 2026 年 7/8 月发表于 IEEE Micro。关键变化:TPU v2 采用气冷,v3 起改为水冷;互联从 2D 升级为 3D torus;每 pod 芯片数从 256 增至 9216;每 flop 能效提升约 30 倍。此外,Google 内部工作负载已大幅转向基于 Transformer 的模型。
Anthropic 在 Project Fetch 第二阶段展示 Claude Opus 4.7 独立编程机器狗。Opus 4.7 用 12 分 7 秒完成 5 项任务,约为去年人类团队(借助 Opus 4.1)耗时 264 分钟的 20 倍,代码量从 10,309 行降至 1,045 行。速度提升源于快速选择正确接口并写出无需人类试错的脚本。但机器狗仍未能取球,失败原因在于闭环控制——机器人需根据飘移的球实时调整动作。AI 擅长将杂乱硬件转为可运行代码,但实时物理判断仍具挑战。
New Frontier Red Team blog: Phase 2 of Project Fetch, where we test how well Claude can program a robodog. Opus 4.7, on ...
Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...
Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...
Introducing LifeSciBench, a benchmark for measuring and improving how well AI supports real-world life science research....
传统LLM智能体技能路由仅从工具库选取单一技能,难以应对多技能组合的真实任务。本文形式化定义“组合式技能路由”,将复杂查询分解为原子子任务,为每个子任务检索对应技能并组合成可执行计划。系统SkillWeaver由LLM分解器、双编码器FAISS检索器和依赖感知DAG规划器构成。同时发布CompSkillBench基准,含300个组合查询和2,209个真实技能,直接评估多技能路由能力。DAG规划器将检索技能转化为有序、尊重依赖关系的计划。
🚀 Our new blog: Optimizing Ling-2.6-1T on TPU with SGLang-JAX: Hiding MoE Data Movement Behind Compute with One Pallas ...
论文《LoopCoder-v2》质疑“测试时计算越多越好”的观点。作者提出Parallel Loop Transformer架构,使循环可并行运行并共享内存。他们训练了7B参数的代码模型(1/2/3/4次循环),在18T tokens上预训练并微调,测试代码编写、推理、软件工程和工具使用任务。主要结果:2次循环效果最好,将SWE-bench Verified从43.0提升至64.4,而3次和4次循环性能下降。内部分析显示,第二次循环进行了有意义的精炼(改变隐藏状态、注意力模式和预测),后续循环则主要添加重复和噪声。结论:增加一次隐藏循环可大幅提升性能,但继续增加并非自动有益。
NVIDIA GEAR实验室推出ENPIRE系统,首次实现物理世界自主研究。系统让8个Codex智能体控制8台机器人,配备GPU和token预算。安全方面采用硬运动极限切断和扭矩受限夹爪两层硬件保障,支持通宵无人运行。奖励函数通过视觉分类器离线固定并冻结,防止智能体作弊。实时监测机器人利用率(MRU)、token利用率(MTU)和GPU利用率,以Tokens-to-Success和Time-to-Success评估效率。ENPIRE自主完成扎带、整理细针、安装GPU等高精度任务,发现8机器人并行探索显著更快。系统将开源。
Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fle...
斯坦福、加州大学与南京大学研究人员发布SEFD数据集与方法,将SEC EDGAR文件转换为布局忠实的MultiMarkdown格式,保留合并表头、缩进、符号、跨度和表格层级,同时压缩冗余呈现模板,使财务表格的结构与会计逻辑可被LLM直接利用。公开152B token快照,估计完整档案约550B token长文档。该数据集与Common Crawl衍生语料重叠不足0.1%。