ICML 2026论文揭示,长上下文大语言模型的性能并非随错误信息增加而线性下降,而是呈现“第一滴墨水”效应。研究发现,仅当上下文包含10%的高难度错误文本时,损害就已基本完成。例如,在一个128K-token的Qwen2.5设置中,这最初的10%错误文本造成了58%的性能损失。其机制在于softmax注意力机制会赋予与问题相近但错误的文本过高权重,仅这10%的高难度干扰文本就能贡献约97%的干扰压力。因此,过滤文档带来的提升可能主要源于缩短了有效上下文,而非移除“坏内容”。
🤖 We often talk about "context rot": LLMs get worse as context grows. But once distracting information enters, is it ju...
该提示词构建了一个以纳瓦尔·拉维康特思想为核心的财富创造操作系统。其核心是“财富 = 专属知识 × 杠杆 × 判断力 × 责任感”的公式,并明确了杠杆的优先级:代码、媒体、资本、劳动力。系统强调运用第一性原理、二阶思维、非对称回报(至少3:1)等框架进行决策,致力于识别个人专属知识并利用杠杆将其产品化。思维模式追求长期复利效应(如每天进步1%),要求以十年为单位进行思考与行动,最终实现资产构建而非单纯时间换金钱。
http://x.com/i/article/2057300084354670592
Gemini 3.5 Flash在速度与agent能力上实现进步,实测输出速度可达约280 output tokens/sec,在GDPVal-AA agent任务中ELO提升至约1650,相比Gemini 3 Flash有显著提升。但代价是成本增加约5倍,主要因token单价上涨(为Gemini 3.5 Flash的3倍)以及使用量更高。
数学家测试了 Claude Mythos 模型解决开放数十年的 Erdős 问题 #90。值得注意的是,Mythos 未复制 OpenAI 已知解法(题号 #1196),而是反复采用了另一条论证路径,被评价为更“简洁”且无“分析复杂性”,且整个过程与网络隔离。此前,GPT-5.5 已解决过多道 Erdős 问题,深度求索的 Nexus 模型解决了 9 道。此次 Mythos 给出了比现有解法更简洁的证明,凸显了一个 80 年难题在数周内被接连攻破的趋势。
over the weekend i checked the obvious thing, which is whether mythos is able to solve the erdos unit distance problem, ...
MiMo-V2.5 系列 API 永久降价,新定价最高降幅达 99%,不再区分上下文窗口长度,于北京时间 5 月 27 日 0 点生效。Token Plan 计费优化,用量提升至原来 5-8 倍,计费规则更清晰。百万亿 Token 创造者激励计划提前收官,100T Tokens 已全部发放。现有 Token Plan 用户额度于 5 月 27 日 0 点全量重置,按新规则执行。推理优化基于 SGLang HiCache 支持 SWA,KV Cache 搬运量降至近 1/7,可缓存 token 数量提升至近 5 倍。
摩尔线程 MTT S5000(基于 PH100 芯片)成为首款通过国家《安全可靠测评》的人工智能训练推理芯片。该芯片单卡 AI 算力(稠密)达 1000 TFLOPS,配备 80GB 显存(带宽 1.6TB/s),卡间互联带宽为 784GB/s。
MiniMax预览了其M3架构采用的新稀疏注意力(Sparse Attention)技术。测试显示,在1M token上下文下,该技术相比M2实现了9.7倍的预填充(prefilling)加速和15.6倍的解码(decoding)加速。M2曾为保证生产环境就绪而采用全注意力机制,M3则采用了新的两阶段方法:先用轻量级索引分支选择数据块,再仅对相关的KV块执行稀疏注意力。这是开源领域的新进展。
#MSA #OpenSource #M3 🫣😎
文章展望了截至2026年5月AI领域的动态。内容涉及 Gemini Flash 3.5 的发布、名为 Mythos 的新产品或项目、开源与闭源生态平衡(open-closed balance)的讨论、美国开源力量的显著增长(America's open-source surge),以及由此引发的新兴权力博弈(emerging power struggles)。
CMU与UMD的研究团队在论文《Language Models Need Sleep》(arXiv 2605.26099)中指出,传统Transformer模型在处理长任务时,因注意力机制计算复杂度高及KV cache显存占用持续增长而导致效率低下。为此,他们提出了受生物启发的“类睡眠巩固”机制:模型会周期性进入“睡眠”状态,离线多轮处理最近的上下文,并将信息固化到模型状态空间块的fast weights中,随后清空KV cache。实验表明,增加睡眠深度或时长能显著提升模型后续的推理能力。该框架完全开源,提供了一种区别于暴力堆显存的长上下文处理新范式。
very cool research (and nomenclature)
CMU与UMD的研究指出,当前长上下文大语言模型(如Mamba、Jet-Nemotron、Qwen3.5)的瓶颈并非记忆容量,而是“巩固计算”不足。论文《Language Models Need Sleep》提出,可模仿人类睡眠的海马回放机制,在清空前对模型的fast weights进行多次迭代更新(N次forward pass),以提升推理能力。实验表明,该机制在Rule 110元胞自动机及多跳图检索等任务上显著提升了模型性能,且不增加推理延迟。
研究者提出新方法,认为大语言模型在处理长上下文信息后,需要类似“睡眠”的巩固过程以提升多跳推理能力。该方法要求在清除KV cache前,让模型对当前context进行多次forward pass,将信息沉淀进模型的快速权重中,而非在用户等待时进行思考。实验表明,在相同token预算下,此方法可将多跳推理任务的准确率大幅提升52%,且推理延迟不变。
http://x.com/i/article/2059287655335206912
针对Transformer架构在处理长上下文时注意力机制效率低的问题,研究提出一种“睡眠式巩固机制”。该方法让模型定期将近期上下文转换为持久化的快速权重,并清空键值缓存。期间,模型通过N次离线循环处理累积上下文,并通过局部规则更新其状态空间模型块中的快速权重。这使得额外计算被转移至“睡眠”阶段,从而保持了推理的实时性。该方法在细胞自动机、多跳图检索等合成任务及一项数学推理任务(常规Transformer及SSM-Attention混合模型均失败)上进行了测试。结果表明,增加睡眠持续期N能提升性能,在需要更深层次推理的任务上增益最大。
硅谷AI芯片初创企业TetraMem完成22nm SoC MLX200在台积电制程上的芯片验证,评估套件预计2026H2推出。该芯片采用存内计算技术,通过模拟内存计算直接在内存中完成向量矩阵乘法,瞄准可穿戴设备、边缘IoT等低功耗低延迟应用场景。
当前AI智能体是反应式的,仅在用户提问后响应,浪费了交互间的空闲时间。为解决此问题,本文提出了ProAct主动式智能体架构,它能利用空闲时间,通过分析对话历史与持久记忆预测用户需求,并迭代地获取信息、准备证据,从而在用户提问前填补知识缺口。为评估该能力,研究者发布了包含200个场景的ProActEval基准。实验表明,相比反应式基线,ProAct将任务完成所需轮次减少14.8%,用户操作负担降低11.7%,并将模型幻觉率大幅降低28.1%,同时在MemBench上取得了最先进的反思准确率。
面壁智能联合清华大学、OpenBMB开源社区发布并开源MiniCPM5-1B,一款1B参数的端侧文本基座大模型。其在AA-Index榜单得分17.9分,超越所有2B以下参数模型,包括Qwen3.5-2B(16.3分),验证了智能密度约每3.5个月翻一番的密度定律。INT4量化后权重仅0.5GB,可运行于手机、浏览器等终端。Base Model由AI训练框架ForgeTrain(全球首个完全由AI编写,训练速度比Megatron快10%)在华为昇腾上预训练完成。模型全面开源权重、训练数据集Ultra-FineWeb-L3及部署方案,支持Llama_factory、SGLang、vLLM等主流框架。
针对多奖励强化学习中,传统标量化方法(如奖励组合与优势组合)导致的训练不稳定或依赖静态超参数问题,本文提出动态方差自适应优势优化(DVAO)。该方法根据每轮采样中各目标的经验奖励方差动态调整组合权重,强化学习信号强的目标并抑制噪声。文中证明DVAO能保持优势幅度有界以稳定训练,并引入自适应跨目标正则化机制。在Qwen3和Qwen2.5模型上的数学推理与工具使用基准测试显示,DVAO显著优于基线方法,在多目标帕累托前沿和训练稳定性上取得更优结果。
DEI是一个分布式质量-多样性(QD)搜索框架,将异构大语言模型分配为变异算子,通过非阻塞集体通信共享局部最优解。在Core War基准上,四节点异构集成(GPT-5.4-mini、Claude Sonnet 4.6、GPT-5.2、Claude Haiku 4.5)在相同LLM调用预算下,合并归档QD-Score达45.90(比单节点20.46高124%),覆盖率80.6%(比63.0%高28%),且优于同构集成。首次实证模型多样性而非并行性是分布式LLM-based QD搜索的关键。
跨视图空间推理是视觉语言模型的薄弱环节,因其依赖语言推理而损失几何精度。视觉思考通过生成中间思考图像来解决此问题,但模型常忽略这些视觉证据。研究提出View Dropout训练策略,通过隐藏部分输入视图的应答区域,同时保持思考图像token可见,来促使模型利用思考图像进行回答。研究将视觉思考建模为“可学习性-信息量”权衡,并测试了三种思考图像变体。在合成场景训练并在五个真实世界基准测试评估后,结果表明全景视觉思考结合View Dropout是唯一既具信息量又可学习的配置,实现了最佳跨域泛化。
针对智能体技能不可靠的问题,SkillGrad 提出了一种受梯度下降启发的优化框架。该框架将技能包视为可优化的结构化参数,利用任务执行产生的轨迹级损失证据生成基于文本的梯度,并通过动量智能体积累诊断模式以稳定优化。最终由基于大语言模型的修补器执行参数更新。在 SpreadsheetBench Verified 和 WikiTableQuestions 上的评估显示,SkillGrad 在两个骨干大语言模型上均优于基于训练的技能进化基线,平均性能提升6.7个百分点。消融实验验证了动量机制与对比诊断方法的有效性。
Together AI开源OSCAR,一种用于长上下文大语言模型服务的注意力感知2位KV缓存量化方法。该方法在离线状态下,从注意力感知的协方差结构中为键和值推导出独立的旋转。在2.28 bits per KV element的量化精度下,OSCAR将通义千问(Qwen3-4B-Thinking-2507)和通义千问(Qwen3-8B)的BF16精度差距分别缩小至3.78点和1.42点,同时实现约8倍的KV内存缩减,并在100K上下文长度下带来高达3倍的解码速度提升。
Google DeepMind 的 AlphaProof Nexus 自主解决了 9 个开放的 Erdős 问题,其中包括两个困扰数学界 56 年的难题。其推理成本低至每个问题仅需几百美元。系统通过 Lean 编译器验证每个证明步骤,而非使用 OpenAI 的自然语言方法。当前的整体问题解决成功率为 2.5%。
同一事件,精选展示《AlphaProof Nexus:用形式化验证驱动AI数学证明搜索》华为提出τ缩放定律,旨在不依赖更先进制程的情况下,通过LogicFolding技术折叠逻辑模块、缩短信号传输距离来提升芯片性能与密度。华为称已量产采用此思路的381颗芯片,并计划于2031年实现等效1.4nm(14Å)密度,该定律以海思负责人何庭波命名。同样,华为在存储领域也展示了类似的“侧向创新”路径,其通过改变封装方式(Die-on-Board)而非追求最先进的NAND层数,推出了容量达122.88TB的AI SSD。
🇨🇳 🇺🇸 China's Huawei's new 122TB SSD shows how export controls can move innovation sideways instead of simply stoppi...
华为何庭波在ISCAS 2026上提出“韬定律”,并介绍逻辑折叠(LogicFolding)技术。该技术通过三维空间拓扑重组提升芯片性能,不依赖新光刻工艺。在麒麟2026芯片测试中,晶体管密度从155 MTr/mm²提升至238 MTr/mm²,性能核心能效提高41%,最大时钟频率提升近13%。论文显示,麒麟2027芯片已进入Silicon状态,后续规划包括麒麟2028、2029。AI芯片方面,昇腾990计划在2030年左右引入逻辑折叠,硬件集成预计到2035年提高超过100倍。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)英特尔正在规划一款专用于边缘应用的特殊型号“Nova Lake”处理器,其核心配置为 8 个能效核 (8E) 搭配 12 个 Xe GPU 单元 (12Xe)。这种设计使 CPU 部分仅具备能效核,而 GPU 规模达到了 Nova Lake 家族中的最大级别,旨在强化图形与计算性能,以适配 SLM 本地推理等边缘 AI 应用场景。
面壁智能联合清华大学正式开源中国首个基于昇腾训练的1.58-bit端侧大模型BitCPM-CANN,实现6倍显存效率提升,可将60B参数大模型封装进手机等端侧设备。
I built a lightweight meeting notes assistant with Hermes + StepFun's Step Plan. Step Plan is a subscription-based AI se...
本文指出,在大语言模型后训练的可验证奖励强化学习中,学习信号的调度时机与分配位置同样重要。传统方法的信用分配标准在训练中保持固定,而本文引入时间维度,在优化过程中动态调整该标准。具体方法是优先优化展现特定策略行为的 token,并逐渐转向一般化优化,从而使学习过程更稳定高效。实验表明,这种时间调度方法在数学和通用推理基准上实现了持续改进,并能引导更健康的策略演进。
B³D-RWKV 是一种扩散 RWKV 变体,旨在统一因果大语言模型与离散扩散模型。它通过三元组块布局方法,将 RWKV 的 O(L) 线性推理效率与并行、双向的离散扩散过程相结合。该模型在 7.2B 参数规模下,在 8 项任务套件中达到了与现有模型相当的准确率,同时解码吞吐量显著优于基线,平均速度提升达 1.6 倍。
该研究评估了大型多模态模型(LMMs)在开放环境中发现物理可行视觉解决方案的能力。为此,推出了MM-CreativityBench基准,用于评估在视觉丰富、物理受限环境中的功能可供性扎根的创造性工具使用。实验表明,当前LMMs因无法维持扎根式探索而表现不佳,常忽略实体、检查不足或产生模型幻觉。为此,研究提出功能可供性扎根对齐方法,将创造性工具使用建模为偏好学习问题,利用DPO引导模型选择基于视觉证据的推理,并结合可供性知识库监督,以减少幻觉并提升实体与部件选择能力。
LLaVA-OneVision-2 是 LLaVA-OneVision 系列中能力最强的视觉语言模型。其核心是编解码流 tokenization 技术,通过分析压缩视频的比特成本动态进行自适应分组,并利用运动残差线索将关键空间信息压缩到紧凑的视觉画布中。模型采用共享的 3D RoPE 统一图像与视频的时空坐标,并在约 800 万重标注视频样本上预训练、400 万空间语料上微调。在面向高频重复动作定位的 JumpScore 评测中,其 8B 版本达到 74.9 分的 mAP,显著超越 Qwen3-VL-8B(30.1 分),且在匹配 token 预算下,编解码流输入较帧采样在时序定位上提升 9.7 点。该模型在视频、空间和跟踪任务基准上也全面领先。
现有基于可验证奖励的强化学习(RLVR)视觉推理方法在处理多源输入时,常将其视为简单信息堆叠,缺乏机制区分融合带来的信息增益与噪声干扰,导致多源性能可能低于单源。为此,本文提出MARS框架,将每种视觉模态建模为独立信息源,并以单源奖励为动态锚点,将多源融合引入的信息增益显式纳入优势归一化过程,以自适应地增强模态协同并抑制冲突。理论分析与实验验证表明,该方法在多个数据集上的GRPO和DAPO指标分别实现了3.2%和4.9%的性能提升。