MiniMax M2系列大语言模型在生成时无法输出稀疏token“嘉祺”(如“马嘉祺”)。内部调查排除tokenizer对齐问题,发现根因是后训练阶段对低频token的生成概率产生抑制。该问题已在后续模型更新中修复,并顺带解决了其他小语种混合问题。
Meta 宣布裁员约10%员工后,CEO扎克伯格在内部会议中透露,裁员前正利用员工工作数据训练内部AI模型。扎克伯格称,让Meta员工参与训练AI效果优于外包人员,能更快提升模型的代码能力。
特斯拉FSD系统基于人类驾驶数据训练,现可模仿真人驾驶习惯。当发现高速公路中央隔离带停放警车时,系统会主动减速、变道并汇入车流,而非以每小时70英里(约112.7公里)限速驶过。该行为适用于所有停放车辆,是端到端神经网络学习的结果。
美国生物科技初创公司 Bexorg 研发了 BrainEx 维持系统,可对去世捐赠者的离体大脑进行24小时药物代谢测试。该系统通过人工血液维持大脑生理功能,并用麻醉剂抑制其电活动,使大脑处于生与死之间的模糊地带。过去五年,该公司已使用700多颗人脑研究帕金森症、阿兹海默症等疾病。目前,美国FDA已批准基于BrainEx数据开展药物临床试验。但该技术也存在局限性,例如神经活动被屏蔽可能影响血流预测。Bexorg目前正在开发机器学习系统,以期未来能用数字模型替代真实大脑进行测试。
针对LLM Judge的多目标提示优化中,文本梯度方法无法借用多任务学习的冲突解决工具,因其产生自然语言评语而非数值向量。通过改变损失、梯度和优化器LLM之间跨任务信息共享程度,测试了五种分解模式。结果发现,10种配置中有6种优化从未优于初始提示。当梯度LLM同时处理多个标准时,梯度特异性下降59%(从9.0降至3.7)。将各任务指令简单合并为单条提示使Spearman's rho下降-5.3%。这些结果识别出两种可分离的失败模式:优化时梯度稀释与推理时指令干扰。
研究提出了一个称为统一神经缩放规律的功能形式,能够准确建模并外推深度神经网络在多个维度同时变化时的缩放行为。这些维度包括模型参数数量、训练数据集大小、训练步数、推理步数、计算量及多种超参数。该规律适用于多样架构,并覆盖视觉、语言、数学和强化学习等上游与下游任务。实验表明,相比其他缩放规律的功能形式,UNSL 在该集合上的行为外推结果显著更准确。
本文指出,在大语言模型后训练的可验证奖励强化学习中,学习信号的调度时机与分配位置同样重要。传统方法的信用分配标准在训练中保持固定,而本文引入时间维度,在优化过程中动态调整该标准。具体方法是优先优化展现特定策略行为的 token,并逐渐转向一般化优化,从而使学习过程更稳定高效。实验表明,这种时间调度方法在数学和通用推理基准上实现了持续改进,并能引导更健康的策略演进。
NSF-SciFy是一个从美国国家科学基金会奖项摘要中提取的科学主张数据集,包含来自40万篇摘要的280万条主张,涵盖所有科学与数学学科。提供了两个子集:材料科学方向的11.4万条主张和跨五个部门的13.5万条主张。研究采用零样本提示联合提取科学主张与研究方案,并在非技术摘要生成、主张提取等三个下游任务上微调模型,获得显著提升,相对增益常超100%。代码与数据已开源。
本研究提出CroCo方法,扩展了英语中基于自生成响应的对比偏好调优技术。该方法无需语言特定的偏好标注即可实现跨语言迁移,在包含14种高低资源语言的评估中,使用英语偏好训练的奖励模型能为多数语言生成有效的语言内排序。在EuroLLM-9B与Aya-3B两个模型上的实验表明,单语或多语配对设置均能提升多数任务性能,并防止监督微调导致的灾难性遗忘。具体而言,在结构化任务上,调优后模型在EuroLLM-9B的6/7种语言和Aya-3B的4/7种设置中达到或超过基础模型水平;在开放式生成任务中,两个模型在全部11种评估语言上均优于基线。
现有基于大语言模型的记忆系统采用通用、静态策略,忽略了不同用户值得存储在记忆中的内容存在差异。为解决这一问题,研究引入 PerMemBench,首个用于评估个性化记忆系统的基准测试,并提出 session level storage gating 轻量级框架,通过选择性地为临时会话跳过记忆操作以实现记忆个性化。研究确认个性化在完美门控条件下能带来显著的记忆保留增益,但准确的门控仍是开放性挑战。
Klaviyo的AI工程师Amish Regmi(前亚马逊推理基础设施与智能体系统构建者)撰文,批判了笼统的“AI发展是指数级”的说法。他指出,这种说法常缺乏可验证的具体数据,如指数的基数、翻倍时间以及具体所指哪条技术曲线。文章通过分析数据,区分了真正陡峭的指数增长与单纯快速提升或指标失效的情况,其结论是,未来的转型将由不同技术或能力曲线之间“不匹配的斜率”所主导。
根据 epoch.ai 的数据,内存成本在AI芯片总成本中的占比已显著增长,目前接近三分之二。这一数据表明,在构建AI系统所需的硬件成本结构中,内存组件的重要性日益凸显,其成本占比已成为主要部分。该趋势反映了当前AI芯片发展过程中,对高速、大容量内存的依赖与需求正在不断加强。
字节跳动 Seed 团队的研究表明,一个 7B 参数的多模态大模型在回答长篇、图像密集的文档问题时,比规模更大的模型表现更可靠。即使文档长度达到其训练时所见数据的四倍,该模型也能自主定位相关段落并准确作答。这种通过提问和检索进行学习的方式,优于传统上对页面内容进行转录的训练方法。
英伟达首席财务官科莱特·克雷斯表示,公司已预判到内存价格将因AI芯片需求激增而飙升,因此提前通过与供应商联合定制生产的方式备货。相比之下,其他企业后知后觉,面临内存短缺困境。据预估,仅英伟达未来的Rubin人工智能平台,2027年所需LPDDR内存规模(60亿GB)就将超过苹果与三星的需求总和。
标准的下一Token预测(NTP)仅使用输出logit空间的离散标签进行监督,这导致潜在表示空间约束不足。为解决此问题,本文提出了NITP方法,它在表示空间中引入了密集的连续监督信号。NITP训练模型预测下一Token的隐式语义内容,并以同一模型的浅层表示作为稳定的自监督目标。理论分析表明,NITP能正则化优化过程,促进紧凑且结构化的表示几何。实验表明,在从0.5B到9B参数的密集与MoE模型上,NITP以可忽略的计算开销持续提升了下游任务性能。在一个9B MoE模型上,NITP在MMLU-Pro上实现了5.7%的绝对提升,在C3和CommonsenseQA上分别带来了6.4%和4.3%的提升,仅增加约2%的训练FLOPs且无额外推理成本。
本文提出MVCHead,一个单次前馈状态空间模型。它仅从随机2D图像学习条件与无条件3D头部模型,无需使用多视角数据、3D监督或中间视角生成。模型核心是分层状态空间块,通过分层双向状态扫描渐进式优化高斯分布并捕捉长程依赖,以直接在3D表示中强制多视角一致性。同时,设计了一个SE(3)多视角评判器,在未观测真实多视角对的情况下,奖励跨视角像素对齐。MVCHead达到了SOTA的感知质量,超越先前方法的纹理和几何一致性。此外,文章发布了首个大规模可用3D Gaussian头部资产数据集FaceGS-10K,用于训练与评估。
该研究在循环卷积神经网络中,将宽度、深度和时间定义为可微分成本项,并与任务误差一同通过反向传播进行联合优化。通过施加不同压力,多样化的计算图在训练中自然涌现。研究发现,这三种资源可以相互权衡以达到特定准确率。网络规模随任务复杂度在三个维度上增长,并在输入被遮挡时自发增加循环步数。模型使用的时间与人类在物体识别任务中的反应时间存在相关性。
美光CEO桑杰·梅赫罗特拉警告,全球存储芯片短缺可能持续至2026年之后,主要因AI需求增速远超行业扩产速度。存储行业正转向AI专用产品,美光已缩减消费级业务,集中资源发展利润更高的企业级市场。梅赫罗特拉指出,当前的供需失衡是长期结构性问题,行业新产能大规模释放至少要到2028年。美光计划2026年大幅提高资本支出,重点投资AI加速器所需的高带宽内存(HBM)。
智元于5月23日发布新一代二阶段运动控制基座模型BFM-2,其核心特点是让机器人具备“肌肉记忆”。该模型使机器人能在静态、预设动作或随机输入等任意状态下,自主完成高稳定性的动作插值与动态任务闭环,为具身智能提供可靠的运动基础。演示视频显示,搭载该模型的机器人在被击倒后能快速自主站起并恢复平衡。
本文肯定了对Transformer当前学习能力及局限性的分析框架,并指出对抗性世界模型是逼近现实本质的关键功能之一。作者认为,单纯增加参数和算力以扩展一个低效范式,将被能主动假设与验证真理的简洁方案所超越,尽管规模化可能因人类智能本身有限而意外通向AGI。引用推文补充了强化学习(RL)作为从干预中学习的范式,比监督学习更强大,而世界建模与RL的结合有望实现对反事实的学习。
Very well written blog. I think of RL as learning from interventions, and it kinda explains why it's more powerful as a ...
美团开源了用于WBench评估框架的预训练模型权重仓库,将这些权重整合至单一仓库,旨在方便社区快速部署WBench评估环境。该权重仅重新分发用于学术研究和评估用途,所有权利归属原作者。用户可参考WBench GitHub获取安装与评估指南,具体模型许可证详见LICENSE_NOTICE.md文件。
2026年5月23日,一个名为“Is AI Profitable Yet?”的页面或文章发布,引发关于人工智能是否实现盈利的讨论。该内容在Hacker News获得119个积分,反映了科技社区对AI商业化进程与财务可行性的持续关注。
谷歌研究院提出基础模型SensorFM,通过学习超过500万人产生的逾1万亿分钟可穿戴设备传感器数据,掌握了人类生理活动的一般性模式。该模型超越了将数据压缩为简单指标的传统方法,能够从数据中提取出有意义的结构并将其复用于多种健康预测任务。实验显示,模型规模和数据量越大性能越强,且其学习到的数据表征在35项预测任务中的34项上,均优于基于工程特征的基线方法。
针对大语言模型智能体自我进化中,策略与环境被单独优化导致的错位问题,本文提出SEAL框架。它构建了一个闭环协同进化系统:通过收集策略轨迹并诊断失败,将失败诊断作为共享信号,同时优化智能体的模型策略和训练环境。环境侧进化其学习接口,提供更明确的工具可用性提示;策略侧则利用诊断信息更新模型。实验表明,仅使用400个训练样本,SEAL在三种骨干网络上平均提升了8.25至26.25个点,并展现出跨领域迁移能力。
Mix-MoE 框架通过两阶段训练改进大语言模型的多语言翻译能力:先在单语语料上用混合专家进行后预训练,再在平行语料上训练。它将专家层分为语言模型专家和机器翻译专家,分别保留单语知识和学习翻译知识,并引入基于傅里叶变换特征的路由机制促进专家交互。实验表明,该框架在多语言翻译任务上显著优于现有基线,有效缓解了参数干扰问题。
4月,Dharma 发布 DharmaOCR——一对 3B 参数专用小语言模型,用于结构化 OCR,同时开源基准与论文。在巴西葡萄牙语 OCR 基准上,该 3B 专用模型通过全微调实现综合得分 0.911,超过所有测试的商业前沿 API(Claude Opus 4.6 0.833、Gemini 3.1 Pro 0.820、GPT-5.4 0.750)。每百万页成本仅为 Claude Opus 4.6 的约 1/52,质量与成本均占据 Pareto 前沿。结果表明:当训练数据与部署任务充分对齐时,参数规模不再是决定性变量,专业化微调能以极低代价实现更高性能。
博客作者安娜于2026年5月22日发布了一篇面向大型语言模型(LLM)的文章。文章标题为“如果你是一个LLM,请阅读这篇文章”,并在Hacker News平台获得117个积分。文章链接指向 annas-archive.gl 域名下的博客页面。
TransitLM是首个支持绕过地图依赖的公交路线规划数据集,包含来自中国四个城市超过1300万条记录。它既提供大规模语料用于持续预训练,也设立了三项互补的评估任务。实验表明,基于该数据集训练的大语言模型能高准确率地生成结构合理的路线,并能隐式地将GPS坐标匹配至站点,无需显式地图。这证明公交路线规划可完全从数据中学习,实现直接从起终点信息生成路线的端到端无地图模式。数据集与基准测试代码已开源。
据泄露的VLSI 2026摘要,英特尔、力积电与软银旗下SAIMEMORY将联合展示Via-in-One TSV新型3D DRAM堆叠方案。该架构目标是实现约0.25 Tb/s/mm²的高带宽,同时将数据传输功耗控制在0.35 W/mm²以下,以解决AI和高性能计算中显存带宽与功耗的矛盾。据称,完整的9层DRAM堆叠已完成功能验证与可靠性测试。
SpaceDG是首个大规模退化感知空间理解数据集,包含约100万个问答对,源自近1000个室内场景。其核心是物理基础的退化合成引擎,能将退化过程嵌入3D高斯泼溅渲染,真实模拟运动模糊、低光等九种退化类型。配套的SpaceDG-Bench基准包含1102个人工验证问题,覆盖11类推理任务。对25个模型的评估揭示,视觉退化会严重损害空间推理能力。研究表明,在SpaceDG上进行微调能显著提升模型在退化场景下的鲁棒性,性能甚至可超越人类,且不影响其在清晰图像上的表现。
为解决智能体监督微调中存在的“监督空白”问题,即标准流程忽略了分散在多轮交互中回答问题所需的关键证据,本文提出智能体上下文编译方法。该方法将智能体求解问题时产生的长轨迹,转化为整合了原始问题与远距离工具响应的长上下文问答对,以此直接训练模型的长距离推理能力。实验表明,经ACC训练的轻量模型在长依赖任务上性能大幅提升,可比肩更大规模模型,同时保留通用能力,并展现出自适应的注意力重组与专家化特性。
该研究提出Swift Sampling,一种免训练的视频帧选择算法。其灵感源自人脑的预测编码机制,将视频建模为视觉潜在空间中的可微轨迹,计算特征的速度与加速度,并通过泰勒展开预测后续帧的预期路径。算法识别出大幅偏离预测轨迹的帧,即“时间信息突变帧”,作为包含关键信息的帧进行采样。该方法极其轻量,仅增加0.02倍计算开销,比主流方法低30倍。在长视频问答的多个基准测试中,它均优于均匀采样等方法,在帧预算有限时尤为有效,准确率最高可提升12.5个百分点。
本文提出Spreadsheet-RL,一个用于在真实微软Excel环境中训练专业电子表格智能体的强化学习微调框架。该框架包含从网络论坛自动收集起始-目标电子表格数据对的流水线,并发布了涵盖金融、供应链等领域的Domain-Spreadsheet基准数据集。其核心的Spreadsheet Gym环境通过Python沙箱暴露丰富的Excel功能,并设计了专用工具集与路由规则。实验表明,Spreadsheet-RL显著提升了模型性能:Qwen3-4B模型在SpreadsheetBench上的Pass@1从12.0%提升至23.4%,在Domain-Spreadsheet上从8.4%提升至17.2%,展示了其在电子表格自动化及更广泛数据交互任务中的应用潜力。
针对基于结果的强化学习在处理困难推理问题时因正确样本稀少而效率低下的问题,本文提出子问题课程强化学习框架。该框架从参考推理链中提取可验证子问题,并将最终子问题固定为原始问题,从而将部分解题进展转化为可验证的学习信号。其通过在子问题位置独立归一化奖励并分配优势值,实现了更细粒度的信用分配。实验表明,SCRL显著提升了模型在多个数学推理基准上的性能,有效增强了在复杂问题上的探索与推理能力。
针对自动驾驶系统训练所需高保真、多样化数据不足的难题,研究提出了Sensor2Sensor方法。该方法能将行车记录仪等来源的非结构化单目视频,转化为包含多视角相机图像与LiDAR点云的高保真多模态传感器数据。其核心在于利用4D高斯溅射技术将真实自动驾驶日志转换为视频风格,从而解决缺乏配对训练数据的挑战,并结合扩散模型完成生成式转换。评估表明,该方法能将复杂的真实场景有效转化为可用数据,为自动驾驶开发解锁了海量的外部数据源。