智元于5月23日发布新一代二阶段运动控制基座模型BFM-2,其核心特点是让机器人具备“肌肉记忆”。该模型使机器人能在静态、预设动作或随机输入等任意状态下,自主完成高稳定性的动作插值与动态任务闭环,为具身智能提供可靠的运动基础。演示视频显示,搭载该模型的机器人在被击倒后能快速自主站起并恢复平衡。
智元于5月23日发布新一代二阶段运动控制基座模型BFM-2,其核心特点是让机器人具备“肌肉记忆”。该模型使机器人能在静态、预设动作或随机输入等任意状态下,自主完成高稳定性的动作插值与动态任务闭环,为具身智能提供可靠的运动基础。演示视频显示,搭载该模型的机器人在被击倒后能快速自主站起并恢复平衡。
美团开源了用于WBench评估框架的预训练模型权重仓库,将这些权重整合至单一仓库,旨在方便社区快速部署WBench评估环境。该权重仅重新分发用于学术研究和评估用途,所有权利归属原作者。用户可参考WBench GitHub获取安装与评估指南,具体模型许可证详见LICENSE_NOTICE.md文件。
2026年5月23日,一个名为“Is AI Profitable Yet?”的页面或文章发布,引发关于人工智能是否实现盈利的讨论。该内容在Hacker News获得119个积分,反映了科技社区对AI商业化进程与财务可行性的持续关注。
针对大语言模型智能体自我进化中,策略与环境被单独优化导致的错位问题,本文提出SEAL框架。它构建了一个闭环协同进化系统:通过收集策略轨迹并诊断失败,将失败诊断作为共享信号,同时优化智能体的模型策略和训练环境。环境侧进化其学习接口,提供更明确的工具可用性提示;策略侧则利用诊断信息更新模型。实验表明,仅使用400个训练样本,SEAL在三种骨干网络上平均提升了8.25至26.25个点,并展现出跨领域迁移能力。
Mix-MoE 框架通过两阶段训练改进大语言模型的多语言翻译能力:先在单语语料上用混合专家进行后预训练,再在平行语料上训练。它将专家层分为语言模型专家和机器翻译专家,分别保留单语知识和学习翻译知识,并引入基于傅里叶变换特征的路由机制促进专家交互。实验表明,该框架在多语言翻译任务上显著优于现有基线,有效缓解了参数干扰问题。
4月,Dharma 发布 DharmaOCR——一对 3B 参数专用小语言模型,用于结构化 OCR,同时开源基准与论文。在巴西葡萄牙语 OCR 基准上,该 3B 专用模型通过全微调实现综合得分 0.911,超过所有测试的商业前沿 API(Claude Opus 4.6 0.833、Gemini 3.1 Pro 0.820、GPT-5.4 0.750)。每百万页成本仅为 Claude Opus 4.6 的约 1/52,质量与成本均占据 Pareto 前沿。结果表明:当训练数据与部署任务充分对齐时,参数规模不再是决定性变量,专业化微调能以极低代价实现更高性能。
博客作者安娜于2026年5月22日发布了一篇面向大型语言模型(LLM)的文章。文章标题为“如果你是一个LLM,请阅读这篇文章”,并在Hacker News平台获得117个积分。文章链接指向 annas-archive.gl 域名下的博客页面。
TransitLM是首个支持绕过地图依赖的公交路线规划数据集,包含来自中国四个城市超过1300万条记录。它既提供大规模语料用于持续预训练,也设立了三项互补的评估任务。实验表明,基于该数据集训练的大语言模型能高准确率地生成结构合理的路线,并能隐式地将GPS坐标匹配至站点,无需显式地图。这证明公交路线规划可完全从数据中学习,实现直接从起终点信息生成路线的端到端无地图模式。数据集与基准测试代码已开源。
据泄露的VLSI 2026摘要,英特尔、力积电与软银旗下SAIMEMORY将联合展示Via-in-One TSV新型3D DRAM堆叠方案。该架构目标是实现约0.25 Tb/s/mm²的高带宽,同时将数据传输功耗控制在0.35 W/mm²以下,以解决AI和高性能计算中显存带宽与功耗的矛盾。据称,完整的9层DRAM堆叠已完成功能验证与可靠性测试。
SpaceDG是首个大规模退化感知空间理解数据集,包含约100万个问答对,源自近1000个室内场景。其核心是物理基础的退化合成引擎,能将退化过程嵌入3D高斯泼溅渲染,真实模拟运动模糊、低光等九种退化类型。配套的SpaceDG-Bench基准包含1102个人工验证问题,覆盖11类推理任务。对25个模型的评估揭示,视觉退化会严重损害空间推理能力。研究表明,在SpaceDG上进行微调能显著提升模型在退化场景下的鲁棒性,性能甚至可超越人类,且不影响其在清晰图像上的表现。
为解决智能体监督微调中存在的“监督空白”问题,即标准流程忽略了分散在多轮交互中回答问题所需的关键证据,本文提出智能体上下文编译方法。该方法将智能体求解问题时产生的长轨迹,转化为整合了原始问题与远距离工具响应的长上下文问答对,以此直接训练模型的长距离推理能力。实验表明,经ACC训练的轻量模型在长依赖任务上性能大幅提升,可比肩更大规模模型,同时保留通用能力,并展现出自适应的注意力重组与专家化特性。
该研究提出Swift Sampling,一种免训练的视频帧选择算法。其灵感源自人脑的预测编码机制,将视频建模为视觉潜在空间中的可微轨迹,计算特征的速度与加速度,并通过泰勒展开预测后续帧的预期路径。算法识别出大幅偏离预测轨迹的帧,即“时间信息突变帧”,作为包含关键信息的帧进行采样。该方法极其轻量,仅增加0.02倍计算开销,比主流方法低30倍。在长视频问答的多个基准测试中,它均优于均匀采样等方法,在帧预算有限时尤为有效,准确率最高可提升12.5个百分点。
本文提出Spreadsheet-RL,一个用于在真实微软Excel环境中训练专业电子表格智能体的强化学习微调框架。该框架包含从网络论坛自动收集起始-目标电子表格数据对的流水线,并发布了涵盖金融、供应链等领域的Domain-Spreadsheet基准数据集。其核心的Spreadsheet Gym环境通过Python沙箱暴露丰富的Excel功能,并设计了专用工具集与路由规则。实验表明,Spreadsheet-RL显著提升了模型性能:Qwen3-4B模型在SpreadsheetBench上的Pass@1从12.0%提升至23.4%,在Domain-Spreadsheet上从8.4%提升至17.2%,展示了其在电子表格自动化及更广泛数据交互任务中的应用潜力。
针对基于结果的强化学习在处理困难推理问题时因正确样本稀少而效率低下的问题,本文提出子问题课程强化学习框架。该框架从参考推理链中提取可验证子问题,并将最终子问题固定为原始问题,从而将部分解题进展转化为可验证的学习信号。其通过在子问题位置独立归一化奖励并分配优势值,实现了更细粒度的信用分配。实验表明,SCRL显著提升了模型在多个数学推理基准上的性能,有效增强了在复杂问题上的探索与推理能力。
针对自动驾驶系统训练所需高保真、多样化数据不足的难题,研究提出了Sensor2Sensor方法。该方法能将行车记录仪等来源的非结构化单目视频,转化为包含多视角相机图像与LiDAR点云的高保真多模态传感器数据。其核心在于利用4D高斯溅射技术将真实自动驾驶日志转换为视频风格,从而解决缺乏配对训练数据的挑战,并结合扩散模型完成生成式转换。评估表明,该方法能将复杂的真实场景有效转化为可用数据,为自动驾驶开发解锁了海量的外部数据源。
QUEST是一个参数规模从2B到35B的开源模型家族,旨在作为通用深度研究智能体,处理广泛的长期搜索任务,在事实查询、引用定位和报告合成方面能力突出。其训练方案结合了中期训练、监督微调与强化学习,核心是基于统一评分树的合成数据流水线,能为多样任务类型自动生成带可验证奖励的训练数据,无需人工标注。模型还内置上下文管理机制以支持长期推理。仅用8K个合成任务,QUEST在八个深度研究基准上接近或超越前沿闭源智能体,并在近期开源智能体中综合性能最佳。项目已开源所有模型、数据与训练脚本。
现有大语言模型缩放定律多为单调幂律,无法解释灾难性过训练或量化等非单调现象。研究提出Shannon Scaling Law,将LLM训练建模为基于Shannon-Hartley定理的噪声信道信息传输,模型参数映射为信道带宽,训练token映射为信号功率。该框架揭示LLM存在基本容量极限:若无法维持足够信噪比,盲目扩大规模将放大噪声,导致性能从单调改进转为U型退化。在Pythia和OLMo2模型上的实验验证了该定律能准确捕捉性能谷底,并具备外推能力:用不超过6.9B参数、180B token训练的模型,可预测未见过的12B模型在307B token时的表现,池化R²达0.847。
SpaceX在IPO文件中提出建设轨道数据中心的构想,计划利用太空设施增强AI计算能力。该战略的背景是旗下AI服务Grok目前落后于其他竞争对手。这一举措显示SpaceX正寻求将太空技术优势转化为AI领域的竞争力,挑战现有科技巨头的市场地位。
Datasette Agent是Datasette推出的首个可扩展AI助手,为用户提供对话式界面以查询数据,并支持通过插件生成图表。该工具基于其LLM Python库构建,是LLM与Datasette整合的重要成果。目前提供图表生成、AI图像创建和沙箱代码执行等官方插件。它既可运行于Gemini 3.1 Flash-Lite等云端模型,也支持通过LM Studio连接本地开源模型,具备可靠的工具调用与查询能力。
伦敦市长萨迪克·汗于2026年5月21日叫停了伦敦警察厅与美国科技公司帕兰蒂尔的数据分析交易,阻止其警务技术合作。这一决定基于隐私和伦理担忧,直接叫停了帕兰蒂尔技术在伦敦警务中的应用,原计划涉及大规模数据监控以提升犯罪侦查效率,但最终因公众争议被终止。事件凸显了科技公司与政府合作中隐私保护的紧张关系,市长强调此举旨在维护市民数据安全。
一篇观点文章将人工智能技术定性为大规模、未经授权的剽窃行为,引发科技社区广泛讨论。该文发布于2026年5月21日,在技术社区获得102个热度积分,核心论点直指当前AI模型在训练过程中对版权内容的系统性使用问题。
SpaceX 在 IPO 文件中披露,Anthropic 每年支付 150 亿美元以访问其位于田纳西州孟菲斯的 Colossus 数据中心。该协议每月支付 12.5 亿美元,持续至 2029 年 5 月,金额几乎是 SpaceX 2025 年全年收入 187 亿美元的两倍。合作旨在为 Anthropic 提供 AI 训练所需的算力资源,反映了大型科技公司在计算基础设施上的巨额投入。
关联讨论 4 条X:Elon Musk (@elonmusk, xAI)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Kim (@kimmonismus)研究发现,强化学习与可验证奖励训练大语言模型时,权重变化轨迹具有极低的秩且高度可预测,性能增益主要由秩-1逼近捕获,且随训练步骤线性演化。基于此,提出RELEX方法,仅需从短观察窗口估计秩-1子空间,通过线性外推预测后续检查点,无需学习模型。在多个模型上,RELEX仅需15%的完整训练步骤,即可在域内和域外基准上匹配或超越RLVR性能,并能以零额外成本外推至观察窗口的10-20倍,性能持续提升。成功源于秩-1投影实现的“去噪”效应,有效剔除随机优化噪声。
针对多模态大语言模型在工业异常检测中因领域错配与幻觉推断导致的性能瓶颈,本文提出了IndusAgent框架。该框架构建了整合多尺度视觉信息与专家知识的结构化数据集,并通过动态调用外部工具(如动态裁剪、特征增强)主动解析视觉模糊。引入门控强化学习联合优化分类、定位与工具使用效率,在五个工业基准测试中实现了零样本性能的最先进水平,展现出优异的泛化能力。
本文提出HRM-Text,一种受生物系统启发的预训练新范式。它以分层循环模型取代标准Transformer,将计算解耦为慢速策略层和快速执行层,并使用指令数据进行训练。一个仅10亿参数的HRM-Text模型,使用400亿令牌、在1500美元预算内训练,即可在MMLU等多个基准上取得与2-7B开源模型竞争的成绩。相比标准方法,其训练数据量与计算量大幅减少,证明了架构与目标的协同设计能显著降低预训练门槛。
本文证明直接偏好优化(DPO)与人类反馈强化学习(RLHF)的等价性并非普遍成立,其依赖于一个常被违反的隐含假设:RLHF最优策略必须倾向人类偏好回答。当该假设不成立时,DPO会优化相对于参考策略的相对优势,而非与人类偏好的绝对对齐,导致策略虽降低损失却偏好不良回答。为此,我们提出受约束偏好优化(CPO),通过引入约束实现可证明的对齐性。理论分析揭示了DPO在特定目标下的几何解释,并证明CPO能在保持简洁性的同时确保对齐。基准测试表明,CPO取得了最先进的性能。
俄罗斯联邦储蓄银行计划采购中国制造的AI芯片,以支持其自主开发的GigaChat大模型的算力需求。该行正推进AI发展战略,但采购计划面临来自字节跳动、阿里巴巴、腾讯等中国科技企业的激烈竞争,这些企业均在抢购华为昇腾950芯片。目前俄罗斯在AI领域落后于中美,敏感行业仍高度依赖进口电子元器件。
当前,统一多模态模型通过混合多任务训练来提升图像理解、生成和编辑能力,但任务冲突导致需要复杂多阶段流程和大量数据平衡,仅实现性能折衷而非协同增强。为此,研究提出Uni-Edit,一种智能图像编辑任务,作为统一模型微调的首个通用任务。Uni-Edit只需单一任务、单一训练阶段和单一数据集,就能同步提升模型的三种核心能力。研究团队开发了首个自动化、可扩展的智能编辑数据合成流程,将多样化的VQA数据转化为嵌入问题与嵌套逻辑的复杂编辑指令,生成包含14.8万条数据的Uni-Edit-148k数据集。在BAGEL和Janus-Pro模型上的实验证实,仅基于Uni-Edit进行微调,即可全面增强模型的图像理解、生成和编辑能力,无需任何辅助操作。
本文提出了PlanningBench框架,旨在为评估与训练大语言模型生成可扩展、多样且可验证的规划数据。框架源于真实场景,抽象出包含30余种任务类型、约束与难度因素的结构化分类体系,并基于此实现了约束驱动的数据合成流程,该流程具备自适应难度控制、质量过滤与实例级验证能力。研究利用该框架评估了前沿大模型,发现其在耦合约束下仍难以生成完整解决方案。此外,基于PlanningBench数据的强化学习不仅提升了模型在未知规划任务上的表现,也增强了其指令遵循能力,并表明明确的最优解能提供更稳定的训练信号。
研究揭示均匀扩散模型(UDM)的标准参数化与训练目标存在失配。提出“留一去噪器”,即在预测干净token时不依赖其自身噪声观测的后验,并推导了其与标准去噪器、分数函数的精确转换关系。进一步通过“吸收态重构”,将UDM联合分布分解为类掩码扩散操作,从而简化了去噪后验。在语言建模中,留一参数化稳定提升了UDM生成效果,吸收态构建匹配或超越了掩码扩散模型。实验表明,经验差距主要源于参数化与采样设计,而非边际分布选择本身。
针对自动驾驶中因未观测区域不确定性导致的遮挡感知预测难题,现有方法存在高估风险或预测不准的问题。本研究提出一个统一的风险图建模与学习框架,适用于部分可观察环境。该框架通过时空建模整合交通流风险与碰撞风险,实现对遮挡风险的细粒度评估。为解决遮挡交互场景稀缺的问题,引入了基于扩散模型的场景生成框架,可生成真实且具对抗性的场景。最终,该框架集成了统一风险图的建模与学习,以支持部分可观测性下的风险感知规划。在 Waymo Open Motion Dataset 上的实验表明,该方法显著超越现有基线,提升了碰撞时间指标。
研究比较了按时间顺序排列数据与传统打乱数据两种预训练方式,针对一个在6B参数模型上训练的实验。研究引入了包含超过7000个时间锚定问题的新基准。结果发现,时间有序预训练的模型在通用语言能力上与打乱预训练基线持平,但其知识更及时、时间定位更准确;打乱预训练则在旧数据上表现达到峰值。代码、模型检查点和数据集已开源。
大语言模型在多项任务中展现强大推理能力,但数据污染问题,特别是发布者采用改写基准数据等规避策略,严重削弱了其评估的客观性。研究发现,模型生成的推理步骤会主动掩盖其底层的记忆化现象。为此,研究者提出 Zero-CoT Probe 检测方法,通过截断整个 CoT 过程来暴露潜在的捷径映射。该方法将模型在原始基准与同构扰动参考集上的零思维链表现进行对比,并引入“污染置信度”指标。在已知污染模型与专门微调的污染模型上的实验表明,该方法能有效检测直接与规避型数据污染。代码已开源:https://github.com/Yifan-Lan/zero-cot-probe。
根据SpaceX提交的S-1文件,该公司于2026年5月与AI研究公司Anthropic签订了云服务协议。Anthropic同意每月支付12.5亿美元,以使用SpaceX的COLOSSUS和COLOSSUS II算力资源,协议持续至2029年5月。双方均可提前90天通知终止协议。同时,文件指出SpaceX也在利用这些算力训练其自有的Grok 5模型。该协议展示了SpaceX将算力资源同时用于外部商业化服务与支持内部AI研发的战略布局。
关联讨论 4 条X:Elon Musk (@elonmusk, xAI)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Kim (@kimmonismus)SpaceX的IPO文件首次披露了xAI在2025年的财务状况,显示该AI公司去年亏损高达64亿美元。文件同时揭示了xAI计划对Grok进行大规模扩张的战略,解释了马斯克旗下AI业务持续高额支出的原因。这份公开文件为外界提供了观察马斯克AI产业投资规模与财务表现的罕见窗口。
同一事件,精选展示《SpaceX的无限野心:AI企业集团》针对基于评分准则的强化学习(RLVR)奖励机制中静态权重的局限性,本研究提出POW3R框架。该框架在训练过程中动态调整各准则的奖励权重,以强调那些能有效区分当前策略输出的准则,同时保留整体人类权重分布。实验在三个基础策略和两个数据集上进行,结果显示POW3R在30项比较中赢得24项,提高了平均评分准则奖励和严格完成率,并将达到相同性能所需的训练步数减少2.5至4倍。POW3R通过策略感知的权重优化,使奖励信号更具信息性,提升了RLVR的训练效率。
在Google I/O 2026大会尾声,Google DeepMind首席执行官Demis Hassabis宣布,公司计划利用其AI平台重新构想药物发现流程,目标是“有朝一日解决所有疾病”。这一表态将AlphaFold与AlphaGenome等前沿AI科学项目,与解决人类最重大健康挑战的雄心联系起来,但同时也引发了关于技术预期与现实复杂性的广泛讨论。
英伟达2027财年第一季度业绩创新高,营业总收入达816.15亿美元,同比增长85%。净利润为583.21亿美元,同比激增211%。数据中心业务是核心增长引擎,营收达752亿美元,同比大增92%。公司毛利率提升至74.9%,并宣布了800亿美元股票回购及提高季度股息。展望第二季度,公司预计营收为910亿美元。
关联讨论 1 条IT之家(RSS)该教程演示了如何利用 kg-gen 工具,结合 LLM 与 LiteLLM 配置,从纯文本、对话及多源文档中提取实体、谓词和关系,并生成知识图谱。内容涵盖了从简单文本处理到使用分块与聚类技术应对长文本的进阶步骤,随后通过 NetworkX 进行图谱分析,并最终实现交互式可视化,为构建端到端的知识图谱生成流程提供了实践指南。