报告展望2028年中美AI竞争的两种前景。若美国及盟友维持并扩大在关键计算芯片上的优势,通过加强出口管制、遏制技术窃取并加速AI应用,民主国家可确立12-24个月的技术领先,主导AI规则制定。反之,若政策松动,中国可能借助人才优势、利用管制漏洞迅速逼近甚至反超,使威权政权获得大规模自动化压制能力。当前民主国家在计算领域优势显著,但窗口期有限,需立即行动锁定胜局。
研究团队发布了IndicMedDialog平行多轮医疗对话数据集,涵盖英语及九种印度语言。该数据集基于MDDial扩展,利用大语言模型生成合成咨询对话,经翻译、母语者验证及脚本感知后处理流程修正错误。基于此,团队对量化小模型进行参数高效微调,得到IndicMedLM模型,可结合患者预上下文实现个性化症状询问。评估表明,该模型优于零样本多语言基线,系统错误分析和医学专家评估均验证了其临床合理性。
国际学校老师离职与Slack停服事件,暴露企业组织记忆托管于外部工具的脆弱性。当前主流AI协作产品聚焦扩大记忆容量,但记忆结构仍是碎片化的列表型。Tanka采用图谱型记忆,将实体、关系和时间结构化,并基于稀疏注意力架构降低计算复杂度,支持固定定价。稀疏架构虽提升确定性任务效率,但可能抑制跨边界创新洞察。该工具适合组织结构稳定、数据栈已集成的团队,为企业构建跨越人员流动的组织记忆图谱。
美国已批准阿里巴巴、腾讯、字节跳动等约十家中国公司,每家公司可购买最多7.5万颗英伟达H200 AI芯片。然而,至今没有一颗芯片完成交付。美国商务部长卢特尼克指出,中方为保护国内芯片产业,正在阻止这些采购交易。这一情况使得获批的许可在实质上无法执行。
Proud to announce the release of the SenseNova U1 Tech Report - together with the a new set of model weights based on Mo...
美国已批准约10家中国公司,包括阿里巴巴、腾讯、字节跳动和京东,购买英伟达H200芯片,但至今芯片尚未发货。这一批准实质是外交谈判筹码,华盛顿以芯片换取中国在稀土、贸易或台湾问题上的让步;英伟达CEO黄仁勋的行程也被用作政治杠杆。瓶颈可能在北京方面:中国正推动企业采用国产硬件如华为昇腾,购买H200会重建其试图摆脱的对美技术依赖。当前僵局对双方政府有利:美国鹰派不希望芯片流入中国,而北京追求自给自足。批准但不兑现看似进展且无需承诺。关键指标是发货量而非批准公司数;发货量为零表明这是外交手段伪装成商业行为。
南加州联邦法院已受理针对OpenAI的集体诉讼,指控其在ChatGPT网站中嵌入Facebook Pixel等代码,侵犯用户隐私。当用户提交查询时,查询主题会作为浏览器标题与含Facebook唯一ID的cookies一并实时发送给Meta。OpenAI虽称仅分享“有限标识符”用于广告,但原告认为查询主题本身即高度敏感的个人信息。此案揭示免费AI服务的潜在代价:用户每一次查询及数字身份可能成为被交易的产品,与许多用户为逃避追踪而选择ChatGPT的初衷形成讽刺对比。
针对视觉-语言-动作模型训练中密集轨迹数据存在的时间监督不平衡问题,研究团队提出了FrameSkip数据层帧选择框架。该框架通过动作变化、视觉-动作一致性、任务进度先验和夹爪状态转换等指标对帧进行评分,并在目标保留率下将训练样本重新映射至高重要性帧。FrameSkip仅作用于数据加载器,无需改变模型架构或训练目标。在三个基准测试中,其主要设定保留20%的唯一帧,宏观平均成功率达到了76.15%,优于全帧训练的66.50%,在成功率与数据保留率之间取得了更优的权衡。
ExaAILabs的一项关键实验表明,在强化学习阶段训练大语言模型的搜索能力时,使用其Exa搜索API替代Google数据,不仅能使模型达到更高性能,还可节省高达70%的训练算力。这一结果直接挑战了“提升AI搜索能力主要依赖增加算力”的普遍观点,揭示了搜索工具本身的质量与效率可能更具决定性影响。该发现为从事AI Agent、RAG以及训练具备搜索能力大模型的团队提供了重要启示,意味着未来LLM训练的效率竞争可能始于对底层工具的选择。
How does Exa compare to Google for training LLMs to search? In this blog post, we find that LLMs using Exa during reinfo...
本研究系统性地探索了长上下文视觉语言模型的持续预训练方法,成功将7B参数模型的上下文长度从32K扩展至128K。关键发现包括:长文档视觉问答数据优于OCR转录;均衡的序列长度分布数据比仅聚焦目标长度的数据更有效;检索能力是主要瓶颈,需搭配检索密集型数据。基于此,团队以仅50亿token的预算,从Qwen2.5-VL-7B训练出MMProLong模型。该模型将长文档视觉问答得分提升7.1%,并在未经额外训练的情况下,在256K和512K的上下文长度上保持强劲性能,同时能泛化应用于网页检索、长文本压缩及长视频理解等任务。
研究探讨了大语言模型在长上下文窗口下的思维链上下文学习。研究发现,增加思维链示例数量主要惠及推理导向模型,而对非推理模型效果不稳定;基于语义相似性的检索在推理任务中因无法预测步骤兼容性而失效;示例顺序影响显著,性能方差随示例增多而扩大。研究将此过程重新定义为上下文测试时学习,并提出示例应易于理解且有序排列以支持概念平滑递进的原则。基于此提出的曲线演示选择方法,在几何任务中使用64个示例时实现了高达5.42个百分点的性能提升。
Today we release Token Superposition Training (TST), a modification to the standard LLM pretraining loop that produces a...
本研究通过一维变系数波动方程,探究了傅里叶神经算子与深度算子网络在结构化分布变化下的泛化能力。在输入频率与系数平滑度独立变化的分布外设定中,两种模型对平滑度变化均表现稳定,且FNO误差更低。然而,面对输入频率变化时,FNO在未见高频数据上误差急剧上升,而DeepONet虽整体误差较高,性能下降却更平缓。分析表明,该差异源于两者对频率结构的表示与响应机制不同。结果揭示了神经算子在分布内高性能与分布外泛化间存在根本差距,凸显了架构表示偏差对于开发更可靠、适用于训练分布外物理模拟的神经算子的关键影响。
该研究通过构建受控的字节级预训练流程,系统性地隔离并分析了子词分词技术对大语言模型训练效率与性能的具体贡献。实验在样本吞吐量、词表规模扩展以及子词边界的语言学先验等多个维度进行假设检验。研究发现,子词分词模型相较于原始字节模型的性能优势,主要源于训练吞吐量的显著提升,以及将子词边界作为显式先验或归纳偏置的有效整合。这些结论为未来优化字节级与子词级模型的预训练方法提供了关键见解。
Video2GUI框架能从5亿互联网视频元数据中自动提取GUI交互轨迹,构建了包含1200万条轨迹的WildGUI数据集,覆盖1500多个应用和网站。在Qwen2.5-VL和Mimo-VL上预训练后,GUI定位和行动基准测试性能提升5-20%,达到或超越现有最优水平。该数据集与框架将开源以支持GUI智能体研究。
TopoPrimer是一个将时间序列群体的全局拓扑结构作为显式输入来提升预测模型性能的框架。它通过持久同调与谱束坐标进行一次性的预计算,可作为全训练模型的输入或预训练骨干的轻量化适配器。在多个基准测试中,TopoPrimer显著提升了预测精度,在ECL数据集上最高实现7.3%的MSE改善;它在季节性需求高峰期将模型误差控制在10%以内(传统模型误差增幅达50%),并在无历史数据的冷启动场景中,较无拓扑基线降低了27%的MAE。研究表明,拓扑信号与单序列训练具有互补性,能持续稳定地带来精度增益。
针对现有金融基准测试在评估大语言模型(LLM)专业能力上的局限性,研究团队发布了FINESSE-Bench。这是一个包含八个专业基准测试、共计3993个问题的综合评估套件。它创新性地结合了CFA(特许金融分析师)等专业认证考试数据集、实际交易任务以及一个俄语奥赛基准。该套件旨在系统评估模型的金融知识广度、随难度提升的性能衰减、计算解决能力及在专业领域的表现,并提出了基于LLM-as-Judge范式的自动化评分方案,为实质性评估LLM的金融专业能力提供了新工具。
传统扩展大语言模型上下文窗口的方法需要在目标长度的序列上训练,计算成本高昂。EndPrompt方法仅通过短序列训练即可有效扩展上下文,其核心是将原始短上下文作为第一段,附加一个简短的末端提示作为第二段,并为其分配接近目标上下文长度的位置索引。这种两段式构造在短序列内引入局部和长程相对距离,同时保持文本语义连续性。理论分析基于旋转位置嵌入和伯恩斯坦不等式,表明位置插值能约束注意力函数。在LLaMA模型上将上下文从8K扩展到64K时,EndPrompt在LongBench上平均得分最高(76.03),超越LCEG、LongLoRA等方法,且计算量更少,证明长上下文泛化可从稀疏位置监督诱导,挑战了密集训练的必要假设。
针对扩散语言模型效果不及自回归模型的问题,本文提出DiHAL混合架构。其核心在于利用几何度量评估Transformer各层,确定最适合进行扩散干预的隐藏状态接口。该方法在选中层以下用扩散桥替换前缀,同时保留上层结构,通过重建隐藏状态而非直接处理离散token,避免了连续到离散转换的困难。实验表明,几何分数能有效预测浅层插入点,且隐状态恢复在匹配训练预算下优于连续扩散基线,为在预训练模型中定位可行的扩散替换位置提供了依据。
针对机器人轨迹数据在构建物理常识上的局限性,PhysBrain 1.0 提出了一种互补方案。该研究构建了一个数据引擎,从大规模人类第一视角视频中提取结构化的物理常识,用于训练视觉语言模型。随后,通过一种保持能力且语言敏感的适配设计,将这些物理先验知识迁移到视觉语言-动作策略中。实验表明,在多项具身控制基准测试上,PhysBrain 1.0 均达到当前最优水平,尤其在跨域任务中展现出强大性能。
研究提出了一种名为纠错导向策略优化的新方法,用于增强大型语言模型的推理能力。该方法将训练中产生的失败轨迹自动转化为纠错样本,并与标准的可验证奖励强化学习目标联合优化。在涵盖数学推理和代码生成的11个基准测试中,该方法在推理和纠错性能上均显著超越现有基线。实验表明,该方法能提升模型的内在推理能力,而不仅仅是重新分配已有正确答案的概率质量,具体体现在更强的pass@K增益上。
吸引子模型解决了循环Transformer训练不稳定、成本高和深度固定的问题。它通过主干模块生成初始输出嵌入,吸引子模块迭代优化固定点,并利用隐式微分计算梯度,使训练内存与有效深度无关,迭代次数自适应收敛。在语言建模中,相比标准Transformer,困惑度最高降低46.6%,下游任务准确率最高提升19.7%,训练成本更低;一个770M参数的模型性能优于1.3B参数Transformer。在推理任务中,仅2700万参数模型在约1000个示例下,于Sudoku-Extreme和Maze-Hard上准确率分别达91.4%和93.1%,优于Claude、GPT o3等前沿模型。模型还展现出均衡内化现象,训练后初始输出嵌入接近均衡态,推理时可移除求解器而性能几乎无损,实现了迭代优化的可扩展性。
研究团队提出一种面向大语言模型的快慢学习框架,将模型参数视为“慢”权重,优化的上下文视为“快”权重。该框架结合了参数更新与上下文学习的优势:快权重通过文本反馈快速吸收任务特定信息,而慢权重则保持接近基础模型以维护通用推理能力。在推理任务中,该方法比仅使用慢学习(如强化学习)的样本效率高出3倍,且达到更高性能上限。同时,训练后的模型更接近基础模型(KL散度降低达70%),显著缓解了灾难性遗忘,并保持了模型的可塑性,使其在持续学习场景中能更有效地适应后续新任务。
研究指出,为大语言模型微调生成式检索任务会迅速导致其通用语言推理能力的灾难性遗忘,且遗忘程度与微调后和原始模型参数的偏离距离相关。为此,研究者提出了ORBIT方法。该方法主动追踪微调权重与初始权重之间的距离,一旦超过预设阈值,便采用权重平均策略来约束模型在微调过程中的漂移。实验表明,ORBIT在文本和检索性能上均优于常见的持续学习基线及同样采用权重平均的正则化方法,有效缓解了基础能力的遗忘问题。
AI初创公司Recursive正式结束隐身模式,宣布获得6.5亿美元资金,核心目标是开发能够进行递归自我改进的人工智能系统。该公司将递归自我改进技术视为实现超级智能的“最快路径”,旨在通过AI模型的自我迭代与优化来加速向更高阶智能的演进。
研究团队推出用于大语言模型训练的优化器Pion,其基于正交等价变换实现谱保持特性。与Adam、Muon等加法型优化器不同,Pion通过左右正交变换更新权重矩阵,使奇异值在整个训练过程中保持不变。该机制能在固定谱范数的前提下调节权重矩阵的几何结构。实验表明,Pion在LLM预训练和微调任务中均能提供稳定且具有竞争力的性能,为传统优化器提供了新替代方案。
市场监管总局部署反不正当竞争专项执法,聚焦平台经济、民生和科技创新领域,整治“内卷式”竞争,推动良性市场秩序。行动将提升网络不正当竞争常态化监管,规制利用数据和算法等实施的违规行为;强化商业秘密保护,加强侵权案件查办并完善保护规则体系;深化宣传倡导,曝光典型案例,压实平台主体责任,构建社会共治格局。
研究提出,在编码器适应新领域时,先短暂切换至因果语言建模(CLM),再进行掩码语言建模(MLM)衰减训练,可有效提升下游任务性能。在生物医学文本上使用ModernBERT的实验表明,该策略在相同数据和算力下,于多项法语和英语生物医学任务中均稳定优于纯MLM基线。分析发现,CLM的密集监督主要影响Transformer低层,其带来的表征变化在后续MLM阶段得以持续并随模型容量扩展。基于此方法发布的ModernCamemBERT-bio与ModernBERT-bio模型,成为当前先进的生物医学编码器。
本文介绍了首个专为单图像重光照评估设计的真实世界数据集WildRelight,包含多样化高分辨率户外场景,在严格对齐的时序自然光照下采集并配有环境贴图。基准测试揭示了当前基于合成数据训练的先进模型存在严重域偏移。利用该数据集严格对齐的时间结构,研究提出一种物理引导推理框架,将捕获的自然光演变作为自监督约束,通过结合扩散后验采样与时序感知的测试时自适应,成功将棘手的模拟到真实挑战转化为可处理的自监督任务。数据集与代码将公开以推动鲁棒且基于物理的重光照研究。
工具调用型LLM智能体的失败体现在整个轨迹中,而非仅最终响应。现有安全对齐方法常导致安全与效用权衡。研究提出FATE框架,通过在线策略自我进化,将验证器评分的失败轨迹转化为修复监督信号,无需专家示范。该方法引入帕累托前沿策略优化(PFPO),结合监督预热与帕累托优化以平衡安全与效用。在AgentDojo、AgentHarm和ATBench上的实验表明,FATE能显著提升多模型、多规模下的安全性,同时维持任务效用。具体而言,攻击成功率降低33.5%,有害指令遵从减少82.6%,外部轨迹安全诊断能力提升6.5%。这表明失败轨迹可为智能体安全进化提供有效监督。
研究团队推出MEME基准,用于评估大语言模型智能体在多会话持久环境中的记忆能力。该基准定义了涵盖多实体与演化信息两个维度的六项任务,其中级联、缺失和删除推理三项为先前工作未涉及。在100个受控片段上对三种记忆范式的六个系统进行评估发现,所有系统在默认配置下对依赖关系的推理能力均严重不足(级联任务平均准确率3%,缺失任务1%),尽管其静态检索性能尚可。提示优化、深度检索、减少干扰信息乃至使用更强的模型均未能显著缩小差距。仅当基于文件的智能体配合Claude Opus时,差距被部分缩小,但成本约为基线的70倍,表明当前解决方案难以大规模应用。代码与数据已公开。
VidSplat是一个免训练的生成式重建框架,旨在解决高斯泼溅技术在输入视图稀少时性能显著下降的问题。该框架通过利用强大的视频扩散先验,迭代合成能够补偿缺失覆盖范围的新视角,从而从稀疏输入中恢复完整的3D场景。其核心创新包括:提出一种免训练的分阶段去噪策略,利用渲染的RGB和掩码图像自适应地将去噪方向引导至底层几何结构;开发了一种迭代机制,通过采样相机轨迹、探索未观测区域、合成新视图并进行置信度加权的精细化训练来增强重建。VidSplat对稀疏输入甚至单张图像均表现出鲁棒性,在广泛使用的基准测试中展现了卓越的稀疏视图场景重建性能。
本文挑战了Transformer通过权重矩阵线性记忆事实的传统观点,提出了一种几何记忆机制。在单层Transformer记忆随机双射的设定中,证明了对数嵌入维度即足够:主体嵌入编码属性向量的线性叠加,而小型MLP充当基于关系的选择器,通过ReLU门控提取相关属性,而非进行键值映射。研究进一步扩展到多跳关系查询,提供了包含与不包含思维链的构造,揭示了可证明的容量与深度权衡,并辅以信息论下界。实证表明,梯度下降能找到预测的结构化解;训练后,当主体嵌入重新初始化时,MLP能零样本迁移到全新双射,说明其学会了通用的选择机制,而非记忆特定事实。
5月13日,Meta美国员工在公司多个办公室分发传单,抗议公司安装软件采集其键盘和鼠标操作数据。传单鼓励员工签署在线请愿书,并引用《国家劳工关系法》强调员工组织权。此次抗议正值Meta计划约一周后裁减10%员工之际,员工担忧数据将被用于训练AI,最终构建取代自身的自动化系统。Meta发言人回应称,收集真实操作数据是为开发能协助日常任务的AI智能体所需。与此同时,英国部分员工也已开始与工会合作,发起工会化运动以应对裁员与监控。