针对主动推荐系统中简单应用策略梯度方法存在的梯度估计缺陷,研究提出ProRL强化学习框架。该框架识别出路径级奖励分解为步级奖励时产生的长度依赖偏差,以及忽略分解结构导致的高方差问题。ProRL引入两个机制:逐步奖励中心化通过减去期望奖励消除长度偏差,位置特定优势估计利用奖励分解结构计算步级基线以降低方差。实验表明,ProRL在三个真实数据集上显著优于现有先进方法。
针对主动推荐系统中简单应用策略梯度方法存在的梯度估计缺陷,研究提出ProRL强化学习框架。该框架识别出路径级奖励分解为步级奖励时产生的长度依赖偏差,以及忽略分解结构导致的高方差问题。ProRL引入两个机制:逐步奖励中心化通过减去期望奖励消除长度偏差,位置特定优势估计利用奖励分解结构计算步级基线以降低方差。实验表明,ProRL在三个真实数据集上显著优于现有先进方法。
PEFT-Arena是一个新的参数高效微调评估基准,它同时衡量下游任务性能和大语言模型预训练通用能力的保留情况。研究发现,不同微调方法展现出不同的稳定性-可塑性特征;在相似参数预算下,正交微调取得了最佳的性能-保留权衡帕累托前沿。通过权重空间(谱分析)和激活空间(表示失真度量)两个几何视角的分析,研究解释了这些差异,并指出最终的SFT检查点常常会越过一个更优的目标-保留操作点。基于此,研究通过路径回溯案例展示了一种改进方法。
该研究针对大语言模型在线强化学习中探索与利用的失衡问题,提出了新指标IB-Score,它基于信息瓶颈理论,量化了步级推理多样性与正确答案信息的权衡。分析表明,主流方法如GRPO难以维持此平衡。为此,论文提出IB-TPO框架,将IB-Score作为优化目标,并采用信息瓶颈引导的树采样策略,在相同token预算下可增加50%的轨迹。实验显示,该方法在标准基准上显著优于GRPO基线,性能提升2.9%至3.6%。代码已开源:https://github.com/alibaba/EfficientRL。
当前具身视觉语言模型(VLM)在高层语义与底层物理操作能力间存在差距。GEM 模型通过在预训练阶段集成深度图生成这一生成式监督任务来弥补该差距,联合训练显著提升了模型的语义理解与物理操作能力。配套发布的 GEM-4M 大规模数据集包含定位、推理和规划数据,并附带高质量深度监督。实验表明,GEM 在多项具身基准测试中达到领先水平,其部署的行动模型 GEM-VLA 在仿真与真实环境评估中均展现出卓越的任务执行能力。代码、模型与数据集已开源。
针对视觉语言模型在工具使用任务中存在的“思考-行动差距”(工具调用尝试率仅约30%,且其中约40%问题的所有工具调用均错误),研究提出AXPO(AI 智能体探索性策略优化)方法。该方法在标准强化学习(如GRPO)流程中,针对工具调用全错的子批次,固定思考前缀并重新采样工具调用及后续内容。在九个多模态基准和三种规模的Qwen3-VL-Thinking模型上,SFT+AXPO的平均性能优于SFT+GRPO(8B模型平均Pass@1和Pass@4均提升1.8个百分点)。8B的SFT+AXPO模型在Pass@4上甚至超越了参数量为其4倍的32B Base模型。
针对小型开放计算机使用智能体在特定领域能力较弱且失败案例分布不均的问题,研究团队提出了LearnWeak框架。该框架利用一个更强的参考智能体,自动识别学生智能体在目标领域的弱点,并据此合成针对性任务以构建训练数据。LearnWeak进一步引入错误感知特化目标,能够区分规划与执行错误,实现更精确的行为更新。在OSWorld基准测试中,该方法使EvoCUA-8B和OpenCUA-7B模型在八个领域的平均性能分别提升了11.6和11.1个百分点。
可验证奖励的强化学习已成为提升大语言模型推理能力的标准范式,而多Token预测是预训练中广泛采用的模块。当前实践通常分离两者的梯度,因为联合训练会导致性能下降。该研究从优化角度重新分析了这一问题,提出最优系数校准方法,能以极低开销在线追踪最优系数。在六个竞赛级数学推理基准测试中,OCC方法持续匹配或超越分离基线,改善了联合MTP-RL的训练性能。
本文介绍了ResearchMath-14K,这是一个包含14,056个研究级数学问题的数据集,通过多智能体流程从学术资料中策划而成,是目前此类规模最大的集合。研究还生成了ResearchMath-Reasoning(包含220K条教师轨迹),发现语言模型存在回避行为,且新一代模型产生的引用和虚假引用分别是旧模型的5.6倍和5.0倍。经过智能体过滤后,对参数规模为4B到30B的Qwen3模型进行微调,其平均得分比基础模型提高了9.2分,表明过滤后的开放问题尝试能为研究级数学推理提供有效监督。该数据集已公开发布。
Sakana AI 提出了 DiffusionBlocks 框架。该方法通过将残差网络(Residual Networks)的层更新过程解释为反向扩散(reverse diffusion)的去噪步骤,从而将其转换为一系列可以独立训练的块。
a16z 合伙人指出,AI应用层仍有巨大机会,但机会不在模型实验室押注的“黄砖路”上。这条路径指用最强模型加简单编排做通用AI工具,与实验室正面竞争胜算极低。真正的机会在“Oz的其他地方”——复杂、垂直、多步骤的工作流。其价值不仅来自模型,更来自确保输出可信、合规、可运营的系统脚手架。应用公司相比实验室的优势在于:能构建专属的数据学习飞轮、跨模型管理与优化成本,并吸收监管复杂度。核心结论:模型层可替换,但深度集成的工作系统不可替代。
http://x.com/i/article/2059491657683443712
研究提出一个基于LLM的多模态音乐推荐框架,在LastFM-1K数据集上融合三类信号:预训练模型提取的音频与歌词嵌入、使用MGPHot标注框架生成的LLM语义元数据、以及听歌完成率。该框架基于E4SRec扩展,集成SASRec、BERT4Rec、GRU4Rec等编码器,并引入LLaMa-2-13B、Qwen2.5-7B-Instruct和LLaMa-3-70B进行零样本与微调实验。相比仅使用歌曲ID的基线,内容特征融合使Recall最高提升95%、NDCG提升79%。研究还发现,简单拼接多模态特征并不总能带来叠加提升,并开放了一个大规模音乐推荐多模态基准。
本研究探讨用于大语言模型监督微调的长链式推理轨迹。研究发现,即使推理轨迹答案正确,其在结论后仍继续的推理部分也可能对训练产生有害影响,导致微调结果显著不同。这种现象被定义为“有害延续”,其特征是持续的局部不确定性与减弱的终端方向进展不匹配。通过编辑器删除这些有害延续后,基于CoT的微调结果得到改善。研究进一步提出了Harmful Continuation Cut(HCC),作为近似有害延续边界的轻量级代理方法。
本文提出Draft-OPD,一种用于改进投机解码中草稿模型的在线策略蒸馏方法。针对现有监督微调方法(如EAGLE3、DFlash)存在的离线数据与推理状态不匹配问题,Draft-OPD采用目标模型辅助的序列展开,从验证步骤暴露的错误位置进行重放学习。这使草稿模型能从目标模型对其提议的接受和拒绝反馈中优化。实验表明,该方法对各类思考模型实现了超过5倍的无损加速,相比EAGLE-3和DFlash分别取得了23%和13%的性能提升。
在标准图模型下,马尔可夫边界是使目标变量条件独立于其他特征的最小特征子集。本文在包含3450个任务的合成基准SCM3K上评估发现,直接将模型限制在理论“神谕”边界特征上,通常能显著提升预测性能,且特征空间越大越稀疏时改进越明显。然而,通过因果发现算法自动恢复边界再训练的常规流程效果不佳。原因有三:现有发现算法优化结构而非预测、误报与漏报的预测代价严重不对称,以及优于全特征的特征集远不止精确边界一种。
提出OmniHuMo大规模高质量数据集,包含超过5000小时运动数据与320万序列,提供文本、语音、音乐和轨迹等多模态精准标注。基于此构建AnyMo统一多模态框架,结合Residual FSQ运动分词器与可扩展的掩码建模Transformer,支持任意模态组合下的高保真实时运动生成,并能灵活控制运动的空间与风格属性。
当前机器遗忘评估存在结构性偏差,测试“为什么”类因果知识的问题在主流基准中占比极低(不足1.3%)。为此,研究提出5WBENCH基准,其包含5,000个样本,均匀覆盖“5W”类别,使因果遗忘失败首次变得可量化。分析表明,现有方法无法在“为什么”类问题上同时实现高遗忘与高保留,因为这类问题涉及多跳推理链(44%)和超过40个token的答案跨度。研究提出MAAT框架,该方法在LoRA适配器权重上进行三阶段操作,结合梯度投影上升、SVD秩维剪枝、任务向量取反和混合KL-隐藏状态保留修复,是首个在因果知识上实现高遗忘与高保留平衡的方法。
该研究引入LongDS基准,评估AI智能体在长期、多轮数据分析任务中维护动态分析状态的能力。该基准包含68个源自真实Kaggle笔记本的任务,覆盖6个领域,共计2225轮次,任务设计围绕状态演化模式(如反事实扰动、回滚)。对五个前沿模型的评估显示,最佳模型的平均准确率仅为48.45%,其性能从早期轮次到晚期轮次下降近47个百分点,且长期错误是主要失败原因,占比52%-69%。研究指出,单纯增加智能体的交互步骤并不能有效提升性能,关键瓶颈在于正确维护随时间演变的分析状态。
大语言模型在通用任务上表现强劲,但在适应专业领域时往往缺乏高质量领域数据。现有方法依赖人工设计的工作流,本研究正式提出“自主智能体数据工程”这一新任务,旨在评估LLM作为自主数据工程师执行端到端数据整理流程以实现模型专化的能力。实验表明,GPT-5.2作为自主数据工程师,通过智能体驱动的迭代数据适配,构建训练课程使学生模型性能提升57.29%。研究将自主数据工程确立为一种可量化的能力,为智能体驱动的模型专化指明了路径,代码将于 https://github.com/zjunlp/DataAgent 发布。
一项针对1260名定量社会科学家的调查显示,虽然81%的受访者用过AI聊天机器人,但仅有20%将Claude Code、Codex等编码智能体常规应用于工作。采用率存在显著差异:以男性名字命名的研究者使用率是女性研究者的两倍;顶尖大学研究者可能性高出40%。用户产出更多工作论文和基金申请,但这可能反映早期采用者自身差异。研究者对AI助力撰写可发表论文更乐观,但对重塑整个社会科学领域持保留态度。这是一项初步调查,更深入研究仍在进行中。
Most researchers agree that autoregression is best when memory bandwidth is cheap and diffusion is best when FLOPS are c...
Nvidia CEO 表示,Nvidia 将每年投资 1500 亿美元,旨在将台湾打造为“AI中心”。
薪资服务商 Remote 近期年经常性收入(ARR)突破3亿美元,并实现现金流转正。这一增长得益于采用AI技术,使该公司每位员工产生的收入提升了50%,且此过程中未扩充团队规模。
数据分析平台 PostHog 宣布将使用用户数据训练其 AI 模型,且该功能默认为启用状态。用户需主动操作以退出此计划。
Today, @MichaelElabd, @QuantumArjun, and I are excited to announce Trajectory. We are a research lab and product company...
异步强化学习中,训练器每步需将完整模型权重(如1T参数checkpoint约1 TB)传输给推理引擎。TRL新增PR利用相邻RL优化步骤间约99%的bf16权重比特相同的特点,仅将变化的权重编码为稀疏safetensors文件,上传至Hugging Face Bucket并通知vLLM获取。在Qwen3-0.6B上,每步传输从1.2 GB降至20–35 MB。实验还展示了完全分离的训练场景:训练器、vLLM和Wordle环境分别位于不同机器和Hugging Face Space中,权重通过单个Hub bucket流动,无需共享集群、RDMA或VPN。
外汇市场正从纯粹依赖直觉,转向一个由速度、数据和精确性塑造的领域。在日常交易中使用自动化系统(如 AI 交易机器人),可以在市场波动中保持交易纪律,这是手动交易难以做到的。交易的每一次入场和出场都可以基于明确的规则,而非个人情绪。
MiniMax 在开源 M2 模型半年后,系统性发布了其背后所有工作的论文,详细阐述了设计思路、训练细节与系统架构。此前,其开源系统 CISPO、Forge RL System 和 Self-Evolution 已被社区广泛采用,且多版模型发布后曾登顶 HuggingFace 排行榜。与此同时,MiniMax 官方宣布已为下一代模型 M3 做好准备,并且 MSA 论文也即将发布。
Recently, we took time to consolidate all of the work behind M2 and published it here: our M2 paper on arXiv It's been j...
现有大语言模型智能体在理想化基准测试中表现良好,但在具有固有随机性和缺陷的真实环境中部署时,性能常会下降。研究提出了NoisyAgent训练框架,旨在缩小这一差距。该框架通过模拟真实场景中的“用户噪声”(交互的歧义性)和“工具噪声”(工具执行失败)两类噪声源来增强智能体。训练过程中,噪声被策略性地施加于部分训练轮次,并随着模型适应而逐步增加难度。实验表明,该方法在噪声和动态环境中持续提升了智能体的鲁棒性,且在理想化基准测试上也获得了性能增益,证明了建模交互缺陷对于弥合训练与现实部署差距的重要性。
华为技术有限公司金融系统部CTO郑俊表示,根据斯坦福最新报告,中国AI模型整体水平仅落后美国2.7%。自2025年2月以来,中国模型的调用量持续超过美国模型。主要原因有二:国内开源模型能力大幅提升,已逼近美国闭源模型水平;中国依托基础设施优势,包括算力和电力资源,使国产AI模型具备更强的价格经济性。
十铨科技将在Computex 2026展出一系列存储器新品。核心产品是面向AI训练、超大规模推理等高性能计算场景的T-CREATE MASTER Ai I6E固态硬盘。作为首批第三方PCIe Gen6 SSD,它采用EDSFF E1.S规格,顺序读取速度可达28GB/s。面向消费市场,将发布以碳纤维设计为核心的CARBON STYLE系列,涵盖DELTA RGB DDR5、XTREEM DDR5内存及基于群联E37T主控的Z54E固态硬盘。此外,整合微型风扇与水冷系统的T-FORCE LIQUID II SSD散热器、CQDIMM版本的T-CREATE EXPERT AI内存条等新品也将亮相。
美光市值已突破1万亿美元,一年前其市值还仅为700亿美元。这一飞跃的核心驱动力是AI发展对高带宽内存(HBM)的迫切需求。尽管GPU备受关注,但HBM已成为确保GPU持续高效工作的关键部件。随着AI智能体的兴起,无法快速将数据送达芯片已成为新的系统瓶颈,使得内存成为AI增长背后的关键约束。行业的焦点正从单一的逻辑芯片性能,转向整体数据流能否跟上AI推理和智能体工作负载的需求。此外,瑞银将其目标价从535美元大幅上调至1625美元,认为其长期供应协议可能平滑盈利的周期性波动。
新加坡国立大学、麻省理工学院及A*STAR的研究团队提出了MEMO框架。该框架可以将新的语料库知识编码到一个独立的、可训练的MEMORY模型中,从而让大语言模型获得新知识,而无需修改其原始参数。
面壁智能联合清华大学与OpenBMB开源社区发布了ForgeTrain框架。该框架是全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。面壁智能已使用ForgeTrain在华为昇腾芯片上完成了其新一代「小钢炮」模型MiniCPM5-1B的预训练,其综合性能在AA榜单上位列2B规模以下Top 1。ForgeTrain框架代码及用于制造该框架的Agent Harness工具链已完全开源。
同一事件,精选展示《AI 制造 AI:面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain》面壁智能联合清华大学、OpenBMB发布ForgeTrain,全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。在英伟达H100上训练速度超越Megatron 10%,节省10%算力;在华为昇腾上完整跑通预训练,并训出MiniCPM5-1B模型,综合性能在AA榜单2B规模以下Top1。框架及Agent Harness工具链一并开源。
最高人民法院表示,将针对数字经济新业态,研究制定涉人工智能案件和数据产权司法保护的规范性文件,并完善数据权属、数据交易、AI 生成等方面的裁判规则。
递归流匹配(RecFM)是一种用于预测复杂时空动态的生成式框架。该模型通过强制自一致性来对齐跨离散化尺度的轨迹,从而减少离散化误差并提升物理任务的各项性能。据称,这是首个能够为科学系统实现高保真度一步与少步(2-4步)动态生成的方法,其性能可与最先进的多步求解器相媲美。在多个科学基准测试中,RecFM 实现了最高 20 倍于领先扩散模型的速度提升,同时提高了预测精度。与基础流匹配相比,其均方误差降低了超过 15%。
空间基础模型虽在标准数据集上表现优异,但其在不同任务、视角、场景、输入密度和硬件下的真实泛化能力尚未得到全面评估。为此,研究者提出了跨范式、多领域的基准测试 SpatialBench,包含19个数据集、546个场景,覆盖5个空间领域。该基准对41个模型在6种范式和4种输入密度下进行了评估,发现当前模型尚未达到“全能”水平。研究表明,全上下文注意力能最大化精度,有界内存策略可提升长序列扩展能力,且在具身任务中,严格的领域对齐与数据质量远比单纯增加数据量更重要。此外,研究还引入了大规模数据集 DA-Next-5M 及强基线模型 DA-Next。