《全国数据资源调查报告(2025 年)》在第九届数字中国建设峰会发布,显示数据资源正强力赋能人工智能创新。2025年,全国日均词元调用量从年初超万亿增长到年末100万亿,呈现指数级跃升;全年累计调用量达到约21100万亿。词元是AI模型处理信息的最小单元,调用量增长直接反映模型使用活跃度与产业价值创造能力。
《全国数据资源调查报告(2025 年)》在第九届数字中国建设峰会发布,显示数据资源正强力赋能人工智能创新。2025年,全国日均词元调用量从年初超万亿增长到年末100万亿,呈现指数级跃升;全年累计调用量达到约21100万亿。词元是AI模型处理信息的最小单元,调用量增长直接反映模型使用活跃度与产业价值创造能力。
我和张凯的GEO论文,在全球最大的论文平台http://arxiv.org完成审核并正式发布 这应该是全球第二篇与GEO有关的专项论文 论文基于今年3月份最新的数据,包括602条 Prompt、21143 条引用、23745条AI抓取记录,...
本研究将递归计算从单一模型扩展至多智能体系统,提出RecursiveMAS框架。该框架通过轻量级RecursiveLink模块连接异构智能体,形成协作循环,实现潜在思维生成与状态传递,并采用内外双循环算法进行全系统协同优化。理论分析表明其效率高于传统文本交互系统且训练稳定。在数学、科学、医学等9项基准测试中,该框架相比先进基线平均准确率提升8.3%,推理速度加快1.2–2.4倍,token使用量减少34.6%–75.6%。代码与数据已公开。
SkillSynth 是一个基于场景中介技能图的自动化终端任务合成框架,旨在解决终端智能体训练中高质量、多样化执行轨迹稀缺的问题。该方法首先构建大规模技能图,以场景作为中间过渡节点连接多样化的命令行技能;随后从图中采样路径作为真实工作流的抽象,并通过多智能体系统将其实例化为可执行任务。通过在图形采样的工作流路径上进行任务合成,SkillSynth 能够显式控制解决合成任务所需的最小执行轨迹的多样性。在 Terminal-Bench 上的实验验证了其有效性。此外,SkillSynth 合成的任务实例已用于训练 Hy3 Preview,提升了其在终端环境下的智能体能力。
研究团队提出一个系统性后训练框架,旨在弥合大规模视频扩散模型预训练性能与实际部署需求之间的差距。该框架包含四个协同阶段:首先通过监督微调将基础模型转化为稳定的指令跟随策略;随后采用专为视频扩散定制的新型群组相对策略优化方法进行基于人类反馈的强化学习,以提升感知质量和时间连贯性;接着集成专用语言模型进行提示词增强以优化用户输入;最后通过推理优化提升系统效率。实验表明,该统一流程能有效减少常见伪影,显著提升可控性和视觉美感,同时严格遵守采样成本限制。
韩国科学技术院研究团队成功开发出一种基于DNA的生物晶体管,突破了传统硅基半导体2纳米的微型化极限。该技术利用间距仅0.34纳米的DNA分子,通过可逆组装与解组装响应外部信号,实现了分子层面的计算与信息存储双重功能,克服了传统DNA电路一次性使用的缺陷。这项模拟半导体晶体管原理的成果,有望应用于体内分子诊断装置,实时监测疾病信号,为生物计算与医疗技术开辟了新方向。研究已发表于《Science Advances》。
本研究提出将Sigmoid注意力作为Softmax注意力的直接替代方案,用于构建更稳定的生物基础模型。在六个单细胞数据集上的实验表明,Sigmoid注意力能提升25%的细胞类型分离度,改善细胞类型内聚性,并降低验证损失,同时训练速度提升高达10%。理论分析揭示,Sigmoid具有全局有界导数和对角雅可比结构,这缓解了Softmax的稠密耦合带来的不稳定性。在压力测试中,训练1.6亿参数模型时,Softmax出现梯度爆炸,而Sigmoid保持稳定。团队开源了高性能GPU内核TritonSigmoid,在H100上实现515 TFLOPS,性能超越现有方案,并原生支持生物序列所需的填充处理。
针对现有开源视觉偏好数据集存在的冲突偏好、低分辨率等问题,研究团队提出Poly-DPO算法,通过多项式项动态调整模型置信度以增强抗噪性。为突破数据瓶颈,团队构建了大规模高质量数据集ViPO,包含百万级图像对与数十万视频对。实验表明,在高质量ViPO上,Poly-DPO最优配置会收敛至标准DPO,验证了数据质量;而在噪声数据集上,Poly-DPO相比Diffusion-DPO在SD1.5和SDXL模型上分别取得6.87和2.32的性能提升。研究证实,算法适应性与数据质量共同推动视觉偏好优化的规模化发展。
名为“Talkie”的130亿参数语言模型仅使用1931年前的文本训练,其对未来世界的预测呈现出强烈的时代局限性。该模型怀疑第二次世界大战是否会发生,并将2026年想象成一个仍以蒸汽船、铁路和廉价小说为主导的世界。这直观揭示了训练数据的时间范围如何从根本上限制大语言模型对现实发展的认知与预测能力。
本研究通过116次预训练实验,量化了循环语言模型中每次额外循环在验证损失上等效的独特参数量。实验拟合出联合缩放定律,得到循环等价指数φ=0.46。该值介于完全等效(φ=1)与无容量增益(φ=0)之间,表明每次循环都能在固定训练计算成本下可预测地提升性能。例如,一个4次循环的4.1亿参数模型,性能相当于5.8亿参数的非循环模型,但训练成本却与10亿参数的相当。研究进一步通过截断反向传播(φ降至0.38)和超连接(φ升至0.65)两个探测实验,展示了φ作为衡量工具的价值,能有效区分真正的架构改进与单纯的计算增益。
FlashQLA 发布了一组专为梯度下降网络优化的融合线性注意力内核。新内核在设计上对计算模式和后向传播更加友好,旨在提升训练效率。该技术通过优化内核融合策略,改进了注意力机制的计算性能,是提升大规模模型训练速度的关键底层优化。
针对视觉语言模型在强化学习训练中面临的监督信号粗粒度问题,本研究提出了Perceval过程奖励模型。该模型能够从模型回应中提取图像相关声明,并与视觉证据进行逐项比对,从而精确定位感知错误的片段。在训练阶段,Perceval被整合进强化学习框架,通过对幻觉片段施加标记级惩罚,提供细粒度的监督信号。在推理阶段,该模型可截断错误回应并引导模型重新生成或反思,实现测试时扩展。实验表明,该方法在多领域基准测试中显著提升了经过RL训练的VLM性能,且其测试时扩展策略也优于多数投票等方法。代码与数据已公开。
针对现有过程奖励模型在动态数据分析任务中的不足,研究团队开发了DataPRM。该模型能作为主动验证器与环境交互,探测中间状态以发现静默错误,并采用反思感知的三元奖励策略区分可纠正与不可恢复的错误。通过多样性轨迹生成和知识增强的步骤级标注,构建了超过8000个高质量训练实例。实验表明,仅40亿参数的DataPRM在使用Best-of-N推理时,能显著提升下游大模型在多个基准上的性能,并展现出稳健的泛化能力。将其集成到强化学习中,也显著优于结果奖励基线。
针对现有视频基础模型常出现几何不一致的问题,研究团队提出World-R1框架。该框架无需修改底层模型架构,而是通过强化学习,利用预训练的3D基础模型和视觉语言模型的反馈进行优化,从而将视频生成与3D约束对齐。团队构建了专用的世界模拟纯文本数据集,并采用周期性解耦训练策略来平衡几何一致性与场景动态流畅性。评估表明,该方法在保持基础模型原有视觉质量的同时,显著提升了3D一致性,有效弥合了视频生成与可扩展世界模拟之间的差距。
研究指出,在短上下文窗口下对大型语言模型进行标准GRPO后训练,虽能压缩推理步骤,但会导致训练不稳定和精度下降。为此,团队提出步骤级优势选择方法,该方法在推理步骤层面进行操作,对正确轨迹中的低置信度步骤和验证失败轨迹中的高置信度步骤分配零优势值,从而有效过滤因截断或验证器问题导致的不可靠步骤。在多项数学与通用推理基准测试中,该方法将平均Pass@1准确率提升了0.86个百分点,同时将平均推理长度降低了16.3%,实现了更优的精度与效率平衡。
Nick Levine、David Duvenaud 和 Alec Radford 发布了 talkie,这是一个基于1931年前历史英文文本训练的130亿参数语言模型。其基础版本在2600亿token的已过版权数据上训练,而指令微调版本则用于驱动聊天界面。该版本借助Claude等现代模型生成合成数据进行训练,可能导致年代错位的知识污染。项目旨在探索此类模型预测未来、超越知识截止点进行发明等能力,并希望最终构建一个完全由复古模型自举的训练流程。模型采用Apache 2.0许可。
Talkie是一款参数规模为130亿的复古风格语言模型,其设计灵感源于1930年代的语言特征与表达方式。该模型通过模拟特定历史时期的语料与文风,在文本生成中呈现出独特的复古韵味。项目已在官网发布,并在Hacker News社区获得102点热度关注。这一尝试展示了语言模型在风格化与历史语境模拟方面的技术拓展。
New work with @AlecRad and @DavidDuvenaud: Have you ever dreamed of talking to someone from the past? Introducing talkie...
研究提出基于Tsallis q-对数的损失函数族J_Q,用于在仅有输出级监督的后训练中调整推理模型。该族在利用极(q=0,对应RLVR)和密度估计极(q=1)间连续插值,所有成员共享相同梯度方向,仅通过标量因子P_{θ^{-q}}重加权。该机制解决了冷启动停滞问题:利用极逃离需Ω(1/p_0)时间,而密度估计极仅需Θ(log(1/p_0)),中间q值权衡逃离速度与噪声记忆。研究推导出两种蒙特卡洛估计器:梯度放大强化学习(GARL)与后验衰减微调(PAFT)。在多个数据集上,q=0.75的GARL显著缓解了冷启动停滞,在GRPO完全失败时成功逃离;在热启动中,低q的GARL在FinQA上表现主导,而PAFT在q=0.75时为其他数据集提供了稳定梯度,在HotPotQA上达到最佳结果47.9 maj@16。
研究团队提出LaDiR推理框架,将连续潜在表征的表达能力与潜在扩散模型的迭代优化能力相结合,以增强现有大语言模型的推理性能。该框架首先构建一个结构化的潜在推理空间,通过扩散过程对潜在状态进行迭代细化,使模型能够全局性地重新审视和修正推理路径中的早期内容。这种方法突破了传统自回归解码在整体优化和多样化解决方案探索方面的限制,提升了链式思维生成的质量与效率。
本文针对联邦学习中冗余或噪声样本导致模型性能下降的问题,提出一种基于多任务自动编码器的样本选择方法。该方法通过中央服务器协调,采用OCSVM、隔离森林和自适应损失阈值等无监督异常检测技术过滤客户端噪声样本,并引入中央服务器控制的多类深度支持向量数据描述损失以增强特征选择。在CIFAR10和MNIST数据集上的实验表明,在非独立同分布设置及高达40%的噪声水平下,基于损失的样本选择能显著提升模型精度,其中CIFAR10上最高提升7.02%。联邦SVDD损失进一步优化了特征选择,额外带来最高0.99%的精度提升。
推文作者指出,优化多智能体系统以实现自动化知识发现或调优高级AI系统是当前AI领域极具潜力的方向。文中引用的研究通过强化学习训练“指挥家”模型,使其能自动管理其他模型:针对简单问题直接查询单一模型,面对复杂编码任务则自主组建包含规划器、编码器和验证器的完整流程。这标志着从单智能体“思维链”向多智能体“指挥链”的演进,相关技术已应用于Sakana Fugu等新系统,展现了AI管理AI范式的广阔探索空间。
For the past few years, humans have been doing "prompt engineering" to coax the best performance out of different LLMs. ...
Mercor公司发生数据泄露事件,约4万名AI承包商提供的4TB语音样本被盗。此次事件暴露了大规模AI训练数据面临的安全风险,涉及数据量巨大且直接关联个人生物信息。目前具体泄露途径和影响范围尚未完全公布,事件凸显了AI开发过程中数据供应链的脆弱性。
高德纳预测,2026年全球数据中心系统支出将达7879.9亿美元,连续第二年增速超过50%。同期,全球整体IT支出预计为6.31655万亿美元,同比增长13.5%,较今年2月的预测上调了2.7个百分点。增长主要由人工智能基础设施和先进存储需求驱动,AI工作负载的扩展推高了高性能计算及相关处理器、加速器的投资,并使高带宽内存等领域利润显著提升。
研究指出,将人类多维度的视觉偏好压缩为二元胜负标签会产生严重的标签噪声,误导扩散模型直接偏好优化训练。为解决此问题,团队提出了Semi-DPO方法。该方法将标注一致的图像对视为干净数据,将存在冲突的视为带噪声的未标注数据。训练过程首先在共识过滤的干净子集上进行,然后利用该模型作为隐式分类器为噪声集生成伪标签,进行迭代优化。实验表明,Semi-DPO取得了最先进的性能,显著提升了与复杂人类偏好的对齐度,且无需额外人工标注或显式的奖励模型。代码和模型将在指定GitHub仓库开源。
本文提出“探索性采样”解码方法,以增强大语言模型生成内容的语义多样性。该方法在推理时训练一个轻量级“蒸馏器”,通过预测模型深层隐藏状态来建模其表示转换过程,并将预测误差作为新颖性信号,以此重新加权候选token,引导解码偏向未被充分探索的语义模式。该方法实现了异步训练-推理流水线,最坏情况下开销低于5%。实验表明,该方法显著提升了推理模型的Pass@k效率,在数学、科学和代码生成基准测试中表现出稳健的泛化能力,并在创意写作中打破了多样性与连贯性之间的权衡。
用户模拟因其广泛的应用潜力在计算机科学中长期扮演重要角色,而对话行为的模拟是核心研究领域。大语言模型的进展通过生成高保真合成用户对话,显著推动了该领域发展。本文综述了基于LLM的对话用户模拟最新进展,提出一个涵盖用户粒度和模拟目标的新分类法,并系统分析了核心技术与评估方法。研究旨在向学界同步该领域最新动态,并通过识别开放挑战、在统一框架下梳理现有工作,进一步促进未来研究。
策略蒸馏在多轮智能体任务中存在轨迹级KL不稳定问题,即KL散度随错误累积上升,导致训练不稳定。为此,研究提出时序课程策略蒸馏框架TCOD,通过课程学习控制学生模型接触的轨迹深度,从短轨迹逐步扩展到长轨迹。在ALFWorld、WebShop和ScienceWorld基准上的实验表明,TCOD有效抑制KL散度上升,提升训练稳定性,并将智能体性能较原始策略蒸馏最高提升18个百分点。进一步评估显示,TCOD甚至能超越教师模型性能,并泛化至教师失败的任务。
研究提出“用数据编程”新范式,通过将结构化知识作为训练与评估的共同基础,将数据工程生命周期精确映射至软件开发流程:训练数据即源代码,模型训练即编译,基准测试即单元测试。模型失败可被分解为概念缺失或推理链断裂,并能追溯到具体数据缺陷,通过针对性修补实现改进。该方法在十六个学科中得到验证,修复周期能带来模型性能和架构的持续提升,且不损害通用能力。研究同时开源了结构化知识库、基准测试套件和训练语料库。
普林斯顿大学研发出一种融合活体脑细胞与嵌入式电子技术的三维生物电子计算机,能完成模式识别任务。该器件在环氧树脂基底上构建了微型导线与电极的三维网状支架,培育了数万个神经元形成大型三维网络,实现了对神经元电活动的高精度记录与刺激。在六个月的研究中,系统成功区分了两种不同的输入脉冲模式。研究人员计划扩大器件规模以处理更复杂任务,并期望借此探索大脑的低能耗运算机制,为降低人工智能系统功耗提供新途径。相关论文已发表于《自然・电子学》期刊。
本研究通过六款先进大语言模型生成23,400个故事,系统探讨人格特质对性别偏见的影响。研究采用HEXACO和黑暗三联征人格框架,以特定性别、职业生成印度职场人士的英语和印地语故事。结果显示,人格特质能显著影响性别偏见的程度与方向,黑暗三联征人格比HEXACO特质更易引发性别刻板印象,且这种关联因模型和语言而异。这表明大语言模型的性别偏见具有动态性和情境依赖性,在实际应用的人格驱动系统中,可能加剧教育、职业等内容中的不平等表征危害。
在自动驾驶和机器人感知中,异常分割对区分已知类与未知物体至关重要,但3D领域研究有限。本文提出一种高效新方法,直接在特征空间操作,通过建模内点类的特征分布来约束和识别异常样本。针对现有公开数据集场景简单、异常实例少及传感器分辨率域差异问题,我们构建了混合真实-合成3D LiDAR异常分割数据集,基于成熟语义分割基准,包含多样分布外物体和复杂环境。大量实验表明,该方法在现有真实数据集上达到最优性能,在新数据集上也有竞争力,验证了方法有效性和数据集实用性。代码与数据集已公开。
一项研究发现,不同架构和规模的语言模型在学习过程中,其内部对数字的表示形式高度相似。研究通过分析多种模型发现,数字的向量表征在潜在空间中呈现出清晰的线性顺序和等距间隔,这与数字本身的大小顺序一致。这一现象表明,语言模型可能通过类似机制捕捉数字的抽象概念,揭示了其内部表示的一种普遍规律。
为突破海洋人工智能面临的数据瓶颈,研究团队发布了大规模多模态海洋语料库OceanPile。该语料库整合了声纳、水下图像、科学图文等多源异构数据,构建了统一集合OceanCorpus;通过分层海洋知识图谱引导,生成了高质量指令数据集OceanInstruction;并建立了人工标注评估基准OceanBenchmark。研究采用多阶段质量控制流程确保数据的科学性与跨模态对齐。实验表明,基于该数据训练的模型性能显著提升。全部数据集已开源,旨在推动海洋专用多模态大模型的发展。
本研究针对联邦学习中的通信瓶颈与隐私风险,提出一种结合拉普拉斯差分隐私与自适应量化的方法。该方法采用基于轮次的余弦退火策略进行全局比特调度,并依据客户端数据集熵动态分配量化比特数。在CIFAR10、MNIST及医学影像数据集上的实验表明,相比32位浮点训练,该方法在保持模型精度的同时,将通信数据总量最高减少了52.64%(MNIST)、45.06%(CIFAR10)以及31%至37%(医学影像数据集),并通过差分隐私机制提供了严格的隐私保护。
研究团队提出V-GRPO方法,通过将基于证据下界的似然替代函数与GRPO算法结合,解决了去噪生成模型与人类偏好对齐的难题。该方法降低了替代函数的方差并控制梯度步长,在文本到图像合成任务中实现了最先进的性能。相比现有方法MixGRPO和DiffusionNFT,V-GRPO分别带来2倍和3倍的加速效果,同时保持训练稳定性并与预训练目标自然对齐。
为应对大语言模型和视觉语言模型数据估值中的计算瓶颈,研究团队提出了For-Value框架。该方法基于理论分析,利用预训练模型的表征能力,通过最终隐藏层表征与预测误差的对齐关系来捕获数据价值。For-Value采用封闭表达式计算,仅需单次前向传播即可完成估值,无需昂贵的反向传播,支持高效的大规模批量计算。实验表明,该方法在识别关键数据和错误标注数据方面达到或超越了基于梯度的基线方法,同时实现了显著的效率提升。
本文提出结构化运动描述(SMD)方法,通过基于规则的确定性转换,将人体关节位置序列转化为描述关节角度、部位运动及整体轨迹的结构化文本。该表示使大型语言模型(LLM)能直接运用其预训练知识进行运动推理,无需学习专用的运动编码器或对齐模块。SMD在运动问答(BABEL-QA达66.7%,HuMMan-QA达90.1%)和运动描述(HumanML3D上R@1为0.584)任务上均超越现有最佳方法。其实用优势包括:同一文本输入经轻量级LoRA适配即可跨多种LLM使用,且其人类可读的表示支持可解释的注意力分析。
美团新一代基础大模型LongCat-2.0-Preview已开放邀请测试,其总参数规模突破万亿,采用混合专家架构,整体能力被认为对标GPT-4。关键突破在于该模型完全基于国产化算力集群训练完成,标志着美团在此领域取得领先。此前,美团创始人王兴已披露公司持续投入数十亿美元保障算力供应。去年9月,美团曾开源基于相同架构、拥有5600亿参数的首款自研大模型LongCat-Flash。