全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 1209 条

全部一手资讯 X 论文

标签「数据/训练」清除

4月28日周二

19:07Qwen：Blog Retrieval（API）57精选FlashQLA：面向GDN的CP-/Bwd友好型融合线性注意力内核

16:36HuggingFace Daily Papers（社区热门论文）53利用感知中心的过程奖励模型改进视觉语言模型

12:34HuggingFace Daily Papers（社区热门论文）53奖励科学过程：面向智能体数据分析的过程级奖励建模

12:34HuggingFace Daily Papers（社区热门论文）61World-R1：通过强化学习为文本到视频生成强化3D约束

12:34HuggingFace Daily Papers（社区热门论文）54通过步骤级优势选择稳定高效推理

10:47Simon Willison 博客65介绍 talkie：一个源自1930年的130亿参数复古语言模型

10:47Hacker News 热门（buzzing.cc 中文翻译）51Talkie：一款诞生于1930年的13B复古语言模型

08:00HuggingFace Daily Papers（社区热门论文）45模型应以多快速度遵从监督？基于Tsallis损失连续体训练推理模型

08:00Apple Machine Learning Research（RSS）62精选LaDiR：潜在扩散模型增强 LLM 的文本推理能力

08:00HuggingFace Daily Papers（社区热门论文）35非独立同分布数据下基于多任务自动编码器的联邦学习样本选择方法

4月27日周一

22:56Hacker News 热门（buzzing.cc 中文翻译）62Mercor公司4万名AI承包商的4TB语音样本刚刚被盗

10:18IT之家（RSS）66Gartner 预测：全球数据中心系统支出将连续 2 年增长 50+%

08:00HuggingFace Daily Papers（社区热门论文）53Learning from Noisy Preferences：一种用于直接偏好优化的半监督学习方法

08:00HuggingFace Daily Papers（社区热门论文）57大语言模型通过潜在蒸馏进行探索

08:00HuggingFace Daily Papers（社区热门论文）42基于大语言模型的对话用户模拟研究综述

08:00HuggingFace Daily Papers（社区热门论文）54TCOD：探索多轮自主智能体中的时序课程策略蒸馏

08:00HuggingFace Daily Papers（社区热门论文）61用数据编程：基于原始语料库的自改进大语言模型的测试驱动数据工程

4月26日周日

10:20IT之家（RSS）52融合活体脑细胞与电子技术，新型生物计算机可完成模式识别

08:00HuggingFace Daily Papers（社区热门论文）48人格特质影响大语言模型叙事中的性别偏见：英印双语实证研究

08:00HuggingFace Daily Papers（社区热门论文）44学习识别3D LiDAR异常分割中的分布外物体

4月25日周六

20:12Hacker News 热门（buzzing.cc 中文翻译）39不同的语言模型学习到的数字表示形式相似

08:00HuggingFace Daily Papers（社区热门论文）44OceanPile：面向基础模型的大规模多模态海洋语料库

08:00HuggingFace Daily Papers（社区热门论文）36非独立同分布联邦学习中结合自适应量化与差分隐私的通信与隐私增强方法

08:00HuggingFace Daily Papers（社区热门论文）62V-GRPO：用于生成模型去噪的在线强化学习比想象中更简单

08:00HuggingFace Daily Papers（社区热门论文）53For-Value：一种面向大模型微调的高效前向传播数据估值方法

4月24日周五

19:17HuggingFace Daily Papers（社区热门论文）57基于结构化运动描述的无编码器人体运动理解

19:08IT之家（RSS）50美团万亿级大模型 LongCat-2.0-Preview 开放测试，全程基于国产算力集群训练

12:17HuggingFace Daily Papers（社区热门论文）48面向生成式AI时代可泛化作者归属的可解释解耦表征学习

08:00HuggingFace Daily Papers（社区热门论文）53TexOCR：推动文档OCR模型实现可编译的页面到LaTeX重建

4月23日周四

19:58公众号：龙猫LongCat（美团）45LARYBench 发布：定义具身动作表征 ImageNet，首次度量从人类视频学习的泛化表征

4月22日周三

23:13HuggingFace Daily Papers（社区热门论文）RDP LoRA：大语言模型参数高效适应的几何驱动识别方法

23:07OpenAI：官网动态（RSS · 排除企业/客户案例）OpenAI 推出 Privacy Filter

20:44The Decoder：AI News（RSS）Meta 追踪美国员工点击与按键操作以训练 AI agents

19:12HuggingFace Daily Papers（社区热门论文）基于深度学习的准确可扩展交换关联方法

16:11HuggingFace Daily Papers（社区热门论文）HP-Edit：面向图像编辑的人类偏好后训练框架

16:11HuggingFace Daily Papers（社区热门论文）ShadowPEFT：用于参数高效微调的影子网络

11:10HuggingFace Daily Papers（社区热门论文）TEMPO：扩展大型推理模型的测试时训练规模

08:06IT之家（RSS）为训练 AI，Meta 将采集员工的鼠标与键盘操作数据

08:00HuggingFace Daily Papers（社区热门论文）63构建精确视频语言模型：基于人机协同监督的方案

08:00HuggingFace Daily Papers（社区热门论文）面向LLMs的混合策略蒸馏

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

4月28日

19:07

Qwen：Blog Retrieval（API）

精选57

FlashQLA：面向GDN的CP-/Bwd友好型融合线性注意力内核

FlashQLA 发布了一组专为梯度下降网络优化的融合线性注意力内核。新内核在设计上对计算模式和后向传播更加友好，旨在提升训练效率。该技术通过优化内核融合策略，改进了注意力机制的计算性能，是提升大规模模型训练速度的关键底层优化。

数据/训练论文/研究部署/工程

推荐理由：Qwen 团队发了一篇 fused linear attention 内核的工程论文，目标是把 GDN 架构的推理和反向传播都跑快。做底层优化的工程师值得看一眼，普通开发者可以略过。

16:36

HuggingFace Daily Papers（社区热门论文）

53

利用感知中心的过程奖励模型改进视觉语言模型

针对视觉语言模型在强化学习训练中面临的监督信号粗粒度问题，本研究提出了Perceval过程奖励模型。该模型能够从模型回应中提取图像相关声明，并与视觉证据进行逐项比对，从而精确定位感知错误的片段。在训练阶段，Perceval被整合进强化学习框架，通过对幻觉片段施加标记级惩罚，提供细粒度的监督信号。在推理阶段，该模型可截断错误回应并引导模型重新生成或反思，实现测试时扩展。实验表明，该方法在多领域基准测试中显著提升了经过RL训练的VLM性能，且其测试时扩展策略也优于多数投票等方法。代码与数据已公开。

多模态数据/训练论文/研究

12:34

HuggingFace Daily Papers（社区热门论文）

53

奖励科学过程：面向智能体数据分析的过程级奖励建模

针对现有过程奖励模型在动态数据分析任务中的不足，研究团队开发了DataPRM。该模型能作为主动验证器与环境交互，探测中间状态以发现静默错误，并采用反思感知的三元奖励策略区分可纠正与不可恢复的错误。通过多样性轨迹生成和知识增强的步骤级标注，构建了超过8000个高质量训练实例。实验表明，仅40亿参数的DataPRM在使用Best-of-N推理时，能显著提升下游大模型在多个基准上的性能，并展现出稳健的泛化能力。将其集成到强化学习中，也显著优于结果奖励基线。

智能体数据/训练论文/研究

12:34

HuggingFace Daily Papers（社区热门论文）

61

World-R1：通过强化学习为文本到视频生成强化3D约束

针对现有视频基础模型常出现几何不一致的问题，研究团队提出World-R1框架。该框架无需修改底层模型架构，而是通过强化学习，利用预训练的3D基础模型和视觉语言模型的反馈进行优化，从而将视频生成与3D约束对齐。团队构建了专用的世界模拟纯文本数据集，并采用周期性解耦训练策略来平衡几何一致性与场景动态流畅性。评估表明，该方法在保持基础模型原有视觉质量的同时，显著提升了3D一致性，有效弥合了视频生成与可扩展世界模拟之间的差距。

数据/训练视频论文/研究

12:34

HuggingFace Daily Papers（社区热门论文）

54

通过步骤级优势选择稳定高效推理

研究指出，在短上下文窗口下对大型语言模型进行标准GRPO后训练，虽能压缩推理步骤，但会导致训练不稳定和精度下降。为此，团队提出步骤级优势选择方法，该方法在推理步骤层面进行操作，对正确轨迹中的低置信度步骤和验证失败轨迹中的高置信度步骤分配零优势值，从而有效过滤因截断或验证器问题导致的不可靠步骤。在多项数学与通用推理基准测试中，该方法将平均Pass@1准确率提升了0.86个百分点，同时将平均推理长度降低了16.3%，实现了更优的精度与效率平衡。

推理数据/训练论文/研究

10:47

Simon Willison 博客

65

介绍 talkie：一个源自1930年的130亿参数复古语言模型

Nick Levine、David Duvenaud 和 Alec Radford 发布了 talkie，这是一个基于1931年前历史英文文本训练的130亿参数语言模型。其基础版本在2600亿token的已过版权数据上训练，而指令微调版本则用于驱动聊天界面。该版本借助Claude等现代模型生成合成数据进行训练，可能导致年代错位的知识污染。项目旨在探索此类模型预测未来、超越知识截止点进行发明等能力，并希望最终构建一个完全由复古模型自举的训练流程。模型采用Apache 2.0许可。

开源/仓库数据/训练模型发布端侧

10:47

Hacker News 热门（buzzing.cc 中文翻译）

51

Talkie：一款诞生于1930年的13B复古语言模型

Talkie是一款参数规模为130亿的复古风格语言模型，其设计灵感源于1930年代的语言特征与表达方式。该模型通过模拟特定历史时期的语料与文风，在文本生成中呈现出独特的复古韵味。项目已在官网发布，并在Hacker News社区获得102点热度关注。这一尝试展示了语言模型在风格化与历史语境模拟方面的技术拓展。

开源/仓库数据/训练模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

45

模型应以多快速度遵从监督？基于Tsallis损失连续体训练推理模型

研究提出基于Tsallis q-对数的损失函数族J_Q，用于在仅有输出级监督的后训练中调整推理模型。该族在利用极（q=0，对应RLVR）和密度估计极（q=1）间连续插值，所有成员共享相同梯度方向，仅通过标量因子P_{θ^{-q}}重加权。该机制解决了冷启动停滞问题：利用极逃离需Ω(1/p_0)时间，而密度估计极仅需Θ(log(1/p_0))，中间q值权衡逃离速度与噪声记忆。研究推导出两种蒙特卡洛估计器：梯度放大强化学习（GARL）与后验衰减微调（PAFT）。在多个数据集上，q=0.75的GARL显著缓解了冷启动停滞，在GRPO完全失败时成功逃离；在热启动中，低q的GARL在FinQA上表现主导，而PAFT在q=0.75时为其他数据集提供了稳定梯度，在HotPotQA上达到最佳结果47.9 maj@16。

arXiv 推理数据/训练论文/研究

08:00

Apple Machine Learning Research（RSS）

精选62

LaDiR：潜在扩散模型增强 LLM 的文本推理能力

研究团队提出LaDiR推理框架，将连续潜在表征的表达能力与潜在扩散模型的迭代优化能力相结合，以增强现有大语言模型的推理性能。该框架首先构建一个结构化的潜在推理空间，通过扩散过程对潜在状态进行迭代细化，使模型能够全局性地重新审视和修正推理路径中的早期内容。这种方法突破了传统自回归解码在整体优化和多样化解决方案探索方面的限制，提升了链式思维生成的质量与效率。

推理数据/训练论文/研究

推荐理由：Apple 把扩散模型塞进 LLM 推理链，思路很野，用连续潜空间替代自回归 token 生成来解决「写到一半没法回头改」的老毛病。做推理优化或 diffusion 架构的值得细看，但离工程落地还远。

08:00

HuggingFace Daily Papers（社区热门论文）

35

非独立同分布数据下基于多任务自动编码器的联邦学习样本选择方法

本文针对联邦学习中冗余或噪声样本导致模型性能下降的问题，提出一种基于多任务自动编码器的样本选择方法。该方法通过中央服务器协调，采用OCSVM、隔离森林和自适应损失阈值等无监督异常检测技术过滤客户端噪声样本，并引入中央服务器控制的多类深度支持向量数据描述损失以增强特征选择。在CIFAR10和MNIST数据集上的实验表明，在非独立同分布设置及高达40%的噪声水平下，基于损失的样本选择能显著提升模型精度，其中CIFAR10上最高提升7.02%。联邦SVDD损失进一步优化了特征选择，额外带来最高0.99%的精度提升。

数据/训练论文/研究部署/工程

4月27日

22:56

Hacker News 热门（buzzing.cc 中文翻译）

62

Mercor公司4万名AI承包商的4TB语音样本刚刚被盗

Mercor公司发生数据泄露事件，约4万名AI承包商提供的4TB语音样本被盗。此次事件暴露了大规模AI训练数据面临的安全风险，涉及数据量巨大且直接关联个人生物信息。目前具体泄露途径和影响范围尚未完全公布，事件凸显了AI开发过程中数据供应链的脆弱性。

安全/对齐数据/训练行业动态

10:18

IT之家（RSS）

66

Gartner 预测：全球数据中心系统支出将连续 2 年增长 50+%

高德纳预测，2026年全球数据中心系统支出将达7879.9亿美元，连续第二年增速超过50%。同期，全球整体IT支出预计为6.31655万亿美元，同比增长13.5%，较今年2月的预测上调了2.7个百分点。增长主要由人工智能基础设施和先进存储需求驱动，AI工作负载的扩展推高了高性能计算及相关处理器、加速器的投资，并使高带宽内存等领域利润显著提升。

数据/训练现象/趋势部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

53

Learning from Noisy Preferences：一种用于直接偏好优化的半监督学习方法

研究指出，将人类多维度的视觉偏好压缩为二元胜负标签会产生严重的标签噪声，误导扩散模型直接偏好优化训练。为解决此问题，团队提出了Semi-DPO方法。该方法将标注一致的图像对视为干净数据，将存在冲突的视为带噪声的未标注数据。训练过程首先在共识过滤的干净子集上进行，然后利用该模型作为隐式分类器为噪声集生成伪标签，进行迭代优化。实验表明，Semi-DPO取得了最先进的性能，显著提升了与复杂人类偏好的对齐度，且无需额外人工标注或显式的奖励模型。代码和模型将在指定GitHub仓库开源。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

大语言模型通过潜在蒸馏进行探索

本文提出“探索性采样”解码方法，以增强大语言模型生成内容的语义多样性。该方法在推理时训练一个轻量级“蒸馏器”，通过预测模型深层隐藏状态来建模其表示转换过程，并将预测误差作为新颖性信号，以此重新加权候选token，引导解码偏向未被充分探索的语义模式。该方法实现了异步训练-推理流水线，最坏情况下开销低于5%。实验表明，该方法显著提升了推理模型的Pass@k效率，在数学、科学和代码生成基准测试中表现出稳健的泛化能力，并在创意写作中打破了多样性与连贯性之间的权衡。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

42

基于大语言模型的对话用户模拟研究综述

用户模拟因其广泛的应用潜力在计算机科学中长期扮演重要角色，而对话行为的模拟是核心研究领域。大语言模型的进展通过生成高保真合成用户对话，显著推动了该领域发展。本文综述了基于LLM的对话用户模拟最新进展，提出一个涵盖用户粒度和模拟目标的新分类法，并系统分析了核心技术与评估方法。研究旨在向学界同步该领域最新动态，并通过识别开放挑战、在统一框架下梳理现有工作，进一步促进未来研究。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

TCOD：探索多轮自主智能体中的时序课程策略蒸馏

策略蒸馏在多轮智能体任务中存在轨迹级KL不稳定问题，即KL散度随错误累积上升，导致训练不稳定。为此，研究提出时序课程策略蒸馏框架TCOD，通过课程学习控制学生模型接触的轨迹深度，从短轨迹逐步扩展到长轨迹。在ALFWorld、WebShop和ScienceWorld基准上的实验表明，TCOD有效抑制KL散度上升，提升训练稳定性，并将智能体性能较原始策略蒸馏最高提升18个百分点。进一步评估显示，TCOD甚至能超越教师模型性能，并泛化至教师失败的任务。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

用数据编程：基于原始语料库的自改进大语言模型的测试驱动数据工程

研究提出“用数据编程”新范式，通过将结构化知识作为训练与评估的共同基础，将数据工程生命周期精确映射至软件开发流程：训练数据即源代码，模型训练即编译，基准测试即单元测试。模型失败可被分解为概念缺失或推理链断裂，并能追溯到具体数据缺陷，通过针对性修补实现改进。该方法在十六个学科中得到验证，修复周期能带来模型性能和架构的持续提升，且不损害通用能力。研究同时开源了结构化知识库、基准测试套件和训练语料库。

开源生态数据/训练论文/研究

4月26日

10:20

IT之家（RSS）

52

融合活体脑细胞与电子技术，新型生物计算机可完成模式识别

普林斯顿大学研发出一种融合活体脑细胞与嵌入式电子技术的三维生物电子计算机，能完成模式识别任务。该器件在环氧树脂基底上构建了微型导线与电极的三维网状支架，培育了数万个神经元形成大型三维网络，实现了对神经元电活动的高精度记录与刺激。在六个月的研究中，系统成功区分了两种不同的输入脉冲模式。研究人员计划扩大器件规模以处理更复杂任务，并期望借此探索大脑的低能耗运算机制，为降低人工智能系统功耗提供新途径。相关论文已发表于《自然・电子学》期刊。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

人格特质影响大语言模型叙事中的性别偏见：英印双语实证研究

本研究通过六款先进大语言模型生成23,400个故事，系统探讨人格特质对性别偏见的影响。研究采用HEXACO和黑暗三联征人格框架，以特定性别、职业生成印度职场人士的英语和印地语故事。结果显示，人格特质能显著影响性别偏见的程度与方向，黑暗三联征人格比HEXACO特质更易引发性别刻板印象，且这种关联因模型和语言而异。这表明大语言模型的性别偏见具有动态性和情境依赖性，在实际应用的人格驱动系统中，可能加剧教育、职业等内容中的不平等表征危害。

安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

44

学习识别3D LiDAR异常分割中的分布外物体

在自动驾驶和机器人感知中，异常分割对区分已知类与未知物体至关重要，但3D领域研究有限。本文提出一种高效新方法，直接在特征空间操作，通过建模内点类的特征分布来约束和识别异常样本。针对现有公开数据集场景简单、异常实例少及传感器分辨率域差异问题，我们构建了混合真实-合成3D LiDAR异常分割数据集，基于成熟语义分割基准，包含多样分布外物体和复杂环境。大量实验表明，该方法在现有真实数据集上达到最优性能，在新数据集上也有竞争力，验证了方法有效性和数据集实用性。代码与数据集已公开。

具身智能数据/训练论文/研究

4月25日

20:12

Hacker News 热门（buzzing.cc 中文翻译）

39

不同的语言模型学习到的数字表示形式相似

一项研究发现，不同架构和规模的语言模型在学习过程中，其内部对数字的表示形式高度相似。研究通过分析多种模型发现，数字的向量表征在潜在空间中呈现出清晰的线性顺序和等距间隔，这与数字本身的大小顺序一致。这一现象表明，语言模型可能通过类似机制捕捉数字的抽象概念，揭示了其内部表示的一种普遍规律。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

44

OceanPile：面向基础模型的大规模多模态海洋语料库

为突破海洋人工智能面临的数据瓶颈，研究团队发布了大规模多模态海洋语料库OceanPile。该语料库整合了声纳、水下图像、科学图文等多源异构数据，构建了统一集合OceanCorpus；通过分层海洋知识图谱引导，生成了高质量指令数据集OceanInstruction；并建立了人工标注评估基准OceanBenchmark。研究采用多阶段质量控制流程确保数据的科学性与跨模态对齐。实验表明，基于该数据训练的模型性能显著提升。全部数据集已开源，旨在推动海洋专用多模态大模型的发展。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

36

非独立同分布联邦学习中结合自适应量化与差分隐私的通信与隐私增强方法

本研究针对联邦学习中的通信瓶颈与隐私风险，提出一种结合拉普拉斯差分隐私与自适应量化的方法。该方法采用基于轮次的余弦退火策略进行全局比特调度，并依据客户端数据集熵动态分配量化比特数。在CIFAR10、MNIST及医学影像数据集上的实验表明，相比32位浮点训练，该方法在保持模型精度的同时，将通信数据总量最高减少了52.64%（MNIST）、45.06%（CIFAR10）以及31%至37%（医学影像数据集），并通过差分隐私机制提供了严格的隐私保护。

数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

62

V-GRPO：用于生成模型去噪的在线强化学习比想象中更简单

研究团队提出V-GRPO方法，通过将基于证据下界的似然替代函数与GRPO算法结合，解决了去噪生成模型与人类偏好对齐的难题。该方法降低了替代函数的方差并控制梯度步长，在文本到图像合成任务中实现了最先进的性能。相比现有方法MixGRPO和DiffusionNFT，V-GRPO分别带来2倍和3倍的加速效果，同时保持训练稳定性并与预训练目标自然对齐。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

For-Value：一种面向大模型微调的高效前向传播数据估值方法

为应对大语言模型和视觉语言模型数据估值中的计算瓶颈，研究团队提出了For-Value框架。该方法基于理论分析，利用预训练模型的表征能力，通过最终隐藏层表征与预测误差的对齐关系来捕获数据价值。For-Value采用封闭表达式计算，仅需单次前向传播即可完成估值，无需昂贵的反向传播，支持高效的大规模批量计算。实验表明，该方法在识别关键数据和错误标注数据方面达到或超越了基于梯度的基线方法，同时实现了显著的效率提升。

数据/训练论文/研究部署/工程

4月24日

19:17

HuggingFace Daily Papers（社区热门论文）

57

基于结构化运动描述的无编码器人体运动理解

本文提出结构化运动描述（SMD）方法，通过基于规则的确定性转换，将人体关节位置序列转化为描述关节角度、部位运动及整体轨迹的结构化文本。该表示使大型语言模型（LLM）能直接运用其预训练知识进行运动推理，无需学习专用的运动编码器或对齐模块。SMD在运动问答（BABEL-QA达66.7%，HuMMan-QA达90.1%）和运动描述（HumanML3D上R@1为0.584）任务上均超越现有最佳方法。其实用优势包括：同一文本输入经轻量级LoRA适配即可跨多种LLM使用，且其人类可读的表示支持可解释的注意力分析。

多模态数据/训练论文/研究

19:08

IT之家（RSS）

50

美团万亿级大模型 LongCat-2.0-Preview 开放测试，全程基于国产算力集群训练

美团新一代基础大模型LongCat-2.0-Preview已开放邀请测试，其总参数规模突破万亿，采用混合专家架构，整体能力被认为对标GPT-4。关键突破在于该模型完全基于国产化算力集群训练完成，标志着美团在此领域取得领先。此前，美团创始人王兴已披露公司持续投入数十亿美元保障算力供应。去年9月，美团曾开源基于相同架构、拥有5600亿参数的首款自研大模型LongCat-Flash。

开源生态数据/训练模型发布

12:17

HuggingFace Daily Papers（社区热门论文）

48

面向生成式AI时代可泛化作者归属的可解释解耦表征学习

针对作者风格与文本内容纠缠导致模型泛化能力差的问题，本文提出可解释作者身份变分自编码器（EAVAE）框架。该框架通过架构设计分离风格与内容表征，先以监督对比学习预训练风格编码器，再结合变分自编码器微调。其核心创新是一个新型判别器，既能区分表征是否属于同一作者或内容源，又能生成自然语言解释以增强可解释性。实验表明，EAVAE在Amazon Reviews等多个数据集上实现了最先进的作者归属性能，并在M4数据集的少样本AI生成文本检测任务中表现优异。代码与数据已开源。

安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

TexOCR：推动文档OCR模型实现可编译的页面到LaTeX重建

现有文档OCR主要针对纯文本或Markdown，丢弃了使LaTeX对科学出版至关重要的结构和可执行属性。研究将科学PDF重建为可编译LaTeX的页面级任务，并为此引入了基准测试TexOCR-Bench和大规模训练语料TexOCR-Train。TexOCR-Bench采用多维评估套件，联合评估转录保真度、结构忠实度和端到端可编译性。利用TexOCR-Train，通过监督微调和强化学习训练了一个20亿参数的TexOCR模型，其强化学习的可验证奖励源自直接强制执行可编译性和引用完整性的LaTeX单元测试。在TexOCR-Bench上对21个前沿模型的实验表明，现有系统经常违反关键文档不变性，包括一致的章节结构、正确的浮动体放置和有效的标签-引用链接，这损害了编译可靠性和下游可用性。分析进一步揭示，带有可验证奖励的强化学习相比仅用监督微调能带来一致改进，尤其在结构和编译指标上。

开源/仓库数据/训练论文/研究部署/工程

4月23日

19:58

公众号：龙猫LongCat（美团）

45

LARYBench 发布：定义具身动作表征 ImageNet，首次度量从人类视频学习的泛化表征

LARYBench 是一个系统化评测基准，旨在从大规模视觉数据中学习通用的隐式动作表征。它首次提供了度量标准，用于评估从人类视频学习到的表征的泛化能力，类似 ImageNet 在视觉领域的定位。

具身智能数据/训练论文/研究

4月22日

23:13

HuggingFace Daily Papers（社区热门论文）

RDP LoRA：大语言模型参数高效适应的几何驱动识别方法

研究团队提出RDP LoRA方法，将大语言模型隐藏状态演化建模为高维几何轨迹，利用Ramer-Douglas-Peucker算法无训练地识别表征路径关键断点，并直接作为层选择信号。在Qwen3-8B-Base的LoRA微调实验中，仅需适配13个RDP选择的层，便在MMLU-Math上达到81.67%准确率，显著优于全层适配的79.32%和随机选择的75.56%，证明几何轨迹分析可优化参数高效微调中的层选择决策。

Hugging Face 数据/训练论文/研究

23:07

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI 推出 Privacy Filter

OpenAI 发布 Privacy Filter，一款用于检测和脱敏文本中个人身份信息（PII）的开源权重模型。该模型在 PII 识别任务上达到业界领先的准确率，支持开发者本地部署和定制。作为开放权重模型，它可自动识别并编辑敏感个人信息，为企业数据隐私保护和合规处理提供高效的技术解决方案。

OpenAI 开源/仓库数据/训练部署/工程

20:44

The Decoder：AI News（RSS）

Meta 追踪美国员工点击与按键操作以训练 AI agents

Meta 正在为其美国员工的电脑安装新型监控软件，实时捕捉鼠标移动、点击和按键操作。这些详细的交互数据将直接用于训练 AI agents，使其学习并模仿人类计算机操作行为。此举标志着该公司在 AI 训练数据获取策略上的重大转变，通过收集内部员工的真实工作流数据来构建能够执行复杂任务的自动化系统。

智能体 Meta 数据/训练行业动态

19:12

HuggingFace Daily Papers（社区热门论文）

基于深度学习的准确可扩展交换关联方法

研究团队推出名为Skala的深度学习交换关联泛函，在GMTKN55主族化学基准测试中实现2.8 kcal/mol的误差，精度超越现有混合泛函，同时保持半局域DFT的低计算成本。该方法通过从数据中学习电子结构的非局域表示，绕过昂贵的手工特征工程，打破了传统密度泛函理论中精度与效率的权衡。基于大规模波函数方法高精度参考数据训练，证明现代深度学习可实现随数据集扩展而系统改进的神经网络交换关联模型，推动第一性原理模拟向更高预测能力发展。

arXiv 数据/训练论文/研究

16:11

HuggingFace Daily Papers（社区热门论文）

HP-Edit：面向图像编辑的人类偏好后训练框架

本文提出HP-Edit图像编辑人类偏好后训练框架，发布涵盖8类真实任务的RealPref-50K数据集。通过预训练视觉大语言模型和少量偏好数据构建HP-Scorer评估器，用于高效扩展偏好数据集并作为奖励函数优化扩散模型。同步推出RealPref-Bench基准。实验表明，该方法显著提升Qwen-Image-Edit-2509等模型编辑质量，使输出更贴合人类偏好。

图像生成数据/训练论文/研究

16:11

HuggingFace Daily Papers（社区热门论文）

ShadowPEFT：用于参数高效微调的影子网络

研究团队提出ShadowPEFT，一种集中式参数高效微调框架，通过深度共享的影子模块实现层级别细化。该方法在每个Transformer层维护并行影子状态并反复演化，将适应机制从分布式权重扰动（如LoRA）转向集中式层空间优化。影子模块与主干解耦，支持跨深度复用、独立预训练及分离部署，适用于边缘计算。实验表明，在同等可训练参数预算下，ShadowPEFT在生成与理解任务上达到或超越LoRA与DoRA性能。

数据/训练论文/研究

11:10

HuggingFace Daily Papers（社区热门论文）

TEMPO：扩展大型推理模型的测试时训练规模

TEMPO框架通过期望最大化算法形式化测试时训练过程，交替进行策略优化与周期性critic重新校准，解决了现有方法中自我奖励信号漂移导致的性能瓶颈和多样性崩溃问题。该方法在OLMO3和Qwen3模型家族上验证，使OLMO3-7B在AIME 2024上的准确率从33.0%提升至51.1%，Qwen3-14B从42.3%提升至65.8%，同时保持高生成多样性，实现了测试时计算的有效扩展。

Hugging Face 推理数据/训练论文/研究

08:06

IT之家（RSS）

为训练 AI，Meta 将采集员工的鼠标与键盘操作数据

Meta将通过内部工具采集员工在特定应用中的鼠标移动与键盘敲击数据，用于训练协助用户完成日常电脑事务的AI模型。公司声明已设置保护措施确保敏感内容安全，且数据仅限训练用途。此举暴露出AI行业在训练数据短缺压力下，正将企业内部操作行为纳入数据供应链，引发隐私安全担忧。

Meta 数据/训练行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

63

构建精确视频语言模型：基于人机协同监督的方案

研究团队发布了一套用于构建精确视频语言模型的开源数据集、基准与可扩展监督方案。其核心是提出了CHAI监督框架，由训练有素的专家对模型生成的初版描述进行批判与修订，生成高质量后版描述。这种分工提升了标注效率与准确性。基于这些修订与偏好数据，团队改进了Qwen3-VL等开源模型在描述生成、奖励建模与批判生成方面的性能。在适度专家监督下，所得模型性能超越了Gemini-3.1-Pro等闭源模型。该方法还被应用于为专业视频重新生成描述，并微调Wan等视频生成模型，使其能精细遵循长达400词的详细提示，实现对摄像机运动、构图等电影摄影元素的控制。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向LLMs的混合策略蒸馏

研究团队提出混合策略蒸馏（HPD）方法，通过统一视角将知识蒸馏重新表述为token级重加权对数似然目标。该方法整合前向与反向KL散度的互补优势以平衡模式覆盖与模式寻求，并结合离线数据与轻量级近似在线采样策略。在数学推理、对话及代码任务的验证中，HPD展现出优于现有方法的优化稳定性、计算效率和最终性能，且适用于不同模型家族与规模。

arXiv 开源生态数据/训练论文/研究

1…22 232425 26…31