AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「数据/训练」清除
5月27日周三
10:19HuggingFace Daily Papers(社区热门论文)64LocateAnything:基于并行框解码的快速高精度视觉语言定位
10:19HuggingFace Daily Papers(社区热门论文)64尺寸可忽略,影响却显著:论大语言模型中的缩放向量
09:13IT之家(RSS)50Counterpoint:2026Q1 全球 DRAM 收入达 970 亿美元,环比激增 80%
08:00HuggingFace Daily Papers(社区热门论文)44RAT+:用指数衰减记忆增强注意力,改善查询感知KV稀疏性
08:00HuggingFace Daily Papers(社区热门论文)55深度学习的Hamilton-Jacobi理论
08:00HuggingFace Daily Papers(社区热门论文)62行为规格:作为AI个性化的解释层
08:00HuggingFace Daily Papers(社区热门论文)62RUBRIC-ARROW:面向非可验证领域LLM后训练的逐点评分标准奖励建模
08:00HuggingFace Daily Papers(社区热门论文)62Skill0.5: 一种面向分布外泛化的联合技能内化与利用智能体强化学习框架
08:00HuggingFace Daily Papers(社区热门论文)68Parallax:面向语言建模的参数化局部线性注意力
08:00HuggingFace Daily Papers(社区热门论文)54OR-Space:面向工业优化智能体的全生命周期工作区基准测试
07:21karminski-牙医69微软等发布SkillOpt框架,用机器学习流程系统优化AI智能体技能
04:50Epoch AI69算力危机将至?Blackwell芯片产能与需求对比
03:31Tomer Tunguz 博客(VC 分析)58精选智能体重力:谁在运行你的智能体?
02:20Epoch AI39参与AI调研,助力打造最有用内容
00:07TechCrunch:AI(RSS)54This Startup Is Betting India's Gig Economy Can Train the World's Robots
5月26日周二
23:59Ant Ling69KPop:稳定大规模MoE模型强化学习训练的新技术
23:31Chubby♨️59Google 正在赢得 AI 分发竞赛,而非 AI 竞赛本身
23:29Ant Ling68同事件精选KPop 新方法让 Ring-2.6-1T 在 SWE-bench Verified 上突破 76 分同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
23:29SenseTime77同事件精选开源多模态模型SenseNova-U1完整训练代码库同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
22:28Ant Ling62SwiGLU在大输入下呈二次增长,PowLU应运而生
21:19HuggingFace Daily Papers(社区热门论文)67CUA-Gym: 为计算机使用智能体扩展可验证的训练环境与任务
20:59向阳乔木64Codex分析揭示X平台内容规律
20:12公众号:百度智能云(文心)44百度智能云发布具身智能Ego-Centric采集解决方案
12:18HuggingFace Daily Papers(社区热门论文)64On-Policy对抗流蒸馏用于自回归视频生成
12:11IT之家(RSS)62小米汽车发布 Xiaomi Auto World Model 世界模型全新框架:重建 + 生成一体化,主流基准测试全面 SOTA
11:18HuggingFace Daily Papers(社区热门论文)66Claw-Anything:评测能够广泛访问用户数字世界的全天候个人助手基准
10:18HuggingFace Daily Papers(社区热门论文)64DVAO:面向多奖励强化学习的动态方差自适应优势优化
08:00HuggingFace Daily Papers(社区热门论文)50SIA:通过Harness与权重更新实现自改进AI
08:00HuggingFace Daily Papers(社区热门论文)47信任区域Q伴随匹配
08:00HuggingFace Daily Papers(社区热门论文)39MERIT:用于音频相似度学习的解耦音乐表示
08:00HuggingFace Daily Papers(社区热门论文)54超越整体模型:深度多元时间序列预测的系统性组件级基准测试
08:00HuggingFace Daily Papers(社区热门论文)50并非所有分歧都可学习:在线策略蒸馏中的Token可教学性
08:00HuggingFace Daily Papers(社区热门论文)51密集检索器的位置偏见是内建的,还是从数据中学来的?
08:00HuggingFace Daily Papers(社区热门论文)64GradSentry: 用于大语言模型微调中后门样本过滤的梯度谱熵方法
08:00HuggingFace Daily Papers(社区热门论文)58利用稀疏自编码器的模型内部信号指导LLM后训练数据工程
08:00HuggingFace Daily Papers(社区热门论文)64少即是多:用于On-policy蒸馏的早期停止生成策略
06:58Hacker News 热门(buzzing.cc 中文翻译)40挪威采购2拍字节华为闪存用于LLM训练
04:54Ethan Mollick56AI评估挑战:数学问题单一,亟需多样化难题库
04:36MarkTechPost(RSS)66使用 NVIDIA FLARE 在非独立同分布 CIFAR-10 上构建与比较 FedAvg 和 FedProx 联邦学习的分步指南
02:28Hacker News 热门(buzzing.cc 中文翻译)64优步首席运营官表示,越来越难以证明在"代币化"上的支出是合理的
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月27日
10:19
HuggingFace Daily Papers(社区热门论文)
64
LocateAnything:基于并行框解码的快速高精度视觉语言定位

LocateAnything 提出了一种统一的生成式视觉定位与检测框架,其核心是并行框解码(PBD)技术。该技术将边界框和点等几何元素作为原子单元一步解码,替代了传统视觉语言模型中串行解码坐标 token 的方式,从而保持了框内几何一致性并实现了大规模并行,显著提升了解码吞吐量与定位精度。研究还构建了包含超过 1.38 亿训练样本的大规模数据集 LocateAnything-Data。评估表明,LocateAnything 在提升解码速度的同时,改善了高交并比(high-IoU)下的定位质量。

多模态数据/训练论文/研究
10:19
HuggingFace Daily Papers(社区热门论文)
64
尺寸可忽略,影响却显著:论大语言模型中的缩放向量

本研究系统考察了大语言模型中可学习缩放向量的作用。尽管其参数占比极小,但移除后会显著损害模型预训练效果。研究表明,在Pre-Norm架构中,其主要作用并非增强模型表达能力,而是通过自放大的预处理效应优化后续的线性映射。此外,权重衰减对Input-Norm层有益,但对Output-Norm层有害。基于这些发现,文章提出了三种轻量化改进:分支特异性异构性、线性映射周围的改进放置以及幅度-方向重参数化,并将其整合为一个统一的策略。实验验证表明,该策略在以可忽略不计的额外参数和计算开销下,能一致实现更低的最终损失和更优的缩放行为。

数据/训练论文/研究
09:13
IT之家(RSS)
50
Counterpoint:2026Q1 全球 DRAM 收入达 970 亿美元,环比激增 80%

2026年第一季度全球DRAM收入达970亿美元,环比激增80%,同比增长260%。三星以38%的市占领先,SK海力士和美光分别为29%和22%。增长动力主要来自AI数据中心对LPDDR5X和HBM内存的强劲需求。预计第二季度DRAM均价将环比上涨50%,全年市场规模有望实现三倍增长。

数据/训练现象/趋势
08:00
HuggingFace Daily Papers(社区热门论文)
44
RAT+:用指数衰减记忆增强注意力,改善查询感知KV稀疏性

RAT+ 引入指数衰减记忆增强注意力,使模型在推理时支持灵活的空洞注意力。将 RAT+ 与 Quest、MoBA、SnapKV 等查询感知稀疏推理方法结合,在八个 needle-in-a-haystack 任务上,不同稀疏预算下均一致优于标准注意力。验证基于 RAT+ 已发布检查点及用额外 10B token 继续预训练的 OLMo2-7B。最后提出两种假说解释记忆模块为何有益。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
深度学习的Hamilton-Jacobi理论

该论文将神经网络训练过程重新解释为对Hamilton-Jacobi初值问题的搜索。每次梯度下降都为粘性Hamilton-Jacobi方程选择初始数据,使得其Hopf-Cole传播器最佳拟合观测数据。此对应关系在log-sum-exp层中是精确的,对残差网络、Transformer及各类循环架构(RNN、LSTM、SSM)等更广泛的网络结构则是结构性的。一个变形参数ε统一了神经网络、热带代数、粘性偏微分方程与凸优化四个视角。定量结论包括:泛化率下界、由ε控制的对抗鲁棒性、将反向传播解释为残差网络Hamilton系统的共态方程,以及具有闭式解O(N)的影响函数。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
行为规格:作为AI个性化的解释层

AI智能体需与用户对齐,提出“代表准确性”衡量个性化理解保真度。通过“行为规格”将用户数据压缩为解释模式,在14个公共领域自传体语料库上显著提升代表准确性,上下文成本降低约25倍。该方法在基准测试中优于Mem0、Letta、Supermemory、Zep四种商业记忆系统。对需要解释的问题提升最大,但对需要回忆的问题可能干扰。代表准确性区别于回忆能力,使AI对齐可测试。

安全/对齐数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
RUBRIC-ARROW:面向非可验证领域LLM后训练的逐点评分标准奖励建模

RUBRIC-ARROW是一个用于解决大语言模型在主观、非可验证领域进行后训练时,评分标准奖励模型所面临的评分僵局问题的交替式奖励建模框架。该框架联合训练一个评分标准生成器和一个基于该标准的评判者,其强化学习阶段仅使用成对偏好数据。核心方法在于采用概率评分规则以减少平局,并结合交替式GRPO方案,利用阶段性偏好奖励训练逐点评分评估器。实验表明,该框架在奖励建模准确性上具备竞争力,并能为下游策略后训练带来一致收益。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
Skill0.5: 一种面向分布外泛化的联合技能内化与利用智能体强化学习框架

针对大语言模型在技能利用中外部化与内部化的两难困境,本文提出了Skill0.5框架。该框架通过一个动态、难度感知的路由器,将任务分流至不同的掌握层级。对于通用技能,通过特权蒸馏进行内化,为处理困难任务构建认知基础;对于任务特定技能,则在简单任务上通过诊断探测来强制利用,以避免捷径学习。在ALFWorld和WebShop基准测试中,Skill0.5在分布内和分布外场景下均优于现有的基于记忆和基于技能的强化学习基线方法。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
Parallax:面向语言建模的参数化局部线性注意力

Parallax是一种可扩展至大语言模型的参数化局部线性注意力机制。它消除了局部线性注意力中的数值求解器,并引入额外的查询投影器来探测KV协方差。该研究提出一种硬件感知算法,其算术强度优于FlashAttention,将注意力转向更计算密集的模式。其原型解码内核在不同批次大小和上下文长度下匹配或超越FlashAttention 2/3。在0.6B和1.7B规模的预训练中,Parallax展现出持续的困惑度改进,且该收益可迁移至下游基准测试。研究还发现Muon优化器能有效释放Parallax的性能潜力。

开源生态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
OR-Space:面向工业优化智能体的全生命周期工作区基准测试

OR-Space 是一个为工业优化智能体设计的全生命周期工作区基准测试,旨在评估其在持久化多制品工作区和多阶段任务下的可靠优化能力。基准测试定义了三种任务模式:从异构资产构建求解模型(Build)、根据需求修改现有模型(Revise)、以及基于工作区证据回答关于方案的问题(Explain)。它通过结合持久化工作区和面向生命周期的任务,评估智能体是否能在超越端到端文本生成之外执行可靠的优化工作。

智能体数据/训练论文/研究
07:21
karminski-牙医@karminski3
69
微软等发布SkillOpt框架,用机器学习流程系统优化AI智能体技能

微软联合上海交通大学等机构发布SkillOpt框架,旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型,通过harness闭环流程对技能进行编辑,且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算,使核心修改控制在1到4个。实验表明,优化后的技能可使GPT-5.5的对话准确率提升23.5分。

智能体arXivMicrosoft数据/训练
04:50
Epoch AI@EpochAIResearch
69
我们是否正接近算力危机? 在最新的 Gradient Update 中,@luke__emberson 和 @Jsevillamol 估算全球所有 Blackwell 芯片能处理多少 token,并与总 token 需求进行比较。直接对比很困难,但需求增长似乎远快于供应。
推理数据/训练现象/趋势
03:31
Tomer Tunguz 博客(VC 分析)
精选58
智能体重力:谁在运行你的智能体?

在数据时代,数据重力是核心力量;而在智能体时代,智能体重力将扮演同样角色。智能体运行需要巨大算力,主要平台将激烈争夺以将其留在自家生态。平台上的智能体与数据越多,其智能体重力就越强。例如,Databricks在微软平台推出的某个功能,虽未明言此目的,却让用户更容易在Databricks中构建智能体,而非微软自家的Fabric。这可能使用户不知不觉间将高价值的智能体及数据工作负载迁移至该平台。因此,赢得并维持智能体重力,将成为智能体时代的核心竞争主题。

智能体大佬观点数据/训练

推荐理由:Tomer Tunguz 提出「Agent Gravity」概念,把数据平台竞争的逻辑从数据引力延伸到了代理引力,做 Infra 和做 Agent 的人都应该读一读,这可能会影响你对平台锁定的判断。
02:20
Epoch AI@EpochAIResearch
39
请花5分钟参与我们的调研,帮助我们产出最有用的AI工作:https://docs.google.com/forms/d/e/1FAIpQLSfzw_ad497AhTPNS5sQaCjBwqChjvM96RiiKXZqKTTS4ko53g/viewform (您可以在最后注册加入我们的有偿用户研究小组。)
其他数据/训练
00:07
TechCrunch:AI(RSS)
54
This Startup Is Betting India's Gig Economy Can Train the World's Robots

由伯克利和斯坦福研究人员创立的初创公司 Human Archive,正在印度支付零工工人工资,让他们佩戴装有摄像头的帽子和传感器设备,以收集 AI 和机器人实验室竞相获取的现实世界物理训练数据。

具身智能数据/训练行业动态
5月26日
23:59
Ant Ling@AntLingAGI
69
团队发布了KPop技术,用于稳定大规模MoE模型的强化学习训练。它取代了此前IcePop方法的固定比例掩码,改用自适应二元KL散度区域来匹配每个token的固有噪声,从而实现更鲁棒的参数更新,支持长期、智能体化的强化学习训练。具体应用中,万亿参数的Ring-2.6-1T模型在仅使用纯强化学习训练(未修改基础设施或路由重放)的情况下,于SWE-bench Verified评测中得分超过76。KPop仅通过一个关键参数即可实现该优化。

Jia Guo: Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...

智能体数据/训练论文/研究
关联讨论 4 条蚂蚁 inclusionAI:HuggingFace 新模型HuggingFace Daily Papers(社区热门论文)公众号:蚂蚁百灵(Ling)X:蚂蚁百灵 (@AntLingAGI)
23:31
Chubby♨️@kimmonismus
59
Google 正在赢得 AI 分发竞赛,而非 AI 竞赛本身

文章的核心论点是 Google 凭借其分发优势,在 AI 分发竞赛中占据了有利位置。目前 Gemini 拥有 9 亿用户,这主要归功于向 Android 用户进行的默认应用替换,以及向 Google 搜索用户推送的 AI 概览。其大语言模型 token 用量在 12 个月内从 480 万亿增长至 3.2 千万亿。为支撑此规模,Google 计划今年投入 1900 亿美元用于基础设施。Google 的关键优势在于能够利用庞大的 Android 设备基础,通过其搜索和 AI 模式免费向用户推广 Gemini。这一策略的部分成本优势源于自研的 TPU 芯片,使其在推理和训练上更独立,并能基于自身盈利补贴免费 AI 服务。尽管游戏远未结束,但 Google 的开局位置非常出色。

Google大佬观点搜索数据/训练
23:29
Ant Ling@AntLingAGI
同事件精选68
团队推出 KPop,用于稳定大规模 MoE 模型的智能体强化学习训练。它用基于二元 KL 散度的自适应掩码机制,替代了此前 IcePop 方法中的固定比例掩码,能根据训练过程中的训练-推理不匹配程度动态调整。这一改进使得 Ring-2.6-1T 模型在无需修改基础设施或路由重放的情况下,仅通过纯 RL 训练,在 SWE-bench Verified 上取得了超过 76 分的成绩。

Jia Guo: Curious about the secret sauce behind our trillion-scale agentic foundation model? Here it comes!🥳 Last year, we releas...

智能体数据/训练编码论文/研究
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
推荐理由:蚂蚁团队把 IcePop 升级成 KPop,从固定掩码变成自适应 KL 区域,思路很巧。Ring-2.6-1T 纯 RL 直接冲到 SWE-bench 76+,做 agentic RL 训练的同学值得翻一下博客。
23:29
SenseTime@SenseTime_AI
同事件精选77
开源多模态模型SenseNova-U1完整训练代码库

商汤开源了SenseNova-U1(8B dense + A3B MoE)的完整训练代码库。这是一个统一的框架,支持文本到图像、图像编辑、交错生成、文本与视觉理解等多种多模态任务的训练。其设计注重实用性与大规模训练,采用混合并行、流式可恢复数据管道、环境变量配置、解耦模块化设计,并支持从1×8 GPU扩展到多节点集群的规模。代码库以Apache-2.0协议开源。

多模态开源/仓库开源生态数据/训练
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤把 SenseNova-U1 的训练代码全量开源,支持多模态任务和 MoE,还给了完整的并行策略,做多模态训练的可以直接 fork 过去用,Apache-2.0 很友好。
22:28
Ant Ling@AntLingAGI
62
SwiGLU在现代大语言模型中无处不在--但对于大输入,它的行为类似于x2。这种二次增长会膨胀激活值,放大异常值,并使深层网络或低精度(FP8/FP4)训练容易出现损失尖峰。 我们提出了PowLU,一种为稳定大规模预训练而设计的即插即用激活函数。🧵
推理数据/训练论文/研究
21:19
HuggingFace Daily Papers(社区热门论文)
67
CUA-Gym: 为计算机使用智能体扩展可验证的训练环境与任务

针对计算机使用智能体(CUA)训练中可验证数据稀缺的问题,本文提出了CUA-Gym这一可扩展流水线,能够协同生成任务指令、环境状态与奖励函数。该流水线包含生成器智能体与判别器智能体,并通过协调器驱动执行与过滤。基于此流程,我们构建了包含32,112个验证元组、涵盖110个环境的数据集。使用GSPO算法在CUA-Gym上训练的A3B和A17B模型,在OSWorld-Verified基准上分别达到62.1%和72.6%的分数,优于同等规模的先前开源模型。模型还在未见过的WebArena基准上取得提升,展现了跨环境迁移能力。项目将开源完整的合成流程、数据集、环境及模型。

智能体arXiv开源生态数据/训练
20:59
向阳乔木@vista8
64
Codex分析揭示X平台内容规律

用户让Codex分析自己过去3年在X上的约3.4G发帖数据,总结出几点规律:最爆内容为编程/产品/创业、资源推荐合集、学习方法论类;爆款公式是“真实工具+明确场景+三步内路径”;发帖时间上,周五至周日、及每日三个时段(下午5-11点、上午10-下午1点、凌晨0-2点)数据更好,周一最差;内容形式上,带媒体和链接、篇幅在101-180字的表现更优。

向阳乔木: 有朋友问:什么样的内容在 X 上受欢迎,如何做 X 的运营增长? 我先让 Codex 把自己三年的 X 数据分析一遍,看有什么发现。

教程/实践数据/训练
20:12
公众号:百度智能云(文心)
44
百度智能云发布具身智能Ego-Centric采集解决方案

百度智能云发布具身智能Ego-Centric采集解决方案,以轻量化数采套件(120FPS、150°视场、毫米级定位、毫秒级同步)实现低门槛第一视角数据采集;首创无本体设计,通过RGB视频到三维手部姿态估计与动作重定向,达成毫米级机械臂轨迹映射。方案配备六相机真值评估体系、三层数据质检机制及智能化数据管理平台,覆盖采、标、管、仿、训、测全栈能力。已服务智元机器人、星海图等超30家重点企业,并支持北京、上海、浙江、四川等国家创新中心。

产品更新具身智能数据/训练
12:18
HuggingFace Daily Papers(社区热门论文)
64
On-Policy对抗流蒸馏用于自回归视频生成

提出Adversarial Flow Distillation(AFD)框架,用于将黑盒视频教师模型知识蒸馏至因果自回归学生模型。该方法在相同提示词下并行生成教师与学生输出,训练Bradley-Terry判别器以估计干净样本上的师生差异,并将此在策略优势转化为对学生自身噪声状态的前向过程流匹配更新,无需教师分数、潜变量、去噪轨迹或步长对齐。实验表明,AFD在两个自回归学生系列上持续提升运动与物理敏感的生成质量,同时保持整体效果,为蒸馏专有或异构视频生成器提供了实用路径。

数据/训练论文/研究
12:11
IT之家(RSS)
62
小米汽车发布 Xiaomi Auto World Model 世界模型全新框架:重建 + 生成一体化,主流基准测试全面 SOTA

小米汽车发布 Xiaomi Auto World Model 框架,首次将三维重建与视频生成深度耦合,打破行业独立拆分的技术路线。该框架在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA,并已在合成数据生成(已交付超10万 clips 数据)、仿真测试、辅助驾驶学堂三大场景落地。

多模态数据/训练端侧视频
11:18
HuggingFace Daily Papers(社区热门论文)
66
Claw-Anything:评测能够广泛访问用户数字世界的全天候个人助手基准

当前大语言模型智能体作为全天候个人助手,只能访问用户数字世界的有限部分,限制了其情境推理能力。Claw-Anything基准测试旨在解决此问题,它从长期活动历史、相互依赖的后端服务以及跨设备集成GUI与CLI交互三个维度扩展智能体上下文。该基准通过模拟数月用户活动生成包含复杂状态与噪声的训练环境。实验显示,GPT-5.5在该基准上的 pass@1 仅为34.5%,远低于其在之前基准上的表现,表明现有智能体能力与全天候助手需求存在显著差距。研究团队同步开源了一个自动化数据生成管道,可产出2000个训练环境,并使基础模型性能提升23.7%。

智能体数据/训练论文/研究
10:18
HuggingFace Daily Papers(社区热门论文)
64
DVAO:面向多奖励强化学习的动态方差自适应优势优化

针对多奖励强化学习中,传统标量化方法(如奖励组合与优势组合)导致的训练不稳定或依赖静态超参数问题,本文提出动态方差自适应优势优化(DVAO)。该方法根据每轮采样中各目标的经验奖励方差动态调整组合权重,强化学习信号强的目标并抑制噪声。文中证明DVAO能保持优势幅度有界以稳定训练,并引入自适应跨目标正则化机制。在Qwen3和Qwen2.5模型上的数学推理与工具使用基准测试显示,DVAO显著优于基线方法,在多目标帕累托前沿和训练稳定性上取得更优结果。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
SIA:通过Harness与权重更新实现自改进AI

SIA提出由语言模型智能体(Feedback-Agent)同时更新任务智能体的harness(工具、提示词、重试逻辑、搜索过程)和模型权重的自改进循环。在中文法律罪名分类、GPU内核优化和单细胞RNA去噪三个评估上,结合两种杠杆均优于仅迭代脚手架:LawBench提升56.6%,GPU内核运行时间减少91.9%,去噪提升502%。Harness更新赋予智能体搜索与行动能力,权重更新则内化领域直觉。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
信任区域Q伴随匹配

QAM将离线策略强化学习转化为无记忆随机最优控制问题,但critic引导的脆弱性导致模型崩溃。TRQAM通过投影对偶下降自适应控制预训练流策略的路径空间KL散度,优化信任区域参数λ,并证明路径空间KL可表示为λ的闭式函数。在50个OGBench任务上,TRQAM在离线RL和离线到在线RL中均超越先前方法,离线RL成功率达68%,超过最强基线(46%)。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
39
MERIT:用于音频相似度学习的解耦音乐表示

MERIT 是一个用于学习解耦音乐表示的框架,旨在解决当前音乐相似度模型计算单一综合分数、混合了旋律、节奏和音色等不同维度的问题。该框架为这三个核心维度分别生成特定的表示。为克服真实音频中缺乏单一维度变化数据的问题,MERIT 采用了一种结合条件音频生成与源分离音轨的新型训练策略,以鼓励训练数据中出现单因素的变化。评估结果显示,MERIT 实现了强大的因子解耦性,每个表示头对其目标感知维度有强烈响应,而在其他维度上表现接近随机,这一特性在合成训练域和独立的真实世界音频中均成立。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
超越整体模型:深度多元时间序列预测的系统性组件级基准测试

本文提出了TSCOMP,首个将深度预测方法系统分解为序列预处理、编码策略、网络架构和优化方法等细粒度组件的大规模基准。通过约束正交实验设计和广泛评估,分析了组件在不同骨干网络和数据特性下的有效性。该基准构建了包含超过20000次模型-数据集评估的细粒度性能语料库,支持自动化的组件选择,能够实现零样本模型构建。实验表明,基于该语料库的方法始终优于当前最优方法。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
并非所有分歧都可学习:在线策略蒸馏中的Token可教学性

在线策略蒸馏(OPD)利用教师模型的token级监督,对学生模型的生成序列进行训练。现有方法优先选择高熵或高分歧的token。本研究指出,原始的KL分歧是一个粗糙指标,它混合了“可学习分歧”和“不相容分歧”。为此,研究提出了“Token可教学性”概念来衡量信号的实际可学习性,并据此设计了轻量级的TA-OPD方法,仅对高可教学性的位置应用蒸馏损失。在通义千问2.5与通义千问3的师生设置实验中,TA-OPD仅保留5%的token即可超越完整的token级OPD及基于熵/散度的基线方法,将选择性蒸馏重新定义为筛选可学习的教师信号。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
密集检索器的位置偏见是内建的,还是从数据中学来的?

本研究探讨了密集检索器位置偏见的成因,聚焦于训练数据中证据位置分布的影响。通过构造证据位于文档开头、中间或结尾的合成训练集,并对8种架构的预训练模型进行微调,实验发现:偏斜的训练分布会使模型偏好相应位置的信息。在位置敏感的评测基准上,位置平衡训练可降低57%–87%的位置敏感性,且检索性能具有竞争力。表示层分析表明,微调能重塑模型的位置偏好,但部分模型中预训练或架构固有的倾向仍会持续。该研究指出训练数据的位置分布是影响检索位置偏见的主要可控因素,平衡数据编排是一种有效的缓解策略。

arXiv检索增强数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
GradSentry: 用于大语言模型微调中后门样本过滤的梯度谱熵方法

GradSentry是一种基于单样本梯度谱熵的后门样本过滤方法,用于防御大语言模型微调中的数据投毒攻击。其核心发现是中毒样本产生的梯度谱熵高于干净样本。该方法通过分析单样本的梯度谱来捕获后门特征,避免了成对比较或聚类,且具有训练无关性,适用于LoRA等参数高效微调及全参数微调。GradSentry在1%到90%的投毒比例下均有效,为7B模型引入的计算开销仅为每样本20-50毫秒。在四个问答数据集和四种攻击类型上的评估验证了其有效性。

安全/对齐开源/仓库数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
利用稀疏自编码器的模型内部信号指导LLM后训练数据工程

SAERL是一个面向大语言模型强化学习的数据工程框架,利用稀疏自编码器从模型内部提取信号。它建模了数据的多样性、难度和质量三个属性,并分别对应批次混合控制、难度排序和质量过滤等具体工程操作。实验表明,在通义千问(Qwen2.5-Math-1.5B)上,SAERL相比标准GRPO平均准确率提升3.00%,并能以减少20%的训练步数达到目标准确率。该方法在不同模型规模和RL算法上均有一致收益,且SAE能跨模型系列和规模有效迁移,证明了模型内部信号作为后训练数据工程信号源的实用价值。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
少即是多:用于On-policy蒸馏的早期停止生成策略

研究发现在On-policy蒸馏中存在“离策略教师衰减”问题:当学生模型的早期轨迹作为上下文时,教师模型为后续token产生修正分数的能力会衰减。为此,本文提出早期停止生成策略,将生成的rollout限制在前几个响应token上。实验表明,该策略在不同模型规模、模型族、任务和训练设置下均能超越完整的On-policy蒸馏性能,并展现出更高的GPU效率和训练稳定性,尤其在跨模型族场景中。研究进一步揭示了其“级联对齐”与“子模式承诺”效应,这解释了其有效性的机制。

arXiv数据/训练论文/研究
06:58
Hacker News 热门(buzzing.cc 中文翻译)
40
挪威采购2拍字节华为闪存用于LLM训练

根据报道,挪威采购了2拍字节(PB)的华为闪存存储设备。这批高性能存储设备将被用于支持大型语言模型(LLM)的训练工作。此举反映了AI模型开发对大规模、高吞吐量存储解决方案的持续需求。

数据/训练行业动态部署/工程
04:54
Ethan Mollick@emollick
56
AI评估挑战:数学问题单一,亟需多样化难题库

推文指出,当前用于推动AI能力发展的困难问题过于集中于数学领域(如Erdős问题)。虽然数学易于验证,但其成果对日常生活的直接影响不够明确。作者呼吁需要为包括工程、经济、物理、生物等在内的更多领域建立困难问题库,并配套制定相应的评估方法,以让AI智能体处理更复杂、答案更不明确的任务。

大佬观点数据/训练评测/基准
04:36
MarkTechPost(RSS)
66
使用 NVIDIA FLARE 在非独立同分布 CIFAR-10 上构建与比较 FedAvg 和 FedProx 联邦学习的分步指南

本教程展示如何使用 NVIDIA FLARE 框架构建一个联邦学习实验,以比较 FedAvg 和 FedProx 两种算法。实验在非独立同分布(non-IID)的 CIFAR-10 数据集上进行,通过狄利克雷分布划分客户端数据,以模拟现实联邦场景中的标签不平衡问题。内容涵盖如何利用 NVFlare Job API 来定义和启动联邦学习任务。

开源生态教程/实践数据/训练
02:28
Hacker News 热门(buzzing.cc 中文翻译)
64
优步首席运营官表示,越来越难以证明在"代币化"上的支出是合理的
数据/训练行业动态
‹ 上一页
1…1920212223…43
下一页 ›