AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1211 条
全部一手资讯X论文
标签「数据/训练」清除
6月2日周二
08:00HuggingFace Daily Papers(社区热门论文)38语法推理:合成语言学推理轨迹能否增强低资源机器翻译?
08:00HuggingFace Daily Papers(社区热门论文)50Skill-RM:通过智能体技能统一异构评估标准
08:00HuggingFace Daily Papers(社区热门论文)51EvoDS:自进化自主数据科学智能体,带有技能学习与上下文管理
08:00HuggingFace Daily Papers(社区热门论文)56神经网络可证明地学习群组合的谱表示
08:00HuggingFace Daily Papers(社区热门论文)68大型语言模型破解奖励与社会规则
08:00HuggingFace Daily Papers(社区热门论文)69门控 Delta 网络的大规模特征学习缩放规则
08:00HuggingFace Daily Papers(社区热门论文)61MemTrain:自监督上下文记忆训练
08:00HuggingFace Daily Papers(社区热门论文)53Qwen-Image-Flash: 超越目标设计
08:00HuggingFace Daily Papers(社区热门论文)56自蒸馏策略梯度
01:36The Decoder:AI News(RSS)63图灵奖得主理查德·萨顿表示纯生成式AI无法实现真正的科学发现
01:03Hacker News 热门(buzzing.cc 中文翻译)52CS336:从零开始的语言建模
00:05TechCrunch:AI(RSS)40这家AI气象初创公司的预测表现超越政府机构
6月1日周一
13:06MarkTechPost(RSS)43Parallax:保留Softmax并增加学习协方差修正分支的参数化局部线性注意力
12:03IT之家(RSS)81同事件精选黄仁勋:英伟达下一代 AI 超级芯片平台 Vera Rubin 全面投产同一事件,精选展示《NVIDIA Vera Rubin 平台如何解决智能体 AI 的规模扩展问题》
10:31Hacker News 热门(buzzing.cc 中文翻译)68不只是X,还有Y
08:00HuggingFace Daily Papers(社区热门论文)54参数化社会身份注入(PSII):用于公众舆论模拟的多样性提升框架
08:00HuggingFace Daily Papers(社区热门论文)69自动驾驶的未来:KITScenes多模态数据集
08:00HuggingFace Daily Papers(社区热门论文)40质量引导的半监督医学图像分割
08:00HuggingFace Daily Papers(社区热门论文)46SITA:可扩展的推理时间退火方法
08:00HuggingFace Daily Papers(社区热门论文)57FiRe-OPD:先过滤,再重加权--重新思考在线策略蒸馏的优化粒度
08:00HuggingFace Daily Papers(社区热门论文)64WALL-WM:沿事件节点雕刻世界动作建模
08:00HuggingFace Daily Papers(社区热门论文)61大语言模型多领域强化学习中的干扰与恢复的局部微扰理论
08:00HuggingFace Daily Papers(社区热门论文)69去中心化指令微调:冲突感知切分与权重合并
5月31日周日
19:47The Decoder:AI News(RSS)41问AI鸡肉搭配什么,答案取决于它是从食谱还是分子中学到的
14:38HuggingFace Daily Papers(社区热门论文)55解耦残差去噪扩散模型实现统一高效图像到图像翻译
10:19MarkTechPost(RSS)60Trajectory 发布面向持续学习的并发多 LoRA 训练栈,报告实验吞吐量提升 2.81 倍
09:44Hacker News 热门(buzzing.cc 中文翻译)73精选AI引发的职业焦虑:席卷科技从业者的心理危机
08:00HuggingFace Daily Papers(社区热门论文)54测量对称性-数据交换率:等变先验的标度律实证
08:00HuggingFace Daily Papers(社区热门论文)55BenchEvolver:以解决方案为中心的进化式前沿任务合成
08:00HuggingFace Daily Papers(社区热门论文)62OmniOPD:基于推测验证的无需logits在线策略蒸馏
08:00HuggingFace Daily Papers(社区热门论文)55Trust Region On-Policy蒸馏方法(TrOPD)
08:00HuggingFace Daily Papers(社区热门论文)70精选τ_0-WM:用于机器人操控的统一视频-动作世界模型
08:00HuggingFace Daily Papers(社区热门论文)59HakushoBench:基于日本政府白皮书的图表与表格VQA基准测试发布
04:43Hacker News 热门(buzzing.cc 中文翻译)66安永发布了一份充满臆想的网络安全报告
00:12Hacker News 热门(buzzing.cc 中文翻译)71精选随着成本飙升,美国企业开始对人工智能实施配给
5月30日周六
21:14The Decoder:AI News(RSS)54研究发现,训练使AI聊天机器人更有用,反而削弱了其模拟人类行为的能力
19:21IT之家(RSS)65Meta 通过追踪员工鼠标来训练 AI,或触犯欧盟隐私相关规定
12:41Hacker News 热门(buzzing.cc 中文翻译)48Shift将免费提供家政服务,以此培训未来的机器人
08:48MarkTechPost(RSS)67如何使用AgentTrove:在Python中流式处理1.7M智能体轨迹并构建干净的ShareGPT SFT数据集
08:00HuggingFace Daily Papers(社区热门论文)44SDR:基于集合距离的胸部X光报告生成奖励方法
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月2日
08:00
HuggingFace Daily Papers(社区热门论文)
38
语法推理:合成语言学推理轨迹能否增强低资源机器翻译?

大语言模型在低资源机器翻译中难以有效利用语法信息。受思维链推理启发,研究提出自动从Universal Dependencies树库、词典和语法规则库生成逐步语言学推理轨迹的管道,并在锡伯语和Chintang语上通过上下文学习、监督微调和强化微调三种设置评估。结果表明,作为推理时引导(ICL),可靠句子特定轨迹在多数模型、语言和指标上显著提升翻译性能;而作为训练数据使用时收益较小且不稳健。LLM能在可靠语言分析下利用语法信息,但自主生成分析仍是主要瓶颈。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
Skill-RM:通过智能体技能统一异构评估标准

针对大语言模型后训练中奖励模型依赖规则验证器、真实参考答案、程序检查表等异构评估标准、缺乏统一机制的问题,提出Skill-RM框架。该框架将奖励建模重构为可复用的“奖励评估技能”执行,把奖励计算当作结构化的智能体任务,通过统一接口动态选择和聚合证据。在奖励基准及best-of-N选择、强化学习等下游任务中,Skill-RM持续优于传统judge基线,为奖励建模提供了统一且透明的方案。代码已开源。

智能体arXivGitHub数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
51
EvoDS:自进化自主数据科学智能体,带有技能学习与上下文管理

EvoDS 是一个自进化自主数据科学智能体,通过智能体强化学习实现技能扩展与长期上下文自适应管理。核心包括自主技能获取(ASA)机制与自适应上下文压缩(ACC)策略,前者用于合成、验证和复用可执行技能,后者将上下文管理转化为学习控制问题。采用两阶段多智能体训练方案。理论证明其分层设计降低工具选择错误,优化目标符合信息瓶颈原理。在四个基准测试中,EvoDS 平均优于现有开源数据科学智能体 28.9%,并消除 token 溢出失败。代码与数据已开源。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
神经网络可证明地学习群组合的谱表示

通过群组合任务(预测有限群G中两元素乘积),研究两层神经网络训练中的内部结构涌现。将投影梯度流提升到傅里叶域后,训练动力学由表示论能量泛函上的黎曼梯度上升主导。随机初始化下,每个神经元几乎必然收敛到单个不可约表示,跨层傅里叶系数达到旋转秩一对齐。该框架刻画了矩阵值群表示中的低秩压缩现象。对于阿贝尔群,随机初始化促使非平凡表示均匀多样化并诱导Haar均匀相位,通过多数投票机制逼近指示函数。相位对齐与表示竞争以指数速率出现。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
大型语言模型破解奖励与社会规则

强化学习已成为LLM后训练主流范式,但模型可能利用奖励函数与制度意图间的结构性空隙。研究提出“社会性破解”假说:LLM的奖励破解倾向可能扩展为发现社会规则漏洞。通过包含72个社会环境的沙盒SocioHack,实验发现奖励破解自然涌现,模型能生成技术合规但违背立法意图的策略,现有安全措施仅提供有限缓解。该结果警示需谨慎收集现实世界反馈用于模型训练,并呼吁开发下一代安全后训练范式。

安全/对齐数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
69
门控 Delta 网络的大规模特征学习缩放规则

μP 已实现标准 Transformer 零样本超参数迁移,但扩展到线性模型(尤其带结构化状态转移的门控 Delta 网络)尚未探索。通过在前向传播、门控机制和循环动态中传播坐标规模估计,推导出门控 Delta 网络的缩放规则。语言模型预训练实验证实,该配置在 AdamW 和 SGD 下均实现跨模型宽度稳定学习率迁移,而标准参数化无法迁移。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
MemTrain:自监督上下文记忆训练

MemTrain 是一个专为增强大语言模型智能体上下文记忆能力而设计的自监督训练框架。它基于未标注的 Wikipedia 语料,引入两个耦合代理任务:端到端掩码重建(要求模型在多轮记忆更新后恢复被掩码实体)与中间记忆召回(利用中间记忆状态重建被掩码历史信息),并通过 GRPO 联合优化。在长文本 QA 和搜索型 QA 基准上,MemTrain 一致提升不同模型的记忆密集型推理性能,最高达 17.67 个百分点的增益。

智能体arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
Qwen-Image-Flash: 超越目标设计

Qwen-Image-Flash 是基于 Qwen-Image-2.0 的少步蒸馏模型。研究者从训练配方视角,系统考察了统一文生图和指令引导图像编辑蒸馏中的三个因素:数据组成、教师指导和任务混合。实证分析揭示出若干非直观行为,并据此开发了 Qwen-Image-Flash。结果表明,有效的少步蒸馏不仅需要精心设计目标,还需对整体训练流程进行原则性组织。

图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
自蒸馏策略梯度

论文提出自蒸馏策略梯度(SDPG)框架,结合群体相对验证器优势、归一化标准差、精确全词汇在策略自蒸馏及参考策略KL正则化。在稀疏奖励强化学习中,语言模型基于特权上下文自监督生成,利用全词汇学生到教师反向KL散度作为辅助损失。实验表明SDPG在稳定性和性能上优于RLVR和自蒸馏基线。代码已开源。

数据/训练论文/研究
01:36
The Decoder:AI News(RSS)
63
图灵奖得主理查德·萨顿表示纯生成式AI无法实现真正的科学发现

图灵奖得主理查德·萨顿指出,传统生成式AI存在核心缺陷:无法评估自身输出。若缺乏这一能力,真正的科学发现便难以实现,因为新想法只会短暂闪现随后消散。萨顿认为,AlphaGo和AlphaProof等系统表明,只有内置评估循环才能让AI具备真正的创造力。

大佬观点数据/训练
01:03
Hacker News 热门(buzzing.cc 中文翻译)
52
CS336:从零开始的语言建模

斯坦福大学开设 CS336 课程,教授如何从零开始构建语言模型,涵盖从数据处理、模型训练到部署优化的完整流程。该课程于 2026 年 6 月 1 日公开,在 Hacker News 获得 115 点热度,可通过 cs336.stanford.edu 访问。

安全/对齐教程/实践数据/训练
00:05
TechCrunch:AI(RSS)
40
这家AI气象初创公司的预测表现超越政府机构

Windborne Systems 推出了最新的天气预报模型,其预测结果能够比现有的最佳政府预测提前数天。

数据/训练模型发布
6月1日
13:06
MarkTechPost(RSS)
43
Parallax:保留Softmax并增加学习协方差修正分支的参数化局部线性注意力

Parallax是一种新的注意力机制,它用一个学习到的投影器取代了LLA中的每查询求解器,从而将算术强度提升了一倍。在0.6B和1.7B的模型规模上,该方法有效改善了模型的困惑度。

数据/训练论文/研究
12:03
IT之家(RSS)
同事件精选81
黄仁勋:英伟达下一代 AI 超级芯片平台 Vera Rubin 全面投产

英伟达 CEO 黄仁勋在 2026 台北电脑展宣布,下一代 AI 超级芯片平台 Vera Rubin 全面投产。该平台是 POD 级基础架构,与上一代 Grace Blackwell 平台相比,其大规模智能体吞吐量提高了 10 倍。凭借开源 MGX 设计,其供应链规模是 Grace Blackwell 的两倍,产品预计于今年秋季开始发货。

推理数据/训练模型发布
同一事件,精选展示《NVIDIA Vera Rubin 平台如何解决智能体 AI 的规模扩展问题》
推荐理由:Vera Rubin 全面投产,智能体吞吐量提升 10 倍,供应链规模翻倍,这是英伟达给 AI 算力瓶颈的一记重拳,做智能体应用的同行该开始计划升级硬件了。
10:31
Hacker News 热门(buzzing.cc 中文翻译)
68
不只是X,还有Y

文章探讨了AI模型训练中“后训练”的重要性,指出其价值不仅仅在于数据本身,更在于数据如何被用于对齐、微调等后训练阶段,从而塑造模型的能力与行为。

安全/对齐数据/训练现象/趋势
08:00
HuggingFace Daily Papers(社区热门论文)
54
参数化社会身份注入(PSII):用于公众舆论模拟的多样性提升框架

大语言模型(LLM)作为合成智能体进行公众舆论模拟时存在“多样性崩溃”问题——不同社会身份的表征在层间逐渐不可区分,导致响应同质化。为此提出参数化社会身份注入(PSII)框架,将人口统计属性与价值取向的显式参数化表示注入LLM中间隐藏状态,实现细粒度可控的身份调制。基于World Values Survey对多个开源LLM的实验显示,PSII显著提升了分布保真度与多样性,降低了与真实调查数据的KL散度。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
69
自动驾驶的未来:KITScenes多模态数据集

KITScenes Multimodal是一个欧洲自动驾驶多模态数据集,传感器套件包含高分辨率全局快门相机、探测距离超400米的激光雷达、4D成像雷达及冗余GNSS/INS定位系统。其HD地图首次在公开数据集中将所有驾驶相关交通元素(含红绿灯)以3D形式映射至重投影精度并附带完整拓扑连接。数据采集自街道布局不规则、混合交通模式的城市,补充地理多样性。同时推出四个基准:在线HD地图构建、长距离深度估计、新视角合成和端到端驾驶。项目页面已公开。

arXiv具身智能多模态数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
40
质量引导的半监督医学图像分割

训练医学图像分割模型需要大量密集标注数据,成本高昂。现有半监督学习依赖伪标签,但模型置信度或不确定性评估存在自我参照问题。本文提出质量引导的半监督学习框架,训练专用网络从图像-掩膜对估计分割质量。该质量预测器通过合成损坏及部分训练模型生成的不完美掩膜进行训练,捕捉真实错误模式。通过质量感知正则化损失和基于质量的伪标签重加权两种机制融入半监督学习,可作为即插即用模块集成到现有框架。在五个数据集和多种架构上的实验表明,该方法持续优于竞品,达到最新水平。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
SITA:可扩展的推理时间退火方法

计算化学和生物物理中长期挑战是高效采样分子玻尔兹曼分布。现有方法通过迭代微调扩散模型沿温度梯度进行推理时间退火,但需计算分数场散度来估计重要性权重,对大系统不可行。本文提出可扩展推理时间退火(SITA),利用能量模型提供快速替代似然,重新训练基于流的模型逐步降低温度生成样本。在Alanine Dipeptide和Alanine Tripeptide上达到最先进性能,避免了昂贵的散度项。代码已开源。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
FiRe-OPD:先过滤,再重加权--重新思考在线策略蒸馏的优化粒度

FiRe-OPD(Filter, then Reweight)重新思考在线策略蒸馏的优化粒度,在轨迹和token两个层面联合调整监督信号。先过滤低质量轨迹,再对保留轨迹内的token进行软加权,避免硬选择带来的信息损失并提升优化稳定性。该方法在强到弱、单教师、多教师三种设置下均优于近期token级OPD方法:在AIME 2024上提升6.25分,在Miner上提升18.81分。代码已开源。

开源/仓库数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
WALL-WM:沿事件节点雕刻世界动作建模

WALL-WM 是一种世界动作模型,将视频-动作学习从固定长度块优化转向基于语义事件的视觉-语言-动作(VLA)预训练。它把语义一致的动作事件作为基本学习单元,解决了语言、视觉与动作在时间粒度上的不匹配。WALL-WM 结合事件级描述与聚类平衡采样构建数据生态,并从同一预训练主干支持两种推理模式:事件模式(变长执行块)和统一模式(使用 VLM 与阶梯解码)。依托 Muon 优化器的大规模预训练基础设施,WALL-WM 在跨语言、场景与任务的真实世界泛化评估中达到当前最优性能。

具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
大语言模型多领域强化学习中的干扰与恢复的局部微扰理论

研究发现,对大语言模型进行单一领域(如数学、代码)的强化学习后训练,会对其他领域产生干扰,即使全模型梯度近似正交也会发生。论文提出了一个局部微扰模型来解释此现象:干扰主要通过一个集中在低维共享冲突子空间中的二阶损害项发生。理论证明,一次简短的领域刷新可以收缩该子空间中的有害分量,从而实现选择性恢复。实验表明,在经历代码→数学→问答→创作写作的序列训练后,进行Re-Math刷新可将数学性能恢复,同时基本保持其他领域表现。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
69
去中心化指令微调:冲突感知切分与权重合并

针对多模态大模型指令微调中的梯度干扰与高带宽同步瓶颈,MERIT提出了一种去中心化、可合并的微调流水线。该方法通过估计数据集间的梯度冲突,沿主成分分析(PCA)冲突轴进行切分,使各部分独立训练无需通信,最后通过基于token频率的加权平均进行一次权重合并。在Qwen2-VL-3B模型上使用136个Vision-FLAN任务评估,MERIT将8个基准测试的平均得分从联合训练的54.3提升至57.0。该流程同样可扩展至1.6M样本、176个来源的7B模型,以最小开销匹配或超越集中式联合训练。

GitHub数据/训练论文/研究
5月31日
19:47
The Decoder:AI News(RSS)
41
问AI鸡肉搭配什么,答案取决于它是从食谱还是分子中学到的

伦敦初创公司Kaikaku.AI发布了名为“Epicure”的三个AI模型,它们首次明确区分了食材是符合食谱传统搭配还是化学成分相关。这些模型基于涵盖七种语言的414万份食谱和FlavorDB风味数据库进行训练。每个模型变体会给出不同的推荐结果。有趣的是,纯基于化学数据训练的模型在对味道和营养价值进行分类时,甚至优于基于食谱的模型,尽管它从未直接学习过这些信息。

产品更新数据/训练
14:38
HuggingFace Daily Papers(社区热门论文)
55
解耦残差去噪扩散模型实现统一高效图像到图像翻译

DRDD 模型将扩散过程解耦为两个独立阶段:先进行随机噪声扩散以实现领域协调和流形提升,再通过确定性残差扩散在固定噪声域内学习核心语义映射。该设计保留了扩散过程对特征分布的隐式对齐能力,显著简化了跨任务统一映射的学习。噪声扩散阶段仅在未配对的目标域图像上训练,极大提升了数据效率。理论与实验表明,DRDD 与主流扩散模型兼容,即使在配对数据有限时也能实现稳健的统一翻译。代码已在 GitHub 开源。

图像生成开源/仓库数据/训练论文/研究
10:19
MarkTechPost(RSS)
60
Trajectory 发布面向持续学习的并发多 LoRA 训练栈,报告实验吞吐量提升 2.81 倍

Trajectory 联合 UC Berkeley Sky Lab 和 Anyscale 发布了一个面向强化学习实验持续学习的并发多 LoRA 训练栈。该系统将每个 RL 实验映射到一个专属的 LoRA 适配器,并在常热引擎上运行,相比单租户基线,报告实现了 2.81 倍的端到端实验吞吐量提升,且没有奖励回归问题。代码已在 NovaSky-AI/SkyRL 开源。

开源/仓库数据/训练
09:44
Hacker News 热门(buzzing.cc 中文翻译)
精选73
AI引发的职业焦虑:席卷科技从业者的心理危机

AI 技术的快速发展在科技从业者中引发了普遍的职业焦虑与心理危机。文章指出,许多专业人士担心自身技能被自动化取代,从而产生强烈的不安全感、抑郁情绪及身份认同危机。这种焦虑不仅源于对失业的恐惧,也涉及工作意义感的丧失、人际关系的变化以及对未来的迷茫。面对冲击,个体反应不一,但整体而言,这已演变为一场需严肃对待的行业心理挑战。

数据/训练现象/趋势

推荐理由:这篇文章把AI导致的职业焦虑比作一种被压抑的悲伤,结合AIRD临床概念和Reddit哀悼叙事,指出问题在于没有固定终点可接受,是一篇对当下科技从业者心理危机的深刻诊断。
08:00
HuggingFace Daily Papers(社区热门论文)
54
测量对称性-数据交换率:等变先验的标度律实证

在可控C_n对称任务上,等变先验对样本复杂度的理论增益因子|G|首次作为标度律测量。错误群控制比无约束更差(成对联合CI [+0.79, +3.26]排除零);带测试时轨道平均的数据增强基线在每epoch验证曲线上与等变模型完全一致。相对交换率beta_diff=1.28与理论值1.0在符号和数量级一致(单层CI [+0.92, +2.05]),但保守双层bootstrap区间包含零。最可靠结论:错误群约束有害。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
BenchEvolver:以解决方案为中心的进化式前沿任务合成

前沿大语言模型在LiveCodeBench上已饱和,易分题Pass@1超99%,平均超90%。新提出的BenchEvolver框架以解决方案为中心,通过结构化变换自动进化已有编码问题的参考解,再从进化后解推导题目与测试用例,从而可扩展构造更高质量、多样、困难且结果可验证的任务。应用于LiveCodeBench和SciCode后,进化任务难度显著提升。整理出的LiveCodeBench-Plus含91道题,前沿模型Pass@1仅27.5%–62.6%,恢复了强编码模型间的清晰区分。进化任务对生成模型自身也有挑战性,可用于自我提升。基于进化任务的强化学习在gpt-oss-20b上使LCB v6 Hard和LCB-Pro Easy的Pass@1分别提升+8.7和+8.3,超出仅用原始任务训练的增益70.7%和34.8%。

arXiv数据/训练编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
OmniOPD:基于推测验证的无需logits在线策略蒸馏

OmniOPD是一种无需教师token级logits的在线策略蒸馏框架。它通过蒙特卡洛展开在多token块上以连续语义相似度近似教师偏好,并用峰值熵调度器仅在高不确定性推理分叉处施加监督,同时以Dirichlet-Multinomial贝叶斯先验和基模型KL锚点防止策略坍塌。在数学基准上,OmniOPD相比标准OPD提升高达28.64%;与Claude-4.5-Haiku和Gemini-2.5-Flash等黑箱教师配合时,额外相对提升9.54%,令学生模型超越自我探索强化学习。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
Trust Region On-Policy蒸馏方法(TrOPD)

针对On-Policy蒸馏(OPD)在师生模型分布差异较大时训练不稳定的问题,本文提出置信区间On-Policy蒸馏(TrOPD)方法。该方法核心是采用置信区间On-Policy学习,仅在教师提供可靠监督的区域进行蒸馏;结合异常值估计策略处理不可靠区域;并通过离线引导鼓励向可靠区域探索。实验表明,TrOPD在数学推理、代码生成及通用基准测试上均优于包括OPD、EOPD和REOPD在内的现有OPD基线。

智能体arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选70
τ_0-WM:用于机器人操控的统一视频-动作世界模型

τ_0-World Model (τ_0-WM) 是一个统一的视频-动作世界模型,旨在机器人执行动作前预测并评估其未来后果。模型基于共享的视频扩散主干网络构建,提供两个接口:一个联合预测未来视觉潜在表示与连续动作块的视频动作模型,以及一个能将动作序列展开为多视角未来并预测任务进度分数的动作条件视频模拟器。τ_0-WM 使用约27,300小时的多元数据训练,包括真实机器人遥操作、UMI风格交互、自我中心人类视频等。推理时,模型通过测试时计算采样动作候选,并利用去噪一致性和基于模拟器的修正来筛选低质量动作,在长时程和精细机器人操控任务上表现出优于相关基准的性能。

具身智能数据/训练视频论文/研究

推荐理由:机器人操作领域的大一统尝试,把视频预测和动作生成放在一个扩散模型里,还用27万小时数据训练,做具身智能的可以看看这个架构。
08:00
HuggingFace Daily Papers(社区热门论文)
59
HakushoBench:基于日本政府白皮书的图表与表格VQA基准测试发布

HakushoBench是一个日语图表与表格视觉问答基准测试,由33份日本政府白皮书构建而成,包含2053张图像和人工标注的问答对,涵盖超过10种图像类型,旨在评估视觉语言模型对复杂文档的深度理解能力。实验表明,当前开源模型在此基准上仍面临挑战,最佳开源模型的准确率仅为58.6%,而开源与闭源专有模型之间存在34.9分的性能差距。该数据集与代码已开源。

多模态数据/训练论文/研究
04:43
Hacker News 热门(buzzing.cc 中文翻译)
66
安永发布了一份充满臆想的网络安全报告

安永(Ernst & Young)发布的一份网络安全报告被指出充满模型幻觉。该报告经由 gptzero.me 调查,被批评为内容臆想。此事在 Hacker News 上获得 159 点热度。

安全/对齐数据/训练现象/趋势
00:12
Hacker News 热门(buzzing.cc 中文翻译)
精选71
随着成本飙升,美国企业开始对人工智能实施配给

由于运行和使用AI工具的成本持续飙升,美国企业正开始对人工智能的使用实施配给制。企业通过限制使用量、设置分层级审批流程等方式控制开支,以应对AI费用增长过快的问题。这种从广泛采用转向精细化管理的策略,标志着企业在AI应用上从追求速度转向注重成本效益。

数据/训练现象/趋势部署/工程

推荐理由:成本飙升让大企业开始对AI‘配给’,这是面向企业的AI产品必须回答的ROI考题,以前铺量抢客户的玩法得切换成算清每一分钱的价值。
5月30日
21:14
The Decoder:AI News(RSS)
54
研究发现,训练使AI聊天机器人更有用,反而削弱了其模拟人类行为的能力

一项涵盖208,000名参与者、2600万条回复的大规模研究显示,使语言模型转变为有用聊天机器人的训练过程,会削弱其复制人类行为的能力。这种效应随着每一代新模型而加剧。即使采用为模型提供人口统计数据的热门角色扮演技巧,对个体预测也几乎没有带来实际益处。

数据/训练论文/研究
19:21
IT之家(RSS)
65
Meta 通过追踪员工鼠标来训练 AI,或触犯欧盟隐私相关规定
Meta政策/监管数据/训练
12:41
Hacker News 热门(buzzing.cc 中文翻译)
48
Shift将免费提供家政服务,以此培训未来的机器人

AI训练数据初创公司Shift宣布将免费提供家政清洁服务,以此收集真实家庭环境中的操作数据,用于训练未来的家政服务机器人。Shift通过让人类执行清洁任务并记录动作数据,为机器人学习复杂家庭任务提供高质量训练素材。

具身智能数据/训练行业动态
08:48
MarkTechPost(RSS)
67
如何使用AgentTrove:在Python中流式处理1.7M智能体轨迹并构建干净的ShareGPT SFT数据集

AgentTrove是目前最大的开源智能体交互轨迹集合,包含1.7M行数据,采用ShareGPT风格布局。该Python教程展示了如何在不下载完整数据的情况下流式处理该数据集,具体步骤包括规范化智能体轮次、提取命令、分析轨迹,并将成功的轨迹导出为干净的SFT微调数据集。

智能体教程/实践数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
44
SDR:基于集合距离的胸部X光报告生成奖励方法

针对标准精确匹配奖励不适用胸部X光报告生成的问题,提出SDR方法。将报告分割为句子,用冻结的句子Transformer嵌入为无序集合,以生成与参考嵌入间的集合到集合距离作为连续、置换不变的奖励。在Qwen3-VL-2B/4B和Gemma3-4B上通过GRPO后训练,BERTScore、RadGraph F1和CheXbert F1分别相对提升6.80%、7.82%和4.45%。同一距离用于测试时best-of-N选择,在Mistral-Small、Gemini-2.5 Flash-Lite和GPT-4o-mini上BERTScore平均相对提升16.4%。作为流式信号,可在生成中修剪低分候选,减少超过50%的生成token且保持质量。代码已公开。

arXiv图像生成数据/训练论文/研究
‹ 上一页
1…1011121314…31
下一页 ›