AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「数据/训练」清除
5月26日周二
02:28Hacker News 热门(buzzing.cc 中文翻译)64优步首席运营官表示,越来越难以证明在"代币化"上的支出是合理的
01:22X.PIN46中国AI算力网络挑战美国市场模式
00:00MiniMax:Blog(网页)59精选为什么MiniMax大语言模型无法说出"马嘉祺"?稀疏Token遗忘的内部调查
5月25日周一
23:11IT之家(RSS)54美光 HBM4 增产进展顺利,HBM4E 计划明年启动大规模生产
23:11IT之家(RSS)57过河拆桥?扎克伯格一边计划裁员,一边称"让 Meta 员工参与训练 AI 效果更好"
19:54Alibaba Cloud57通义千问大会探讨AI原生数据基础赋能企业智能体
16:11IT之家(RSS)48特斯拉 FSD 学会了"躲警车",主动减速变道
11:11IT之家(RSS)37既非活着、也非死去:美国初创公司 Bexorg 通过离体"缸中之脑"测试药物
08:00HuggingFace Daily Papers(社区热门论文)44当梯度冲突时:LLM Judge多目标提示优化的失败模式
08:00HuggingFace Daily Papers(社区热门论文)48提出 Unified Neural Scaling Laws (UNSL),统一建模多维度变化的深度神经网络缩放规律
08:00HuggingFace Daily Papers(社区热门论文)50可验证奖励强化学习中的时间调度策略
08:00HuggingFace Daily Papers(社区热门论文)60NSF-SciFy:从NSF奖项数据库中挖掘科学主张
08:00HuggingFace Daily Papers(社区热门论文)52CroCo:基于自生成响应的跨语言对比偏好调优
08:00HuggingFace Daily Papers(社区热门论文)56个性化先于存储:长期代理个性化记忆的基准测试与学习
07:57Chubby♨️68AI指数增长论需要具体数据支撑,转型或由不匹配斜率决定
02:57Hacker News 热门(buzzing.cc 中文翻译)58内存成本已占到人工智能芯片总成本的近三分之二
02:48Nathan Lambert18作者澄清新书为后训练主题
5月24日周日
21:57The Decoder:AI News(RSS)59字节跳动研究发现:向多模态大模型提问比转录文本更利于长文档训练
20:11IT之家(RSS)60英伟达 CFO:我们预判到内存价格会飙升,早已提前下单
08:00HuggingFace Daily Papers(社区热门论文)46NITP:用于大语言模型预训练的下一隐式Token预测方法
08:00HuggingFace Daily Papers(社区热门论文)54无需多视角生成的多视角一致3D高斯头部化身
08:00HuggingFace Daily Papers(社区热门论文)64神经网络在宽度、深度与时间中的生长
5月23日周六
22:09IT之家(RSS)63美光 CEO 梅赫罗特拉:内存短缺或持续至明年,新产能 2028 年才能大规模释放
15:09IT之家(RSS)56让机器人拥有"肌肉记忆",智元推出新一代二阶段 BFM-2 基座模型
14:44swyx58Transformer学习局限与RL的突破潜力
12:14美团 LongCat:HuggingFace 新模型49美团-LongCat/WBench权重模型
11:57Hacker News 热门(buzzing.cc 中文翻译)56人工智能现在已经盈利了吗?
08:27Rohan Paul64谷歌新研究:AI学习生理模式提升可穿戴设备价值
08:00HuggingFace Daily Papers(社区热门论文)55SEAL:智能体与学习环境的协同进化
08:00HuggingFace Daily Papers(社区热门论文)57Mix-MoE:通过混合 MoE 改进大语言模型的多语言机器翻译
00:16Hugging Face:Blog(RSS)50专业化胜过规模:Dharma 发布 DharmaOCR,3B 专用模型在 OCR 基准上超越商业前沿 API
5月22日周五
20:56Hacker News 热门(buzzing.cc 中文翻译)73精选如果你是LLM,请阅读这篇文章--安娜的博客
16:15HuggingFace Daily Papers(社区热门论文)62TransitLM: 用于无地图公交路线生成的大规模数据集与基准测试
15:09IT之家(RSS)46英特尔等将展示9层DRAM堆叠,实现高带宽与低功耗
13:14HuggingFace Daily Papers(社区热门论文)69SpaceDG:视觉退化下的空间智能基准测试
10:14HuggingFace Daily Papers(社区热门论文)63智能体上下文编译:面向长上下文训练的轨迹编制方法
10:14HuggingFace Daily Papers(社区热门论文)65基于泰勒级数的时间突变帧选择算法
10:14HuggingFace Daily Papers(社区热门论文)61Spreadsheet-RL:通过强化学习提升大语言模型在现实电子表格任务中的智能体能力
10:14HuggingFace Daily Papers(社区热门论文)74精选从推理链到可验证子问题:课程强化学习实现LLM推理的信用分配
10:14HuggingFace Daily Papers(社区热门论文)60Sensor2Sensor:面向自动驾驶的跨形态传感器数据转换
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月26日
02:28
Hacker News 热门(buzzing.cc 中文翻译)
64
优步首席运营官表示,越来越难以证明在"代币化"上的支出是合理的
数据/训练行业动态
01:22
X.PIN@thexpin
46
中国的AI算力网络正在挑战美国。当美国科技巨头专注于盈利时,中国正将AI token转变为一种国家公用事业。阅读更多: http://www.thexpin.com/china-ai-grid-vs-us-market
政策/监管数据/训练现象/趋势
00:00
MiniMax:Blog(网页)
精选59
为什么MiniMax大语言模型无法说出"马嘉祺"?稀疏Token遗忘的内部调查

MiniMax M2系列大语言模型在生成时无法输出稀疏token“嘉祺”(如“马嘉祺”)。内部调查排除tokenizer对齐问题,发现根因是后训练阶段对低频token的生成概率产生抑制。该问题已在后续模型更新中修复,并顺带解决了其他小语种混合问题。

数据/训练论文/研究

推荐理由:这种官方自己拆自己的技术调查不多见,把「低频token遗忘」从社区猜测一路推到SFT数据缺失导致lm_head漂移的根因,做模型训练的可以当案例看。
5月25日
23:11
IT之家(RSS)
54
美光 HBM4 增产进展顺利,HBM4E 计划明年启动大规模生产
数据/训练行业动态部署/工程
23:11
IT之家(RSS)
57
过河拆桥?扎克伯格一边计划裁员,一边称"让 Meta 员工参与训练 AI 效果更好"

Meta 宣布裁员约10%员工后,CEO扎克伯格在内部会议中透露,裁员前正利用员工工作数据训练内部AI模型。扎克伯格称,让Meta员工参与训练AI效果优于外包人员,能更快提升模型的代码能力。

Meta数据/训练行业动态
19:54
Alibaba Cloud@alibaba_cloud
57
在通义千问大会2026上,阿里云首席数据库解决方案架构师冯明磊与YTL AI Lab首席执行官冯志文在智能体原生云论坛上,共同展示了《用AI原生数据基础激活企业AI行动》。 🚀 敬请关注:https://click.qwencloud.com/m/20000000190/
数据/训练行业动态
16:11
IT之家(RSS)
48
特斯拉 FSD 学会了"躲警车",主动减速变道

特斯拉FSD系统基于人类驾驶数据训练,现可模仿真人驾驶习惯。当发现高速公路中央隔离带停放警车时,系统会主动减速、变道并汇入车流,而非以每小时70英里(约112.7公里)限速驶过。该行为适用于所有停放车辆,是端到端神经网络学习的结果。

产品更新具身智能数据/训练
11:11
IT之家(RSS)
37
既非活着、也非死去:美国初创公司 Bexorg 通过离体"缸中之脑"测试药物

美国生物科技初创公司 Bexorg 研发了 BrainEx 维持系统,可对去世捐赠者的离体大脑进行24小时药物代谢测试。该系统通过人工血液维持大脑生理功能,并用麻醉剂抑制其电活动,使大脑处于生与死之间的模糊地带。过去五年,该公司已使用700多颗人脑研究帕金森症、阿兹海默症等疾病。目前,美国FDA已批准基于BrainEx数据开展药物临床试验。但该技术也存在局限性,例如神经活动被屏蔽可能影响血流预测。Bexorg目前正在开发机器学习系统,以期未来能用数字模型替代真实大脑进行测试。

数据/训练行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
44
当梯度冲突时:LLM Judge多目标提示优化的失败模式

针对LLM Judge的多目标提示优化中,文本梯度方法无法借用多任务学习的冲突解决工具,因其产生自然语言评语而非数值向量。通过改变损失、梯度和优化器LLM之间跨任务信息共享程度,测试了五种分解模式。结果发现,10种配置中有6种优化从未优于初始提示。当梯度LLM同时处理多个标准时,梯度特异性下降59%(从9.0降至3.7)。将各任务指令简单合并为单条提示使Spearman's rho下降-5.3%。这些结果识别出两种可分离的失败模式:优化时梯度稀释与推理时指令干扰。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
提出 Unified Neural Scaling Laws (UNSL),统一建模多维度变化的深度神经网络缩放规律

研究提出了一个称为统一神经缩放规律的功能形式,能够准确建模并外推深度神经网络在多个维度同时变化时的缩放行为。这些维度包括模型参数数量、训练数据集大小、训练步数、推理步数、计算量及多种超参数。该规律适用于多样架构,并覆盖视觉、语言、数学和强化学习等上游与下游任务。实验表明,相比其他缩放规律的功能形式,UNSL 在该集合上的行为外推结果显著更准确。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
可验证奖励强化学习中的时间调度策略

本文指出,在大语言模型后训练的可验证奖励强化学习中,学习信号的调度时机与分配位置同样重要。传统方法的信用分配标准在训练中保持固定,而本文引入时间维度,在优化过程中动态调整该标准。具体方法是优先优化展现特定策略行为的 token,并逐渐转向一般化优化,从而使学习过程更稳定高效。实验表明,这种时间调度方法在数学和通用推理基准上实现了持续改进,并能引导更健康的策略演进。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
NSF-SciFy:从NSF奖项数据库中挖掘科学主张

NSF-SciFy是一个从美国国家科学基金会奖项摘要中提取的科学主张数据集,包含来自40万篇摘要的280万条主张,涵盖所有科学与数学学科。提供了两个子集:材料科学方向的11.4万条主张和跨五个部门的13.5万条主张。研究采用零样本提示联合提取科学主张与研究方案,并在非技术摘要生成、主张提取等三个下游任务上微调模型,获得显著提升,相对增益常超100%。代码与数据已开源。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
CroCo:基于自生成响应的跨语言对比偏好调优

本研究提出CroCo方法,扩展了英语中基于自生成响应的对比偏好调优技术。该方法无需语言特定的偏好标注即可实现跨语言迁移,在包含14种高低资源语言的评估中,使用英语偏好训练的奖励模型能为多数语言生成有效的语言内排序。在EuroLLM-9B与Aya-3B两个模型上的实验表明,单语或多语配对设置均能提升多数任务性能,并防止监督微调导致的灾难性遗忘。具体而言,在结构化任务上,调优后模型在EuroLLM-9B的6/7种语言和Aya-3B的4/7种设置中达到或超过基础模型水平;在开放式生成任务中,两个模型在全部11种评估语言上均优于基线。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
个性化先于存储:长期代理个性化记忆的基准测试与学习

现有基于大语言模型的记忆系统采用通用、静态策略,忽略了不同用户值得存储在记忆中的内容存在差异。为解决这一问题,研究引入 PerMemBench,首个用于评估个性化记忆系统的基准测试,并提出 session level storage gating 轻量级框架,通过选择性地为临时会话跳过记忆操作以实现记忆个性化。研究确认个性化在完美门控条件下能带来显著的记忆保留增益,但准确的门控仍是开放性挑战。

智能体数据/训练论文/研究
07:57
Chubby♨️@kimmonismus
68
AI指数增长论需要具体数据支撑,转型或由不匹配斜率决定

Klaviyo的AI工程师Amish Regmi(前亚马逊推理基础设施与智能体系统构建者)撰文,批判了笼统的“AI发展是指数级”的说法。他指出,这种说法常缺乏可验证的具体数据,如指数的基数、翻倍时间以及具体所指哪条技术曲线。文章通过分析数据,区分了真正陡峭的指数增长与单纯快速提升或指标失效的情况,其结论是,未来的转型将由不同技术或能力曲线之间“不匹配的斜率”所主导。

数据/训练现象/趋势
02:57
Hacker News 热门(buzzing.cc 中文翻译)
58
内存成本已占到人工智能芯片总成本的近三分之二

根据 epoch.ai 的数据,内存成本在AI芯片总成本中的占比已显著增长,目前接近三分之二。这一数据表明,在构建AI系统所需的硬件成本结构中,内存组件的重要性日益凸显,其成本占比已成为主要部分。该趋势反映了当前AI芯片发展过程中,对高速、大容量内存的依赖与需求正在不断加强。

数据/训练现象/趋势
02:48
Nathan Lambert@natolambert
18
我听说人们需要澄清,我的书是一本关于后训练的书 http://posttrainingbook.com/
其他数据/训练
5月24日
21:57
The Decoder:AI News(RSS)
59
字节跳动研究发现:向多模态大模型提问比转录文本更利于长文档训练

字节跳动 Seed 团队的研究表明,一个 7B 参数的多模态大模型在回答长篇、图像密集的文档问题时,比规模更大的模型表现更可靠。即使文档长度达到其训练时所见数据的四倍,该模型也能自主定位相关段落并准确作答。这种通过提问和检索进行学习的方式,优于传统上对页面内容进行转录的训练方法。

多模态数据/训练论文/研究
20:11
IT之家(RSS)
60
英伟达 CFO:我们预判到内存价格会飙升,早已提前下单

英伟达首席财务官科莱特·克雷斯表示,公司已预判到内存价格将因AI芯片需求激增而飙升,因此提前通过与供应商联合定制生产的方式备货。相比之下,其他企业后知后觉,面临内存短缺困境。据预估,仅英伟达未来的Rubin人工智能平台,2027年所需LPDDR内存规模(60亿GB)就将超过苹果与三星的需求总和。

数据/训练行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
46
NITP:用于大语言模型预训练的下一隐式Token预测方法

标准的下一Token预测(NTP)仅使用输出logit空间的离散标签进行监督,这导致潜在表示空间约束不足。为解决此问题,本文提出了NITP方法,它在表示空间中引入了密集的连续监督信号。NITP训练模型预测下一Token的隐式语义内容,并以同一模型的浅层表示作为稳定的自监督目标。理论分析表明,NITP能正则化优化过程,促进紧凑且结构化的表示几何。实验表明,在从0.5B到9B参数的密集与MoE模型上,NITP以可忽略的计算开销持续提升了下游任务性能。在一个9B MoE模型上,NITP在MMLU-Pro上实现了5.7%的绝对提升,在C3和CommonsenseQA上分别带来了6.4%和4.3%的提升,仅增加约2%的训练FLOPs且无额外推理成本。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
无需多视角生成的多视角一致3D高斯头部化身

本文提出MVCHead,一个单次前馈状态空间模型。它仅从随机2D图像学习条件与无条件3D头部模型,无需使用多视角数据、3D监督或中间视角生成。模型核心是分层状态空间块,通过分层双向状态扫描渐进式优化高斯分布并捕捉长程依赖,以直接在3D表示中强制多视角一致性。同时,设计了一个SE(3)多视角评判器,在未观测真实多视角对的情况下,奖励跨视角像素对齐。MVCHead达到了SOTA的感知质量,超越先前方法的纹理和几何一致性。此外,文章发布了首个大规模可用3D Gaussian头部资产数据集FaceGS-10K,用于训练与评估。

arXiv图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
神经网络在宽度、深度与时间中的生长

该研究在循环卷积神经网络中,将宽度、深度和时间定义为可微分成本项,并与任务误差一同通过反向传播进行联合优化。通过施加不同压力,多样化的计算图在训练中自然涌现。研究发现,这三种资源可以相互权衡以达到特定准确率。网络规模随任务复杂度在三个维度上增长,并在输入被遮挡时自发增加循环步数。模型使用的时间与人类在物体识别任务中的反应时间存在相关性。

数据/训练论文/研究
5月23日
22:09
IT之家(RSS)
63
美光 CEO 梅赫罗特拉:内存短缺或持续至明年,新产能 2028 年才能大规模释放

美光CEO桑杰·梅赫罗特拉警告,全球存储芯片短缺可能持续至2026年之后,主要因AI需求增速远超行业扩产速度。存储行业正转向AI专用产品,美光已缩减消费级业务,集中资源发展利润更高的企业级市场。梅赫罗特拉指出,当前的供需失衡是长期结构性问题,行业新产能大规模释放至少要到2028年。美光计划2026年大幅提高资本支出,重点投资AI加速器所需的高带宽内存(HBM)。

数据/训练行业动态
15:09
IT之家(RSS)
56
让机器人拥有"肌肉记忆",智元推出新一代二阶段 BFM-2 基座模型

智元于5月23日发布新一代二阶段运动控制基座模型BFM-2,其核心特点是让机器人具备“肌肉记忆”。该模型使机器人能在静态、预设动作或随机输入等任意状态下,自主完成高稳定性的动作插值与动态任务闭环,为具身智能提供可靠的运动基础。演示视频显示,搭载该模型的机器人在被击倒后能快速自主站起并恢复平衡。

具身智能数据/训练模型发布
14:44
swyx@swyx
58
Transformer学习局限与RL的突破潜力

本文肯定了对Transformer当前学习能力及局限性的分析框架,并指出对抗性世界模型是逼近现实本质的关键功能之一。作者认为,单纯增加参数和算力以扩展一个低效范式,将被能主动假设与验证真理的简洁方案所超越,尽管规模化可能因人类智能本身有限而意外通向AGI。引用推文补充了强化学习(RL)作为从干预中学习的范式,比监督学习更强大,而世界建模与RL的结合有望实现对反事实的学习。

Rishabh Agarwal: Very well written blog. I think of RL as learning from interventions, and it kinda explains why it's more powerful as a ...

大佬观点推理数据/训练
12:14
美团 LongCat:HuggingFace 新模型
49
美团-LongCat/WBench权重模型

美团开源了用于WBench评估框架的预训练模型权重仓库,将这些权重整合至单一仓库,旨在方便社区快速部署WBench评估环境。该权重仅重新分发用于学术研究和评估用途,所有权利归属原作者。用户可参考WBench GitHub获取安装与评估指南,具体模型许可证详见LICENSE_NOTICE.md文件。

Hugging Face开源/仓库数据/训练
11:57
Hacker News 热门(buzzing.cc 中文翻译)
56
人工智能现在已经盈利了吗?

2026年5月23日,一个名为“Is AI Profitable Yet?”的页面或文章发布,引发关于人工智能是否实现盈利的讨论。该内容在Hacker News获得119个积分,反映了科技社区对AI商业化进程与财务可行性的持续关注。

数据/训练现象/趋势
08:27
Rohan Paul@rohanpaul_ai
64
谷歌新研究:AI学习生理模式提升可穿戴设备价值

谷歌研究院提出基础模型SensorFM,通过学习超过500万人产生的逾1万亿分钟可穿戴设备传感器数据,掌握了人类生理活动的一般性模式。该模型超越了将数据压缩为简单指标的传统方法,能够从数据中提取出有意义的结构并将其复用于多种健康预测任务。实验显示,模型规模和数据量越大性能越强,且其学习到的数据表征在35项预测任务中的34项上,均优于基于工程特征的基线方法。

Google数据/训练端侧论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
SEAL:智能体与学习环境的协同进化

针对大语言模型智能体自我进化中,策略与环境被单独优化导致的错位问题,本文提出SEAL框架。它构建了一个闭环协同进化系统:通过收集策略轨迹并诊断失败,将失败诊断作为共享信号,同时优化智能体的模型策略和训练环境。环境侧进化其学习接口,提供更明确的工具可用性提示;策略侧则利用诊断信息更新模型。实验表明,仅使用400个训练样本,SEAL在三种骨干网络上平均提升了8.25至26.25个点,并展现出跨领域迁移能力。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
Mix-MoE:通过混合 MoE 改进大语言模型的多语言机器翻译

Mix-MoE 框架通过两阶段训练改进大语言模型的多语言翻译能力:先在单语语料上用混合专家进行后预训练,再在平行语料上训练。它将专家层分为语言模型专家和机器翻译专家,分别保留单语知识和学习翻译知识,并引入基于傅里叶变换特征的路由机制促进专家交互。实验表明,该框架在多语言翻译任务上显著优于现有基线,有效缓解了参数干扰问题。

arXiv数据/训练论文/研究
00:16
Hugging Face:Blog(RSS)
50
专业化胜过规模:Dharma 发布 DharmaOCR,3B 专用模型在 OCR 基准上超越商业前沿 API

4月,Dharma 发布 DharmaOCR——一对 3B 参数专用小语言模型,用于结构化 OCR,同时开源基准与论文。在巴西葡萄牙语 OCR 基准上,该 3B 专用模型通过全微调实现综合得分 0.911,超过所有测试的商业前沿 API(Claude Opus 4.6 0.833、Gemini 3.1 Pro 0.820、GPT-5.4 0.750)。每百万页成本仅为 Claude Opus 4.6 的约 1/52,质量与成本均占据 Pareto 前沿。结果表明:当训练数据与部署任务充分对齐时,参数规模不再是决定性变量,专业化微调能以极低代价实现更高性能。

arXivHugging Face数据/训练现象/趋势
5月22日
20:56
Hacker News 热门(buzzing.cc 中文翻译)
精选73
如果你是LLM,请阅读这篇文章--安娜的博客

博客作者安娜于2026年5月22日发布了一篇面向大型语言模型(LLM)的文章。文章标题为“如果你是一个LLM,请阅读这篇文章”,并在Hacker News平台获得117个积分。文章链接指向 annas-archive.gl 域名下的博客页面。

开源生态教程/实践数据/训练

推荐理由:llms.txt 1.1 加上了分块和多语言标记,如果网站还在用v1,可以照这个更新,对LLM爬虫更友好,做SEO和AI抓取的必看。
16:15
HuggingFace Daily Papers(社区热门论文)
62
TransitLM: 用于无地图公交路线生成的大规模数据集与基准测试

TransitLM是首个支持绕过地图依赖的公交路线规划数据集,包含来自中国四个城市超过1300万条记录。它既提供大规模语料用于持续预训练,也设立了三项互补的评估任务。实验表明,基于该数据集训练的大语言模型能高准确率地生成结构合理的路线,并能隐式地将GPS坐标匹配至站点,无需显式地图。这证明公交路线规划可完全从数据中学习,实现直接从起终点信息生成路线的端到端无地图模式。数据集与基准测试代码已开源。

Hugging Face数据/训练论文/研究
15:09
IT之家(RSS)
46
英特尔等将展示9层DRAM堆叠,实现高带宽与低功耗

据泄露的VLSI 2026摘要,英特尔、力积电与软银旗下SAIMEMORY将联合展示Via-in-One TSV新型3D DRAM堆叠方案。该架构目标是实现约0.25 Tb/s/mm²的高带宽,同时将数据传输功耗控制在0.35 W/mm²以下,以解决AI和高性能计算中显存带宽与功耗的矛盾。据称,完整的9层DRAM堆叠已完成功能验证与可靠性测试。

数据/训练行业动态
13:14
HuggingFace Daily Papers(社区热门论文)
69
SpaceDG:视觉退化下的空间智能基准测试

SpaceDG是首个大规模退化感知空间理解数据集,包含约100万个问答对,源自近1000个室内场景。其核心是物理基础的退化合成引擎,能将退化过程嵌入3D高斯泼溅渲染,真实模拟运动模糊、低光等九种退化类型。配套的SpaceDG-Bench基准包含1102个人工验证问题,覆盖11类推理任务。对25个模型的评估揭示,视觉退化会严重损害空间推理能力。研究表明,在SpaceDG上进行微调能显著提升模型在退化场景下的鲁棒性,性能甚至可超越人类,且不影响其在清晰图像上的表现。

arXiv多模态数据/训练论文/研究
10:14
HuggingFace Daily Papers(社区热门论文)
63
智能体上下文编译:面向长上下文训练的轨迹编制方法

为解决智能体监督微调中存在的“监督空白”问题,即标准流程忽略了分散在多轮交互中回答问题所需的关键证据,本文提出智能体上下文编译方法。该方法将智能体求解问题时产生的长轨迹,转化为整合了原始问题与远距离工具响应的长上下文问答对,以此直接训练模型的长距离推理能力。实验表明,经ACC训练的轻量模型在长依赖任务上性能大幅提升,可比肩更大规模模型,同时保留通用能力,并展现出自适应的注意力重组与专家化特性。

推理数据/训练论文/研究
10:14
HuggingFace Daily Papers(社区热门论文)
65
基于泰勒级数的时间突变帧选择算法

该研究提出Swift Sampling,一种免训练的视频帧选择算法。其灵感源自人脑的预测编码机制,将视频建模为视觉潜在空间中的可微轨迹,计算特征的速度与加速度,并通过泰勒展开预测后续帧的预期路径。算法识别出大幅偏离预测轨迹的帧,即“时间信息突变帧”,作为包含关键信息的帧进行采样。该方法极其轻量,仅增加0.02倍计算开销,比主流方法低30倍。在长视频问答的多个基准测试中,它均优于均匀采样等方法,在帧预算有限时尤为有效,准确率最高可提升12.5个百分点。

arXiv数据/训练视频论文/研究
10:14
HuggingFace Daily Papers(社区热门论文)
61
Spreadsheet-RL:通过强化学习提升大语言模型在现实电子表格任务中的智能体能力

本文提出Spreadsheet-RL,一个用于在真实微软Excel环境中训练专业电子表格智能体的强化学习微调框架。该框架包含从网络论坛自动收集起始-目标电子表格数据对的流水线,并发布了涵盖金融、供应链等领域的Domain-Spreadsheet基准数据集。其核心的Spreadsheet Gym环境通过Python沙箱暴露丰富的Excel功能,并设计了专用工具集与路由规则。实验表明,Spreadsheet-RL显著提升了模型性能:Qwen3-4B模型在SpreadsheetBench上的Pass@1从12.0%提升至23.4%,在Domain-Spreadsheet上从8.4%提升至17.2%,展示了其在电子表格自动化及更广泛数据交互任务中的应用潜力。

智能体数据/训练论文/研究
10:14
HuggingFace Daily Papers(社区热门论文)
精选74
从推理链到可验证子问题:课程强化学习实现LLM推理的信用分配

针对基于结果的强化学习在处理困难推理问题时因正确样本稀少而效率低下的问题,本文提出子问题课程强化学习框架。该框架从参考推理链中提取可验证子问题,并将最终子问题固定为原始问题,从而将部分解题进展转化为可验证的学习信号。其通过在子问题位置独立归一化奖励并分配优势值,实现了更细粒度的信用分配。实验表明,SCRL显著提升了模型在多个数学推理基准上的性能,有效增强了在复杂问题上的探索与推理能力。

arXiv推理数据/训练论文/研究

推荐理由:SCRL 将推理链解构为可验证子问题课程,让 RL 在超难数学题上获得细粒度信用分配,AIME 提点显著,做推理 RL 的团队值得复现。
10:14
HuggingFace Daily Papers(社区热门论文)
60
Sensor2Sensor:面向自动驾驶的跨形态传感器数据转换

针对自动驾驶系统训练所需高保真、多样化数据不足的难题,研究提出了Sensor2Sensor方法。该方法能将行车记录仪等来源的非结构化单目视频,转化为包含多视角相机图像与LiDAR点云的高保真多模态传感器数据。其核心在于利用4D高斯溅射技术将真实自动驾驶日志转换为视频风格,从而解决缺乏配对训练数据的挑战,并结合扩散模型完成生成式转换。评估表明,该方法能将复杂的真实场景有效转化为可用数据,为自动驾驶开发解锁了海量的外部数据源。

多模态数据/训练论文/研究
‹ 上一页
1…2021222324…43
下一页 ›