AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1198 条
全部一手资讯X论文
标签「数据/训练」清除
6月26日周五
04:55Lilian Weng:Lil'Log(RSS)44扩展定律综述:参数、数据与计算的最优分配
03:01Hacker News 热门(buzzing.cc 中文翻译)78精选IBM 首度推出亚纳米级芯片技术
01:07TechCrunch:AI(RSS)64General Intuition 23亿美元估值完成3.2亿美元融资
00:37TechCrunch:AI(RSS)71精选General Intuition 完成 3.2 亿美元融资,用游戏数据训练通用 AI 智能体
6月25日周四
22:38The Decoder:AI News(RSS)48保险公司用生成式AI建模灾害风险,但幻觉与销售逻辑成阻碍
20:11The Verge:AI(RSS)55福特因过度依赖自动化系统召回前工程师修复错误
18:25Ars Technica:AI(RSS)65IBM 推出全球首个亚 1 纳米芯片技术,采用 nanostack 架构
17:58IT之家(RSS)48联想发布问天超节点算力解决方案及万全异构智算平台V5.0
12:58IT之家(RSS)51Anthropic 指责阿里巴巴实施"迄今已知最大规模的蒸馏攻击"
11:29Hacker News 热门(buzzing.cc 中文翻译)75精选Anthropic称阿里巴巴非法获取了Claude AI模型的功能
11:12HuggingFace Daily Papers(社区热门论文)43Autodata:让AI智能体成为数据科学家,自动构建高质量合成数据
09:00公众号:蚂蚁百灵(Ling)51Ling Team 提出 UFP4:FP4 预训练中 E1M2/INT4 配合 RHT 优于 E2M1
08:00HuggingFace Daily Papers(社区热门论文)47SAM2Matting:通用图像和视频抠图
08:00HuggingFace Daily Papers(社区热门论文)43SharpMoE: 面向扩散MoE的显著性引导精确路由
08:00HuggingFace Daily Papers(社区热门论文)39LeHome Challenge 2026 衣物折叠竞赛获奖方案(在线第1、真实世界第2)
08:00HuggingFace Daily Papers(社区热门论文)48Qwen-Image-2.0-RL 技术报告
08:00HuggingFace Daily Papers(社区热门论文)51PhysiFormer: 世界坐标中的扩散 Transformer 模拟物理可信 3D 物体运动
08:00HuggingFace Daily Papers(社区热门论文)37DanceOPD:面向流匹配模型的on-policy生成场蒸馏框架
08:00HuggingFace Daily Papers(社区热门论文)41OPID: 智能体强化学习的在线策略技能蒸馏
08:00HuggingFace Daily Papers(社区热门论文)54ViQ:任意分辨率的文本对齐视觉量化表示
08:00HuggingFace Daily Papers(社区热门论文)40EO-WM:物理信息驱动的概率地球观测预测世界模型
08:00HuggingFace Daily Papers(社区热门论文)49InfoKV:信息感知的KV缓存压缩用于长推理
07:58IT之家(RSS)68数据推翻 AI 取代论:工程师岗位成科技行业抗风险最强工种
05:36TechCrunch:AI(RSS)56内存芯片短缺持续到2027年,美光季度营收翻四倍至414.5亿美元
04:07OpenRouter:Announcements(RSS)68精选OpenRouter 零数据留存(ZDR)实践:97 款新模型,流量占比近半
00:15Hugging Face:Blog(RSS)66精选NVIDIA NeMo AutoModel:一行代码加速Transformer MoE模型微调
6月24日周三
18:30Hacker News 热门(buzzing.cc 中文翻译)80Qwen-AgentWorld:通用智能体的语言世界模型
12:24Hacker News 热门(buzzing.cc 中文翻译)62Meta因内部数据泄露暂停员工追踪计划
11:55HuggingFace Daily Papers(社区热门论文)52DREAM: 通过自回归建模实现密集检索嵌入
11:41IT之家(RSS)49软银孙正义:将建造"世界上最大的数据中心",Arm 还有 10 倍以上成长空间
11:41IT之家(RSS)69Jamendo 起诉英伟达未经授权用数万首音乐训练 AI 模型,索赔超 1780 万欧元
10:49HuggingFace Daily Papers(社区热门论文)61OpenThoughts-Agent:开源数据流水线训练智能体模型
10:49HuggingFace Daily Papers(社区热门论文)47世界价值模型(WVM)用于机器人操作
10:49HuggingFace Daily Papers(社区热门论文)46基于多目标强化学习的大语言模型预训练全息数据调度器
08:00HuggingFace Daily Papers(社区热门论文)56TheoremGraph:连接非形式化与形式化数学的统一语句级依赖图
08:00HuggingFace Daily Papers(社区热门论文)44MIMFlow:掩码图像建模与归一化流融合的端到端图像生成框架
08:00HuggingFace Daily Papers(社区热门论文)40星系分词器指南:科学基础模型基准
08:00HuggingFace Daily Papers(社区热门论文)39Tatoxa 系统:面向低资源语言鞑靼语的文本去毒化
08:00HuggingFace Daily Papers(社区热门论文)56多步工具使用的强化学习为何崩溃以及监督信号如何修复它
08:00HuggingFace Daily Papers(社区热门论文)64进展优势:后训练中被忽视的免费午餐--面向LLM智能体的步骤级评分信号
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月26日
04:55
Lilian Weng:Lil'Log(RSS)
44
扩展定律综述:参数、数据与计算的最优分配

扩展定律揭示训练损失随模型参数量N、数据集大小D和计算量C按幂律递减。文章回顾了Kaplan等人(2020)及Chinchilla扩展定律的三种拟合方法(固定模型大小改变token预算、等FLOP曲线、参数拟合),以及Amari等人(1992)和Hestness等人(2017)的早期学习曲线研究。还探讨了数据有限区域的扩展定律、实际拟合陷阱与玩具模拟,核心在于最优分配计算资源于N和D。

数据/训练论文/研究
03:01
Hacker News 热门(buzzing.cc 中文翻译)
精选78
IBM 首度推出亚纳米级芯片技术

IBM 于 2026 年 6 月 25 日发布全球首款亚纳米级芯片技术,采用 0.7 nm(7 埃米)节点与全新三维纳米堆叠(nanostack)架构。指甲盖大小的芯片集成近 1000 亿个晶体管,密度约为 IBM 2021 年 2 nm 芯片的两倍。相比 2 nm 芯片,性能最高提升 50%,能效最高提升 70%。纳米堆叠架构还实现 SRAM 面积缩减 40%,有助于支撑先进 AI 工作负载的高带宽需求。该技术已在 VLSI 2026 会议上验证,IBM 预计 5 年内量产。

推理数据/训练论文/研究

推荐理由:IBM 把芯片制程推进到亚纳米,0.7nm 意味着 AI 芯片能塞进两倍晶体管,这对生成式 AI 的算力瓶颈是个好消息。虽然量产还要五年,但技术路线图清晰,值得关注。
01:07
TechCrunch:AI(RSS)
64
General Intuition 23亿美元估值完成3.2亿美元融资

General Intuition 周四以23亿美元估值完成3.2亿美元融资,累计融资4.54亿美元。其AI智能体通过分析数亿小时游戏视频中的动作标签(玩家按键记录)训练,掌握时空推理能力,能从游戏泛化到仿真和现实世界。仅用8分钟真实机器人数据微调即可控制四足机器人自主导航。公司计划夏季末开放API。本轮由Khosla Ventures领投,General Catalyst、Jeff Bezos、Eric Schmidt、Nico Rosberg及Google DeepMind、MIT研究人员参投。

具身智能数据/训练行业动态
00:37
TechCrunch:AI(RSS)
精选71
General Intuition 完成 3.2 亿美元融资,用游戏数据训练通用 AI 智能体

General Intuition 以 23 亿美元估值完成 3.2 亿美元融资,累计披露融资 4.54 亿美元。公司从旗下游戏剪辑平台 Medal 获取数亿小时含精确按键动作标签的游戏操作数据,训练单一模型同时驾驭 Fortnite 等虚拟环境和四足机器人。演示中,AI 智能体在游戏中连续运行 100 小时,机器人仅靠 8 分钟真实街道数据微调即可自主探索办公室。本轮由 Khosla Ventures 领投,General Catalyst、Jeff Bezos、Eric Schmidt 等参投。资金将用于通过 CoreWeave 扩大计算规模、预训练下一代模型,计划夏末前开放 API。

智能体具身智能数据/训练行业动态

推荐理由:用游戏按键数据训练世界模型,并在真机上八分钟完成适配,这个思路让具身智能看到了一条可规模化的路径。投资人押注的其实是 Medial 独有的动作标注数据飞轮。
6月25日
22:38
The Decoder:AI News(RSS)
48
保险公司用生成式AI建模灾害风险,但幻觉与销售逻辑成阻碍

保险公司、银行和能源公司正使用扩散模型生成数万个合成天气事件,改进灾害风险评估,尤其针对缺乏历史数据的罕见灾难。Fathom用约1000年气候模拟数据训练扩散模型,再通过图像锐化模型将分辨率从100×100公里细化至10×10公里,生成2030年气候场景。Verisk用生成式AI同时建模极端风和雨,Moody's RMS则利用AI分析野火和飓风后的卫星图像估计保险损失。但扩散模型存在幻觉,可能生成看似合理却违反物理规律的事件。更精准的模型理论上可覆盖孟加拉国等被忽视地区,但研究显示保险公司可能倾向于采购产出较低损失估计的模型以承接更多业务,先进科学与销售逻辑可能冲突。

数据/训练行业动态
20:11
The Verge:AI(RSS)
55
福特因过度依赖自动化系统召回前工程师修复错误

福特近日首次登顶JD Power初始质量排名主流车企第一,但承认过度依赖自动化系统导致质量问题。福特车辆硬件工程副总裁表示,公司错误认为引入AI就能产出高质量产品,但资深工程师的经验未能完全转移至自动化系统。为此,福特雇佣、晋升或召回超350名经验丰富的工程师重建专业知识层,并改进数据采集与AI训练。同时成立40人软件质量保证团队,新增超10万项AI驱动测试,从“发现-修复”转向预防问题。

数据/训练现象/趋势部署/工程
18:25
Ars Technica:AI(RSS)
65
IBM 推出全球首个亚 1 纳米芯片技术,采用 nanostack 架构

IBM 发布全球首个亚 1 纳米芯片技术,采用名为 nanostack 的垂直堆叠晶体管架构,在指甲盖大小的芯片上集成近 1000 亿个晶体管,密度约为上一代 2 纳米节点的两倍。该技术基于 0.7 纳米节点(7 埃),可带来 50% 的计算性能提升或 70% 的能效提升,并实现 SRAM 缩放 40% 的改进。IBM 预期采用 nanostack 架构的商用芯片有望在未来 5 至 10 年内量产。

推理数据/训练行业动态
17:58
IT之家(RSS)
48
联想发布问天超节点算力解决方案及万全异构智算平台V5.0

联想昨日发布问天超节点算力解决方案,单节点可搭载40张GPU,FP8算力超28 PFLOPS,HBM显存突破5.76 TB,访存总带宽超80TB/s,百纳秒级芯片P2P单向时延,支持40卡/32卡配置,采用无线缆正交直插架构,兼容标准19英寸机箱,部署周期压缩至数小时。同时发布的万全异构智算平台V5.0升级两大技术:集群训推加速技术通过分层解耦PD分离架构和KV Cache共享缓存优化提升资源利用率;芯模编译优化技术实现计算图自适应匹配与算子自动生成,适配多元算力芯片生态。

产品更新数据/训练部署/工程
12:58
IT之家(RSS)
51
Anthropic 指责阿里巴巴实施"迄今已知最大规模的蒸馏攻击"

Anthropic 致信美国参议院,称阿里巴巴在4月22日至6月5日期间,使用约2.5万个欺诈账户与其模型进行2880万次对话,实施“迄今已知最大规模的蒸馏攻击”。蒸馏是利用更强模型输出训练弱小模型的AI方法。Anthropic多次指控中国开发者,但其自身也曾爬取数据。今年5月其发布的Claude Opus 4.8被用户发现自称阿里通义千问或DeepSeek,引发双标争议。马斯克亦抨击Anthropic大规模盗用训练数据。

Anthropic安全/对齐数据/训练行业动态
11:29
Hacker News 热门(buzzing.cc 中文翻译)
精选75
Anthropic称阿里巴巴非法获取了Claude AI模型的功能

Anthropic指控阿里巴巴未经授权提取了其Claude AI模型的能力。该指控基于Anthropic的调查,认为阿里巴巴通过逆向工程或其他手段复制了Claude的核心技术。目前阿里巴巴尚未公开回应。

Anthropic数据/训练行业动态
关联讨论 1 条Ars Technica:AI(RSS)
推荐理由:Anthropic正式指控阿里巴巴非法提取Claude能力,这不是普通知识产权纠纷,而是头部AI公司对模型能力窃取的首次公开控诉,可能重塑API和开源生态的游戏规则。
11:12
HuggingFace Daily Papers(社区热门论文)
43
Autodata:让AI智能体成为数据科学家,自动构建高质量合成数据

Autodata是一种通用方法,使AI智能体扮演数据科学家角色,自主构建高质量训练与评估数据。该方法支持对数据科学家智能体进行元优化,使其学会生成更优数据,具体实现为Agentic Self-Instruct。在计算机科学、法律推理及数学对象推理等任务上的实验表明,Autodata生成的合成数据集质量优于经典方法,且对智能体进行元优化能带来更显著的性能提升。该方向通过将推理计算转化为更高质量的训练数据,有望改变AI数据的构建方式。

智能体数据/训练论文/研究
09:00
公众号:蚂蚁百灵(Ling)
51
Ling Team 提出 UFP4:FP4 预训练中 E1M2/INT4 配合 RHT 优于 E2M1

Ling Team 在 arxiv 发表论文,重新思考 FP4 预训练中的格式选择。研究发现,主流 E2M1 格式存在先天 Shrinkage Bias,导致数值量化时左右 rounding bin 不对称,该 bias 在训练中累积拖慢收敛。相比之下,E1M2/INT4 这类 uniform 格式在配合 Random Hadamard Transform(RHT)后,更高的 bucket 利用率能转化为实际量化质量收益,收敛表现优于 E2M1。团队提出 UFP4 方案:在 E1M2/INT4 下为三种 GEMM 操作数启用 RHT,并将 SR 用于 dy 量化。研究认为,细粒度量化与 RHT 引入后,FP4 训练已转向“局部分辨率主导”,uniform 4-bit 格式的价值应被重新评估。

arXiv数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
SAM2Matting:通用图像和视频抠图

SAM2Matting 是一种追踪器到抠图的框架,通过为基础追踪器(如 SAM2、SAM3)添加区域提议桥和专用抠图头,将视频对象分割追踪器扩展为高保真视频抠图系统。它解耦了高层时序理解与底层细粒度细节处理。尽管仅使用图像训练,SAM2Matting 在视频抠图上实现了新 SOTA,支持多种提示类型,保持强时间一致性,并在人物及野外场景中展现出鲁棒的泛化能力。

数据/训练视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
SharpMoE: 面向扩散MoE的显著性引导精确路由

SharpMoE针对扩散混合专家模型的路由分配问题提出后训练框架。现有路由器因依赖噪声损坏的潜特征而无法准确区分显著token。SharpMoE利用干净潜特征作为无噪声引导信号,使路由器在高噪声阶段也能识别显著token,并引入轨迹路由损失约束多步去噪过程中的计算分配。实验表明,SharpMoE作为即插即用方案可增强预训练收敛的MoE模型,在视觉生成任务上达到SOTA表现。

图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
39
LeHome Challenge 2026 衣物折叠竞赛获奖方案(在线第1、真实世界第2)

该方案在 LeHome Challenge 2026(ICRA 2026 双臂衣物折叠竞赛)中获得在线仿真轮次第1名、真实世界决赛第2名。核心方法是用强化学习循环改进视觉-语言-动作(VLA)策略:策略同时作为价值函数,预测动作、成功、进度及任务相关未来量,用于优势估计、实时故障检测和候选选择。技术组合包括 AWR + RECAP 结合的流匹配 VLA、HuggingFace Hub 异步分布式训练/部署、基于 Thompson 采样的推理时超参数优化,以及融合相机对齐、强数据增强与类 DAgger 人工数据采集的 sim-to-real 方案。

具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
Qwen-Image-2.0-RL 技术报告

Qwen-Image-2.0-RL 后训练流程应用 RLHF 和 on-policy distillation(OPD)提升 Qwen-Image-2.0 扩散模型的视觉质量与指令跟随。通过微调视觉语言模型构建任务特定复合奖励模型,覆盖文生图的对齐、美学、肖像保真度,以及图像编辑的指令准确性与人脸身份保持。基于 GRPO 的 RL 框架引入混合 CFG 策略、组内奖励范围过滤和分类权重校准。最终通过轨迹级速度匹配的 OPD 合并多个教师策略。评测显示,Qwen-Image-2.0-RL 在 Qwen-Image-Bench 总分 57.84(+2.61),文生图 Elo 1193(+78),图像编辑 Elo 1349(+93)。

图像生成多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
PhysiFormer: 世界坐标中的扩散 Transformer 模拟物理可信 3D 物体运动

PhysiFormer 是一种扩散 Transformer 模型,用于物理可信的 3D 物体运动模拟。它将物体表示为世界坐标下的 3D 网格,输入初始顶点位置、速度及材料类型(刚性或弹性),通过去噪扩散过程直接采样未来顶点轨迹,不依赖显式归纳偏置。概率性公式捕捉动力学不确定性,生成多种合理未来。模型在时间、空间和物体维度上分解注意力,实现置换不变的多物体推理。基于 10 万+模拟轨迹训练,可生成刚体和弹性力学,并泛化至混合材料、未见真实几何及更多物体场景,在轨迹精度、刚性保持和动量一致性上显著优于自回归基线。

具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
37
DanceOPD:面向流匹配模型的on-policy生成场蒸馏框架

DanceOPD是一种面向流匹配模型的on-policy生成场蒸馏框架,将每个样本路由至单一能力场,查询低噪声学生诱导状态,以速度MSE作为训练目标,使学生在其自身rollout状态上学习专家能力的组合。该方法可吸收多个能力源(包括无分类器指导等operator定义的速率场),在T2I生成、局部编辑、全局编辑、真实感场吸收及CFG吸收等任务上均提升目标能力,同时保持锚点生成质量不受损。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
41
OPID: 智能体强化学习的在线策略技能蒸馏

OPID从在线策略轨迹中提取技能监督,构建分层技能:回合级技能捕获全局流程,步骤级技能捕获关键局部决策。关键优先路由机制在决策关键时使用步骤级技能,默认回退至回合级。技能注入交互历史后,旧策略在原始与技能增强上下文下重新评分同一响应,产生token级自蒸馏优势,与结果优势结合优化策略。在ALFWorld、WebShop和Search-based QA上,OPID相比纯结果RL和现有技能蒸馏基线提升了智能体性能、样本效率和鲁棒性。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
ViQ:任意分辨率的文本对齐视觉量化表示

ViQ 是一种视觉量化表示框架,通过两阶段学习(文本对齐预训练与特征离散化)在离散表示中平衡语义与细节,并支持原生分辨率输入。预训练借助语言模型增强语义监督,离散化阶段采用近端表示学习逐步压缩特征空间,结合位置感知多头量化实现任意分辨率处理。多模态任务上,ViQ 达到与基于连续高维特征的 SOTA 编码器相当的竞争力,同时保持低层重建高精度。采用 ViQ 的量化表示进行多模态训练可实现 20%–70% 的加速,适用于不同大语言模型和训练方案。

arXiv多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
40
EO-WM:物理信息驱动的概率地球观测预测世界模型

EO-WM是一种基于视频扩散Transformer的多光谱地球观测预测模型,将天气作为条件信号,稀疏观测与未观测地表状态视为不确定性来源。模型通过物理信息条件框架区分气候基线、天气异常和累积物理应力信号(如持续高温与干旱胁迫),并引入极端夏季基准和季节性匹配对基准,分别评估极端天气下植被退化预测的严重性感知能力及天气强迫变化下的响应保真度。实验表明,EO-WM在NDVI下降幅度预测上相对误差降低5.63%,方向命中率相对提升7.80%,同时保持标准像素级指标竞争力。模型与基准将开源。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
InfoKV:信息感知的KV缓存压缩用于长推理

大语言模型推理能力提升导致KV缓存快速增长,现有压缩方法仅依赖注意力权重,忽略了预测不确定性等信息论信号。本文提出Forward Influence度量,从前瞻视角衡量压缩token对未来上下文的影响。分析发现,高注意力得分token主要影响邻近上下文,而高预测不确定性token对远距离未来上下文影响更强。基于此提出InfoKV框架,融合token级预测不确定性与层表示演化,在推理时将熵分数与注意力分数结合。在Llama-3.1、Llama-3.2和DeepSeek-R1上的长上下文推理基准测试中,InfoKV在长预填充和解码场景下均优于现有基于注意力的KV压缩方法。

推理数据/训练论文/研究
07:58
IT之家(RSS)
68
数据推翻 AI 取代论:工程师岗位成科技行业抗风险最强工种

Challenger 数据显示 5 月科技行业裁员创单月新高,AI 是主因。但 SignalFire 追踪 8000 万企业员工轨迹后发布报告称,大型科技企业整体招聘量较 2019 年下降 25%,工程岗位降幅仅 11%;2025 年新入职员工中工程师占比达 55%,高于 2019 年的 46%。初创企业工程师总人数较 2019 年增长 7%。Anthropic 首席执行官曾警示 AI 或淘汰半数入门级白领,但其首席经济学家表示尚未观测到显著冲击。英伟达 CEO 黄仁勋称工程师使用 AI 后更忙碌,印证杰文斯悖论。

数据/训练现象/趋势编码
05:36
TechCrunch:AI(RSS)
56
内存芯片短缺持续到2027年,美光季度营收翻四倍至414.5亿美元

美光(Micron)周三收盘后公布第三财季财报,营收同比翻四倍至414.5亿美元,利润从18.8亿美元增至282亿美元。公司预测第四财季营收介于490亿至510亿美元。美光还与AI公司Anthropic签署内存和存储芯片供应协议,并参与了Anthropic的H轮融资(未披露投资额)。AI热潮导致的内存芯片短缺预计将持续至2027年,苹果CEO库克一周前已警告产品涨价不可避免。

Anthropic数据/训练行业动态
04:07
OpenRouter:Announcements(RSS)
精选68
OpenRouter 零数据留存(ZDR)实践:97 款新模型,流量占比近半

OpenRouter 的零数据留存(ZDR)保证用户提示词和模型响应不被存储,元数据一般安全。自 1 月以来新增 97 款支持 ZDR 的模型,月度 token 量增长 4.3 倍,约占全部路由流量一半。ZDR 在三个层面执行:账户级(整个供应商开启)、护栏级(按 API Key 或组织成员限定)、单次请求级(传参数仅路由至 ZDR 端点)。企业用户可灵活选择控制粒度,避免锁定单一供应商。

教程/实践数据/训练

推荐理由:ZDR 远不止“不存数据”这么简单,提示、响应、缓存的区分很多人没搞清楚。OpenRouter 的三层执行算是把自由度给足了,做合规服务的人可以仔细看看。
00:15
Hugging Face:Blog(RSS)
精选66
NVIDIA NeMo AutoModel:一行代码加速Transformer MoE模型微调

NVIDIA NeMo AutoModel 是基于 Transformers v5 的开源库,添加 Expert Parallelism、DeepEP 融合 all-to-all 调度和 TransformerEngine 内核。在 MoE 模型微调中,相比原生 v5,训练吞吐量提升 3.4–3.7 倍,GPU 内存减少 29–32%,仅需改动一行 import。在 16 节点 128 张 H100 上全微调 Nemotron 3 Ultra 550B A55B 时,v5 因内存不足无法运行,而 AutoModel 凭借 EP=64 专家并行使训练可行。单节点 30B MoE 模型(如 Qwen3-30B-A3B)同样获得可量化的性能优势。

开源/仓库教程/实践数据/训练

推荐理由:英伟达的 NeMo AutoModel 把 MoE 模型微调速度提高了三倍多,内存省了近三分之一,代码只需改一行 import,做训练的可以立刻升级。
6月24日
18:30
Hacker News 热门(buzzing.cc 中文翻译)
80
Qwen-AgentWorld:通用智能体的语言世界模型

研究团队推出Qwen-AgentWorld系列,是首批基于语言模型的“语言世界模型”,通过长链式推理模拟7个领域的智能体环境。模型使用超1000万条真实环境交互轨迹,经连续预训练、监督微调和强化学习三阶段训练而成。配套AgentWorldBench基准基于5个前沿模型在9个标准评测上的真实交互构建。实验表明Qwen-AgentWorld显著优于现有模型。作为解耦环境模拟器,它支持可扩展的可控仿真以增强智能体强化学习;作为统一基础模型,世界模型训练可有效预热下游7个智能体基准的性能。

智能体arXiv数据/训练论文/研究
关联讨论 5 条X:通义千问 / Qwen (@Alibaba_Qwen)X:Berry Xia (@berryxia)HuggingFace Daily Papers(社区热门论文)公众号:通义实验室(千问)Qwen:Blog Retrieval(API)
12:24
Hacker News 热门(buzzing.cc 中文翻译)
62
Meta因内部数据泄露暂停员工追踪计划

Meta暂停了引发争议的员工追踪计划MCI。该工具今年4月在美国员工中上线,可采集鼠标移动、点击位置、按键及屏幕内容。内部安全漏洞导致MCI收集的敏感数据被超出预期范围的人员访问。Meta副总裁Stephane Kasriel表示,漏洞于6月18日被发现并在四小时内初步修复,但访问权限仍需进一步收紧。目前没有证据表明数据被不当使用,Meta将在调查期间暂停该计划,确认数据保护措施有效后再重新启用。

Meta数据/训练行业动态
11:55
HuggingFace Daily Papers(社区热门论文)
52
DREAM: 通过自回归建模实现密集检索嵌入

DREAM是一种利用大语言模型(LLM)自回归下一token预测目标为密集检索嵌入模型提供监督训练的方法。它将检索器生成的查询-文档相似度分数注入冻结LLM的选定注意力头,使预测损失通过注意力机制为检索器提供梯度。在BEIR和RTEB检索基准上,使用0.5B至3B参数的嵌入骨干,DREAM均持续优于现有基线。

arXiv检索增强数据/训练论文/研究
11:41
IT之家(RSS)
49
软银孙正义:将建造"世界上最大的数据中心",Arm 还有 10 倍以上成长空间

软银集团董事长孙正义在股东大会上表示,旗下Arm将从芯片设计者进化为芯片提供者并参与制造,预判AI时代以CPU为中心,Arm还有10倍以上成长空间。他透露正与客户签署美国俄亥俄州数据中心开发备忘录,旗下SB能源推进的单一设施将提供相当于10座核电站的电力,建造“世界上最大的数据中心”。Arm CEO去年7月称已完成Compute Sub Systems(CSS)芯片产品,有意加大投资制造芯粒。

数据/训练行业动态
11:41
IT之家(RSS)
69
Jamendo 起诉英伟达未经授权用数万首音乐训练 AI 模型,索赔超 1780 万欧元

独立音乐平台 Jamendo 在美国加州联邦法院起诉英伟达,指控其未经授权使用 MTG-Jamendo 数据集(约 5.6 万首曲目)训练 Fugatto、Audio Flamingo 两款音频大模型。该数据集仅限非商用科研用途。2024 年 3 月发现后多次协商无果,2025 年 6 月寄出商用账单(1610 万欧元)并在比利时起诉。本次美国诉状主张直接著作权侵权、违约、不当得利、不正当竞争,最低索赔 1780 万欧元(含逾期利息)。

数据/训练行业动态语音
10:49
HuggingFace Daily Papers(社区热门论文)
61
OpenThoughts-Agent:开源数据流水线训练智能体模型

OpenThoughts-Agent(OT-Agent)项目提出一套完全开源的数据 curation 流水线,专门用于训练智能体模型。研究团队通过 100 余项对照消融实验,系统探索了任务来源与多样性的影响,并构建了包含 10 万条样本的数据集。基于该数据集微调 Qwen3-32B 后,模型在 7 项智能体基准测试中平均准确率为 44.8%,比现有最强的开源数据智能体模型 Nemotron-Terminal-32B(40.9%)高 3.9 个百分点。训练数据展现出强扩展性,同等计算资源下各数据规模均优于其他开源数据集。所有数据、流水线、实验记录及模型已在 openthoughts.ai 公开发布。

智能体Hugging Face开源生态数据/训练
10:49
HuggingFace Daily Papers(社区热门论文)
47
世界价值模型(WVM)用于机器人操作

现有机器人价值模型基于缺乏时间建模能力的VLM骨干。世界模型擅长时间建模与未来规划,由此将世界模型与价值估计结合,构建了世界价值模型(WVM)。WVM在标准基准上取得SOTA的价值序相关(VOC)结果。为补充仅含专家数据的评测,新引入Suboptimal-Value-Bench(含800条次优轨迹及人工标注),WVM同样保持SOTA。在策略学习中,WVM在模拟和真实部署中提升了多种策略提取方法的操作性能。

具身智能数据/训练论文/研究
10:49
HuggingFace Daily Papers(社区热门论文)
46
基于多目标强化学习的大语言模型预训练全息数据调度器

现有大语言模型预训练的在线数据混合方法仅从单一角度优化。新框架全息数据调度器(HDS)将数据调度建模为连续控制空间中的强化学习问题,采用Soft Actor-Critic算法。其核心是多目标综合奖励函数,整合数据驱动质量奖励、损失驱动域间影响奖励和模型驱动权重范数奖励。在The Pile基准上,HDS达到次优方法最终验证困惑度所需训练迭代减少44%,并在MMLU 0-shot任务上提升7.2%。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
TheoremGraph:连接非形式化与形式化数学的统一语句级依赖图

TheoremGraph 是覆盖非形式化与形式化数学的语句级依赖图。非形式化侧从 arXiv 解析 1170 万定理环境,提取 1830 万条有向依赖;形式化侧 LeanGraph 从 25 个 Lean 项目提取 388,105 声明节点和 1130 万类型化边。通过嵌入自然语言 slogan 将两类图映射到同一语义空间,LLM judge 在余弦阈值 ≥0.8 时确认 47,952 个匹配,阈值 ≥0.9 时接受率升至 87%。形式化概念检索中,name-and-signature 加图扩展的 Recall@10 达 0.775,接近 LeanSearch v2 的 0.780(无需 LM 重排序)。相关数据集、提取器、HTTP API 及 MCP 接口已开源。

搜索数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
MIMFlow:掩码图像建模与归一化流融合的端到端图像生成框架

MIMFlow是一个统一端到端框架,联合优化潜语义、像素重建和生成流。它采用VAE编码器从掩码图像推断语义潜变量,使归一化流专注于建模简化的低频频谱流形,专用解码器处理高频合成,从而解决归一化流的容量瓶颈。在ImageNet 256×256上,MIMFlow-L达到71.3%线性探测准确率和FID 2.50。仅使用128 token(比标准模型少50%),性能较相似规模NF基线提升32.8%。代码已开源。

图像生成数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
40
星系分词器指南:科学基础模型基准

在统一Transformer框架下,比较Affine、AIM、JetFormer和VQ-VAE四种tokenization策略对天文成像的影响。使用DESI Legacy Survey中640,000张星系图像和共享AstroPT骨干,评估重建保真度与物理属性预测。结果显示:基于流的JetFormer重建质量更高,VQ-VAE对星系物理属性的探针性能更强,Affine与AIM更好保留局部形态信息。重建质量与表示质量相互解耦,没有单一方法在所有任务上一致最优。研究以独立测量的物理量为基准,凸显科学数据构建可解释基础模型基准的潜力。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
39
Tatoxa 系统:面向低资源语言鞑靼语的文本去毒化

Tatoxa 是一个针对鞑靼语(Tatar)文本去毒化的最新系统,能够自动检测并缓解攻击性和有害内容。对比实验表明,该方案在关键质量指标上超越了现有开源和闭源商用大语言模型。研究同时引入了一个专为低资源场景下微调和评估设计的鞑靼语文本去毒化数据集。跨语言迁移实验显示,即使使用大规模俄语语料,从其他语言(包括文化相近的俄语)迁移的效果也显著差于在本地鞑靼语数据上训练。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
多步工具使用的强化学习为何崩溃以及监督信号如何修复它

大语言模型在多步工具使用的强化学习(RL)训练中常出现灾难性崩溃——模型性能骤降且工具调用结构失效。研究发现,崩溃源于特定控制 token 的概率尖峰,但底层工具使用能力并未丢失,仅被格式掩盖。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号,发现将监督微调(SFT)与 RL 交错训练可显著提升稳定性,但在格式和内容分布外(OOD)评估中性能下降。代码已开源。

智能体GitHub数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
进展优势:后训练中被忽视的免费午餐--面向LLM智能体的步骤级评分信号

研究表明,强化学习后训练本身即可提供有效的步骤级评分信号,无需单独训练奖励模型。研究者在随机马尔可夫决策过程中推导出隐式优势函数——进展优势,即RL训练后策略与参考策略的对数概率比恰好还原最优优势函数。该信号无需人工标注、领域无关,且是标准RL后训练管线的副产品。在五个基准和四个模型族上,进展优势在测试时缩放、不确定性量化和失败归因三项应用中持续优于基于置信度的基线,甚至超越专门训练的奖励模型。

智能体数据/训练论文/研究
‹ 上一页
12345…30
下一页 ›