6月25日

09:00

公众号：蚂蚁百灵（Ling）

Ling Team 提出 UFP4：FP4 预训练中 E1M2/INT4 配合 RHT 优于 E2M1

Ling Team 在 arxiv 发表论文，重新思考 FP4 预训练中的格式选择。研究发现，主流 E2M1 格式存在先天 Shrinkage Bias，导致数值量化时左右 rounding bin 不对称，该 bias 在训练中累积拖慢收敛。相比之下，E1M2/INT4 这类 uniform 格式在配合 Random Hadamard Transform（RHT）后，更高的 bucket 利用率能转化为实际量化质量收益，收敛表现优于 E2M1。团队提出 UFP4 方案：在 E1M2/INT4 下为三种 GEMM 操作数启用 RHT，并将 SR 用于 dy 量化。研究认为，细粒度量化与 RHT 引入后，FP4 训练已转向“局部分辨率主导”，uniform 4-bit 格式的价值应被重新评估。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SAM2Matting：通用图像和视频抠图

SAM2Matting 是一种追踪器到抠图的框架，通过为基础追踪器（如 SAM2、SAM3）添加区域提议桥和专用抠图头，将视频对象分割追踪器扩展为高保真视频抠图系统。它解耦了高层时序理解与底层细粒度细节处理。尽管仅使用图像训练，SAM2Matting 在视频抠图上实现了新 SOTA，支持多种提示类型，保持强时间一致性，并在人物及野外场景中展现出鲁棒的泛化能力。

数据/训练视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SharpMoE：面向扩散MoE的显著性引导精确路由

SharpMoE针对扩散混合专家模型的路由分配问题提出后训练框架。现有路由器因依赖噪声损坏的潜特征而无法准确区分显著token。SharpMoE利用干净潜特征作为无噪声引导信号，使路由器在高噪声阶段也能识别显著token，并引入轨迹路由损失约束多步去噪过程中的计算分配。实验表明，SharpMoE作为即插即用方案可增强预训练收敛的MoE模型，在视觉生成任务上达到SOTA表现。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LeHome Challenge 2026 衣物折叠竞赛获奖方案（在线第1、真实世界第2）

该方案在 LeHome Challenge 2026（ICRA 2026 双臂衣物折叠竞赛）中获得在线仿真轮次第1名、真实世界决赛第2名。核心方法是用强化学习循环改进视觉-语言-动作（VLA）策略：策略同时作为价值函数，预测动作、成功、进度及任务相关未来量，用于优势估计、实时故障检测和候选选择。技术组合包括 AWR + RECAP 结合的流匹配 VLA、HuggingFace Hub 异步分布式训练/部署、基于 Thompson 采样的推理时超参数优化，以及融合相机对齐、强数据增强与类 DAgger 人工数据采集的 sim-to-real 方案。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Qwen-Image-2.0-RL 技术报告

Qwen-Image-2.0-RL 后训练流程应用 RLHF 和 on-policy distillation（OPD）提升 Qwen-Image-2.0 扩散模型的视觉质量与指令跟随。通过微调视觉语言模型构建任务特定复合奖励模型，覆盖文生图的对齐、美学、肖像保真度，以及图像编辑的指令准确性与人脸身份保持。基于 GRPO 的 RL 框架引入混合 CFG 策略、组内奖励范围过滤和分类权重校准。最终通过轨迹级速度匹配的 OPD 合并多个教师策略。评测显示，Qwen-Image-2.0-RL 在 Qwen-Image-Bench 总分 57.84（+2.61），文生图 Elo 1193（+78），图像编辑 Elo 1349（+93）。

图像生成多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PhysiFormer：世界坐标中的扩散 Transformer 模拟物理可信 3D 物体运动

PhysiFormer 是一种扩散 Transformer 模型，用于物理可信的 3D 物体运动模拟。它将物体表示为世界坐标下的 3D 网格，输入初始顶点位置、速度及材料类型（刚性或弹性），通过去噪扩散过程直接采样未来顶点轨迹，不依赖显式归纳偏置。概率性公式捕捉动力学不确定性，生成多种合理未来。模型在时间、空间和物体维度上分解注意力，实现置换不变的多物体推理。基于 10 万+模拟轨迹训练，可生成刚体和弹性力学，并泛化至混合材料、未见真实几何及更多物体场景，在轨迹精度、刚性保持和动量一致性上显著优于自回归基线。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DanceOPD：面向流匹配模型的on-policy生成场蒸馏框架

DanceOPD是一种面向流匹配模型的on-policy生成场蒸馏框架，将每个样本路由至单一能力场，查询低噪声学生诱导状态，以速度MSE作为训练目标，使学生在其自身rollout状态上学习专家能力的组合。该方法可吸收多个能力源（包括无分类器指导等operator定义的速率场），在T2I生成、局部编辑、全局编辑、真实感场吸收及CFG吸收等任务上均提升目标能力，同时保持锚点生成质量不受损。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OPID：智能体强化学习的在线策略技能蒸馏

OPID从在线策略轨迹中提取技能监督，构建分层技能：回合级技能捕获全局流程，步骤级技能捕获关键局部决策。关键优先路由机制在决策关键时使用步骤级技能，默认回退至回合级。技能注入交互历史后，旧策略在原始与技能增强上下文下重新评分同一响应，产生token级自蒸馏优势，与结果优势结合优化策略。在ALFWorld、WebShop和Search-based QA上，OPID相比纯结果RL和现有技能蒸馏基线提升了智能体性能、样本效率和鲁棒性。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ViQ：任意分辨率的文本对齐视觉量化表示

ViQ 是一种视觉量化表示框架，通过两阶段学习（文本对齐预训练与特征离散化）在离散表示中平衡语义与细节，并支持原生分辨率输入。预训练借助语言模型增强语义监督，离散化阶段采用近端表示学习逐步压缩特征空间，结合位置感知多头量化实现任意分辨率处理。多模态任务上，ViQ 达到与基于连续高维特征的 SOTA 编码器相当的竞争力，同时保持低层重建高精度。采用 ViQ 的量化表示进行多模态训练可实现 20%–70% 的加速，适用于不同大语言模型和训练方案。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EO-WM：物理信息驱动的概率地球观测预测世界模型

EO-WM是一种基于视频扩散Transformer的多光谱地球观测预测模型，将天气作为条件信号，稀疏观测与未观测地表状态视为不确定性来源。模型通过物理信息条件框架区分气候基线、天气异常和累积物理应力信号（如持续高温与干旱胁迫），并引入极端夏季基准和季节性匹配对基准，分别评估极端天气下植被退化预测的严重性感知能力及天气强迫变化下的响应保真度。实验表明，EO-WM在NDVI下降幅度预测上相对误差降低5.63%，方向命中率相对提升7.80%，同时保持标准像素级指标竞争力。模型与基准将开源。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

InfoKV：信息感知的KV缓存压缩用于长推理

大语言模型推理能力提升导致KV缓存快速增长，现有压缩方法仅依赖注意力权重，忽略了预测不确定性等信息论信号。本文提出Forward Influence度量，从前瞻视角衡量压缩token对未来上下文的影响。分析发现，高注意力得分token主要影响邻近上下文，而高预测不确定性token对远距离未来上下文影响更强。基于此提出InfoKV框架，融合token级预测不确定性与层表示演化，在推理时将熵分数与注意力分数结合。在Llama-3.1、Llama-3.2和DeepSeek-R1上的长上下文推理基准测试中，InfoKV在长预填充和解码场景下均优于现有基于注意力的KV压缩方法。

推理数据/训练论文/研究

07:58

IT之家（RSS）

数据推翻 AI 取代论：工程师岗位成科技行业抗风险最强工种

Challenger 数据显示 5 月科技行业裁员创单月新高，AI 是主因。但 SignalFire 追踪 8000 万企业员工轨迹后发布报告称，大型科技企业整体招聘量较 2019 年下降 25%，工程岗位降幅仅 11%；2025 年新入职员工中工程师占比达 55%，高于 2019 年的 46%。初创企业工程师总人数较 2019 年增长 7%。Anthropic 首席执行官曾警示 AI 或淘汰半数入门级白领，但其首席经济学家表示尚未观测到显著冲击。英伟达 CEO 黄仁勋称工程师使用 AI 后更忙碌，印证杰文斯悖论。

数据/训练现象/趋势编码

05:36

TechCrunch：AI（RSS）

内存芯片短缺持续到2027年，美光季度营收翻四倍至414.5亿美元

美光（Micron）周三收盘后公布第三财季财报，营收同比翻四倍至414.5亿美元，利润从18.8亿美元增至282亿美元。公司预测第四财季营收介于490亿至510亿美元。美光还与AI公司Anthropic签署内存和存储芯片供应协议，并参与了Anthropic的H轮融资（未披露投资额）。AI热潮导致的内存芯片短缺预计将持续至2027年，苹果CEO库克一周前已警告产品涨价不可避免。

Anthropic 数据/训练行业动态

04:35

Chubby♨️@kimmonismus

Anthropic指控阿里巴巴大规模蒸馏Claude训练Qwen

Anthropic通过Bloomberg指控，与阿里巴巴相关的运营方利用近25,000个欺诈账户非法访问Claude，在4月至6月期间生成了2880万次Claude交互，目标聚焦于软件工程和智能体推理能力。Anthropic称这是“对抗性蒸馏”模式的一部分，中国企业实验室据称以极低成本从美国前沿模型获取输出以训练竞品系统。该指控矛头直指Qwen系列模型的训练来源。

Anthropic 安全/对齐数据/训练行业动态

04:07

OpenRouter：Announcements（RSS）

精选68

OpenRouter 零数据留存（ZDR）实践：97 款新模型，流量占比近半

OpenRouter 的零数据留存（ZDR）保证用户提示词和模型响应不被存储，元数据一般安全。自 1 月以来新增 97 款支持 ZDR 的模型，月度 token 量增长 4.3 倍，约占全部路由流量一半。ZDR 在三个层面执行：账户级（整个供应商开启）、护栏级（按 API Key 或组织成员限定）、单次请求级（传参数仅路由至 ZDR 端点）。企业用户可灵活选择控制粒度，避免锁定单一供应商。

教程/实践数据/训练

推荐理由：ZDR 远不止“不存数据”这么简单，提示、响应、缓存的区分很多人没搞清楚。OpenRouter 的三层执行算是把自由度给足了，做合规服务的人可以仔细看看。

03:50

swyx 🔜 @aiDotEngineer@swyx

swyx 在 Data+AI Summit 采访 Databricks 联合创始人：智能体云与开放基础设施

swyx 在 Data+AI Summit 上采访了 Databricks 联合创始人 Matei Zaharia 和 Reynold Xin。访谈亮点包括：Databricks 为何击败 Snowflake；行业正纷纷构建“元 harness”（共享智能体框架）；LTAP 与 Lakebase 重新思考操作型与分析型数据库划分，解决 HTAP 愿景；Omnigent 为编码智能体和自定义智能体提供统一框架；智能体安全需要上下文策略与支出控制；MosaicML 与 DBRX 的后续；在 1750 亿美元大公司中维持研究/创业文化；以及在智能体云竞赛中数据库、操作系统与网络的重要性。核心观点：未来软件只需让数据就绪，智能体置于其上。

Latent.Space: Why the Frontier Ecosystem must be Open - Matei Zaharia and Reynold Xin, Databricks https://www.latent.space/p/databrick...

智能体大佬观点数据/训练

02:49

Rohan Paul@rohanpaul_ai

Tetsuwan 正在构建浏览器端云生物学实验室

AI 生成假设的速度已超过湿实验室验证能力。Tetsuwan 构建了浏览器端云生物学平台：研究者上传或描述实验协议，添加样本、体积、浓度、处理条件、仪器设置等变量，ResearchOS 将其转化为可编辑的实验规范，再编译为机器人可执行脚本（PDL/VDL 语言捕获流程与变量上下文，Ariadne 转为机器人指令）。用户可远程审查与模拟，随后云实验室自动执行，无需进入物理实验室。平台经两年试点验证，今年晚些时候将上线首项服务，聚焦蛋白质设计功能筛选。

Cristian Ponce: Automating the lab bench is the best thing we can do for AI in biology. Most experiments are still run by hand. Every bi...

产品更新数据/训练

00:49

Rohan Paul@rohanpaul_ai

Startupfortune：大型科技公司本月市值蒸发2.7万亿美元。主要担忧是资本支出。大型实验室预计2026年资本支出约7250亿美元，较去年的4100亿美元增长77%。高盛更进一步，报告称预计到2030年这些实验室的AI支出将达到5.3万亿美元。

数据/训练行业动态

00:15

Hugging Face：Blog（RSS）

精选66

NVIDIA NeMo AutoModel：一行代码加速Transformer MoE模型微调

NVIDIA NeMo AutoModel 是基于 Transformers v5 的开源库，添加 Expert Parallelism、DeepEP 融合 all-to-all 调度和 TransformerEngine 内核。在 MoE 模型微调中，相比原生 v5，训练吞吐量提升 3.4–3.7 倍，GPU 内存减少 29–32%，仅需改动一行 import。在 16 节点 128 张 H100 上全微调 Nemotron 3 Ultra 550B A55B 时，v5 因内存不足无法运行，而 AutoModel 凭借 EP=64 专家并行使训练可行。单节点 30B MoE 模型（如 Qwen3-30B-A3B）同样获得可量化的性能优势。

开源/仓库教程/实践数据/训练

推荐理由：英伟达的 NeMo AutoModel 把 MoE 模型微调速度提高了三倍多，内存省了近三分之一，代码只需改一行 import，做训练的可以立刻升级。

6月24日

21:19

OpenAI@OpenAI

我们设计并制造了首款 AI 芯片：Jalapeño。由 OpenAI 从零设计，并与 @Broadcom 合作投入生产，Jalapeño 专为支撑 ChatGPT、Codex、API 及未来智能体产品的 LLM 工作负载而打造。芯片是 AI 经济的基础。自建芯片扩展了我们从产品到模型再到基础设施的全栈平台，并将助力我们扩展智能、服务更多人、扩大 AI 的普及。

OpenAI 产品更新推理数据/训练

20:48

Ant Ling@AntLingAGI

蚂蚁百灵发表UFP4论文，提出均匀网格FP4训练配方。在Dense 1.5B、MoE 7.9B和MoE 124B长程预训练中，该配方相比强E2M1基线实现了更低的BF16相对损失退化。论文指出，配合细粒度缩放和RHT后，FP4训练的瓶颈从动态范围转向局部分辨率，E1M2/INT4格式能更好利用RHT改进的桶分配，而E2M1可能使RHT有害。论文地址：https://arxiv.org/abs/2606.20381

Qian: Should FP4 training still default to E2M1?🤔 With fine-grained scaling + RHT, the bottleneck may shift from dynamic rang...

arXiv 数据/训练论文/研究

20:18

Ant Ling@AntLingAGI

我们最近发布了一篇论文，表明UFP4，我们的均匀网格FP4训练方案，在密集1.5B、MoE 7.9B和MoE 124B长程预训练中，比强E2M1基线更接近BF16。关键洞察：FP4训练质量不仅与比特宽度有关，还与网格几何有关。

数据/训练论文/研究

18:30

Hacker News 热门（buzzing.cc 中文翻译）

Qwen-AgentWorld：通用智能体的语言世界模型

研究团队推出Qwen-AgentWorld系列，是首批基于语言模型的“语言世界模型”，通过长链式推理模拟7个领域的智能体环境。模型使用超1000万条真实环境交互轨迹，经连续预训练、监督微调和强化学习三阶段训练而成。配套AgentWorldBench基准基于5个前沿模型在9个标准评测上的真实交互构建。实验表明Qwen-AgentWorld显著优于现有模型。作为解耦环境模拟器，它支持可扩展的可控仿真以增强智能体强化学习；作为统一基础模型，世界模型训练可有效预热下游7个智能体基准的性能。

智能体 arXiv 数据/训练论文/研究

关联讨论 5 条

12:24

Hacker News 热门（buzzing.cc 中文翻译）

Meta因内部数据泄露暂停员工追踪计划

Meta暂停了引发争议的员工追踪计划MCI。该工具今年4月在美国员工中上线，可采集鼠标移动、点击位置、按键及屏幕内容。内部安全漏洞导致MCI收集的敏感数据被超出预期范围的人员访问。Meta副总裁Stephane Kasriel表示，漏洞于6月18日被发现并在四小时内初步修复，但访问权限仍需进一步收紧。目前没有证据表明数据被不当使用，Meta将在调查期间暂停该计划，确认数据保护措施有效后再重新启用。

Meta 数据/训练行业动态

11:55

HuggingFace Daily Papers（社区热门论文）

DREAM：通过自回归建模实现密集检索嵌入

DREAM是一种利用大语言模型（LLM）自回归下一token预测目标为密集检索嵌入模型提供监督训练的方法。它将检索器生成的查询-文档相似度分数注入冻结LLM的选定注意力头，使预测损失通过注意力机制为检索器提供梯度。在BEIR和RTEB检索基准上，使用0.5B至3B参数的嵌入骨干，DREAM均持续优于现有基线。

arXiv 检索增强数据/训练论文/研究

11:47

Rohan Paul@rohanpaul_ai

微软NextLat：预测隐藏状态让Transformer推理更强

微软新论文Next-Latent Prediction (NextLat) 提出一种自监督学习方法，在常规token预测基础上增加预测下一隐藏状态的任务，迫使Transformer学习紧凑的内部世界模型。该方法在地图式世界建模、数学推理、图规划、故事预测等任务上表现更优，生成速度通过自推测解码最高提升3.3x，且无需改变Transformer架构或减慢正常推理。

Jayden Teoh: Next-token prediction is myopic. What if transformers learn to predict their own next latent state? 🌠 We present Next-L...

Microsoft 推理数据/训练论文/研究

11:41

IT之家（RSS）

软银孙正义：将建造"世界上最大的数据中心"，Arm 还有 10 倍以上成长空间

软银集团董事长孙正义在股东大会上表示，旗下Arm将从芯片设计者进化为芯片提供者并参与制造，预判AI时代以CPU为中心，Arm还有10倍以上成长空间。他透露正与客户签署美国俄亥俄州数据中心开发备忘录，旗下SB能源推进的单一设施将提供相当于10座核电站的电力，建造“世界上最大的数据中心”。Arm CEO去年7月称已完成Compute Sub Systems（CSS）芯片产品，有意加大投资制造芯粒。

数据/训练行业动态

11:41

IT之家（RSS）

Jamendo 起诉英伟达未经授权用数万首音乐训练 AI 模型，索赔超 1780 万欧元

独立音乐平台 Jamendo 在美国加州联邦法院起诉英伟达，指控其未经授权使用 MTG-Jamendo 数据集（约 5.6 万首曲目）训练 Fugatto、Audio Flamingo 两款音频大模型。该数据集仅限非商用科研用途。2024 年 3 月发现后多次协商无果，2025 年 6 月寄出商用账单（1610 万欧元）并在比利时起诉。本次美国诉状主张直接著作权侵权、违约、不当得利、不正当竞争，最低索赔 1780 万欧元（含逾期利息）。

数据/训练行业动态语音

11:19

SemiAnalysis@SemiAnalysis_

Meta领导层正在投票一项动议，将7000名工程师重新分配至数据标注部门。

Meta 数据/训练行业动态

10:49

HuggingFace Daily Papers（社区热门论文）

OpenThoughts-Agent：开源数据流水线训练智能体模型

OpenThoughts-Agent（OT-Agent）项目提出一套完全开源的数据 curation 流水线，专门用于训练智能体模型。研究团队通过 100 余项对照消融实验，系统探索了任务来源与多样性的影响，并构建了包含 10 万条样本的数据集。基于该数据集微调 Qwen3-32B 后，模型在 7 项智能体基准测试中平均准确率为 44.8%，比现有最强的开源数据智能体模型 Nemotron-Terminal-32B（40.9%）高 3.9 个百分点。训练数据展现出强扩展性，同等计算资源下各数据规模均优于其他开源数据集。所有数据、流水线、实验记录及模型已在 openthoughts.ai 公开发布。

智能体 Hugging Face 开源生态数据/训练

10:49

HuggingFace Daily Papers（社区热门论文）

世界价值模型（WVM）用于机器人操作

现有机器人价值模型基于缺乏时间建模能力的VLM骨干。世界模型擅长时间建模与未来规划，由此将世界模型与价值估计结合，构建了世界价值模型（WVM）。WVM在标准基准上取得SOTA的价值序相关（VOC）结果。为补充仅含专家数据的评测，新引入Suboptimal-Value-Bench（含800条次优轨迹及人工标注），WVM同样保持SOTA。在策略学习中，WVM在模拟和真实部署中提升了多种策略提取方法的操作性能。

具身智能数据/训练论文/研究

10:49

HuggingFace Daily Papers（社区热门论文）

基于多目标强化学习的大语言模型预训练全息数据调度器

现有大语言模型预训练的在线数据混合方法仅从单一角度优化。新框架全息数据调度器（HDS）将数据调度建模为连续控制空间中的强化学习问题，采用Soft Actor-Critic算法。其核心是多目标综合奖励函数，整合数据驱动质量奖励、损失驱动域间影响奖励和模型驱动权重范数奖励。在The Pile基准上，HDS达到次优方法最终验证困惑度所需训练迭代减少44%，并在MMLU 0-shot任务上提升7.2%。

数据/训练论文/研究

10:47

Rohan Paul@rohanpaul_ai

VibeThinker：3B参数推理模型，性能接近Opus 4.5

VibeThinker是一个仅3B参数的推理模型，采用SFT+GRPO训练，在推理基准上与Opus 4.5几乎持平。在AIME26上达94.3，LiveCodeBench v6上80.2 Pass@1，近期未见过的LeetCode竞赛中接受率达96.1%，匹配或超越DeepSeek V3.2等大数个量级的旗舰系统。模型基于Qwen2.5-Coder 3B，经过硬样本筛选、多解监督训练、数学/代码/STEM可验证奖励强化学习、自蒸馏、指令聚焦RL及测试时答案检查方法CLR训练而成。

推理数据/训练模型发布

10:20

Alibaba Cloud@alibaba_cloud

阿里云FFA2026议程公布，Apache Fluss 1.0发布

阿里云宣布距FFA2026大会仅剩2天，全部11个分论坛议程已上线，覆盖7大Data+AI方向：多模态与向量计算、AI智能体、AI平台实践、智能DevOps、Agentic Lake、实时分析与实时数据。同时设汽车AI和具身AI行业专场。Apache Fluss 1.0在大会上首次亮相，具备专为AI智能体设计的实时上下文能力。大会将于6月26-27日在深圳举办。

智能体多模态开源/仓库数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

TheoremGraph：连接非形式化与形式化数学的统一语句级依赖图

TheoremGraph 是覆盖非形式化与形式化数学的语句级依赖图。非形式化侧从 arXiv 解析 1170 万定理环境，提取 1830 万条有向依赖；形式化侧 LeanGraph 从 25 个 Lean 项目提取 388,105 声明节点和 1130 万类型化边。通过嵌入自然语言 slogan 将两类图映射到同一语义空间，LLM judge 在余弦阈值 ≥0.8 时确认 47,952 个匹配，阈值 ≥0.9 时接受率升至 87%。形式化概念检索中，name-and-signature 加图扩展的 Recall@10 达 0.775，接近 LeanSearch v2 的 0.780（无需 LM 重排序）。相关数据集、提取器、HTTP API 及 MCP 接口已开源。

搜索数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MIMFlow：掩码图像建模与归一化流融合的端到端图像生成框架

MIMFlow是一个统一端到端框架，联合优化潜语义、像素重建和生成流。它采用VAE编码器从掩码图像推断语义潜变量，使归一化流专注于建模简化的低频频谱流形，专用解码器处理高频合成，从而解决归一化流的容量瓶颈。在ImageNet 256×256上，MIMFlow-L达到71.3%线性探测准确率和FID 2.50。仅使用128 token（比标准模型少50%），性能较相似规模NF基线提升32.8%。代码已开源。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

星系分词器指南：科学基础模型基准

在统一Transformer框架下，比较Affine、AIM、JetFormer和VQ-VAE四种tokenization策略对天文成像的影响。使用DESI Legacy Survey中640,000张星系图像和共享AstroPT骨干，评估重建保真度与物理属性预测。结果显示：基于流的JetFormer重建质量更高，VQ-VAE对星系物理属性的探针性能更强，Affine与AIM更好保留局部形态信息。重建质量与表示质量相互解耦，没有单一方法在所有任务上一致最优。研究以独立测量的物理量为基准，凸显科学数据构建可解释基础模型基准的潜力。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Tatoxa 系统：面向低资源语言鞑靼语的文本去毒化

Tatoxa 是一个针对鞑靼语（Tatar）文本去毒化的最新系统，能够自动检测并缓解攻击性和有害内容。对比实验表明，该方案在关键质量指标上超越了现有开源和闭源商用大语言模型。研究同时引入了一个专为低资源场景下微调和评估设计的鞑靼语文本去毒化数据集。跨语言迁移实验显示，即使使用大规模俄语语料，从其他语言（包括文化相近的俄语）迁移的效果也显著差于在本地鞑靼语数据上训练。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

多步工具使用的强化学习为何崩溃以及监督信号如何修复它

大语言模型在多步工具使用的强化学习（RL）训练中常出现灾难性崩溃——模型性能骤降且工具调用结构失效。研究发现，崩溃源于特定控制 token 的概率尖峰，但底层工具使用能力并未丢失，仅被格式掩盖。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号，发现将监督微调（SFT）与 RL 交错训练可显著提升稳定性，但在格式和内容分布外（OOD）评估中性能下降。代码已开源。

智能体 GitHub 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

进展优势：后训练中被忽视的免费午餐--面向LLM智能体的步骤级评分信号

研究表明，强化学习后训练本身即可提供有效的步骤级评分信号，无需单独训练奖励模型。研究者在随机马尔可夫决策过程中推导出隐式优势函数——进展优势，即RL训练后策略与参考策略的对数概率比恰好还原最优优势函数。该信号无需人工标注、领域无关，且是标准RL后训练管线的副产品。在五个基准和四个模型族上，进展优势在测试时缩放、不确定性量化和失败归因三项应用中持续优于基于置信度的基线，甚至超越专门训练的奖励模型。

智能体数据/训练论文/研究