6月30日

09:36

Hacker News 热门（buzzing.cc 中文翻译）

韩国政府与三星、SK海力士、现代汽车等企业承诺投资1万亿美元，用于建设芯片制造厂、AI数据中心及类人机器人制造设施。其中5850亿美元投向半导体工厂，目标五年内将DRAM产量翻倍；3570亿美元用于建设大规模AI数据中心；现代汽车投资58亿美元，计划到2028年实现旗下波士顿动力Atlas人形机器人年产3万台。但现代汽车工会因担忧岗位流失已投票批准罢工，社会也对芯片业高利润分配产生争议。

具身智能数据/训练行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

GRPO、Dr. GRPO 与 DAPO：组标准差上的三种操作

GRPO、Dr. GRPO 和 DAPO 三种推理训练方法看似不同，实则都调节同一个数值——组标准差。对于二值奖励（正确/错误），组标准差衡量同一提示下多个答案的不一致程度：答案对半开时最大，全一致时为零。GRPO 除以该标准差，Dr. GRPO 去掉除法，DAPO 丢弃标准差为零的组。论文证明三者是同一参数的不同设置，并给出组标准差同一性：不一致的组产生最大更新，一致的组更新为零。该结论在 Big-Math 难度数据集和受控训练中得到验证。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

当大语言模型粗心读取表格：衡量与减少数据引用错误

大语言模型在表格任务中仍会出现数据引用错误（DRE），即错误引用或遗漏表格数值。研究首次系统评估了不同模型（1.7B至20B参数）的DRE发生率，发现所有测试模型均存在该问题。将数据引用作为critic进行过滤和拒绝采样后，答案准确率提升最高达12.0%。团队训练了一个轻量级4B参数critic模型，在分布内和分布外DRE检测上取得平均F1分数78.2%，并能有效辅助更大模型进行推理。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AutoTrainess：自主训练语言模型的LM智能体

AutoTrainess是一个LM智能体，将后训练所需的规划、数据准备、训练、评估和日志操作封装为智能体-计算机接口，通过外部化人类经验作为明确的工作流和约束来引导训练。在PostTrainBench基准上，AutoTrainess使用GPT-5.4（Codex）取得26.94平均得分，而纯CLI基线为23.21；该智能体还跨模型泛化，将DeepSeek-V4-Flash（OpenCode）的得分从12.13提升至19.58。

智能体数据/训练论文/研究

05:35

Ars Technica：AI（RSS）

同事件精选75

韩国将投入1万亿美元扩大存储芯片生产和发展人形机器人

韩国政府与三星、SK海力士等承诺1万亿美元实施三大旗舰项目。三星和SK海力士投资5850亿美元新建芯片工厂，目标五年内将DRAM产量翻倍；SK集团、GS集团和Naver投资3570亿美元在偏远省份建设AI数据中心；物理AI被指定为国家战略产业，现代汽车投资58亿美元建设机器人工厂和AI数据中心，计划到2028年每年生产3万台Atlas人形机器人，并在10大行业实现商业化。但现代汽车工会已批准罢工谈判，要求利润分享和岗位保护。

具身智能数据/训练端侧行业动态

同一事件，精选展示《三星和SK海力士计划投资5900亿美元扩产芯片，AI需求推高内存价格》

推荐理由：韩国砸 1 万亿美元砸向内存芯片和机器人，不只是产能竞赛，更是试图锁住 AI 硬件供应链的关键位置。但工会抗议和芯片暴利税收争议也浮现，值得追踪。

04:34

Tomer Tunguz 博客（VC 分析）

精选58

Anthropic：当AI成本超过工程师薪酬

Anthropic在算力上的支出达到每位工程师每年51.5万美元，是其完全薪资（22.4万美元）的2.3倍。相比之下，顶尖1%软件公司的算力支出为8.9万美元，中位数仅为1.37万美元。三个2029年情景预测了这一差距的缩小路径。

Anthropic 大佬观点数据/训练

推荐理由：Tomer Tunguz 用数据把 AI 公司的烧钱速度拆得很细，Anthropic 每个工程师年算力成本 51.5 万美元，是工资的 2.3 倍，这个数字对重新理解 SaaS 毛利率很有冲击力。

02:26

Hugging Face：Blog（RSS）

DiScoFormer：一个跨分布同时估计密度与分数的单一Transformer模型

DiScoFormer（Density and Score Transformer）是一个无需重新训练即可从数据点估计分布密度和分数的单一模型。它利用Transformer的交叉注意力机制，在单次前向传播中输出密度和分数，并通过一致性损失实现分布外自适应。在100维空间中，DiScoFormer比最优调参的核密度估计（KDE）降低分数误差约6.5倍、密度误差超过37倍，且随样本量增加持续提升，而KDE内存耗尽。模型基于高斯混合模型训练，可泛化至非高斯分布（如Laplace、Student-t）及未见过的多模态混合。

数据/训练论文/研究

01:56

TechCrunch：AI（RSS）

Arena（AI 模型排行榜平台）商业化 8 个月年化营收达 1 亿美元

源自 UC Berkeley 2023 年研究项目的 AI 模型排行榜平台 Arena，其付费服务上线仅 8 个月后年化营收达 1 亿美元（消费量计费）。Arena 以众包排行榜闻名，基于超 1000 万次用户评估生成排名。去年 9 月推出的付费服务 AI Evaluations 为模型实验室和企业提供深度性能分析。今年 1 月 Arena 完成 1.5 亿美元 A 轮融资，投后估值 17 亿美元。联合创始人兼 CEO Anastasios Angelopoulos 与 CTO Wei-Lin Chiang 均为 UC Berkeley 博士后，另一联合创始人是伯克利教授、Databricks 联合创始人 Ion Stoica。

数据/训练行业动态

00:01

IT之家（RSS）

防止蒸馏第三方模型，Meta限制AI工程师使用Claude与Codex

Meta已限制其AI工程部门工程师使用Anthropic的Claude Code与OpenAI的Codex，以防止无意间触发蒸馏行为——借助竞品模型输出训练自家AI模型，该操作违反用户协议。这份5月出台、目前仍在生效的内部规范警告，若竞争对手的AI输出渗入训练数据，可能引发与合作企业之间的严重纠纷。Meta发言人表示有明确政策规范团队以负责任方式使用AI工具。

Meta 数据/训练行业动态

6月29日

18:34

Hacker News 热门（buzzing.cc 中文翻译）

黑盒大语言模型的知识蒸馏

GPT-4 等闭源大语言模型性能优异，但因其作为黑盒教师无法提供内部状态，限制了知识蒸馏的效果。Proxy-KD 方法引入一个代理模型，实现从黑盒 LLM 到小模型的高效知识迁移。实验结果显示，Proxy-KD 不仅提升了黑盒教师蒸馏的性能，还超越了传统白盒蒸馏技术。

数据/训练论文/研究

18:10

公众号：蚂蚁百灵（Ling）

如何优雅地给 MLA 加上 QK-Norm？

DeepSeek 的 MLA 通过只缓存低维潜向量压缩 KV Cache，但 QK-Norm 需归一化高维 Key，若缓存归一化结果则打破低维优势。文章提出数学等效变换：将 QK-Norm 中动态逆 RMS 标量和静态仿射权重合并到 Query 侧，推理时每个 token 只需额外缓存一个逆 RMS 标量，即可严格等价实现 QK-Norm，不牺牲显存效率。在 400M/1B 模型训练 100B tokens 实验中，QK-Normed MLA 相比 QK-clipping loss 更低（1B 模型 gap ~0.02），训练更稳定且收敛更快。

DeepSeek 推理教程/实践数据/训练

15:01

IT之家（RSS）

精选71

SK 集团会长崔泰源：到 2035 年建设 15GW AI 数据中心，总投资达 1000 万亿韩元

SK 集团会长崔泰源 6 月 29 日宣布，计划到 2035 年建成 15GW AI 数据中心容量，作为韩国国家级基础设施和实体 AI 时代核心底座。项目总投资 1000 万亿韩元（约 4.4 万亿元人民币），未来 10 年保持年均 100 万亿韩元以上国内投资，旨在实现从出口传统商品向智能服务的转变，构建韩国智能市场。此外，SK 海力士将向韩国西南部投资 400 万亿韩元，半导体供应项目总投资达 1100 万亿韩元（约 4.84 万亿元人民币）。

数据/训练行业动态部署/工程

推荐理由：SK 集团喊出 1000 万亿韩元建 AI 数据中心，数字唬人但周期长达十年，更像一种姿态宣示，真正改变算力市场格局还得看后续执行力和融资落地。

10:01

IT之家（RSS）

曝中国移动设立 Token 办公室，集团领导挂帅督战

中国移动近日设立 Token 办公室，级别高于算力办，由集团核心领导直接挂帅，战略发展部总经理担任常务副主任。该办公室旨在拉通“创造 Token、输送 Token、应用 Token”全流程，打破算力办、移动云公司、数智事业部等二级部门各管一摊的局面。今年 5 月，中国移动上线词元（Token）套餐，最低 5 元月包，可与云电脑、云手机等产品深度融合，用于 AI 应用。在 MWC26 上海上，中国移动提出“智为先”战略方向，探索 AI 手机、AI 眼镜和人形机器人等移动智能新形态。

数据/训练行业动态

09:01

IT之家（RSS）

国安部警示：某知名AR手游数据被用于军事目的，采集超300亿环境扫描数据

外媒披露，某知名AR手游旗下AI公司获取近300亿份用户环境扫描数据，或用于训练理解物理空间的AI模型，因与某国军工合作，可能用于军事目的。国家安全部指出，该游戏实质诱导玩家完成三维点云扫描，采集维度远超拍照，坐标绑定高精度GPS、海拔、朝向、时间戳。国安部重点提示三种风险：窃取隐私、透支行业信任、泄露地理信息危害国家安全，并建议用户权限管理“小气”、敏感区域“谨慎”、可疑任务“多想”。

政策/监管数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

SciIR：面向科学图像推理生成的大规模训练数据集与基准

针对文本到图像模型在科学图像中语义对齐与逻辑推理的不足，本文提出SciIR框架，基于皮尔斯符号学三元组，涵盖实体结构、科学过程、科学定律三个维度。创建了SciIR-82k数据集，含超8万高质量科学图像-文本对，来自前沿论文，并引入科学推理思维链Sci-RCoT建模视觉逻辑。评估基准SciIR-Bench使用原子检查表将科学准确性转为可验证细粒度问题。实验表明当前模型推理能力不足；在SciIR-82k上微调的Qwen-Image-SciIR模型将Bench分数从35%提升至43%。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

评估策略还是措辞？LLM数学推理中表面多样性与策略多样性之间的鸿沟

本文提出策略多样性（approach-level diversity），即同一问题正确解法在策略上的差异。通过人类校准的LLM法官框架，发现现有表面多样性指标无法可靠反映策略多样性，且该不匹配在多样性感知RLVR训练中延续——目标指标不变而策略多样性下降。策略多样的候选集可提升测试时扩展效果，但直接优化LLM法官多样性奖励会导致策略迎合法官偏好而非拓宽方法。策略多样性的直接优化仍是开放问题。工作揭示了表面信号与策略信号间的系统性偏离。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MOPD：多教师在线蒸馏实现大语言模型后训练能力整合

大语言模型后训练中常用强化学习提升特定能力，但多能力整合困难。现有Off-Policy Finetune和Mix-RL等方法效率低或性能下降。MOPD提出新范式：先对每个领域进行专用RL训练获得领域教师，再在学生模型自身rollout上蒸馏这些教师，消除暴露偏差并提供密集优化信号。在Qwen3-30B-A3B上，MOPD优于Mix-RL、Cascade RL、Off-Policy Finetune和Param-Merge基线，几乎继承每位教师全部能力。MOPD支持领域教师并行独立开发，去除跨领域耦合，已部署于工业级模型MiMo-V2-Flash的后训练。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MatMMExtract：面向材料科学的大规模多模态数据集MatSciFig

MatMMExtract 是一个端到端开源管道，将复合图表分解为独立子面板，并利用大语言模型基于材料科学分类法生成结构化标注。应用于 14,810 篇开放获取文章，从 180,571 张图中生成 MatSciFig 数据集，包含 391,606 个面板级图像-文本对，每对配有子标题、两级可视化类别（19 个大类、100+ 子类）和科学摘要。引入 MaterialScope 检测数据集（2,811 张人工标注图），微调 YOLO12-m 检测器达到 mAP_50 0.9227。六种基准语言模型中，Gemini 3.1 Flash Lite 在标注生成上取得最佳成本-质量平衡，82% 输出良好，模型幻觉率 4.8%。基于 MatSciFig 的检索基线在 R@1 上比零样本 CLIP 提升 4.4 倍，所有资源已向社区开放。

多模态开源/仓库数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DOPD：优势感知的双在线蒸馏

在线策略蒸馏（OPD）通过密集的token级信号监督学生采样轨迹，实现能力迁移，但引入特权信息会引发“特权幻觉”——学生将信息不对称差距误认为可迁移的能力差距。该问题因token级监督的非均匀性而加剧，仅有少量token携带关键能力信号。DOPD提出优势感知的双蒸馏范式，根据优势差距和相对概率动态在特权教师与特权学生策略之间路由token级监督，缓解特权幻觉。在LLM和VLM上的实验表明，DOPD优于标准OPD及其他方法。

数据/训练论文/研究

01:33

Hacker News 热门（buzzing.cc 中文翻译）

谷歌限制Meta使用其Gemini人工智能模型

据英国《金融时报》报道，谷歌对Meta使用其Gemini AI模型设限。Meta寻求的计算容量超出谷歌所能提供，导致其部分内部AI项目受阻延迟。其他谷歌客户也受影响，程度较轻。Meta已鼓励员工提高AI token使用效率。

Google Meta 数据/训练行业动态

00:54

TechCrunch：AI（RSS）

美光因AI内存短缺股价飙升236%，市值一度超越Meta和特斯拉

内存芯片制造商美光受益于AI数据中心建设导致的DRAM和NAND（尤其是HBM）供应短缺，股价过去一个月飙升236%，市值接近1.27万亿美元，一度超越Meta和特斯拉。第三季度营收同比增至414.5亿美元，利润从18.8亿美元暴涨至282亿美元，并预测第四季度营收490至510亿美元。美光已与英伟达、Anthropic等签订16项长期战略客户协议。分析认为需求增长持续超过新产线投产速度，缺货（RAMageddon）预计持续至2027年。

数据/训练行业动态部署/工程

6月28日

08:00

HuggingFace Daily Papers（社区热门论文）

用于视觉-语言数据集蒸馏的秩感知双曲对齐（RAHA）

RAHA（Rank-Aware Hyperbolic Alignment）提出将多模态表示提升到双曲空间，通过非对称目标优化蒸馏对，强制在共享低秩范围内进行测地线对齐，同时正则化残差子空间以保留模态私有多样性并提升迁移鲁棒性。该方法解决了现有视觉-语言数据集蒸馏中欧几里得全维度对齐过于严格的问题，在固定预算下实现有竞争力的跨模态检索和更优的迁移指标。

多模态数据/训练论文/研究

04:50

TechCrunch：AI（RSS）

软银CEO并非唯一对马斯克轨道数据中心炒作有疑问的人

软银CEO孙正义在股东大会上批评马斯克的轨道数据中心构想，认为其成本高、周期长，而AI竞赛未来几年比十年后的可能性更重要。SpaceX目前占据全球发射市场80-90%份额，主要依赖Starlink业务；建设需要每隔几年更换卫星的轨道数据中心将为SpaceX带来更多发射业务。同期，芯片公司Groq完成6.5亿美元融资，OpenAI推进定制芯片计划。

大佬观点数据/训练部署/工程

6月27日

22:48

TechCrunch：AI（RSS）

Conno Christou用AI辅助决策治疗罕见淋巴瘤

Conno Christou被诊断出罕见非霍奇金淋巴瘤，肿瘤约11×11×8厘米。两位肿瘤专家给出不同化疗方案，较轻方案成功率约60%，较重方案约85%。他收集12位专家意见后选择后者。治疗期间，他用Whoop监测身体，并将血液结果、扫描数据、可穿戴设备输出和日志输入Claude，借助其分析辅助决策。治疗后PET扫描结果模糊，Claude指出该类型淋巴瘤治疗结束后的PET假阳性率约60%，并判断胸腺反弹概率约90%。第四位医生确认无需放疗，他最终痊愈。

Anthropic 数据/训练现象/趋势

09:59

IT之家（RSS）

精选71

国家统计局：1-5月规上工业企业利润增18.8%，电子行业利润增103.9%贡献43.1%

1—5月全国规上工业企业利润同比增18.8%。电子行业利润增103.9%，贡献率43.1%，主因全球AI技术变革推动高端算力芯片和存储芯片需求爆发。原材料制造业利润增83.1%，其中有色增117.1%、化工增71.6%。高技术制造业利润增44.7%，电子专用材料制造增665.4%。企业每百元营收成本降0.59元，营收利润率5.56%，为2024年以来累计最高。

数据/训练行业动态

推荐理由：国家统计局这组数据让AI不再是融资故事，电子行业利润增长103.9%，AI需求是实实在在的引擎，硬件供应链的价值该被重估了。

08:05

MarkTechPost（RSS）

NVIDIA Open-SWE-Traces：构建监督微调数据--轨迹解析、补丁分析与 token 预算

本文介绍如何从 Hugging Face 流式加载 nvidia/Open-SWE-Traces 数据集，解析 openhands、sweagent 等智能体与 minimax_m25、qwen35_122b 模型的轨迹，标准化多轮对话，解析最终代码补丁并统计新增/删除行数、文件扩展名分布。构建分析 DataFrame 考察轨迹长度、工具调用、补丁规模、语言分布及解决结果。基于成功标签、MAX_SFT_TOKENS=32000 的 token 限制、语言过滤和补丁可用性，筛选高质量轨迹形成监督微调子集。

Hugging Face 教程/实践数据/训练编码

08:00

HuggingFace Daily Papers（社区热门论文）

Evolution Fine-Tuning：跨371个优化任务学习发现

Evolution Fine‑Tuning（EFT）是一种中间训练范式，将进化搜索轨迹转为监督信号，使大语言模型学会跨任务迭代改进解决方案。研究构建了包含15.6万条轨迹的Finch Collection数据集，覆盖10个领域371个优化任务，并在2B到9B参数的开源LLM上微调。在22个保留任务上，EFT模型平均超越基线10.22%；结合测试时强化学习，在两个圆填充任务上达到当前最优，并在Erdős最小重叠问题上超越基线。EFT相当于通用发现代理的“练习阶段”，避免从零开始解决新问题。

智能体数据/训练论文/研究

6月26日

23:51

Dwarkesh Patel：Podcast & Blog（RSS）

精选61

下一个重大突破：AI在工作中学习

AI实验室的研究赌注是：在数千个多样化RL环境中训练模型完成数百万可验证任务，就能构建AGI。这种训练会培养出能连续数周处理开放任务、应对错误和歧义的问题解决技能。虽然模型训练时的样本效率仅为人类的百万分之一，但训练成本是一次性的，可摊销到数十亿次用户会话中；真正重要的是模型在单个会话内的智能和样本效率，而这随着RL训练正在提升。持续学习或许不再必要——如果上下文内的学习能力足够强、时间跨度足够长，就无需将经验蒸馏回权重。Transformer架构创新已能大幅扩展上下文存储，未来可能实现任意大的上下文窗口。论文还指出，一个领域不仅需要可验证性，还需要可碾压性——能在确定性、可重播的模拟器中并行运行大量rollout。

大佬观点推理数据/训练

推荐理由：RLVR 范式能否通向 AGI？Dwarkesh 指出关键瓶颈在于样本效率和 grindability，他提出的 OPSD 和 dreaming 方案重新定义了「学习中」的边界，虽然离落地尚远，但值得每一个关心 AI 下一步的人细读。

22:59

IT之家（RSS）

加州推出CAIT系统监测AI对就业市场冲击

美国加州州长纽森宣布推出“California AI-Unemployment Tracker（CAIT）”系统，每月将失业保险申领数据与各职业受AI影响程度交叉分析，作为早期预警工具。首份报告显示，截至今年5月，加州整体未出现AI导致失业保险申请大幅上升，但自2022年底ChatGPT 3.5推出以来，大学以上学历且从事易被AI替代职业的劳动者，失业保险申请持续上升，旧金山湾区最明显。专业服务业和信息产业变化突出，其中信息产业在2025年底回落至基准线附近。该系统旨在提前识别受冲击人群以便提供支持，并非直接证明AI导致失业的证据。

政策/监管数据/训练

21:09

Artificial Intelligence News（RSS）

SAP 推出 Advanced Success Plan，整合碎片化数据实现 AI 个性化

SAP 面向 SAP Customer Experience 解决方案推出 Advanced Success Plan，解决企业数据碎片化问题。该计划覆盖三层：数据层统一实时客户画像并遵守用户授权；决策层由 AI 算法确定展示商品、促销时机；交付层通过数字店铺、邮件、推送通知等渠道执行。SAP Commerce Cloud 具备 AI 辅助商品推荐系统，基于实时行为提升转化；SAP Engagement Cloud（由 SAP Emarsys 驱动）支持 AI 发送时间优化，根据联系人行为模式决定发送时机，替代固定计划。

产品更新数据/训练

16:59

IT之家（RSS）

福特重获JD Power新车质量第一，反思过度依赖AI请回350名老工程师

福特在JD Power 2026年美国新车质量研究（IQS）中以152 PP100获主流品牌第一。高管坦承过去过度依赖AI和自动化系统，低估了资深工程师“隐性知识”的价值，导致质量下滑。过去三年，福特累计聘用、晋升或返聘超350名“灰胡子”工程师，指导年轻团队并改进AI训练。同时组建40人软件质量管控团队，新增超10万项AI测试用例。2025年福特召回153次涉及约1300万辆车，2025年4月至2026年4月累计召回1960万辆。福特强调AI效果取决于数据质量，让资深工程师成为AI的“老师”。

数据/训练行业动态

08:59

IT之家（RSS）

CounterPoint：2026Q1 全球晶圆代工 2.0 市场营收同比增 23%，台积电成 AI 浪潮最大受益者

2026 年 Q1 全球晶圆代工 2.0 市场营收 860 亿美元，同比增长 23%。AI GPU 和 AI ASIC 需求升温，带动先进制程与先进封装利用率提升。台积电 Q1 营收同比增长 41%，预计全年增 36%。联发科在 Google TPU 供应份额提升，推高晶圆需求。封装测试环节成 AI 供应链瓶颈，ASE 营收同比增 18%，并将 2026 年先进封装营收目标上调至 35 亿美元以上。

数据/训练行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

Dockerless：无需环境的编程智能体补丁验证器

Dockerless是一种无需运行环境的智能体补丁验证器，通过仓库探索收集证据判断补丁正确性。在评估基准上，其AUC得分领先最强开源验证器14.3分。将Dockerless同时用作监督微调的轨迹筛选器和强化学习奖励信号，可实现完全无需环境的后训练流程。训练模型在SWE-bench Verified、Multilingual和Pro上解决率分别达62.0%、50.0%和35.2%，较Qwen3.5-9B基线高出2.4、8.7和2.9个百分点，性能与基于环境的后训练持平。

数据/训练编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

丢弃-恢复：视觉-语言-动作模型有多冗余？

视觉-语言-动作（VLA）模型继承预训练VLM中过大的语言骨干，引发冗余质疑。Drop-Then-Recovery（DTR）协议通过删除Transformer块并微调恢复，结合单次虚拟门控敏感度指标GateProbe评测容量必要性。在LIBERO上，删除半数LLM块后OpenVLA-OFT在相同微调预算下从95.0%升至98.3%，仅保留两个语言块仍恢复基线性能；但视觉与动作路径对删除耐受性显著更低。结果表明现有VLA基准对深层语言理解压力不足，未来架构应更均衡分配语言、视觉、动作容量。代码已开源。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

微调反转的引力解释

针对无害数据微调可部分撤销早期训练获得的安全行为，论文提出几何假设：早期训练创建主导行为流形，后续对齐仅产生浅层位移，后续微调会继承指向主导流形的持久反转分量v_rev。实验显示表征沿v_rev的对齐从首次更新后cos=0.429±0.052升至第20步0.647±0.021，24个运行-步对均超过各向同性零假设p99。选择性阻止沿v_rev运动，使最终对齐从0.648±0.009降至-0.211±0.021，harmfulness从19.0%±4.0%降至8.5%±1.5%，任务成本极小，表明v_rev是早期对齐后反转的因果中介。

安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于Gist Token的简化稀疏注意力

简化稀疏注意力（SSA）无需改变架构，通过在序列中插入gist token并施加注意力掩码进行继续预训练，使模型将各分块关键信息压缩至gist token。推理时，查询仅与少量gist token打分，选择性展开top-k分块的原始token，避免全KV缓存带宽开销。在LongBench上，SSA在相同压缩比下优于压缩和推理时稀疏注意力基线；在检索增强生成中，经继续预训练后超过全注意力5.7个百分点，归因于选择性展开能集中关注相关分块并过滤噪声。分层变体H-SSA在对数线性解码复杂度下，在32倍压缩比时仍维持或提升精度。代码已开源。

arXiv GitHub 推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

MultiHashFormer：基于哈希的生成式语言模型

MultiHashFormer 使用多个独立哈希函数将每个 token 编码为短哈希 ID 序列，由 Hash Encoder 压缩为隐向量后经 Transformer 解码器处理，再由 Hash Decoder 生成下一 token 的哈希签名并映射回文本，实现基于哈希的自回归生成。在 100M、1B 和 3B 参数规模下，它在多项基准上持续优于标准 Transformer 语言模型，并支持多语言词汇表扩展而不增加参数量。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GBC：基于梯度的连接用于优化多智能体系统

针对大语言模型多智能体系统协作不佳与缺乏细粒度信用分配的问题，提出GBC方法。GBC将多智能体系统建模为计算图，引入基于梯度的连接权重，在token级别量化每个智能体输出对下游的影响。通过构建归因图并反向传播任务损失，实现错误源精确定位与定向提示词优化。配套开发基于前缀梯度计算的AgentChord实现。在MultiWOZ和τ-bench上实验表明，GBC提升多智能体性能，超越强单智能体与多智能体基线，且归因质量越高优化效果越好。代码已开源。

智能体 GitHub 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

NormGuard：流匹配强化学习中保持奖励的规范约束

流匹配生成模型在强化学习后训练中，速度范数膨胀5%-15%导致感知质量下降，而推理时重缩放无法修复。NormGuard引入铰链惩罚，仅在速度范数超过参考值时激活，可加性组合到任何速度局部损失之上。在两种基础模型、三种后训练方法（NFT、AWM、DPO）和两种奖励代理上，NormGuard一致提升MLLM评判的图像质量和逼真度，同时保持奖励，且收益在少步推理下进一步放大，并非由早停解释。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SimFoundry：面向策略学习与评估的模块化自动化场景生成系统

SimFoundry是一个模块化自动化系统，能从视频零样本构建真实到仿真的场景，生成可用的数字孪生，并支持对象、场景和任务的编辑，自动生成保持原始功能但经过变化的数字表亲。基于SimFoundry数据训练的策略可零样本迁移到真实世界的多步操作、铰接物体交互和双手交互任务；数字表亲有助于泛化到新真实条件。在7个操作任务和5种策略架构上，SimFoundry仿真评估与真实性能高度相关（平均Pearson相关系数0.911，最大排序违反0.018）。使用对象、场景和任务表亲训练的仿真策略在零样本真实评测中，任务成功率分别提升17%、21%和40%。

具身智能数据/训练论文/研究