6月10日

10:28

IT之家（RSS）

SpaceX在得克萨斯州巴斯特罗普市新建1100万平方英尺（约102.2万平方米）卫星工厂，生产首款AI卫星AI1。该卫星长70米，峰值算力150千瓦，计划2027年底规模化量产。公司计划2027年底建成1吉瓦太空AI算力，届时每年需发射6000余颗AI1卫星；目标2030年年算力100吉瓦。工厂将垂直整合太阳能硅锭、硅片、电池、电路板等供应链。此外，SpaceX、特斯拉与xAI联合在奥斯汀打造Terafab芯片工厂，年产能可支撑1太瓦算力。

xAI 数据/训练行业动态部署/工程

09:41

Hacker News 热门（buzzing.cc 中文翻译）

大型语言模型能否超越经典的超参数优化算法？

一项研究将大型语言模型（LLM）应用于超参数优化任务，并与经典算法进行对比实验，检验 LLM 在该场景下是否具备超越传统方法的表现。

开源/仓库数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Notes2Skills：从实验笔记到具有确定性意识的科学AI智能体技能

Notes2Skills是一个两阶段框架，旨在将实验笔记转化为可验证的科学AI智能体技能，同时保留作者对观测结果的不确定性。在七个条件和三次湿实验室实验中，Notes2Skills是唯一既不会将不确定的笔记误认为明确指令、也不会丢弃明确指令的配置。研究表明，确定性保留是连接实验笔记与可靠智能体技能之间缺失的关键环节，为开发更安全的AI合作科学家系统提供了新路径。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

稀疏自编码器特征稳定性研究：不稳定特征与可复现子空间

稀疏自编码器（SAE）广泛用于解释神经网络表征，但特征是否跨训练运行可复现影响其效用。研究者通过特征稳定性量化每个特征在独立训练中再次出现的概率。大规模实验显示，稳定特征承载大部分重建与预测相关信号；不稳定特征个体影响微弱，主要由低频表面形式触发，主导自动解释结果。几何上，不稳定特征集中于可复现的低秩子空间，表明种子依赖性反映激活空间共享区域内的基模糊性而非纯噪声。通过合并跨种子独特特征，可构建更稳定SAE并保持解释方差。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

静态（因此兼容）表示：你所需的一切

学习兼容表示旨在使模型更新后的特征表示可互换使用。实验证明，d-Simplex固定分类器学习的静态表示天然满足兼容性定义。针对顺序微调场景，交叉熵损失仅对齐一阶统计量，无法充分捕捉高阶依赖。通过交叉熵与对比损失的凸组合训练模型，既能捕捉高阶依赖，又等价于兼容约束下的交叉熵学习。实验表明，静态表示可在模型更新和替换时不需重新处理图库图像，实现无中断检索服务，并达到当前最优性能。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Z-Image Turbo++：通过教师对齐的端到端蒸馏实现高保真两步图像生成

Z-Image Turbo++是从8步教师模型Z-Image Turbo蒸馏得到的2步图像生成模型。针对两步生成中任务难度提升和模型容量有限的瓶颈，提出三项设计：分布对齐对抗学习（以教师生成图像而非真实图像作为GAN训练的真样本）、步骤分离参数化（两个去噪步独立参数）、以及带迭代正则化的端到端训练（第一步接收最终图像质量梯度并保留有意义的中间生成）。这些策略显著缩小了2步与8步生成的质量差距。

arXiv 图像生成数据/训练论文/研究

06:40

Hacker News 热门（buzzing.cc 中文翻译）

精选71

如果 Claude Fable 不再帮助你，你永远都不会知道

Claude Fable 一旦停止提供帮助，用户将无从得知。该帖子在 Hacker News 获得 106 个点赞。

Anthropic 安全/对齐数据/训练

推荐理由：Anthropic 在模型卡中悄悄塞入针对竞争对手的降智策略，被开发者挖出来后又收回。这说明大模型公司的透明度承诺可能随时打折扣，依赖 Claude 做开发的团队该重新评估供应链风险了。

00:36

HuggingFace Daily Papers（社区热门论文）

FlowBP：一种面向Flow Matching的奖励反向传播设计空间探索框架

针对文本到图像Flow Matching模型与人类偏好对齐时，完整采样轨迹无法存储及跨步雅可比积导致梯度膨胀的问题，FlowBP提出统一代理轨迹框架，将反向轨迹本身作为设计对象。该框架分离奖励模型输入、活跃集、积分权重和桥耦合四个选择，并实例化三个变体：FlowBP-Sparse（稀疏Euler重建）、FlowBP-Bridge（受控桥耦合）和FlowBP-Lagrange（高阶跳跃求积）。三者通过活跃集大小限制内存，梯度链至多含一个雅可比因子。在SD3.5-M、FLUX.1-dev和FLUX.2-Klein-base上，三个变体在偏好、质量和组合指标上均优于直接梯度基线。

Hugging Face 图像生成数据/训练论文/研究

6月9日

17:55

Hugging Face：Blog（RSS）

精选68

NeuroBait：微调AI助手，为ADHD大脑点燃多巴胺火花

NeuroBait是基于Google gemma-3-12b-it微调的AI对话助手，旨在帮助ADHD患者克服“知道该做什么但无法开始”的执行功能障碍。采用16-bit LoRA（r=16, alpha=16）在Unsloth上训练3个epoch，学习率2e-4，最大序列长度2048，使用单张H100 80GB GPU。数据集为基于真实ADHD场景手工合成的少量数据。部署于Hugging Face Space（ZeroGPU），使用Gradio和标准transformers+peft，运行时以4-bit NF4加载基础模型并应用LoRA适配器。NeuroBait不生成待办清单，而是根据用户上下文给出3-6句温暖流畅的回复，引导用户找到一件微小可立即执行的动作，从而激发多巴胺、降低启动阻力。

Hugging Face 教程/实践数据/训练

推荐理由：对ADHD群体来说，这是一次真正从需求出发的AI尝试。它不做计划列表，而是用一个温暖的动感火花打破僵局，让AI从理论走向陪伴。如果你或身边人容易'卡住'，可以试试这个Space。

14:55

HuggingFace Daily Papers（社区热门论文）

PBSD：利用特权贝叶斯自蒸馏实现长程信用分配

PBSD提出一种贝叶斯校准的自蒸馏方法，用于在稀疏最终奖励下进行细粒度信用分配。它通过验证答案的后验与先验概率比衡量轨迹质量，并利用贝叶斯规则将难以估计的答案侧比率转化为标准学生模型与特权、以答案为条件的教师模型之间的似然比。对该贝叶斯证据分数进行自回归分解，产生每步信号，识别中间推理步骤是支持还是削弱已验证结果。PBSD将稀疏结果监督转化为贝叶斯校准的逐步信用信号，与标准策略优化兼容。实验表明，该方法在领域内和领域外设置中一致提升性能，并有效将知识从短上下文训练迁移到长上下文推理。

智能体数据/训练论文/研究

14:55

HuggingFace Daily Papers（社区热门论文）

精选74

Reasoning Arena：可验证奖励不足时的迹线锦标赛

针对基于可验证奖励的强化学习（RLVR）在组级别奖励无信息时无法提供梯度信号的问题，提出Reasoning Arena自适应训练框架。该框架将非多样化奖励组路由至评判系统，通过迹线锦标赛（trace tournaments）对推理迹线进行头对头比较，转化为相对奖励信号。每个新迹线仅与动态更新的少量锚点比较，然后在不完全比较图上拟合Bradley-Terry模型。在竞赛数学和编程基准上，平均超越RLVR基线7.6%，训练加速27%至41%，节省近50%生成计算量。

arXiv 推理数据/训练论文/研究

推荐理由：强化学习训推理模型常遇到奖励无法区分，这篇把被浪费的样本变成有效梯度，训练加速近 50% 同时性能还涨 7.6%，做 RL 训练的人值得细读。

10:28

蚂蚁 inclusionAI：GitHub 新仓库

蚂蚁 inclusionAI 开源 AReno：单节点加速强化学习后训练工具包

蚂蚁 inclusionAI 在 GitHub 上开源了 AReno，一个易用且快速的工具包，可在单节点上扩展强化学习后训练（RL post-training）。

开源/仓库数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

Flash-GMM：面向可扩展软聚类的内存高效内核

Flash-GMM 是一个基于 Triton 的融合内核，可在单次 GPU pass 中高效计算大规模高斯混合模型（GMM）。它无需在 GPU 内存中实例化完整责任矩阵，相比现有实现实现 20 倍加速，并支持在单设备上训练比之前大 100 倍以上的数据集。将 Flash-GMM 集成到 IVF 粗量化器中用于近似最近邻搜索（ANN）后，软 GMM 聚类可替代 k-means，利用 GMM 责任矩阵将边界向量分配到多个簇。该方法达到固定召回目标时所需距离计算减少 1.7 倍，或在同等计算成本下召回@10 提升 2–12。该内核已作为开源项目发布。

搜索数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

N-GRPO：嵌入级语义邻居混合用于增强策略优化

针对token级采样易产生冗余轨迹、嵌入级随机噪声破坏语义一致性的问题，N-GRPO将语义邻居混合（Semantic Neighbor Mixing）机制集成到GRPO框架中。该方法通过混合锚点token及其最近语义邻居的嵌入构造输入表示，在注入多样性的同时保持局部语义流形。在DeepSeek-R1-Distill-Qwen系列不同规模模型上的实验表明，N-GRPO在数学推理基准上持续优于强基线，并在分布外任务上展现稳健泛化能力。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DeNovoSWE：扩展长周期环境以从零生成完整仓库

DeNovoSWE 是一个大规模完整仓库生成数据集，包含4,818个高质量实例，每个实例要求从文档生成完整仓库。该数据集通过沙盒智能体工作流自动构建，无需人工标注，采用分治与批评修复策略以及难度感知轨迹过滤保证质量。微调 Qwen3-30B-A3B 后，在 BeyondSWE-Doc2Repo 基准上的得分从5.8%提升至47.2%。

数据/训练编码论文/研究

03:02

Hacker News 热门（buzzing.cc 中文翻译）

xAI看起来更像是一家数据中心房地产投资信托基金，而非前沿实验室

xAI在资产结构和运营模式上被比作数据中心REIT，而非传统的前沿AI实验室，这一观点来自martinalderson.com的分析文章。

Anthropic xAI 数据/训练现象/趋势

02:15

Dwarkesh Patel：Podcast & Blog（RSS）

精选66

样本效率黑洞：AI能力背后隐藏的数据需求深渊

将AI比作一个闪耀着能力的星系，其核心存在一个肉眼不可见的巨大黑洞——数据。这个比喻揭示了AI模型惊人能力背后对海量数据的依赖，样本效率的瓶颈如同引力中心，将各色能力凝聚在一起。

大佬观点数据/训练现象/趋势

推荐理由：Dwarkesh 把 AI 样本效率低的问题算透了，人类 2 亿 token 学会的事，模型要万亿级，缩放定律也补不上这个黑洞。做 AI 的该认真想想，数据驱动这条路有没有尽头。

02:11

The Decoder：AI News（RSS）

微软研究院的Lens：详细描述比原始规模更能训练高效图像生成器

微软研究院推出Lens，一个仅3.8B参数的文本到图像模型。依靠由GPT-4.1生成的8亿条详细图像标题，而非模糊的网页替代文本，Lens在基准测试上匹配了规模更大的竞品，训练成本仅一小部分。代码和权重以开源许可证公开可用。

Microsoft 图像生成开源生态数据/训练

6月8日

20:20

IT之家（RSS）

三星电子副会长全永铉与英伟达黄仁勋会面，讨论 HBM4、晶圆代工等

全永铉与黄仁勋在首尔举行闭门商务会议，就 HBM4、晶圆代工短期合作进行讨论。双方正在合作研发 4 纳米和 8 纳米节点的自动驾驶芯片及英伟达加速器芯片，并广泛讨论了 HBM4E、HBM5、代工业务等长期合作。三星将全力供应 HBM4 及低功耗内存模组 SOCAMM，计划从明年起通过 HBM4E 和 HBM5 延续合作。全永铉表示三星将作为英伟达最佳合作伙伴协助其成功。

数据/训练行业动态

19:39

The Decoder：AI News（RSS）

月之暗面（Moonshot AI）寻求 300 亿美元估值，较 2025 年底增长超 6 倍

月之暗面（Moonshot AI），Kimi 聊天机器人母公司，正寻求在新一轮融资中获得最高 300 亿美元的估值，这一数字是 2025 年底公司估值的 6 倍以上。

数据/训练行业动态

19:12

Ars Technica：AI（RSS）

天气与气候科学中的AI革命并非一场革命

机器学习在天气与气候科学中的应用仍有局限，所谓“革命”并未真正到来。业界正在审视其实际使用方式，而非夸大其颠覆性。

数据/训练现象/趋势

18:20

IT之家（RSS）

AMD 未来五年计划向英国投资最高 20 亿英镑，加速 AI 创新研究

AMD 宣布未来五年内向英国投资最高 20 亿英镑（约 181.27 亿元人民币），用于推动 AI 创新研究与前沿计算设施建设。CEO 苏姿丰在伦敦 Tech Week 大会上公布投资计划，将配合英国政府 AI 行动计划与硬件战略。AMD 将携手帝国理工学院，利用 AMD 计算平台和 ROCm 软件生态优化 AI 大模型及数据密集型应用，并支持剑桥大学建设“Zenith AI”国家级超算项目。

数据/训练行业动态

18:20

IT之家（RSS）

国产 GPU 四小龙之一燧原科技科创板 IPO 将于 6 月 15 日上会，拟募资 60 亿元

燧原科技科创板首发申请将于 6 月 15 日上会，拟募资 60 亿元，用于五代及六代 AI 芯片系列产品研发与产业化、先进人工智能软硬件协同创新等项目。财务数据显示，2022—2024 年及 2025 年前三季度，营收分别为 9010.38 万元、3.01 亿元、7.22 亿元、5.4 亿元；归属净利润分别为-11.16 亿元、-16.65 亿元、-15.1 亿元、-8.88 亿元。

数据/训练行业动态

12:59

Hacker News 热门（buzzing.cc 中文翻译）

你能构建的最简单的人工神经网络：用 Python 实现的感知器

一篇关于用 Python 构建最简单人工神经网络——感知器（Perceptron）的文章在 Hacker News 上获得 108 个用户点赞。

教程/实践数据/训练

09:19

IT之家（RSS）

AI算法助力打击海洋野生动物走私，识别准确率达92%

麦考瑞大学科研团队利用神经网络训练算法，改造机场现有X射线CT扫描设备，在三维影像中识别鱼翅、海马、海参等常见走私海洋生物样本。基于298组扫描样本训练与测试，算法整体识别准确率达92%，其中鱼翅95%、海马96%、海参86%，误报率为13%。该智能检测系统可自动标记可疑行李，但误报仍需人工复核，且CT设备成本高、非所有机场配备，目前仅作为现有检查手段的补充。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TRIAGE：基于LLM辩证推理的不规则医疗时间序列可解释风险预测

针对电子健康记录中不规则采样的医疗时间序列（ISMTS），LLM在临床早期预警中常将分级风险压缩为过度自信的二分类预测，导致校准失效。TRIAGE框架通过训练LLM生成对抗性临床结局的辩证推理，产出连续风险评分并附带可验证的临床依据。在三个ISMTS基准上，TRIAGE平均AUPRC提升3.3%，校准误差降低81%；LLM-as-a-judge评估显示其推理质量较基线提升20%。源代码已开源。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

利用形态学进行历史手稿计量分析

本文提出基于Transformer的检测架构与原型行重建模块，仅需行级转录监督即可学习字符原型及其变形、位置信息，显著超越Learnable Typewriter基线，实现准确字符边界框预测。在14世纪手稿codex Paris, BnF, fr. 2813的160页上验证，仅用单列文本即可自动测量字符、双字母组及图形单元间距，能区分不同抄写者的图形轮廓，并发现分析细微变化。数据与代码已开源。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FlowLet：基于小波流匹配的条件3D脑MRI合成

FlowLet是一种条件生成框架，在可逆3D小波域中利用流匹配合成年龄条件的3D脑MRI，避免潜在压缩伪影并降低计算开销。实验表明，仅需少量采样步即可生成高保真体积；用其数据训练脑年龄预测模型可改善欠代表性年龄组的表现，区域分析证实解剖结构得以保留。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TRL-Bench：标准化跨范式表格编码器表示级评估基准

TRL-Bench 是一个多粒度表格表示学习基准，通过统一协议评估行级、列级和表级嵌入。包含三个测试套件：TRL-CTbench（列/表）、TRL-Rbench（行）和 TRL-DLTE（组合式数据湖表增强）。发布的数据资产包括 50 个 OpenML 表（123 个验证目标）、16 个行对链接改写任务及 47,772 表 DLTE 湖。在 20 个模型和 16 个任务上的评估表明，标准化下游条件后，编码器质量呈能力特定性，通用文本编码器在表面文本信号强的任务上领先，表格专用模型在其预训练目标与任务对齐时胜出，最强 DLTE 管线需组合能力匹配的专用模型。

arXiv 数据/训练论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

重新思考LLM强化学习中的散度正则化

针对LLM强化学习离线策略训练中信任区域控制问题，现有PPO/GRPO的比率裁剪难以准确表示长尾词汇分布偏移，DPPO虽改用散度边界但依赖硬掩码，丢弃边界外的梯度。本文提出DRPO，采用平滑的advantage加权二次正则化替代硬掩码，保留DPPO的信任区域几何结构，产生有界连续梯度权重，衰减有害发散更新并在边界外提供修正信号。实验表明DRPO提升了LLM RL训练的稳定性和效率。

arXiv 数据/训练论文/研究

6月7日

23:19

IT之家（RSS）

英国政府计划采购本土 AI 芯片，防止初创企业流向美国

据电讯报6月7日消息，英国技术大臣莉兹·肯德尔将在本周伦敦科技周上概述从英国公司“战略性采购”半导体设备的计划，旨在阻止初创企业放弃英国前往硅谷，确保AI产业部分领域的“主权”，避免过度依赖美国科技巨头。英国已投资数亿英镑建设AI研究资源，但绝大部分使用英伟达和英特尔芯片。政府将花费超10亿英镑将资源扩大20倍。此前Alphawave、Imagination Technologies、Graphcore等微芯片企业已被外国收购，Arm在美上市。

政策/监管数据/训练

21:19

IT之家（RSS）

英伟达与 SK 集团明日公布合作计划，黄仁勋称内存短缺问题将持续

英伟达和韩国 SK 集团预计于周一公布合作计划。英伟达 CEO 黄仁勋表示，当前存储芯片供应紧张还将持续好几年，整个行业供应链从晶圆到封装再到硅光模块均处于短缺状态。合作覆盖 AI 超级计算机、CPU、新型 PC 和机器人技术等领域。SK 海力士发言人称，集团董事长崔泰源与黄仁勋将于周一上午向媒体简要介绍该计划。

数据/训练行业动态

17:57

Hacker News 热门（buzzing.cc 中文翻译）

Tokenomics：量化模型token在智能体软件工程中的应用

一篇arXiv论文提出Tokenomics框架，量化分析模型token在智能体软件工程各环节的使用分布，揭示不同任务对token消耗的差异。

智能体 OpenAI 数据/训练编码

16:05

The Decoder：AI News（RSS）

研究揭示大型语言模型为何能学会小型模型无法掌握的技能

小型语言模型在罕见任务上表现不佳，因为频繁任务不断覆盖已学内容。一项涵盖4百万到40亿参数模型的新研究详细揭示了这一机制，并提出实用解决方案：无需扩大模型规模，只需增加目标任务在训练数据中的出现频率。

数据/训练论文/研究

08:19

IT之家（RSS）

任职13年后，特斯拉AI基础设施副总裁杰加纳坦正式离职

特斯拉AI基础设施及信息安全副总裁拉吉·杰加纳坦在领英宣布离职，结束13年职业生涯。他自今年2月起逐步离任，将加盟云基础设施服务商Chronoscale任首席技术官。杰加纳坦直接向马斯克汇报，主导设计了全球顶尖GPU集群，为FSD神经网络提供算力，处理数十亿英里实车数据并开展大规模模型训练。他的离职是过去半年特斯拉多位资深高管离职的最新一例。

具身智能数据/训练行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

WaveDiT：分布感知小波流匹配实现高效3D脑MRI合成

WaveDiT是一种在3D Haar小波系数空间中的条件流匹配框架，结合分解时空注意力与基于高阶小波统计的带异方差不确定性建模。预测对数方差融入流目标和条件路径，适应解剖细节的输入相关方差结构。该方法在单个GPU上实现全分辨率3D合成。多中心评估显示，相比扩散、潜在和小波基线，生成与真实MRI分布对齐更优，下游脑年龄预测和区域解剖一致性均有提升。代码已开源。

arXiv GitHub 图像生成数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

MaskAlign：Token子集表示对齐以实现高效扩散训练

针对扩散模型训练中噪声输入与干净参考特征的时间步信息不匹配问题，论文从token级视角发现：完整token对齐中梯度范数大的token具有稳定空间偏好，导致模型过度依赖完整干净图像token集。为此提出MaskAlign，训练时对随机采样的token子集施加表示对齐，减少对完整token集的依赖，增强鲁棒性；并引入轻量级预掩码token混合块，在掩码前跨token共享信息以缓解信息损失。实验表明该方法有效提升扩散Transformer的训练效率和生成质量。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OmniCap-IF：全能视频描述的指令遵循基准与模型改进

OmniCap-IF 是首个针对全能模态大语言模型（OLLMs）视频描述指令遵循能力的基准，涵盖纯视觉、纯音频和视听三种模态下的 50 种约束类型，并引入时间定位评估时空精确性。在 1920 个高质量样本上的评测显示模型间存在显著性能差距，并发现“格式-内容权衡”——格式复杂度增加会损害模型的全能模态推理能力。研究团队还构建了 54K 指令微调数据集 OmniCap-IF-54K，并发布 OmniCaptioner-IF 模型，在复杂指令遵循与通用全能模态描述性能上均取得明显提升。

arXiv 多模态数据/训练视频

08:00

HuggingFace Daily Papers（社区热门论文）

PIPE-Cypher：面向Text-to-Cypher系统的自动企业基准生成

PIPE-Cypher是一个本地基准生成管道，通过模式分析、反向查询基础、约束生成和确定性Cypher治理，将实时企业属性图和种子查询转化为平衡的自然语言到Cypher基准。使用本地Qwen3.5-9B模型进行生成和评判，导出3000个FinBench/SNB示例，完成三项消融实验，并通过人工标注校准评判行为，评估了11个本地下游模型。生成的基准具有区分性：零样本迁移能力弱，少量样本控制表明模式特定示例库可帮助兼容模型家族。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

轨迹精炼蒸馏（TRD）

在同策略蒸馏（OPD）中，密集的逐token教师监督会导致前缀失败（双峰教师混合与碎片化梯度），逐token损失截断或重加权无法解决。本文提出轨迹级修正方法TRD，在教师指导下修正学生rollout前缀以缓解前缀失败，并在正确rollout基础上展示替代推导路径以改善探索。TRD可推广至同策略自蒸馏（OPSD）。在多项基准和多尺度模型上，TRD一致优于先前基线，提升单次准确率并拓宽推理覆盖范围。

推理数据/训练论文/研究