5月17日

00:03

Chubby♨️@kimmonismus

这就是你正在面对的竞争。 30天内消耗130万美元的token。总计6030亿token。燃烧更多token，否则你将无法成功。

Peter Steinberger 🦞: The latest CodexBar update renders API costs wayyyy nicer. https://codex.bar

数据/训练现象/趋势

5月16日

22:54

Berryxia.AI@berryxia

无需重训，对齐即可高效训练扩散语言模型

杜克大学团队提出一种高效训练扩散语言模型的新方法。核心观点是无需从头训练，而是将现有强大的预训练自回归语言模型作为知识源。他们提出的REPR-ALIGN方法，在掩码扩散训练过程中，通过余弦相似度逐层将扩散模型的隐藏状态与冻结的自回归教师模型对齐。该方法无需添加适配器或改变架构，仅调整注意力掩码。实验结果显示，训练速度最高可提升4倍，在低数据场景下效果提升尤其显著。

Fred Peng: How to Train Diffusion LLM more efficiently? Our paper has an answer for you: Don't Retrain, Align: Adapting Autoregress...

arXiv 开源生态数据/训练论文/研究

15:32

Chubby♨️@kimmonismus

据Elon称，Grok 4.2基于基础模型v8： 0.5T参数，在Hoppers上训练，存在主要数据质量问题。新的v9模型为1.5T参数，采用更好的训练方案和数据管理，并为Blackwell优化。更好的模型将加剧竞争。

数据/训练模型发布

07:09

SemiAnalysis@SemiAnalysis_

正如我们对DeepSeek发布的期待，DeepSeek V4带来了更多炫目的ML系统优化。这次是MegaMoE，一个1400行融合CUDA内核，可计算整个MoE前向传播。让我们看看它是如何工作的（1/4）🧵

DeepSeek 大佬观点数据/训练部署/工程

02:37

Rohan Paul@rohanpaul_ai

Elon Musk表示，Grok基础模型V8与V9之间存在巨大差距。内部开发的V9是一个1.5万亿参数模型，在数据质量、训练方法、规模等各方面均远超V8，并针对Blackwells架构优化，旨在与顶级编码智能体竞争。而当前公开的v4.2版本基于仅0.5万亿参数、在Hoppers上训练的V8基础模型，其训练数据在质量、全面性和均衡性上存在显著不足。

Elon Musk: The version numbers are a little confusing and deserve some explanation. Internally, we are working on version 9 of our ...

数据/训练模型发布

5月15日

22:54

Berryxia.AI@berryxia

Transformer与MoE架构的核心区别与训练挑战

Mixture of Experts（MoE）与标准Transformer的核心区别在于解码器模块：后者使用单一前馈网络，而MoE将其替换为多个小型专家网络。推理时，MoE仅激活部分专家，以更多参数换取更快的计算速度。模型通过路由器为每个token选择top-K专家。训练面临两大挑战：一是“专家过选”，通过添加噪声和屏蔽非top-K logit来缓解；二是“负载不均”，通过设置专家处理token的容量上限来平衡。Mixtral 8x7B等模型是MoE的典型应用。

Daily Dose of Data Science: Transformer and Mixture of Experts, explained visually! Mixture of Experts (MoE) is a popular architecture that uses dif...

教程/实践数据/训练

21:27

向阳乔木@vista8

推文简要对比了大语言模型（LLM）的三种后训练技术。SFT旨在让模型学会遵循指令。DPO则进一步优化模型输出，使其更符合人类偏好。GRPO作为后续步骤，专注于激发和提升模型的推理与思考能力。这三种技术构成了一个从基础指令遵循到高级认知能力开发的渐进式训练路径。

推理教程/实践数据/训练

10:18

SenseTime@SenseTime_AI

同事件精选70

主推文赞扬了创新者在前沿领域的探索。引用的推文具体指出，SenseNova-U1在空间智能能力上取得进展，其关键基准测试表现超越了Qwen3.5等强劲基线。同时，团队开源了目前最大的空间问答数据集SenseNova-SI-8M，并邀请业界在CVPR会议进行线下交流。

Zhongang Cai: Excited to have contributed to the spatial intelligence capabilities of SenseNova-U1, surpassing strong baselines such a...

多模态开源生态数据/训练论文/研究

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：商汤的 SenseNova-U1 在空间智能基准上压过 Qwen3.5，还顺手开源了目前最大的空间 QA 数据集 SenseNova-SI-8M，搞具身智能和多模态的可以直接抱走数据。