9月27日

03:03

Lilian Weng@lilianweng

查看脚注中那些隐藏的宝石般的小故事，你会发现这令人鼓舞：对同一主题感兴趣的研究者能够跨越角色和地域合作推进一个领域。这就是开放科学和社区的力量。

Thinking Machines: Efficient training of neural networks is difficult. Our second Connectionism post introduces Modular Manifolds, a theore...

数据/训练论文/研究

9月26日

08:00

Thinking Machines Lab：官方博客（RSS）

Modular Manifolds

训练大型神经网络时，张量过大或过小会引发数值问题。标准化为黄金标准，但权重矩阵标准化不常见。本文提出将权重矩阵约束到子流形，以简化更新理解、消除范数爆炸、简化超参数调优并保证 Lipschitz 鲁棒性。具体提出流形版 Muon 优化器，将权重约束至 Stiefel 流形（单位条件数矩阵），并定义可组合的模块化流形（Modular Manifold），旨在简化大型网络的缩放与训练。本文为研究方向介绍，并展望未来工作。

数据/训练论文/研究

9月25日

22:28

Hacker News：AI 热帖

精选

Launch HN： Webhound （YC S23） - 从网络构建数据集的研究智能体

YC S23 孵化的 Webhound 发布，这是一款研究智能体，可自动从网络抓取多源信息并构建结构化数据集，用于支持数据分析与研究工作。

智能体产品更新数据/训练

推荐理由：YC孵化的Web研究Agent，可自动从网络构建数据集

9月22日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang 实现确定性推理与可复现 RL 训练

SGLang 基于 Thinking Machines Lab 的 batch-invariant 算子实现全确定性推理，解决动态批处理导致的输出差异问题，兼容 chunked prefill、CUDA graphs 及非贪婪采样。该方案将性能开销从 61.5% 降至 34.35%，配合 CUDA graphs 可实现 2.8 倍加速。SGLang 与 slime 合作进一步实现 100% 可复现的 RL 训练，在 Qwen3-8B 验证中两次独立训练产生完全一致的曲线，为科学实验提供可靠保障。

开源/仓库数据/训练部署/工程

9月21日

00:00

LMSYS：Blog（Chatbot Arena 团队）

在 AMD GPU 上优化 FP4 混合精度推理

针对 AMD Instinct MI250/MI300 系列 GPU 缺乏原生 FP4 矩阵乘法支持的问题，研究团队推出 Petit 内核集合，通过 FP16/BF16 × FP4 混合精度计算实现在现有硬件上高效运行 FP4 量化模型。该方案使 Llama 3.3 70B 端到端推理性能提升 1.74 倍，矩阵乘法操作较 AMD 官方 hipBLASLt 库快 3.7 倍。Petit 采用离线重排、LDS 无冲突访问及芯片拓扑感知分区等优化技术，已以 BSD 协议开源并集成至 SGLang 0.4.10 版本。

开源/仓库数据/训练部署/工程

9月9日

08:10

Sam Altman：Blog（RSS）

精选

Jakub 与 Szymon

OpenAI 高层公开致谢首席科学家 Jakub Pachocki 与 Szymon Sidor，二人多次联手攻克被认为不可能的技术难题，主导 Dota RL 扩展、GPT-4 预训练及推理突破，被形容为“不知疲倦”的黄金搭档。

OpenAI 大佬观点推理数据/训练

推荐理由：Sam Altman 揭秘 OpenAI 核心科学家与关键技术突破历程

9月1日

17:00

BAIR：Berkeley AI Research Blog

word2vec究竟学到了什么？

本研究提出了word2vec学习机制的完整定量理论，证明其在实际条件下等价于无加权最小二乘矩阵分解。梯度流动力学具有闭式解，最终词嵌入即为PCA结果。从小初始化开始时，模型通过离散步骤逐次学习正交线性子空间（概念），递增嵌入矩阵的秩。这些潜在特征对应由词共现概率和单字概率等可测量语料统计量决定的矩阵顶部特征向量。

数据/训练论文/研究

8月29日

02:07

Andrej Karpathy@karpathy

精选

将人类知识、传感器与执行器从"人类优先"转向"LLM优先"……

教科书等知识载体应从人类可读格式转为LLM优化格式：提取正文为结构化markdown，例题转为SFT训练数据，练习题转为RL环境并附加答案作为评判标准，同时支持合成数据无限扩展（如将时钟角度问题泛化为任意时间的自动出题器），最终构建RAG或MCP服务供LLM像学生一样系统学习，远比简单PDF转文本更高效。

检索增强大佬观点数据/训练

推荐理由：Karpathy提出LLMification概念，将教科书重构为LLM训练数据的新范式

8月28日

00:00

LMSYS：Blog（Chatbot Arena 团队）

gpt-oss MXFP4 微调和部署：ModelOpt + SGLang（8月29日更新）

OpenAI 开源模型 gpt-oss 原生采用 MXFP4 量化，但社区长期缺乏针对该低精度格式的训练支持。NVIDIA 推出基于 Model Optimizer 的量化感知训练（QAT）方案，允许在 Blackwell、Hopper、Ampere 及 Ada 等常见 GPU 上直接微调模型，无需转换为 BF16 而牺牲性能。实测显示，经 QAT 微调的 gpt-oss-20b 在多语言推理任务中通过率从 16% 提升至 100%，在安全提示识别任务中从 30% 优化至 97%。微调后的模型可通过 SGLang 部署，保持 MXFP4 格式的推理速度与内存优势。

OpenAI 教程/实践数据/训练部署/工程

8月24日

12:25

Yann LeCun@ylecun

Meta 一间会议室以 Yann LeCun 等人 1989 年的经典论文《Optimal Brain Damage》命名。该方法是最早的神经网络剪枝技术之一，通过计算损失函数的二阶导数，剔除对输出影响较小的权重，从而实现网络压缩。

Samee Ur Rehman: One of the first pruning methods for neural nets came in 1989: Optimal Brain Damage by @ylecun et al. "We ... derive a c...

Meta 其他数据/训练

8月13日

04:00

EleutherAI：Blog

面向开放权重 AI 安全的预训练数据过滤

Deep Ignorance 技术通过预训练数据过滤为开放权重 LLM 构建内置式防篡改安全防护。该方法在训练阶段筛选数据，将安全能力深度集成于模型权重，使其难以被后续微调或提示注入绕过。这一方案针对开放权重模型易被恶意修改的痛点，提供了从预训练源头建立安全屏障的新路径，在保障模型开放性的同时增强安全性。

安全/对齐开源生态数据/训练

8月7日

01:36

Jim Fan@DrJimFan

关注 FSD Scaling Law 及涌现能力阈值，这是全球唯一的物理数据飞轮。Tesla 正训练参数量约 10 倍的新 FSD 模型，视频压缩损失大幅改进，顺利的话下月底发布。

Elon Musk: Tesla is training a new FSD model with ~10X params and a big improvement to video compression loss. Probably ready for p...

具身智能数据/训练模型发布

8月5日

23:38

Jim Fan@DrJimFan

精选

物理AI评估无法靠实车碰撞测试完成，传统游戏引擎（sim 1.0）也难以覆盖所有边缘情况。基于神经网络的sim 2.0由数据驱动，随车队规模扩展。Tesla已应用多年，用于生成近正面碰撞等罕见危险场景的训练数据，补充800万辆实车难以采集的极端案例。

Elon Musk: @DrJimFan Tesla has had this for a few years. Used for creating unusual training examples (eg near head-on collisions), ...

具身智能大佬观点数据/训练

推荐理由：Jim Fan 指出物理 AI 评估难题，提出神经网络驱动的 Sim 2.0 数据飞轮方案