4月30日

08:30

公众号：智谱（GLM）

Scaling Pain：智谱GLM超大规模Coding Agent推理实践

智谱GLM的超大规模Coding Agent推理实践，聚焦Scaling Pain（扩展痛点）及其应对经验。

推理教程/实践部署/工程

01:34

Dwarkesh Patel：Podcast & Blog（RSS）

精选55

Reiner Pope - 大语言模型训练与服务的数学原理

文章揭示了支撑大语言模型（如GPT、Claude、LLaMA）训练与服务的核心数学框架。通过剖析关键方程，可以逆向推导出顶尖AI实验室在模型规模扩展、计算资源分配及服务优化方面的核心策略与实践。这些数学原理不仅解释了模型性能随参数和数据量增长的规律，也量化了训练成本与推理效率之间的权衡，为理解当前大语言模型的发展路径提供了底层逻辑。

大佬观点推理数据/训练

推荐理由：Reiner Pope 把训模型背后的数学摊开讲，听完能反推出大厂在做什么，做训练的人不可多得的一课。

00:36

Tomer Tunguz 博客（VC 分析）

精选57

AI推理市场的专业化分化

AI推理市场正快速分化，各模态如文本、图像、视频和音频发展出独立推理技术栈。自ChatGPT发布后，NVIDIA数据中心收入三年内增长17倍，凸显市场爆发。分化根本原因在于工作负载差异：图像视频生成需高计算力，长上下文消耗更多内存，边缘设备则受功耗限制。市场按延迟分为实时、近实时和批量三层；按模态分为文本、图像视频音频；按部署分为云端和边缘。Hugging Face上已有超9万个图像生成模型，整个AI推理市场规模预计约1000亿美元，这种专业化趋势正为各细分领域创造领导者机会。

多模态大佬观点推理端侧

推荐理由：Tomer 把推理市场跟数据库市场做类比，碎片化的逻辑讲得很透，做 AI 基础设施的朋友能直接用来梳理自己的赛道，普通人知道这么回事就行。

4月29日

19:07

公众号：通义实验室（千问）

FlashQLA：让 Qwen 的注意力层跑得更快

开源/仓库推理部署/工程

08:00

Apple Machine Learning Research（RSS）

Adaptive Thinking：大型语言模型知道何时在潜在空间中思考

研究提出了一种名为“自适应思考”的新方法，使大型语言模型能够动态决定是否需要执行链式思考推理。该方法利用自我一致性作为判断标准，当模型对简单问题已有高置信度答案时，会跳过显式推理步骤，直接生成最终答案。实验表明，在保持相同性能水平下，该方法在GSM8K和MATH基准测试上分别减少了20.3%和41.7%的推理计算量，实现了更高效的计算最优推理。

推理论文/研究

4月28日

08:00

Apple Machine Learning Research（RSS）

精选62

LaDiR：潜在扩散模型增强 LLM 的文本推理能力

研究团队提出LaDiR推理框架，将连续潜在表征的表达能力与潜在扩散模型的迭代优化能力相结合，以增强现有大语言模型的推理性能。该框架首先构建一个结构化的潜在推理空间，通过扩散过程对潜在状态进行迭代细化，使模型能够全局性地重新审视和修正推理路径中的早期内容。这种方法突破了传统自回归解码在整体优化和多样化解决方案探索方面的限制，提升了链式思维生成的质量与效率。

推理数据/训练论文/研究

推荐理由：Apple 把扩散模型塞进 LLM 推理链，思路很野，用连续潜空间替代自回归 token 生成来解决「写到一半没法回头改」的老毛病。做推理优化或 diffusion 架构的值得细看，但离工程落地还远。

4月27日