4月8日

05:51

François Chollet@fchollet

加入 ARC Prize 团队--帮助我们构建 ARC-AGI-4 和 ARC-AGI-5

ARC Prize: Platform Engineer - Benchmark Lead ARC Prize Foundation is hiring a senior engineer to build our benchmark platform * Ex...

推理数据/训练行业动态

03:56

Deedy@deedydas

Claude Mythos 碾压了 AI 领域全部基准测试，表现惊人。推文作者直呼难以置信，表示被其成绩彻底震惊。

Anthropic 大佬观点推理

4月7日

17:32

公众号：通义实验室（千问）

FIPO：精准追踪2%的Token，突破大模型推理瓶颈！

FIPO方法通过精准追踪仅占2%的关键Token，有效缓解大模型强化学习中的“蝴蝶效应”，从而突破推理性能瓶颈。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选72

在极简形式主义下通过证明对LLM推理能力的压力测试

本研究推出了名为ProofGrid的基准测试套件，旨在通过机器可检查的证明，而非仅凭最终答案，来严格评估大语言模型（LLM）的推理能力。该套件包含15项任务，涵盖证明编写、验证等环节，核心采用紧凑的最小自然演绎语言（NDL）进行表述。其评估框架能容忍表面偏差并定位首个实质性推理错误，实现了机械化、可复现的细粒度验证。测试表明，前沿模型在基础任务上表现尚可，但在需要全局组合推理或底层证明合成的困难任务上仍存在显著局限。研究还识别并量化了模型“生成有缺陷证明却能在局部正确识别其错误”的“认识不稳定”现象。

推理论文/研究

推荐理由：不再只看答案对不对，而是让机器一步步检查证明，ProofGrid 戳中了 LLM 推理的一个盲区，很多模型产出的证明连自己都不信，这个发现挺要命的。

08:00

HuggingFace Daily Papers（社区热门论文）

MedConclusion：基于结构化摘要的生物医学结论生成基准

研究团队发布MedConclusion基准数据集，包含570万PubMed结构化摘要，用于测试大语言模型从结构化生物医学证据中推断科学结论的能力。该数据集将摘要非结论部分与作者撰写的结论配对，提供自然监督信号，并包含期刊类别、SJR等元数据支持子群分析。初步评估显示，结论写作与摘要写作行为差异显著，当前自动指标难以区分强模型表现，且LLM评判者身份会显著影响评分结果。

arXiv 推理论文/研究

06:06

François Chollet@fchollet

曲线拟合是在记录某个生成程序输出的有损近似。符号学习则是在无损地逆向工程该生成程序的源代码。

大佬观点推理

04:15

François Chollet@fchollet

下方论文在注重泛化的数学问题上测试了多种基础 LLMs（无 TTA），发现它们无法推理也无法做数学。

大佬观点推理

01:55

AK@_akhaliq

新论文提出，Test-Time Scaling（测试时扩展）可让 Overtraining（过度训练）实现 Compute-Optimal。传统 Chinchilla 最优假设训练与推理计算固定，而该研究表明，若允许推理阶段增加计算，过度训练模型在总成本下反而性能更优。

Hugging Face 推理数据/训练论文/研究

4月6日

20:00

Cursor Blog

精选66

通过warp decode提升MoE模型推理效率

针对Blackwell GPU上的小批量解码，研究提出了一种名为“warp decode”的新方法。该方法颠覆了传统以专家为中心的计算路径，改为让每个GPU warp负责计算一个输出神经元。这一根本性改变消除了原有流程中五个纯数据管理的“簿记”步骤，将整个MoE计算层压缩为仅两个内核。其优势在于避免了填充、分散和中间缓冲区的读写，并通过warp独立性实现了更好的调度。在Blackwell GPU上，该方法实现了1.84倍的吞吐量提升，同时输出精度更高，与全FP32参考值的差距缩小了1.4倍，有效加速了模型研发流程。

推理论文/研究部署/工程

推荐理由：Cursor 把 MoE 推理的并行轴从专家翻转到输出神经元，Blackwell 上吞吐涨 1.84 倍还顺带提精度，这种同时赢性能和精度的内核优化极其罕见，做推理引擎的值得逐行读。

00:20

François Chollet@fchollet

符号压缩：从放射性到原子弹的极端泛化

推文以原子弹研发为例，阐述极端泛化的本质：科学仅用47年、约9个关键实验便实现从放射性观察到核武器的突破。这种进步不依赖大数据，而源于符号压缩——将少量刻意收集的数据点提炼为单页纸可承载的因果符号规则。核心观点在于，通过逆向推导数据背后的因果逻辑，人类能够将极简信息转化为重塑现实的完整方案，展现符号推理在突破认知边界中的决定性作用。

Google 大佬观点推理数据/训练

4月4日

01:07

François Chollet@fchollet

来自 Sachin 的会议首个更新：Gemma 4 现已在 KerasHub 上线！目前推理和智能体工作流的最佳开源模型。

François Chollet: The Keras team is doing a community call today at 10am PT. That's in 25 min. The call is open to all -- join to learn ab...

智能体 Google 推理模型发布

4月3日

11:57

Artificial Analysis@ArtificialAnlys

印度发布首批从头预训练开源大模型Sarvam 105B与30B

Sarvam AI发布印度首批从头预训练的开源权重模型Sarvam 105B与30B，采用MoE架构并在本土训练。两款模型在Intelligence Index分别得分18和12，支持推理与非推理双模式。105B在Agentic任务表现优于部分同类模型，但TerminalBench Hard编码测试成绩落后且幻觉率较高。模型采用Apache 2.0协议开源，上下文窗口128K/65K tokens，目前通过API免费提供服务。

开源生态推理模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

随机KV路由：实现自适应深度方向缓存共享

为降低Transformer语言模型推理时KV缓存的内存占用，本研究提出一种名为“随机KV路由”的训练方法。该方法在训练过程中，让每一层随机选择使用本层或前一层的键值状态，从而使模型能够适应深度方向的KV缓存共享。评估表明，该方法在预训练或微调阶段应用后，可在多种模型架构中实现缓存共享，显著减少内存需求。对于数据受限的大模型，此方法还表现出类似正则化的效果，在降低内存的同时，常能保持甚至提升模型性能。

推理论文/研究部署/工程

00:56

Greg Brockman@gdb

OpenAI 内部模型解决三个 Erdős 经典数学难题，均给出简短优雅的证明。相关论文已发布于 arXiv，作者感慨我们正处于科学发现新时代的边缘。

Mehtaab Sawhney: We are excited to share a new paper solving three further problems due to Erdős; in each case the solution was found by ...

OpenAI 推理论文/研究

00:03

Google DeepMind@GoogleDeepMind

精选

Google 发布 Gemma 4 开源模型系列，采用 Apache 2.0 许可证，支持在本地硬件运行，专为高级推理和 agentic 工作流设计。

智能体 DeepMind Google 推理

推荐理由：Google 开源 Gemma 4 模型，支持本地硬件运行并强化 Agent 与推理能力

4月2日

19:58

公众号：龙猫LongCat（美团）

LongCat-Flash-Prover：AI 攻克数学定理证明，不仅要"算得对"，更要"证得严"

推理模型发布

4月1日

00:00

Meta Engineering Blog（RSS）

精选81

Meta Adaptive Ranking Model：弯曲推理扩展曲线，为广告提供LLM规模模型服务

Meta将其广告推荐系统的运行时模型扩展至LLM的规模和复杂度，旨在更深入理解用户兴趣与意图，以提升广告效果。这一举措通过自适应排序模型，优化了推理阶段的扩展曲线，使部署大规模模型服务成为可能，标志着推荐系统性能向新前沿迈进。

Meta 产品更新推理部署/工程

推荐理由：Meta的工程实践展示了如何优化LLM规模模型的推理效率，对AI系统设计有参考价值。

3月30日

03:39

François Chollet@fchollet

精选

人类24小时可从规则构建3000 Elo国际象棋引擎

作者以"Glurg"游戏（实为 chess）假设情境论证：借助现有外部认知基础设施（计算机、互联网等），人类顶尖团队能在24小时内从规则解析开发出3000 Elo引擎，三周内可达3500 Elo且计算效率提升10倍。这表明人类智能已具备即时掌握复杂策略系统的能力，而非从零缓慢进化。该论述回应了关于现实世界更接近 chess 而非 Go 的争论，强调人类利用工具扩展认知边界的即时优势。

Eliezer Yudkowsky: On @fchollet's view (I'd summarize) the domain of real life is closer to chess than to Go, with human play already near-...

大佬观点推理

推荐理由：Chollet 用思想实验揭示：人类可从零规则快速构建专家系统，这正是当前 AI 与 AGI 的核心差距

3月29日

23:00

Deedy@deedydas

精选

Don Knuth 借助 AI 完全解决哈密顿分解问题的奇偶情况。Opus 4.6/5.4 Pro 完成偶数情形证明，以 Lean 形式化验证并生成 14 页论文。Knuth 感叹："我们确实生活在非常有趣的时代。"

Anthropic 推理编码论文/研究

推荐理由：Knuth借助Claude解决数学难题并生成Lean证明，标志AI形式化推理重大突破

3月28日

04:51

Epoch AI@EpochAIResearch

FrontierMath： Open Problems 移除了一道已被 AI 解决的题目。经审查，该题目未达到数学知名度的最低标准。团队强调，这与周一宣布解决的那道题目不同。

推理评测/基准

3月27日

10:59

Deedy@deedydas

在 ARC-AGI-3 发布活动上与 Sam Altman 和 Francois Chollet 对谈，讨论 AI 时代的育儿方式、Sora、AGI 时间线、看好与不看好的研究方向等话题。完整视频即将上线。

OpenAI 大佬观点推理

3月26日

13:46

Artificial Analysis@ArtificialAnlys

精选

OpenAI发布GPT-5.4 mini与nano轻量模型

OpenAI发布GPT-5.4 mini与nano轻量模型，保留多档推理能力与400K上下文窗口，价格降至$0.20/$1.25每百万token。基准测试显示，GPT-5.4 nano在τ²-Bench等多项测试中领先Claude Haiku 4.5与Gemini 3.1 Flash-Lite Preview，但幻觉率较高且token消耗量大。得益于极低单价，nano在Intelligence Index测试中的有效成本反而低于竞品，展现出优秀的性价比优势。

智能体 OpenAI 推理模型发布

推荐理由：OpenAI 发布 GPT-5.4 mini/nano，性价比突出且评测数据详实，nano 性能超越同级竞品。

3月24日

00:14

Epoch AI@EpochAIResearch

AI 在 FrontierMath： Open Problems 基准测试中成功解决一道数学家长期未能攻克的真实研究难题。该基准专门收录专业数学家尝试失败的研究级开放问题。

推理评测/基准

3月23日

08:00

HuggingFace Daily Papers（社区热门论文）

师生协作合成学生一致性SFT数据的框架

针对使用强模型合成数据微调推理模型时出现的性能下降问题，本文提出师生协作数据合成框架TESSY。该框架通过让师生模型交替生成风格与非风格标记，使合成数据兼具教师的高级推理能力与学生风格一致性。实验以GPT-OSS-120B为教师、Qwen3-8B为学生，在代码生成任务中，传统方法使LiveCodeBench-Pro和OJBench性能分别下降3.25%和10.02%，而TESSY实现11.25%和6.68%的显著提升。

推理数据/训练论文/研究

03:39

Nathan Lambert：Interconnects（RSS）

精选

有损自我改进

自我改进机制虽客观存在，但受限于"有损"特性，难以推动AI能力的递归式爆发。该论述指出，大语言模型等系统的自我优化过程伴随信息损耗与能力瓶颈，这种非完美的迭代模式打破了"快速起飞"（fast takeoff）的技术假设。与理想化的指数级自我增强不同，实际发展将呈现渐进、受限的增长轨迹，AI安全研究需重新评估递归自我改进的风险阈值。

大佬观点安全/对齐推理

推荐理由：AI自我改进虽真实但存在损耗上限，挑战'快速起飞'的普遍担忧，为AGI发展节奏提供新视角

3月21日

00:00

Dwarkesh Patel：Podcast & Blog（RSS）

陶哲轩--开普勒、牛顿与数学发现的本质

陶哲轩回溯开普勒与牛顿时代的科学发现历程，剖析数学突破背后的真实机制，并据此展望人工智能对现代数学研究的革命性影响。文章通过历史案例揭示数学发现的本质特征，探讨AI技术如何借鉴经典科学方法论，改变未来数学问题的提出、验证与解决方式，为理解人机协作下的数学创新提供历史视角。

大佬观点推理

3月20日

19:48

Artificial Analysis@ArtificialAnlys

精选

Mistral发布开源模型Small 4，支持混合推理与图像理解

Mistral发布开源权重模型Mistral Small 4，采用119B参数MoE架构（每token激活6.5B参数），支持可切换的推理/非推理模式及图像输入。推理模式在Artificial Analysis Intelligence Index获27分，超越Mistral Large 3，但低于gpt-oss-120B等竞品。模型token效率优于同类，幻觉率更低（AA-Omniscience -30分），支持256K上下文窗口，采用Apache 2.0许可证。

多模态开源生态推理模型发布

推荐理由：Mistral 开源 Small 4，支持混合推理与多模态，Agent 任务表现大幅提升

12:04

美团 LongCat：HuggingFace 新模型

美团 LongCat 发布 LongCat-Flash-Prover

美团 LongCat 团队发布开源项目 LongCat-Flash-Prover，致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛，促进先进技术的广泛可及性，但尚未公布具体的技术架构、功能特性及性能评估指标。

Hugging Face 推理模型发布

3月18日

00:03

Google DeepMind：Blog（RSS）

衡量AGI进展的认知框架

本文介绍一个衡量通用人工智能（AGI）进展的认知框架，并启动Kaggle黑客马拉松，旨在构建相应的评估体系，为AGI研发提供可量化的进度测量标准与评估工具。

Google 推理论文/研究

3月17日

05:41

Sam Altman@sama

精选

GPT-5.4 API 上线首周日处理量达 5T tokens，流量超过去年同期整个 API 总量，年化新增净收入突破 10 亿美元，增速创 OpenAI 模型发布历史纪录。

Greg Brockman: gpt-5.4 has ramped faster than any other model we've launched in the API: within a week of launch, 5T tokens per day, ha...

OpenAI 产品更新推理

推荐理由：GPT-5.4 API采用速度创纪录，日处理5T tokens，年化新增收入达10亿美元

3月16日

09:47

Gary Marcus：The Road to AI We Can Trust（RSS）

精选

Sam Altman 承认：实现 AGI 需要超越规模扩展的重大突破

OpenAI CEO Sam Altman 坦言，仅靠扩大模型规模无法达到 AGI，必须在架构层面实现重大创新。这一表态标志着 AI 发展范式的关键转向，承认当前"越大越好"的扩展策略已遇瓶颈。Altman 强调"是时候寻找新的架构了"，暗示基于 Transformer 的现有技术路径难以通向通用人工智能，行业需要颠覆性技术突破而非单纯堆砌算力与参数。

OpenAI 大佬观点推理

关联讨论 1 条

推荐理由：OpenAI CEO 罕见承认纯扩展不足以实现 AGI，行业技术路线或迎转折

00:00

Mistral AI：News（网页）

研究 ## 推出 Mistral Small 4 模型

Mistral AI 发布新一代开源模型 Mistral Small 4，首次将 Magistral 的推理、Pixtral 的多模态和 Devstral 的编码能力整合于单一模型。它采用混合专家架构，拥有119B总参数和256k上下文窗口，支持图文输入及可配置的推理强度。性能上，其端到端延迟降低40%，吞吐量较前代提升3倍。该模型基于 Apache 2.0 许可证开源，并加入 NVIDIA Nemotron 联盟，优化了在 vLLM 等框架上的推理效率，适用于聊天、编码和复杂任务处理。

多模态推理模型发布

3月13日

17:00

BAIR：Berkeley AI Research Blog

面向 LLM 的大规模交互作用识别

伯克利人工智能研究所提出 SPEX 与 ProxySPEX 算法，通过信号处理与编码理论实现大语言模型关键交互作用的高效识别。该方法基于" influential interactions 具有稀疏性与低阶性"的核心观察，将指数级搜索问题转化为可解的稀疏恢复问题，以极少的消融次数定位驱动模型输出的关键特征组合与内部组件依赖，突破传统方法在计算规模上的限制。

推理数据/训练论文/研究

01:33

Google DeepMind@GoogleDeepMind

从围棋到蛋白质折叠：AlphaGo十年科学之路

AlphaGo十周年之际，DeepMind科学家Thore Graepel与Pushmeet Kohli探讨了从游戏AI到科学发现工具的演进路径。对话回顾了Move 37与Move 78等标志性时刻的技术突破，阐述AlphaGo如何延伸至蛋白质折叠、矩阵乘法优化及算法发现领域。讨论还涉及AI生成发现的验证机制、数学家的协作角色，以及游戏智能对解决复杂科学问题的方法论变革。

Google 推理现象/趋势

3月11日

00:17

Noam Brown@polynoamial

精选

当今前沿推理模型的训练路径与 AlphaGo 高度一致：先模仿大量人类数据，再扩展推理计算（从蒙特卡洛树搜索到思维链），最后用强化学习突破模仿上限。Demis Hassabis 称，十年前 AlphaGo 的"第37步"预示 AI 可攻克真实科学难题，这些思路对构建 AGI 仍至关重要。

Demis Hassabis: Ten years ago, AlphaGo's legendary match in Seoul heralded the start of the modern era in AI. Its famous 'Move 37' signa...

Meta 大佬观点推理数据/训练

推荐理由：Meta 研究员揭示推理模型与 AlphaGo 的技术传承，点明 RL 超越模仿的核心路径

3月10日

23:57

Google DeepMind@GoogleDeepMind

AlphaGo 诞生十周年，其开创的技术正帮助证明数学命题，并协助科学界取得新发现，持续推动 AI 能力边界。

DeepMind 推理现象/趋势

23:13

Demis Hassabis@demishassabis

精选

十年前的 AlphaGo 首尔对局开启现代 AI 时代，标志性的"第37手"证明 AI 已能攻克科学等现实难题，其技术理念仍是构建 AGI 的核心基础。

DeepMind 大佬观点推理

推荐理由：Hassabis 回顾 AlphaGo 十周年，点明其方法论对构建 AGI 的关键意义

18:00

公众号：小红书技术（dots.llm）

ICLR 2026|小红书多模态推理大模型 Vision-R1 ：实现图文内容的深度逻辑推理与理解

小红书在 ICLR 2026 上提出多模态推理大模型 Vision-R1。该模型以 200K 条无人工标注的高质量多模态 CoT 冷启动数据为基础，融合 GRPO 与渐进式思维抑制训练（PTST），有效解决多模态大模型“过度思考”难题，显著提升了复杂推理能力。

多模态推理论文/研究

08:00

Hugging Face：Blog（RSS）

精选83

保持令牌流动：16个开源强化学习库的教训

同步强化学习训练中，数据生成是主要瓶颈，如在320亿参数模型上生成3.2万令牌样本需数小时，导致训练GPU闲置。业界主流解决方案是将推理与训练解耦到不同GPU池，通过rollout缓冲区连接并异步传输权重。本文调研了16个实现此模式的开源库，从编排原语、缓冲区设计、权重同步协议、陈旧数据处理、部分rollout支持、LoRA支持及分布式训练后端七个维度比较。关键发现：Ray在编排层占主导（8/16库使用），NCCL广播是默认权重传输方式，LoRA训练支持普遍不足，而分布式MoE支持正成为新差异化特性。

推理论文/研究部署/工程

推荐理由：异步RL训练架构对比，助开发者优化训练效率与库选型。

3月7日

00:14

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/AReaL-tau2-merge-sft-235B 发布

inclusionAI 团队发布了 AReaL-tau2-merge-sft-235B 模型。该模型参数量达2350亿，采用合并与监督微调技术构建。其目标是推动人工智能技术发展并通过开源开放模式实现AI民主化，致力于让先进AI技术更广泛可及。

开源/仓库推理模型发布