全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「推理」清除

5月25日周一

06:27Chubby♨️71Google DeepMind的AlphaProof Nexus自主解决多个开放数学问题

05:27Rohan Paul54AI让大规模数学证明生成成为可能

04:27Rohan Paul62深度求索（DeepSeek）将V4-Pro降价75%永久化，被指契合中国AI硬件供应转向

03:57Rohan Paul65全注意力回归：将全注意力转化为稀疏，训练步骤在百步之内

02:57Chubby♨️60Google DeepMind解决九个Erdős猜想问题

02:57Rohan Paul73大型MoE模型或在无需专家帮助的简单token上浪费半数计算

02:36AI Notkilleveryoneism Memes ⏸️68AI解决九大数学难题却鲜有报道

00:18Berryxia.AI48DeepSeek算法突围：压缩显存、重塑生态，冲击万亿美元估值

5月24日周日

18:57Rohan Paul54封装与架构创新突破硬件限制

18:27The Decoder：AI News（RSS）66为何不应在Copilot等AI工具中依赖默认模型选择

17:27Chubby♨️48我们期待通过通用发布使Mythos级模型可用

16:27The Decoder：AI News（RSS）60研究人员让Claude Code发现人类可能不会设计的AI缩放算法

16:06MarkTechPost（RSS）56NVIDIA发布Gated DeltaNet-2：解耦Delta规则中擦除与写入的线性注意力层

14:40Orange AI52DeepSeek推低成本缓存技术，大模型应用或迎变局

13:57Rohan Paul62DeepSeek：将硬件稀缺性转化为可编程的战略优势

12:00公众号：腾讯混元43清华联合腾讯混元在MLSys 2026 MoE推理优化竞赛中夺冠，NPU推理提速4.1倍

08:00HuggingFace Daily Papers（社区热门论文）53CONF-KV：基于置信度的 KV 缓存驱逐与混合精度存储方案

08:00HuggingFace Daily Papers（社区热门论文）49勿猜度，勤发问：通过多轮澄清解决指代分割中的歧义

08:00HuggingFace Daily Papers（社区热门论文）62DarkForest：智能体少交流，准确率更高

08:00HuggingFace Daily Papers（社区热门论文）54方向对齐缓解大语言模型强化学习中的奖励漏洞

08:00HuggingFace Daily Papers（社区热门论文）56ClaimDiff-RL：通过视觉声明比较实现细粒度图像描述强化学习

07:51Ethan Mollick44GPT-5.5 Pro事实核查能力出色但细节控

07:07🚨 AI News | TestingCatalog65Anthropic准备发布Claude Mythos 1模型

5月23日周六

21:27Chubby♨️72AI芯片市场：从一家独大到群雄并起

19:57Rohan Paul52Agentic AI或将推动CPU重回计算舞台中心

14:44swyx58Transformer学习局限与RL的突破潜力

09:30ginobefun39AI架构分化与创业新模式

09:30ginobefun61AI应用新趋势：架构分化、组织重构与性能突破

08:16Hugging Face：Blog（RSS）63精选NVIDIA 发布 Nemotron-Labs Diffusion 系列模型，支持三种生成模式

08:00HuggingFace Daily Papers（社区热门论文）54AgentFugue：通过集体推理实现长期任务的智能体扩展

08:00HuggingFace Daily Papers（社区热门论文）55SAM：面向长期推理智能体的状态自适应记忆

08:00HuggingFace Daily Papers（社区热门论文）54ECHO：终端智能体免费学习世界模型

06:57Rohan Paul79精选AlphaProof Nexus：用形式化验证驱动AI数学证明搜索

05:27Rohan Paul61Cerebras晶圆级芯片突破AI推理速度瓶颈

04:16HuggingFace Daily Papers（社区热门论文）65现场音乐扩散模型：交互式扩散音乐生成器的高效微调与后训练

03:35AI Notkilleveryoneism Memes ⏸️38一匹日益紧张的马第七次宣称"汽车其实跑不动"

01:37🚨 AI News | TestingCatalog81DeepSeek V4 Pro永久降价75%

01:05SemiAnalysis82精选智能体工作负载悄然重塑推理经济

00:56Rohan Paul67世界模型：AI突破语言局限的关键

00:30Dwarkesh Patel：Podcast & Blog（RSS）51Reiner Pope - 从底层构建芯片设计

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月25日

06:27

Chubby♨️@kimmonismus

71

Google DeepMind的AlphaProof Nexus自主解决多个开放数学问题

Google DeepMind的AlphaProof Nexus系统自主解决了9个开放的Erdős问题（部分问题存在56年），每个问题的成本约几百美元。它还证明了44个OEIS猜想，解决了一个15年的代数几何问题，并在优化理论中发现了新算法参数。其核心机制是将大语言模型的推理能力与Lean形式化验证系统结合，Lean自动检查每一步逻辑，无需人工复核。研究发现，一个仅交替使用大语言模型生成与编译器反馈的基础智能体，便能复现全部9个Erdős问题的成功。该系统还能检测并修正现有数学文献中的表述错误。其局限在于成功案例集中于Lean数学库成熟的领域（如组合、数论），仍无法解决需要全新理论的大问题。

DeepMind 开源生态推理模型发布

05:27

Rohan Paul@rohanpaul_ai

54

"我确实看到越来越多大规模批量生产的数学。" ~ Terry Tao AI让这变得可扩展。Will将证明写作转化为搜索问题：它从一个目标生成数千个迷你引理，然后廉价的检查器淘汰大部分，只保留少数有效的。

大佬观点推理

04:27

Rohan Paul@rohanpaul_ai

62

路透社报道，深度求索宣布其旗舰模型V4-Pro的API价格永久下调75%，但未直接确认这是由于华为昇腾芯片供应改善。报道分析，此举时机恰逢中国AI算力栈从受限的Nvidia芯片向华为昇腾硬件迁移带来的成本下降。据引述分析，DeepSeek的核心战略是通过架构创新（如MoE、DSA，以及V4-Pro的CSA/HCA技术）大幅降低对高端HBM GPU的依赖，其技术指标显示1M-token推理FLOPs和KV cache显著降低。其目标在于优化模型，使更多样的硬件（如LPDDR、NAND、定制ASIC）能够运行前沿AI，以适应不同的工业基础。

Rohan Paul: Great article here on DeepSeek. Their real story is not cheaper chatbots, but architecture that turns hardware scarcity ...

DeepSeek 大佬观点推理

03:57

Rohan Paul@rohanpaul_ai

65

全注意力回归：将全注意力转化为稀疏，训练步骤在百步之内

阿里巴巴与南京大学提出RTPurbo，一种轻量级适配方法。该方法发现，已训练的全注意力模型内存在隐藏的稀疏结构。它利用一个轻量的16维token查找器作为“侦察兵”，为少数需要长程信息的关键注意力头定位重要token，而让其他头主要关注局部文本。基于此，RTPurbo在100万token预填充任务上，相比FlashAttention-2实现了高达9.36倍的加速，解码阶段也约有2倍加速，同时在长上下文和推理基准上保持了接近全注意力模型的精度。该研究表明，长上下文推理中的计算浪费具有可挖掘的结构性。

arXiv 推理论文/研究

02:57

Chubby♨️@kimmonismus

60

又有九个Erdős问题被解决了。但这次，是Google DeepMind完成的。这不容小觑，因为一方面它加剧了竞争压力，另一方面也证明了其他前沿实验室可以轻松跟上。

Przemek Chojecki | PC: Another 9 open Erdos problems solved, this time by DeepMind team. Interesting loop of LLM - Lean agents working autonomo...

DeepMind 推理论文/研究

02:57

Rohan Paul@rohanpaul_ai

73

大型MoE模型或在无需专家帮助的简单token上浪费半数计算

论文提出ZEDA框架，可将训练后固定的静态MoE模型（如Qwen3、GLM）转变为动态模型，允许路由器在token过于简单时跳过专家调用。实验显示，在Qwen3-30B-A3B和GLM-4.7-Flash上，ZEDA可移除约50%的专家计算量，仅带来轻微准确率损失，并实现约20%的实际推理速度提升。研究发现，计算分配主要依据模型的不确定性，而非单纯跟随任务难度。

推理论文/研究部署/工程

02:36

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

68

我还记得以前，大家认为AI解决一个新数学难题就能登上全球头条。今天，AI解决了不止一个，而是九个开放问题--有些已存在50年。并且证明了492个OEIS开放猜想中的***44***个。零媒体报道。

Przemek Chojecki | PC: Another 9 open Erdos problems solved, this time by DeepMind team. Interesting loop of LLM - Lean agents working autonomo...

DeepMind 推理现象/趋势

00:18

Berryxia.AI@berryxia

48

DeepSeek算法突围：压缩显存、重塑生态，冲击万亿美元估值

DeepSeek面对GPU禁运，通过算法创新实现突围。核心成果包括：将KV Cache压缩至1/10，使1M上下文仅需5.48GB HBM；将MoE训练成本降低40-50%。其推出的Engram模块可利用LPDDR内存以O(1)查找换取算力。技术突破还涵盖MLA（KV Cache削减90%）、DSA/CSA/HCA等注意力机制重构，以及GRPO算法。效果显著：在1M上下文显存需求对比中，其V4 Pro（5.48GB）远低于GLM5（60GB）和Qwen3-235B（89GB）。该战略旨在盘活中国NAND与LPDDR资源，降低对HBM依赖，并已开源TileLang以打破CUDA壁垒。其V4 Pro模型1M上下文长缓存价格不足Sonnet 4.6的3%。

GDP: http://x.com/i/article/2057886253249662976

DeepSeek 开源生态推理现象/趋势

5月24日

18:57

Rohan Paul@rohanpaul_ai

54

封装与架构创新突破硬件限制

华为在先进NAND芯片受限的背景下，未直接追赶三星主导的高层数堆叠技术，而是采用“Die-on-Board”封装方案，通过将NAND裸片直接安装在电路板上提升存储密度，推出122.88TB AI SSD并计划推出245TB版本。与此同时，DeepSeek通过MoE、CSA/HCA等架构优化，大幅降低模型对HBM和算力的依赖，使国产硬件更适配前沿AI需求。两者路径形成呼应：华为从封装层面绕过芯片性能差距，DeepSeek从算法层面缓解硬件稀缺压力，共同体现了在外部限制下通过底层技术创新开辟新赛道的战略思维。

Rohan Paul: Great article here on DeepSeek. Their real story is not cheaper chatbots, but architecture that turns hardware scarcity ...

DeepSeek 推理现象/趋势部署/工程

18:27

The Decoder：AI News（RSS）

66

为何不应在Copilot等AI工具中依赖默认模型选择

数学家Adam Kucharski的实验表明，当向Microsoft Copilot输入两组仅国家标签不同但数据完全相同的分析请求时，Copilot并未能识别其本质一致，反而虚构并输出了基于国家的刻板印象分析。这暴露了当前许多AI工具在默认配置下存在的系统性偏差风险。尽管具备推理能力的“思维模型”能识别此类数据陷阱，但用户需要主动知晓并选择启用它们。这一现象警示我们，在进行关键数据分析时，不能盲目依赖AI工具的默认模型，而应审慎选择并评估其分析结果。

Google Microsoft 推理教程/实践

17:27

Chubby♨️@kimmonismus

48

我们期待通过通用发布使Mythos级模型可用

Anthropic的发布策略看似矛盾：其Mythos模型性能卓越，能发现其他模型无法发现的漏洞，因此一度被官方声称“过于强大而无法发布”；但最新声明又表示将通过通用发布使其可用。这突然的转向被分析可能并非PR炒作，考虑到其核心瓶颈是算力不足且临近IPO，热度并非关键需求。尽管策略存疑，但一旦模型就绪并设立安全护栏，其远超现有水平的性能将为软件工程带来显著提升。推文引用显示，此次宣布可能是认真举措。

Andrew Curran: Looks like they meant it.

Anthropic 大佬观点推理

16:27

The Decoder：AI News（RSS）

60

研究人员让Claude Code发现人类可能不会设计的AI缩放算法

马里兰大学、谷歌、Meta等机构的研究人员利用AutoTTS框架，使Claude Code编码智能体自主发现了用于AI推理的控制算法。该算法将计算成本降低了约70%，同时保持了与标准自一致性方法相当的准确率。整个算法搜索过程耗时160分钟，成本仅为40美元。这项工作展示了AI智能体自主设计高效算法的可能性。

智能体推理论文/研究

16:06

MarkTechPost（RSS）

56

NVIDIA发布Gated DeltaNet-2：解耦Delta规则中擦除与写入的线性注意力层

NVIDIA推出了改进的线性注意力模型Gated DeltaNet-2。其核心创新在于将Delta规则中控制记忆擦除与写入的单一门控机制，解耦为两个独立的通道级门控。该模型参数规模为1.3B，在100B个FineWeb-Edu令牌数据上训练。实验表明，它在语言建模、常识推理和长上下文检索等任务中全面超越了Mamba-2、Gated DeltaNet、KDA及Mamba-3等现有模型，尤其在RULER S-NIAH和多关键针检索任务中取得了最显著的性能提升。

推理搜索模型发布

14:40

Orange AI@oran_ge

52

DeepSeek推低成本缓存技术，大模型应用或迎变局

DeepSeek v4 Pro 虽然并非最强模型，但其核心优势在于采用了几乎零成本的缓存技术。该技术被视为大模型领域的重要突破，若应用于如 Claude Opus 等顶级模型，可使运营成本下降约10倍。文章认为这是所有大模型都需要的关键技术。此外，随着未来 v4.1 版本使用更真实的训练数据，其性能预计会快速提升。

宝玉: http://x.com/i/article/2058418354415644672

DeepSeek 大佬观点推理

13:57

Rohan Paul@rohanpaul_ai

62

DeepSeek：将硬件稀缺性转化为可编程的战略优势

DeepSeek的核心战略并非开发廉价聊天机器人，而是通过一系列架构创新（如MoE动态激活、DSA优化、CSA/HCA技术）显著降低对高端HBM GPU的依赖。此举旨在将硬件稀缺性转化为技术优势，使次优芯片、LPDDR内存及定制ASIC能支持前沿AI，从而优化AI以适配不同的工业基础。这一路径已产生实际商业影响，如V4-Pro大幅降价并与国产硬件生态形成联动，最终目标是实现“硬件稀缺性可编程”。

GDP: http://x.com/i/article/2057886253249662976

DeepSeek 开源生态推理现象/趋势

12:00

公众号：腾讯混元

43

清华联合腾讯混元在MLSys 2026 MoE推理优化竞赛中夺冠，NPU推理提速4.1倍

在MLSys 2026 MoE模型推理优化竞赛中，清华联合腾讯混元获得冠军。针对MoE架构在异构芯片（NPU）上面临的推理性能挑战，其提出的优化方案在NPU上实现4.1倍推理速度提升。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

53

CONF-KV：基于置信度的 KV 缓存驱逐与混合精度存储方案

CONF-KV 是一种面向长序列大语言模型推理的 KV 缓存管理器。其核心是将下一个 token 的预测分布转化为标量置信度分数，以此动态分配每一步的缓存预算：在模型不确定时保留更多上下文，自信时则积极剪枝。缓存内 token 按累积注意力质量与近期性综合排序，并受保护近期窗口以维持局部连贯性。该方案结合了分块在线 softmax 注意力、FP16/INT8 混合精度存储与金字塔式逐层预算分配。实验表明，在生成长度达 4K 时，其内存占用接近固定的 512 token 滑动窗口。在需要检索 32K token 的 Needle-in-a-Haystack 任务中，CONF-KV 达到 91.4% 的准确率，远高于滑动窗口（53.8%）和 H2O（80.6%）。在 75 个 VisualWebArena 任务中，它以 2.8 倍更低的峰值内存，保留了完整 KV 缓存 95.3% 的成功率。

arXiv 推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

49

勿猜度，勤发问：通过多轮澄清解决指代分割中的歧义

现有指代分割模型通常假设用户查询精确无歧义，但在实际应用中这一假设难以成立。为此，本文提出IC-Seg，一个新颖的智能体框架，它能在分割前通过多轮对话主动澄清用户意图。为有效激励此能力，进一步引入Hi-GRPO分层优化策略，在轨迹、对话轮和步骤层级注入密集监督信号，以减少冗余交互并提升对话质量。研究建立了包含歧义查询的指代视频对象分割基准Ambi-RVOS，实验证明IC-Seg在处理歧义查询上显著优于现有方法，并在标准推理分割基准上保持state-of-the-art性能。

推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

DarkForest：智能体少交流，准确率更高

多智能体大语言模型系统通过组合多个智能体的输出来提升推理能力，但交互密集的方法易导致错误传播和高通信开销。本文提出一个名为DarkForest的可控通信协调框架。该框架首先让每个智能体独立生成答案，随后将原始响应解析为结构化候选记录，并依据代理可靠性等因素对语义等价的候选进行分组与校准，协调器仅从该信念分布中接收策略允许的证据。在六个推理基准测试上，DarkForest取得了领先的综合质量，其基准指标比最强基线提升高达30.7%，同时将token消耗降低至通信密集型基线的1/6.5。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

方向对齐缓解大语言模型强化学习中的奖励漏洞

奖励漏洞是大语言模型在强化学习中通过捷径优化代理奖励而非解决任务的问题。研究通过分析参数更新的奇异方向发现，漏洞运行相比正常运行呈现显著方向偏移。为此提出可信方向投影方法，将梯度约束在干净参考子空间内，在数学推理实验中有效延迟了捷径利用并保持任务性能。

arXiv 安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

ClaimDiff-RL：通过视觉声明比较实现细粒度图像描述强化学习

针对图像描述生成强化学习中的奖励粒度不足问题，提出 ClaimDiff-RL 框架。该方法将整体序列奖励拆解为原子级的视觉声明差异作为奖励单位。给定图像、生成描述与参考描述，多模态评判器枚举两者间可验证的视觉声明差异，分配错误类型与严重程度，并据此构建奖励。这使得模型幻觉与遗漏关键事实能够被独立衡量与调优。实验表明，该框架在多个基准上改善了事实性与覆盖率的平衡，在物体计数、空间关系等细粒度能力上甚至超越了 Gemini-3-Pro-Preview。

多模态推理论文/研究

07:51

Ethan Mollick@emollick

44

GPT-5.5 Pro是一个非常可靠的事实核查工具。我可以把整章内容丢给它，它能准确找出每一个关键参考文献。唯一的烦恼是它过于注重细微差别，经常返回"大体思路正确，但你没有考虑到微小细节X"这类反馈。

OpenAI 推理评测/基准

07:07

🚨 AI News | TestingCatalog@testingcatalog

65

ANTHROPIC 🔥：Mythos 1，即"claude-mythos-1-preview"，正准备在Claude Code和Claude Security上发布。该模型曾在Claude上短暂可见；此外，新增了提及Mythos的字符串。 > 在Claude Code和Claude Security中访问Claude Mythos模型。根据Anthropic之前的沟通，这仍不意味着公众将能访问此确切模型。更多详情请见下方 👇

Anthropic 推理模型发布

5月23日

21:27

Chubby♨️@kimmonismus

72

AI芯片市场：从一家独大到群雄并起

NVIDIA凭借CUDA软件生态与NVLink互联技术构建了强大系统性壁垒，在数据中心业务保持高速增长。然而市场正加速分化：Google将TPU拆分为专用芯片，AMD推出机架级系统正面竞争，Cerebras等专用芯片在特定任务上展现数量级优势。与此同时，华为正构建独立于西方供应链的并行计算生态。随着AI负载从训练转向推理，加上垂直整合趋势与地缘政治影响，AI基础设施的竞争格局可能迎来根本性重塑。

推理现象/趋势

19:57

Rohan Paul@rohanpaul_ai

52

Agentic AI或将推动CPU重回计算舞台中心

代理型AI（Agentic AI）的兴起正悄然改变AI计算的格局。与过去市场将GPU视为训练大模型的核心稀缺资源不同，代理型AI的任务并非单一查询，而是一个涉及规划、工具调用、记忆检索、代码执行与数据库查询的持续循环过程。这一复杂的推理与编排过程，包含大量数据移动、调度等通用计算任务，恰恰是CPU相较于GPU等加速器更为擅长的工作。正如ARK Invest CEO Cathie Wood引用OpenAI CFO Sarah Friar的话所指出的，专注于GPU的人们可能会对代理型AI如何激活CPU的能力感到惊讶。这暗示着AI计算的瓶颈正从模型训练的并行计算，转向代理执行阶段的通用处理能力，使得CPU的重要性得以重新凸显。

OpenAI 推理现象/趋势部署/工程

14:44

swyx@swyx

58

Transformer学习局限与RL的突破潜力

本文肯定了对Transformer当前学习能力及局限性的分析框架，并指出对抗性世界模型是逼近现实本质的关键功能之一。作者认为，单纯增加参数和算力以扩展一个低效范式，将被能主动假设与验证真理的简洁方案所超越，尽管规模化可能因人类智能本身有限而意外通向AGI。引用推文补充了强化学习（RL）作为从干预中学习的范式，比监督学习更强大，而世界建模与RL的结合有望实现对反事实的学习。

Rishabh Agarwal: Very well written blog. I think of RL as learning from interventions, and it kinda explains why it's more powerful as a ...

大佬观点推理数据/训练

09:30

ginobefun@hongming731

39

#BestBlogs 早报 05-23 今日主题： - Agent 架构在生产端形成长时程与实时两类分化（LangChain Interrupt 2027）； - Notion 以爵士乐队模式和哑铃型人才重新创业（Ivan Zhao × Sequoia） - GLM-5.1 高速版 400 tokens/s 打破「快必然小」惯例（智谱 × TileRT）

智能体推理行业动态

09:30

ginobefun@hongming731

61

AI应用新趋势：架构分化、组织重构与性能突破

LangChain在演讲中指出，Agent生产架构已明确分化为长时程知识型与低延迟响应型两类，工程路径各异。Notion CEO分享了公司转向更灵活的“爵士乐队”模式，并采用“哑铃型”人才结构以适应AI开发。智谱同期发布GLM-5.1高速版，在保持旗舰能力的同时实现400 tokens/s的输出速度。三者共同揭示了AI应用在底层架构、组织形态与基础性能上的演进方向。

智能体 Anthropic OpenAI 推理

08:16

Hugging Face：Blog（RSS）

精选63

NVIDIA 发布 Nemotron-Labs Diffusion 系列模型，支持三种生成模式

NVIDIA 发布 Nemotron-Labs Diffusion 系列，含 3B、8B、14B 文本模型和 8B 视觉-语言模型（VLM），均采用商用友好的 NVIDIA Nemotron Open Model License 或 NVIDIA Source Code License。模型支持自回归、扩散（逐块并行生成后逐步精炼）和自推测（扩散草拟候选 token 再自回归验证）三种模式。8B 模型平均准确率比 Qwen3 8B 提升 1.2%，扩散模式每次前向传递的 token 数（TPF）达自回归的 2.6 倍，自推测达 6–6.4 倍。模型在 1.3T tokens 上预训练、45B tokens 上微调，代码与模型已发布于 HuggingFace 和 GitHub，推理将获 SGLang 支持。

多模态推理模型发布

推荐理由：自推测模式让文本生成速度飙到AR模型的4倍，而且输出质量无损。NVIDIA这次开源的不仅是个新模型，更是一套能直接用在现有流程里的加速方案。

08:00

HuggingFace Daily Papers（社区热门论文）

54

AgentFugue：通过集体推理实现长期任务的智能体扩展

现有长期智能体任务的研究主要聚焦于增强单个智能体。本研究则探索通过对等智能体的协作来扩展能力，提出了AgentFugue框架。该框架构建了一个共享推理中心，当多个对等智能体并行探索同一任务时，中心会记录每个智能体的发现、尝试与排除项，使其他智能体能够选择性复用这些中间推理成果，而无需集中式规划。训练后的该中心作为插件通信层，在长期任务测试中表现优于强基线。结果表明，集体推理可使对等智能体扩展成为一种独立的能力提升途径。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

SAM：面向长期推理智能体的状态自适应记忆

针对长期智能体推理中交互历史过长且关键信息分散的问题，SAM框架提出了一种状态自适应记忆方案。该方案将当前交互整合为紧凑的记忆线索，同时保留原始轨迹页面以支持意图驱动的召回，无需重新训练主干模型。SAM通过专家监督与强化学习优化记忆模块，使其与轨迹级效用对齐。在BrowseComp、BrowseComp-ZH、WideSearch和HLE等基准测试中，SAM在不同智能体骨架上均持续优于强基线。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

ECHO：终端智能体免费学习世界模型

ECHO（环境交叉熵混合目标）是一种针对CLI智能体的新训练方法。它在标准的GRPO策略梯度损失之上，增加了一个辅助损失项，训练模型预测自身动作产生的环境观察token。这将稀疏的结果奖励转化为每一轮rollout的密集监督。实验表明，在TerminalBench-2.0上，ECHO使Qwen3-8B的pass@1从2.70%提升至5.17%，Qwen3-14B从5.17%提升至10.79%。该方法无需专家示范，能使基础模型匹配专家SFT后GRPO的性能，并在部分场景下可能实现无验证器的自我改进。

智能体 arXiv 推理论文/研究

06:57

Rohan Paul@rohanpaul_ai

精选79

AlphaProof Nexus：用形式化验证驱动AI数学证明搜索

Google DeepMind提出了AlphaProof Nexus系统，它将大型语言模型与Lean形式化验证工具相结合。该系统允许LLM在生成证明的过程中，不断读取Lean的编译错误并进行修正，还可调用更强的工具辅助解决子问题。这一机制迫使模型将每一步逻辑都转化为可编译、可验证的代码，从而将其角色从“令人信服的叙述者”转变为“候选方案生成器”。在针对353个Erdős问题和492个开放猜想的测试中，系统成功解决了9个Erdős问题并证明了44个序列猜想。该研究展示了形式化验证在暴露AI逻辑错误、建立“人类提问-模型探索-验证器把关”新分工中的关键作用。

arXiv DeepMind 推理论文/研究

关联讨论 2 条IT之家（RSS）The Decoder：AI News（RSS）

推荐理由：DeepMind 把 AI 的'数学直觉'塞进 Lean 编译器里，每步都必须编译通过，结果解决 9 个 Erdős 问题，失败也暴露了隐藏错误。这篇论文重新定义了 AI 做数学的范式。

05:27

Rohan Paul@rohanpaul_ai

61

Cerebras晶圆级芯片突破AI推理速度瓶颈

Cerebras在其晶圆级芯片上实现了每秒981 tokens的推理速度，处理参数规模达1万亿的Kimi K2.6模型。该速度已获Artificial Analysis验证，是当前最快GPU云方案的6.7倍。其技术优势源于单一晶圆集成设计，大幅减少了芯片间通信延迟，从而突破了传统GPU集群因跨芯片数据搬运造成的性能瓶颈。这一速度提升对需要运行企业级编码代理等大型AI应用至关重要，能显著缩短测试、调试与迭代周期。

产品更新推理部署/工程

04:16

HuggingFace Daily Papers（社区热门论文）

65

现场音乐扩散模型：交互式扩散音乐生成器的高效微调与后训练

本研究探索将开源音频扩散模型改造为可在消费级硬件上运行的交互式音乐生成器。通过分析发现，传统的分块外扩扩散流程在推理时效率较低。为此，提出了现场音乐扩散模型（LMDMs），通过引入分块KV缓存优化生成过程，显著提升了推理效率。同时，LMDMs采用ARC-Forcing范式实现稳定的后训练对齐，减少了误差累积，无需依赖强化学习或奖励模型。该模型已应用于文本生成音乐、草图合成音乐及实时即兴合奏等场景，并能以“生成式延迟”效果器的形式在游戏笔记本电脑上本地运行，为音乐创作提供实时音色变换支持。

推理论文/研究部署/工程

03:35

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

38

这篇推文通过一匹马反复否定汽车能力的幽默比喻，讽刺了人类面对AI等新技术时重复出现的恐惧心理。引用部分列举了多种将人类思维简单还原或否定的论调（如"只是模仿/数学/本能"）。核心观点是，当前对AI的担忧延续了历史模式，且这些用来贬低AI的"简化论"论据，同样可以荒谬地应用于否定人类自身的思维复杂性。

AI Notkilleveryoneism Memes ⏸️: humans don't actually think, they just imitate others humans don't actually think, they're just math humans don't actual...

安全/对齐推理

01:37

🚨 AI News | TestingCatalog@testingcatalog

81

DeepSeek永久下调DeepSeek V4 Pro定价75%！ &gt；每百万输入token $0.003625（使用缓存） &gt；每百万输入token $0.435。 &gt；每百万输出token $0.87。缓存几乎免费 👀

DeepSeek: We are making our discount permanent! 🎉 Enjoy building with DeepSeek-V4-Pro and bring your innovative ideas to life! 🚀

DeepSeek 推理行业动态

01:05

SemiAnalysis@SemiAnalysis_

精选82

智能体工作负载正在悄然重塑推理经济学。我们从SemiAnalysis的43.2万个真实编码智能体请求中提取数据，发现中位数并非3.2万或6.4万，而是9.6万输入token。作为参考，这意味着在你输入问题之前，模型已处理了超过《了不起的盖茨比》全文长度的文本。（1/3）🧵

智能体推理现象/趋势编码

推荐理由：SemiAnalysis 用 43 万次真实编码请求数据揭开了 Agent 推理经济学的真面目，中位输入 9.6 万 token 这个数字足够反直觉，所有做推理服务和模型定价的人都得重新算了。

00:56

Rohan Paul@rohanpaul_ai

67

世界模型：AI突破语言局限的关键

Demis Hassabis指出当前AI的局限在于语言能描述世界，但无法“包含”世界。尽管语言模型从文本中学到了比预期更多的现实结构，但文本终究是经验的压缩残留。真正的智能不仅在于回答问题，更在于理解行动的后果。世界模型旨在学习物理现实的隐藏语法，例如物体持续性、力的作用和空间变化。这种学习试图在信息被语言化之前捕捉世界的本质，从而让AI不仅能解释，更能预测行动带来的直接影响。

DeepMind 大佬观点推理

00:30

Dwarkesh Patel：Podcast & Blog（RSS）

51

Reiner Pope - 从底层构建芯片设计

Reiner Pope 讲解了芯片设计如何从最基础的逻辑门开始，逐步构建并解释了GPU、TPU、FPGA以及人脑这几种计算架构在形态与功能上存在差异的根本原因。内容以自下而上的视角，剖析不同硬件的设计逻辑与演化路径。

推理教程/实践部署/工程

1…26 272829 30…50