全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 1192 条

全部一手资讯 X 论文

标签「推理」清除

5月23日周六

08:00HuggingFace Daily Papers（社区热门论文）54ECHO：终端智能体免费学习世界模型

04:16HuggingFace Daily Papers（社区热门论文）65现场音乐扩散模型：交互式扩散音乐生成器的高效微调与后训练

00:30Dwarkesh Patel：Podcast & Blog（RSS）51Reiner Pope - 从底层构建芯片设计

00:16HuggingFace Daily Papers（社区热门论文）65通过自我调节的模拟规划实现高效智能体推理

5月22日周五

18:09IT之家（RSS）57英伟达黄仁勋：LPX 等 SRAM AI 芯片将长期属于利基市场

18:09IT之家（RSS）48AMD CEO 苏姿丰：中国内地占公司营收 20%，是非常重要的市场

18:09IT之家（RSS）70精选网易有道"子曰4"多模态模型、语音合成模型全量开源

16:09IT之家（RSS）63AMD 苏姿丰：CPU 目前供应紧张，未来 5 年市场年复增长率超 35%

15:56Hacker News 热门（buzzing.cc 中文翻译）61多流大型语言模型：关于提示、推理和I/O并行化/分离的新论文

15:09IT之家（RSS）70美团开源 LongCat-Video-Avatar 1.5：数字人视频从"彩排"走向"真舞台"，生成 10 秒视频仅需 1 分钟

15:09IT之家（RSS）35OWC 预告 Stack AI：雷电 5 外接闪存扩充本机 GPU 可用内存

13:14HuggingFace Daily Papers（社区热门论文）68LatentOmni：通过统一的音视频潜在推理重新思考全模态理解

10:14HuggingFace Daily Papers（社区热门论文）63智能体上下文编译：面向长上下文训练的轨迹编制方法

10:14HuggingFace Daily Papers（社区热门论文）70精选Gated DeltaNet-2：解耦线性注意力中的擦除与写入

10:14HuggingFace Daily Papers（社区热门论文）74精选从推理链到可验证子问题：课程强化学习实现LLM推理的信用分配

10:09IT之家（RSS）73同事件精选智谱GLM-5.1高速版发布：刷新全球大模型API速度纪录同一事件，精选展示《GLM-5.1开源：一个独立工作8小时的模型》

09:41公众号：智谱（GLM）63同事件精选智谱推出GLM-5.1高速版同一事件，精选展示《GLM-5.1开源：一个独立工作8小时的模型》

08:00HuggingFace Daily Papers（社区热门论文）49多智能体强化学习何时改善LLM工作流程：工作流程、规模与策略共享的权衡

08:00HuggingFace Daily Papers（社区热门论文）49打破概率的枷锁：中立逻辑作为大语言模型认知不确定性建模的新框架

08:00HuggingFace Daily Papers（社区热门论文）55基于离散扩散模型的摊销序列蒙特卡洛对比分布匹配

08:00HuggingFace Daily Papers（社区热门论文）60FastKernels：面向生产环境的GPU内核生成基准测试

08:00HuggingFace Daily Papers（社区热门论文）60CoSPlay：通过自生成代码与单元测试的测试时合作自博弈

08:00HuggingFace Daily Papers（社区热门论文）63揭示大型推理模型中的隐藏批判机制

08:00HuggingFace Daily Papers（社区热门论文）42视觉几何Transformer的Token选择指南

08:00HuggingFace Daily Papers（社区热门论文）66StepAudio 2.5 技术报告

08:00HuggingFace Daily Papers（社区热门论文）60大语言模型作为噪声信道：从香农视角看模型容量与缩放定律

08:00HuggingFace Daily Papers（社区热门论文）56ETCHR：通过编辑以明确和利用推理

06:35MarkTechPost（RSS）59Qwen推出Qwen3.7-Max：配备100万token上下文窗口的推理智能体模型

02:00Gary Marcus：The Road to AI We Can Trust（RSS）62精选核算OpenAI和Anthropic最新动态背后的数学

00:26The Decoder：AI News（RSS）80同事件精选OpenAI以"AI数学里程碑"突破自动推理边界，专家正在解析其意义同一事件，精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》

5月21日周四

14:58IT之家（RSS）79AI 推翻著名几何猜想，OpenAI 宣布攻克 80 年数学难题

14:10HuggingFace Daily Papers（社区热门论文）69OCTOPUS：基于八面体参数化与最优平方误差量化的Transformer优化KV缓存

14:10HuggingFace Daily Papers（社区热门论文）69只需最少RLVR训练：通过秩-1轨迹外推大语言模型

13:58IT之家（RSS）67英伟达确认新一代超级AI芯片Vera Rubin下半年推出，黄仁勋称其必将超越前代

11:09HuggingFace Daily Papers（社区热门论文）64PlanningBench：一个用于评估和训练大语言模型的可扩展、可验证规划数据生成框架

10:30公众号：智谱（GLM）44下一代大模型推理网络架构：ZCube如何有效破解网络瓶颈？

10:09HuggingFace Daily Papers（社区热门论文）58生成式递归推理

08:00HuggingFace Daily Papers（社区热门论文）46重访均匀扩散模型：留一去噪器与吸收态重构

08:00HuggingFace Daily Papers（社区热门论文）55MotiMotion：基于视觉推理的运动控制视频生成

08:00HuggingFace Daily Papers（社区热门论文）51ThriftAttention：用于长上下文FP4注意力的选择性混合精度

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月23日

08:00

HuggingFace Daily Papers（社区热门论文）

54

ECHO：终端智能体免费学习世界模型

ECHO（环境交叉熵混合目标）是一种针对CLI智能体的新训练方法。它在标准的GRPO策略梯度损失之上，增加了一个辅助损失项，训练模型预测自身动作产生的环境观察token。这将稀疏的结果奖励转化为每一轮rollout的密集监督。实验表明，在TerminalBench-2.0上，ECHO使Qwen3-8B的pass@1从2.70%提升至5.17%，Qwen3-14B从5.17%提升至10.79%。该方法无需专家示范，能使基础模型匹配专家SFT后GRPO的性能，并在部分场景下可能实现无验证器的自我改进。

智能体 arXiv 推理论文/研究

04:16

HuggingFace Daily Papers（社区热门论文）

65

现场音乐扩散模型：交互式扩散音乐生成器的高效微调与后训练

本研究探索将开源音频扩散模型改造为可在消费级硬件上运行的交互式音乐生成器。通过分析发现，传统的分块外扩扩散流程在推理时效率较低。为此，提出了现场音乐扩散模型（LMDMs），通过引入分块KV缓存优化生成过程，显著提升了推理效率。同时，LMDMs采用ARC-Forcing范式实现稳定的后训练对齐，减少了误差累积，无需依赖强化学习或奖励模型。该模型已应用于文本生成音乐、草图合成音乐及实时即兴合奏等场景，并能以“生成式延迟”效果器的形式在游戏笔记本电脑上本地运行，为音乐创作提供实时音色变换支持。

推理论文/研究部署/工程

00:30

Dwarkesh Patel：Podcast & Blog（RSS）

51

Reiner Pope - 从底层构建芯片设计

Reiner Pope 讲解了芯片设计如何从最基础的逻辑门开始，逐步构建并解释了GPU、TPU、FPGA以及人脑这几种计算架构在形态与功能上存在差异的根本原因。内容以自下而上的视角，剖析不同硬件的设计逻辑与演化路径。

推理教程/实践部署/工程

00:16

HuggingFace Daily Papers（社区热门论文）

65

通过自我调节的模拟规划实现高效智能体推理

针对当前自适应计算策略导致的推理冗长与低效问题，本文提出将智能体决策分解为模拟推理、自我调节和反应执行三系统。研究开发了SR²AM模型，其两个版本v0.1-8B和v1.0-30B分别通过提示多模块系统和重建训练推理LLM的结构化计划实现。在多项基准测试中，v1.0-30B以25.8%-95.3%更少的推理token，达到了与更大参数量系统相当的性能。引入强化学习后，模型规划深度提升22.8%，而频率仅增2.0%，表明其学会了更前瞻性的规划。这为构建高效、自适应的智能体提供了新范式。

智能体推理论文/研究部署/工程

5月22日

18:09

IT之家（RSS）

57

英伟达黄仁勋：LPX 等 SRAM AI 芯片将长期属于利基市场

英伟达CEO黄仁勋在FY2027Q1财报电话会议上表示，基于SRAM的AI推理解码芯片（如LPX）将长期处于利基市场，GPU仍为主流。他指出，LPX专为低延迟和高词元速率设计，但吞吐量和容量较低，适合软件编程中的上下文处理，却在代理式任务中表现有限。其最佳应用场景是高定价、高词元速率的AI服务，而这类服务目前在整体AI市场中占比不足20%，未来可能增至20%，因此潜在客户群体相对较少。

大佬观点推理

18:09

IT之家（RSS）

48

AMD CEO 苏姿丰：中国内地占公司营收 20%，是非常重要的市场

AMD CEO 苏姿丰表示，中国内地市场约占公司营收的20%，是一个极其重要的市场。她预测，由于AI推理和智能体AI的加速发展，过去增长缓慢的CPU市场未来五年将迎来强劲增长，年增长率预计将超过35%。此外，AMD在大中华区拥有超4000名工程师，并在多地布局了AI卓越中心。公司近期也在上海首次举办了AI开发者大会，显示了对中国市场的持续投入与承诺。

推理行业动态

18:09

IT之家（RSS）

精选70

网易有道"子曰4"多模态模型、语音合成模型全量开源

网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。其中，多模态模型（27B参数）专注于教育场景，在处理高难度视觉数理问题上达到行业顶尖水平，纯文本中文数理难题准确率为81.4%。该模型通过思维链优化，将输出长度压缩43.2%，有效降低了推理成本。同时开源的语音合成模型支持跨语种音色与情感迁移克隆，3秒内即可完成零样本复制，准确度超97%，并支持包括中、英、日、韩在内的14种语言。

多模态开源生态推理模型发布

推荐理由：有道把垂直教育的多模态模型全量开源，27B参数在视觉数理上做到SOTA，还把思维链压缩了43%，推理成本实打实下降，做教育应用的可以拿来做二次开发；TTS的跨语种情感克隆也实用，3秒克隆14种语言。

16:09

IT之家（RSS）

63

AMD 苏姿丰：CPU 目前供应紧张，未来 5 年市场年复增长率超 35%

推理行业动态

15:56

Hacker News 热门（buzzing.cc 中文翻译）

61

多流大型语言模型：关于提示、推理和I/O并行化/分离的新论文

一篇关于多流大型语言模型的新研究论文提出了将提示处理、推理计算以及输入输出过程进行分离与并行化的架构设计。该方法旨在提升大型语言模型在处理复杂任务时的效率与可扩展性，为构建更灵活、高效的AI系统提供了新的技术思路。

推理论文/研究部署/工程

15:09

IT之家（RSS）

70

美团开源 LongCat-Video-Avatar 1.5：数字人视频从"彩排"走向"真舞台"，生成 10 秒视频仅需 1 分钟

美团技术团队开源了数字人视频生成模型 LongCat-Video-Avatar 1.5。该版本在唇形同步、物理合理性、长视频稳定性和多人互动方面全面升级，支持复杂语音输入与多种主体。通过 DMD 蒸馏技术，推理效率提升约 15 倍，生成 10 秒视频仅需约 1 分钟。在性能评测中，模型在四个关键维度表现领先，用户偏好对比中胜率均超 54%，旨在推动数字人视频从技术演示走向商业应用。

开源生态推理模型发布视频

关联讨论 1 条美团 LongCat：HuggingFace 新模型

15:09

IT之家（RSS）

35

OWC 预告 Stack AI：雷电 5 外接闪存扩充本机 GPU 可用内存

OWC发布雷电5 AI加速器与存储中心Stack AI，该产品可通过高速闪存扩展本机GPU可用工作内存，使本地设备能够运行参数规模超出板载显存容量的AI模型。接口方面配备1个60W输出雷电5上行口、3个雷电5下行口和3个USB-A 10Gbps。产品将于COMPUTEX 2026首次实物展示，并计划在2026年第四季度发售。

产品更新推理端侧

13:14

HuggingFace Daily Papers（社区热门论文）

68

LatentOmni：通过统一的音视频潜在推理重新思考全模态理解

当前多模态大语言模型在音视频联合推理中存在局限，因其将连续信号压缩为离散文本，损害了时序定位能力。为此，研究提出LatentOmni框架，构建统一的潜在空间以保留密集的感官信息，并交错执行文本推理与音视频潜态更新。该方法引入特征级监督以对齐推理状态与感官特征，并利用Omni-Sync位置嵌入维持音视频潜态的时序一致性。同时，构建了包含3.5万条轨迹的LatentOmni-Instruct-35K数据集。实验证明，LatentOmni在多个基准测试中取得了开源模型的最佳性能，并优于显式文本链式推理基线。

多模态推理论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

63

智能体上下文编译：面向长上下文训练的轨迹编制方法

为解决智能体监督微调中存在的“监督空白”问题，即标准流程忽略了分散在多轮交互中回答问题所需的关键证据，本文提出智能体上下文编译方法。该方法将智能体求解问题时产生的长轨迹，转化为整合了原始问题与远距离工具响应的长上下文问答对，以此直接训练模型的长距离推理能力。实验表明，经ACC训练的轻量模型在长依赖任务上性能大幅提升，可比肩更大规模模型，同时保留通用能力，并展现出自适应的注意力重组与专家化特性。

推理数据/训练论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

精选70

Gated DeltaNet-2：解耦线性注意力中的擦除与写入

线性注意力通过固定循环状态替代无界缓存，但面临精确编辑压缩记忆的挑战。现有模型如Delta-rule与KDA使用单一标量门同时控制“擦除”与“写入”两个操作。本文提出Gated DeltaNet-2，引入独立的通道级擦除门和写入门，实现了这两个操作的解耦，从而泛化并改进了前代模型。该模型在1.3B参数规模、100B tokens训练下，在语言建模、常识推理等任务中表现优异，尤其在长上下文RULER多键检索基准上优势显著。

推理论文/研究

推荐理由：把线性注意力里擦除和写入的解耦，像给模型装了独立刹车和油门，在长上下文检索上直接拉开差距，做架构的值得细读。

10:14

HuggingFace Daily Papers（社区热门论文）

精选74

从推理链到可验证子问题：课程强化学习实现LLM推理的信用分配

针对基于结果的强化学习在处理困难推理问题时因正确样本稀少而效率低下的问题，本文提出子问题课程强化学习框架。该框架从参考推理链中提取可验证子问题，并将最终子问题固定为原始问题，从而将部分解题进展转化为可验证的学习信号。其通过在子问题位置独立归一化奖励并分配优势值，实现了更细粒度的信用分配。实验表明，SCRL显著提升了模型在多个数学推理基准上的性能，有效增强了在复杂问题上的探索与推理能力。

arXiv 推理数据/训练论文/研究

推荐理由：SCRL 将推理链解构为可验证子问题课程，让 RL 在超难数学题上获得细粒度信用分配，AIME 提点显著，做推理 RL 的团队值得复现。

10:09

IT之家（RSS）

同事件精选73

智谱GLM-5.1高速版发布：刷新全球大模型API速度纪录

5月22日，智谱向部分企业客户推出了旗舰大模型GLM-5.1的高速版API“GLM-5.1-highspeed”。该版本输出速度达400 tokens/s，刷新了全球大模型API速度上限。关键突破在于，它首次在国产大模型中实现了旗舰级能力与低延迟的结合，打破了“高速模型即轻量模型”的传统。该版本由智谱GLM团队与TileRT团队合作，通过系统级优化确保了速度的生产级稳定性，适用于AI编程、实时语音交互等场景。

推理模型发布部署/工程

同一事件，精选展示《GLM-5.1开源：一个独立工作8小时的模型》

推荐理由：智谱把旗舰模型拉到 400 tokens/s，还保持全尺寸能力，不是那种为快阉割的小模型。做实时交互、AI 编程的可以认真看看，延迟敏感场景的选型参数要重写了。

09:41

公众号：智谱（GLM）

同事件精选63

智谱推出GLM-5.1高速版

智谱发布GLM-5.1高速版，推理速度达400 tokens/s，在顶尖模型中生成速度最快。

推理模型发布部署/工程

同一事件，精选展示《GLM-5.1开源：一个独立工作8小时的模型》

推荐理由：智谱把GLM-5.1做到了400 tokens/s，虽然发布已半个月，但这是国产模型在推理速度上的新标杆，做实时应用的可以看看。

08:00

HuggingFace Daily Papers（社区热门论文）

49

多智能体强化学习何时改善LLM工作流程：工作流程、规模与策略共享的权衡

本文研究了端到端强化学习训练多智能体大语言模型工作流程的两种策略：Shared-Policy（所有角色更新同一策略）和Isolated-Policy（每个角色拥有独立参数）。实验矩阵覆盖了Eval-Opt、Voting和Orch-Workers三种工作流程，数学与代码任务，以及0.6B、1.7B、4B三种模型规模。研究发现，多智能体强化学习通常能改善基模型性能，但增益取决于工作流程、任务和模型规模的共同作用。Isolated-Policy往往能达到更高峰值准确率，但更容易出现性能悬崖；Shared-Policy训练则会将失败模式重新分配为不同的模式。策略共享并非提供均匀稳定性，而是在不同渠道分配训练压力，是一种具有工作流程和任务条件性权衡的设计选择。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

打破概率的枷锁：中立逻辑作为大语言模型认知不确定性建模的新框架

研究团队提出将中立逻辑应用于大语言模型（LLM）以建模认知不确定性。该框架将真、不确定、假视为三个独立维度，允许其值之和大于1。实验在OpenAI GPT模型家族上进行，测试了逻辑悖论等五种语言现象，并对比了三种提示策略。结果发现，中立逻辑方法在35%的评估中自发出现“超真理”状态，能更丰富地表示模型内部状态，有助于识别与量化模型冲突，为构建更透明、可靠的AI系统提供方法。

OpenAI 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

基于离散扩散模型的摊销序列蒙特卡洛对比分布匹配

离散扩散模型在生成结构化分类数据时面临从奖励倾斜分布中高效采样的挑战。扭曲序列蒙特卡洛（SMC）虽能实现渐近精确采样，但其在离散状态空间中估计最优扭曲函数需要昂贵的蒙特卡洛近似，成为推理瓶颈。为此，本文提出对比分布匹配（CDM）框架，通过学习一个参数化扭曲函数来摊销SMC推理的成本。训练时，梯度估计器被重新设计以利用离散扩散模型的闭式前向核。实验表明，评估该扭曲函数带来的额外计算开销低于基础模型单次前向传播的5%。在匹配实际耗时的条件下，CDM性能优于现有基线，并在毒性文本生成、调控DNA序列设计、蛋白质可设计性及扩散大语言模型对齐等多个任务中验证了其有效性。

arXiv 安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

FastKernels：面向生产环境的GPU内核生成基准测试

现有用于GPU内核生成的AI智能体测试基准与生产推理框架严重脱节。它们仅在单一GPU上使用合成输入评估内核，忽略了实际的编译技术栈，并奖励复现已知优化而非发现新方法。为此，我们提出FastKernels。它既是一个涵盖8个类别、46个代表性架构的内核基准（其内核覆盖了96.2%的HuggingFace Transformers架构），也是一个极简的生产级推理框架，性能与vLLM和SGLang等成熟系统相当。实验表明，最强的内核生成智能体在FastKernels上仅能实现0.94倍的整体加速，证实了基准与生产环境的错位是关键瓶颈。

开源生态推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

60

CoSPlay：通过自生成代码与单元测试的测试时合作自博弈

CoSPlay是一个无需Ground-Truth数据且无需训练的代码生成框架，其通过合作自博弈机制联合提升代码与单元测试质量。工作流程为：探索多样化方案并识别潜在失败模式以生成有区分度的单元测试；利用代码-单元测试执行矩阵中的双向通过计数信号，迭代修剪或修复弱代码、刷新或替换不可靠测试，使两个候选池协同演进；最终从最大输出共识簇中选择代码，因为正确代码对相同输入的输出一致。在四个基准测试上，应用于Qwen2.5-7B-Instruct时，将平均BoN从22.1%提升至33.2%，单元测试准确率从14.6%提升至78.3%，性能匹配或超越RLVR模型CURE-7B；应用于CURE-7B时，可进一步将BoN提升5.7%。该方法在不同骨干模型上具备泛化能力，且在可比的token预算下优于无GT数据的TTS基线，性能随预算增加持续提升。

推理编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

揭示大型推理模型中的隐藏批判机制

本研究探究了大型推理模型（LRMs）的错误恢复机制。通过在推理步骤中插入算术错误，发现了一个关键现象：即使错误贯穿整个思维链（CoT）而未被语言化纠正，模型在思考结束后仍能输出正确答案。这证明模型内部存在一种“隐藏批判能力”来检测错误并触发纠正。基于特征空间分析，研究者识别出一个可解释的批判向量来表征该行为。跨模型规模和家族的实验表明，利用此向量引导潜在表示，能在不增加训练成本的情况下，提升模型的错误检测能力并增强测试时扩展性能。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

42

视觉几何Transformer的Token选择指南

视觉几何Transformer是多视图3D重建的有力架构，但其全局注意力机制导致计算成本随输入序列长度二次增长。为此，研究提出一种通用的token选择策略，以限制每个查询交互的key/value token数量。该策略采用两阶段框架：首先在帧间通过多样性策略保留关键帧，然后在选定帧内基于注意力熵进行层级稀疏化以移除冗余token。实验表明，该方法在包含500张图像的场景中能加速超过85%，同时保持甚至提升基线性能，为该类架构提供了更优的速度-精度权衡。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

66

StepAudio 2.5 技术报告

StepAudio 2.5 是一个统一的音频-语言基础模型，能在自动语音识别（ASR）、语音合成（TTS）和实时语音交互三个任务上达到或超越专业系统水平。其核心在于将文本与音频置于共享表示空间，通过数据构建、优化目标和解码约束的差异化设置实现任务专精。该模型的后训练范式以任务定制的强化学习（RLHF）为核心机制，并配合专门的解码策略，将共享主干塑造成三种操作模式：ASR分支提升转录效率；TTS分支实现可控、富有表现力的合成；实时分支则达成低延迟、角色一致的对话。在标准基准测试中，StepAudio 2.5 在三项任务上均取得最优结果，证明单一基础模型能够有效内化语音理解、生成和实时交互的不同部署目标。

多模态推理论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

60

大语言模型作为噪声信道：从香农视角看模型容量与缩放定律

现有大语言模型缩放定律多为单调幂律，无法解释灾难性过训练或量化等非单调现象。研究提出Shannon Scaling Law，将LLM训练建模为基于Shannon-Hartley定理的噪声信道信息传输，模型参数映射为信道带宽，训练token映射为信号功率。该框架揭示LLM存在基本容量极限：若无法维持足够信噪比，盲目扩大规模将放大噪声，导致性能从单调改进转为U型退化。在Pythia和OLMo2模型上的实验验证了该定律能准确捕捉性能谷底，并具备外推能力：用不超过6.9B参数、180B token训练的模型，可预测未见过的12B模型在307B token时的表现，池化R²达0.847。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

ETCHR：通过编辑以明确和利用推理

多模态大语言模型在视觉推理中面临纯文本思维链的瓶颈。现有“以图像思考”方法受限于固定工具箱或生成噪声图像。ETCHR是一种与理解模型解耦的、问题条件的感知推理图像编辑器，针对语言端与生成端两个缺陷进行两阶段训练：先通过监督微调进行推理模仿，再使用VLM奖励进行推理增强。该编辑器可免训练方式适配不同开源与闭源多模态大语言模型。在五个任务族上的评估显示，ETCHR分别将通义千问（Qwen3-VL-8B）的平均Pass@1从55.95提升至60.77，Gemini-3.1-Flash-Lite从65.08提升至70.55，以及月之暗面（Kimi K2.5）从76.55提升至81.16。

多模态推理论文/研究

06:35

MarkTechPost（RSS）

59

Qwen推出Qwen3.7-Max：配备100万token上下文窗口的推理智能体模型

在2026年阿里云峰会上，阿里巴巴的Qwen团队发布了其迄今最先进、最全面的智能体模型Qwen3.7-Max。该模型核心特点是具备100万token的超长上下文窗口，并引入扩展思考模式，专为代码编写、调试及多步骤工作流自动化等长周期任务设计。在Artificial Analysis Intelligence Index评测中，该模型获得56.6分，在所有专有模型中排名第五。

智能体推理模型发布编码

02:00

Gary Marcus：The Road to AI We Can Trust（RSS）

精选62

核算OpenAI和Anthropic最新动态背后的数学

OpenAI与Anthropic近期相继发布重要产品更新。Claude 3.5 Sonnet在多项基准测试中超越GPT-4o，同时宣布API价格下调50%。Anthropic披露其模型训练成本年均增长约3.2倍，而OpenAI被曝已通过企业服务实现单季度超10亿美元营收。两家公司在技术突破与商业化竞赛中，正通过精密的成本核算与性能权衡重塑行业格局。

Anthropic OpenAI 大佬观点推理

推荐理由：Gary Marcus觉得OpenAI的数学奇迹更可能是模型营销，Anthropic的盈利全靠SpaceX折扣，提醒你别急着下结论，AI的现实没那么简单。

00:26

The Decoder：AI News（RSS）

同事件精选80

OpenAI以"AI数学里程碑"突破自动推理边界，专家正在解析其意义

OpenAI的推理模型证伪了数学家保罗·埃尔德什在1946年提出的关于单位距离几何的猜想。该模型运用了代数数论领域的工具，而专家此前从未预料到这些工具会在此类问题中发挥作用。菲尔兹奖得主蒂姆·高尔斯称此成果为“AI数学发展的里程碑”，并警告称，我们可能已经进入一个人类在解决数学问题方面很难与AI竞争的时代。这项进展标志着自动化推理能力的重要突破。

OpenAI 推理论文/研究

同一事件，精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》

推荐理由：这可能是 AI 首次在严肃数学研究里推翻一个 80 年未解决的正经猜想，菲尔兹奖得主 Tim Gowers 直接说‘人类将很难在数学上胜过 AI’，不是 hype，是界限真的被推了一把。

5月21日

14:58

IT之家（RSS）

79

AI 推翻著名几何猜想，OpenAI 宣布攻克 80 年数学难题

OpenAI宣布其全新推理模型成功解决了一道提出近80年的几何猜想，推翻了关于最优解形态的长期认知。该猜想由保罗·埃尔德什于1946年提出，长期以来数学家认为其最优解接近正方形网格。OpenAI模型发现了一类更优的全新构造体系，这是人工智能首次自主攻克数学核心领域的重大未解难题。多位数学家为该证明提供了佐证。OpenAI表示，这意味着AI已具备更强推理能力，并将对科学多领域产生深远影响。

OpenAI 推理论文/研究

关联讨论 14 条TechCrunch：AI（RSS）X：Greg Brockman (@gdb)X：Kim (@kimmonismus)X：OpenAI (@OpenAI)X：阿易 AI Notes (@AYi_AInotes)X：AI Safety Memes (@AISafetyMemes)X：Rohan Paul (@rohanpaul_ai)OpenAI：官网动态（RSS · 排除企业/客户案例）X：Noam Brown (@polynoamial)X：Oran Ge (@oran_ge)Hacker News 热门（buzzing.cc 中文翻译）X：Emad Mostaque (@EMostaque)The Decoder：AI News（RSS）X：Sam Altman (@sama)

14:10

HuggingFace Daily Papers（社区热门论文）

69

OCTOPUS：基于八面体参数化与最优平方误差量化的Transformer优化KV缓存

本文提出了OCTOPUS，一种用于Transformer长上下文推理的新型KV缓存压缩方法。它通过联合量化旋转后的坐标三元组来优化现有旋转编码器的性能。其核心在于将每个三元组的方向通过八面体参数化映射至正方形，并对量化坐标与三元组范数实施最优平方误差量化，从而实现了一种仅依赖于键总维度的严格非均匀比特分配策略。实验表明，OCTOPUS在文本、视频和音频任务上，在所有测试的比特宽度和指标上均达到或超越了此前的旋转编码器，并在极端压缩时优势尤为显著。此外，其融合Triton实现能在线重建键值，不引入额外的解码带宽或延迟。

arXiv 多模态推理论文/研究

14:10

HuggingFace Daily Papers（社区热门论文）

69

只需最少RLVR训练：通过秩-1轨迹外推大语言模型

研究发现，强化学习与可验证奖励训练大语言模型时，权重变化轨迹具有极低的秩且高度可预测，性能增益主要由秩-1逼近捕获，且随训练步骤线性演化。基于此，提出RELEX方法，仅需从短观察窗口估计秩-1子空间，通过线性外推预测后续检查点，无需学习模型。在多个模型上，RELEX仅需15%的完整训练步骤，即可在域内和域外基准上匹配或超越RLVR性能，并能以零额外成本外推至观察窗口的10-20倍，性能持续提升。成功源于秩-1投影实现的“去噪”效应，有效剔除随机优化噪声。

开源生态推理数据/训练论文/研究

13:58

IT之家（RSS）

67

英伟达确认新一代超级AI芯片Vera Rubin下半年推出，黄仁勋称其必将超越前代

英伟达公布第一季度财报，营收达创纪录的816亿美元，同比增长85%。公司确认下一代超级AI芯片Vera Rubin将于今年下半年推出，第三季度开始交付，第四季度上量加速。CEO黄仁勋表示，Vera Rubin开局良好，推理市场份额增长迅速，肯定会比Grace Blackwell更成功。该芯片已基于3nm工艺量产，试产计划于2026年6月启动，首批产品7月将运往微软、谷歌等北美大客户，其AI服务器机柜价值约1.8亿美元。

产品更新推理部署/工程

11:09

HuggingFace Daily Papers（社区热门论文）

64

PlanningBench：一个用于评估和训练大语言模型的可扩展、可验证规划数据生成框架

本文提出了PlanningBench框架，旨在为评估与训练大语言模型生成可扩展、多样且可验证的规划数据。框架源于真实场景，抽象出包含30余种任务类型、约束与难度因素的结构化分类体系，并基于此实现了约束驱动的数据合成流程，该流程具备自适应难度控制、质量过滤与实例级验证能力。研究利用该框架评估了前沿大模型，发现其在耦合约束下仍难以生成完整解决方案。此外，基于PlanningBench数据的强化学习不仅提升了模型在未知规划任务上的表现，也增强了其指令遵循能力，并表明明确的最优解能提供更稳定的训练信号。

arXiv 推理数据/训练论文/研究

10:30

公众号：智谱（GLM）

44

下一代大模型推理网络架构：ZCube如何有效破解网络瓶颈？

智谱（GLM）提出ZCube，这是一种专为下一代大模型设计的推理网络架构，目标在于有效破解大规模模型推理时面临的网络瓶颈问题。

推理教程/实践部署/工程

10:09

HuggingFace Daily Papers（社区热门论文）

58

生成式递归推理

GRAM（生成式递归推理模型）框架将递归潜状态推理从确定性单一路径转变为概率性的多路径计算。它允许模型在推理时生成多种假设与替代解决策略，并可通过增加递归深度或并行采样来扩展计算能力。该框架通过摊销变分推断训练，形成了一个支持条件推理与无条件生成的潜变量生成模型。实验表明，GRAM在结构化推理及多解约束满足任务上优于确定性循环与递归基线模型，并具备了独立的无条件生成能力。

arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

重访均匀扩散模型：留一去噪器与吸收态重构

研究揭示均匀扩散模型（UDM）的标准参数化与训练目标存在失配。提出“留一去噪器”，即在预测干净token时不依赖其自身噪声观测的后验，并推导了其与标准去噪器、分数函数的精确转换关系。进一步通过“吸收态重构”，将UDM联合分布分解为类掩码扩散操作，从而简化了去噪后验。在语言建模中，留一参数化稳定提升了UDM生成效果，吸收态构建匹配或超越了掩码扩散模型。实验表明，经验差距主要源于参数化与采样设计，而非边际分布选择本身。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

MotiMotion：基于视觉推理的运动控制视频生成

该研究指出当前运动控制视频生成模型存在轨迹僵硬、因果不完整的问题。为此，MotiMotion框架将运动控制重新定义为“先推理再生成”的任务。其核心是利用一个无需训练的视觉语言推理器来完善主轨迹坐标，并“幻想”出合理的次要运动。同时，框架引入置信度感知控制方案，根据计划的可信度调整引导强度。为系统评估，研究还构建了新的运动交互基准MotiBench。评估表明，MotiMotion能生成物体行为和交互更合理可信的视频，效果优于现有方法。

图像生成推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

ThriftAttention：用于长上下文FP4注意力的选择性混合精度

针对长上下文场景下FP4量化推理的质量下降问题，ThriftAttention提出了一种低比特注意力变体。该方法首先通过启发式策略快速识别出少量关键的query-key块对，对其使用FP16精度计算，其余块使用FP4计算。最后，两路计算结果通过在线softmax合并。实验表明，仅对5%的块使用FP16计算，该方法就能平均恢复FP4与FP16间89.1%的性能差距，且优势随序列长度增加而更加显著。

推理论文/研究部署/工程

1…14 151617 18…30