6月1日

19:11

Ars Technica：AI（RSS）

OpenAI 数学突破发挥 AI 优势

作者尝试对 OpenAI 的数学突破解决方案进行更清晰的解释，声称其解释比 OpenAI 自己的表述更为明晰。

OpenAI 推理现象/趋势

17:05

IT之家（RSS）

高通发布数据中心品牌 Dragonfly

高通在COMPUTEX 2026上宣布推出数据中心品牌Dragonfly，预计包含数据中心CPU与AI ASIC产品，并与客户端的骁龙、AIoT的Dragonwing共同构成新品牌组合。CEO安蒙预测，到2030年AI Token（词元）需求将达到401.48×10^16。更多细节将于6月24日揭晓。

产品更新推理部署/工程

13:04

IT之家（RSS）

英伟达 Vera 处理器发布：专为 AI 智能体打造，OpenAI、SpaceXAI、字节跳动都要用

英伟达在2026年台北电脑展上正式推出Vera处理器。这是一款专为AI智能体设计的CPU，速度比x86处理器快1.8倍。它配备88个Olympus CPU核心和LPDDR5X内存子系统，内存带宽达1.2TB/s。作为Vera Rubin平台的主机CPU，Vera通过NVLink-C2C技术提供高达1.8TB/s的一致性带宽。首批客户包括OpenAI、Anthropic、SpaceXAI、字节跳动、纽约证券交易所等，计划于今年秋季上市。

产品更新推理

13:04

IT之家（RSS）

"全球最强大的桌面 AI 超级计算机"，英伟达 DGX Station for Windows 发布

产品更新推理

13:04

IT之家（RSS）

英伟达推出 Alpamayo 2 Super 开源推理模型，助力 L4 自动驾驶研发

英伟达开源了 Alpamayo 2 Super 视觉-语言-动作（VLA）模型，参数规模从 100 亿增至 320 亿。该模型支持 360 度感知与推理式自动标注，专为研发 L4 自动驾驶设计。模型可通过知识蒸馏压缩，部署于 DRIVE AGX Thor 芯片。代码与权重将在夏季于 GitHub 和 Hugging Face 开源。

具身智能多模态推理模型发布

12:03

IT之家（RSS）

英伟达黄仁勋称"AI 减少岗位是胡说八道"，软件工程师数量在增加

英伟达 CEO 黄仁勋在台北电脑展表示，AI减少岗位的说法是胡说八道，实际上软件工程师数量正在增加。他认为“有用”的AI时代已至，token是新的利润单位，AI是GDP生成器。同时，黄仁勋称下一代超级AI芯片Vera Rubin是其最雄心勃勃的产品，由4万名工程师参与研发，将于今年下半年推出，他预计其将比Grace Blackwell更加成功。

推理行业动态部署/工程

12:03

IT之家（RSS）

至高 480GB 内存，英特尔进一步介绍数据中心 GPU "Crescent Island"

英特尔介绍了将于今年晚些时候推出的AI推理数据中心GPU "Crescent Island"。该卡支持从FP4到FP64的数据类型，配备至高480GB LPDDR5x内存，采用350W PCIe AIC设计，主打每瓦词元效率并拥有开源软件生态。其Xe3P GPU架构将应用于PC、数据中心、边缘及工作站领域，包括下一代PC芯片。

产品更新推理

12:03

IT之家（RSS）

同事件精选81

黄仁勋：英伟达下一代 AI 超级芯片平台 Vera Rubin 全面投产

英伟达 CEO 黄仁勋在 2026 台北电脑展宣布，下一代 AI 超级芯片平台 Vera Rubin 全面投产。该平台是 POD 级基础架构，与上一代 Grace Blackwell 平台相比，其大规模智能体吞吐量提高了 10 倍。凭借开源 MGX 设计，其供应链规模是 Grace Blackwell 的两倍，产品预计于今年秋季开始发货。

推理数据/训练模型发布

同一事件，精选展示《NVIDIA Vera Rubin 平台如何解决智能体 AI 的规模扩展问题》

推荐理由：Vera Rubin 全面投产，智能体吞吐量提升 10 倍，供应链规模翻倍，这是英伟达给 AI 算力瓶颈的一记重拳，做智能体应用的同行该开始计划升级硬件了。

11:39

MiniMax：Blog（网页）

精选83

MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型

MiniMax M3 是一个开源前沿模型，具备先进的编码与AI智能体能力。它支持100万token的超长上下文窗口，并采用名为MSA（MiniMax Sparse Attention）的新型稀疏注意力架构。该架构使模型在100万token上下文下的每token计算成本降至前代的1/20，预填充速度提升9倍以上，解码速度提升15倍以上。在SWE-Bench Pro编码基准上，MiniMax M3得分59.0%，超越GPT-5.5和Gemini 3.1 Pro，性能接近Opus 4.7。该模型可通过MiniMax Code、Token Plan和API服务使用。

多模态开源/仓库推理模型发布

关联讨论 11 条

推荐理由：MiniMax M3 把开源模型的编码能力推到了 GPT-5.5 和 Opus 4.7 这条线上，还附带 1M 上下文和原生多模态，这是开源社区真正能打的前沿选项，做 Agent 的值得立刻跑一下。

09:28

IT之家（RSS）

戴尔向 CoreWeave 交付全球首套可运行的 NVIDIA Vera Rubin NVL72 系统

推理行业动态部署/工程

09:28

IT之家（RSS）

首个三项能力兼备的国产旗舰模型：MiniMax M3 发布，百万上下文、原生多模态

MiniMax 发布旗舰大语言模型 M3，宣称是首个同时具备编码与智能体能力、百万上下文与原生多模态的国产模型。模型基于自研 MSA 架构，API 上下文窗口最高支持 1M tokens，保障至少 512K 可用。在 BrowseComp 智能体评测中，M3 以 83.5 分超越 Opus 4.7（79.3）。官方提供 M3 与 M3-highspeed 两个版本 API，标准版定价为输入 2.1 元、输出 8.4 元/百万 tokens（上下文≤512K，限时五折），并即将在 HuggingFace 与 GitHub 开源。

智能体多模态推理模型发布

关联讨论 11 条

09:23

公众号：MiniMax（稀宇科技）

MiniMax M3 发布：1M 上下文、原生多模态、前沿编程与 Agent 能力

MiniMax M3 今日发布，采用自研 MSA 稀疏注意力架构，支持 1M 上下文窗口，100 万上下文下每 token 计算量仅为上代 1/20，prefilling 加速超 9 倍，decoding 加速超 15 倍。它是原生多模态模型，支持图片、视频输入及 Computer Use。Coding 与 Agent 能力在 SWE-Bench Pro（59.0%）、Terminal Bench 2.1（66.0%）等基准达到前沿水平。M3 是国内首个同时具备 1M 上下文、原生多模态、前沿编程与 Agent 能力的开源模型。API 已开放，按上下文分两档计价，上线首 7 天 512k 及以下 5 折。同步推出 MiniMax Code Agent 与 Token Plan 订阅（¥49/月起）。预计 10 天内发布技术报告并开源模型权重。

智能体多模态推理模型发布

关联讨论 11 条

08:00

HuggingFace Daily Papers（社区热门论文）

2FFS：面向随机Minimax树的双保真度最优动作识别算法

针对深度极小极大搜索与蒙特卡洛树搜索（MCTS）中启发式评估廉价但有偏、准确rollout可靠但昂贵的权衡，提出2FFS，一种双保真度树搜索算法。该算法将多保真度平坦bandit思想引入树结构，结合minimax式快速扩展与MCTS式随机采样，自适应决定何时利用廉价评估、何时调用昂贵准确评估。理论证明固定置信度正确性与有限终止性，并给出多项式深度成本上界。数值实验表明，相比现有BAI-MCTS基线，2FFS所需样本和计算操作显著更少。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LayerRoute：面向智能体语言模型的输入条件自适应LoRA层跳过微调

针对智能体语言模型中工具调用（短、确定、低困惑度）与规划推理（长、复杂、高困惑度）步骤异构但计算均分的问题，LayerRoute为Qwen2.5-0.5B-Instruct的24层transformer每层添加路由器和LoRA适配器（rank 8，约1.08M参数），仅训练1.10M参数（占494M主干0.22%），3000步（6.4分钟A100 40GB）后实现12.91%跳过差分：工具调用跳过15.25% FLOPs，规划步骤仅跳过2.34%，困惑度分别下降-1.29和-1.30。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AdaCodec：用于视频多模态大模型的预测性视觉编码

AdaCodec是一种预测性视觉编码，仅在场景难以从先前上下文预测时向参考帧分配完整视觉token，否则将帧间变化（运动与预测残差）编码为紧凑的P-tokens。在全部11项基准测试中，AdaCodec在同等视觉token预算下优于Qwen3-VL-8B逐帧RGB基线。即便在1/7预算下，使用32k tokens的AdaCodec在所有长视频基准上超越了224k基线；在五项通用视频基准上平均得分提升，同时首token延迟从9.26秒降至1.62秒。

多模态推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

深度研究智能体轨迹中的跨度级错误定位研究

深度研究型AI智能体通过搜索、工具调用等长轨迹执行任务，但最终答案评估无法揭示轨迹中导致错误的环节。研究针对跨度级错误定位，从两个框架、三个模型和三个基准中收集2790条真实轨迹，经LLM辅助专家标注后构建1000实例的评测基准TELBench。同时提出以主张为中心的审计框架DRIFT，追踪智能体主张并核对轨迹证据支持度。实验表明，DRIFT在跨度级错误定位和首次错误准确率上提升高达30个百分点。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大语言模型多领域强化学习中的干扰与恢复的局部微扰理论

研究发现，对大语言模型进行单一领域（如数学、代码）的强化学习后训练，会对其他领域产生干扰，即使全模型梯度近似正交也会发生。论文提出了一个局部微扰模型来解释此现象：干扰主要通过一个集中在低维共享冲突子空间中的二阶损害项发生。理论证明，一次简短的领域刷新可以收缩该子空间中的有害分量，从而实现选择性恢复。实验表明，在经历代码→数学→问答→创作写作的序列训练后，进行Re-Math刷新可将数学性能恢复，同时基本保持其他领域表现。

推理数据/训练论文/研究

5月31日

11:24

IT之家（RSS）

乐道沈斐总结焕新款 L60 汽车六大维度升级关键信息，称智驾进入第一梯队

产品更新推理端侧

08:24

IT之家（RSS）

IT早报 0531：微软宣布下周携手英伟达开启 PC 新时代；深圳网约车市场已饱和官方发风险提示；苹果 iPhone 18 机模曝光；MiniMax 启动 A 股 IPO 进程…

小米公布其 MiMo 模型推理系统的全链路优化技术细节，核心是通过 Hybrid SWA 架构将 KVCache 存储压缩至 1/7，并结合分级缓存与调度，显著降低长序列推理成本，最高降价达 99%。此外，AI 独角兽 MiniMax 已与中信证券签署辅导协议，正式启动 A 股 IPO 进程。

推理行业动态部署/工程

08:24

IT之家（RSS）

消息称因战略分歧，三星与 OpenAI 定制 AI 芯片研发项目陷入停滞

据韩媒报道，三星为 OpenAI 定制研发基于 ARM 架构的推理型神经网络处理器（NPU）项目因双方战略分歧已陷入停滞。据报道指出，三星可能转而为 Anthropic 代工人工智能芯片。尽管芯片合作受阻，三星与 OpenAI 在其他领域仍有合作，例如共建人工智能数据中心及供应存储芯片。

Anthropic OpenAI 推理行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

人工推理之谜：探究大型推理模型的生成-评估差距

人类评估推理通常比亲自推理差6%，但大型推理模型（LRM）存在显著生成-评估差距。基于VAIR数据集（含琐碎推理错误但答案正确的数学题）的测试显示，前沿LRM评估解题过程得分低至48%，尽管能近乎完美地生成正确答案。链式思维分析发现LRM存在答案确认偏差：先得答案再检查，而非逐句验证，甚至会编造合理化解释。线性探针和因果修补实验证实答案正确性主导判断，揭示当前推理训练方法在培养稳健评估能力上的根本缺陷。

安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

信任函数：通过学习何时信任弱教师实现近乎无损的弱到强泛化

弱到强泛化研究如何利用较弱教师的监督信号来提升强学生模型，核心挑战在于筛选出足够可靠的弱标签。信任函数为每个弱标签分配一个标量信任分数，并据此过滤弱监督信号。在世界知识、定量推理和策略游戏等多个领域，信任过滤训练出的学生模型能够匹配甚至超越基于真实标签监督的模型，实现近乎无损的弱到强泛化。此外，信任函数支持迭代式弱到强链——将训练好的学生作为下一轮教师，叠加增益效果。其优势可归因于多种机制。

arXiv 安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

反射性智能体中的记忆虚构现象

研究发现，基于Reflexion的智能体依赖自我生成的反思作为记忆，但在ALFWorld和HumanEval任务中会系统性失败：智能体存储了自信但错误的任务解释，并在环境每次重置为正确任务的情况下仍持续按错误解释行动。该现象被命名为“记忆虚构”。作者提出Reflection Repetition Rate（RRR），一种基于日志的指标，用于检测对错误反思内容的重复依赖，并据此识别出ALFWorld中16个冻结环境（121条反思中0条提及正确目标对象）以及HumanEval中4个类似案例。缓解方案用程序化提取轨迹级失败信号替代开放式自我诊断，使正确提及目标对象从0%提升至86%，RRR从0.64降至0.10，并解决了16个冻结环境中的3个。

智能体 arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OmniOPD：基于推测验证的无需logits在线策略蒸馏

OmniOPD是一种无需教师token级logits的在线策略蒸馏框架。它通过蒙特卡洛展开在多token块上以连续语义相似度近似教师偏好，并用峰值熵调度器仅在高不确定性推理分叉处施加监督，同时以Dirichlet-Multinomial贝叶斯先验和基模型KL锚点防止策略坍塌。在数学基准上，OmniOPD相比标准OPD提升高达28.64%；与Claude-4.5-Haiku和Gemini-2.5-Flash等黑箱教师配合时，额外相对提升9.54%，令学生模型超越自我探索强化学习。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LongAttnComp：面向长上下文推理的跨模型族上下文压缩

LongAttnComp 是一种针对长上下文适配的方法，它通过微调一个轻量级跨注意力评分层，并引入了 token 级分块、token 预算 top-p 算法、位置重排和格式无关查询解析器。该方法采用两阶段微调：第一阶段基于 NIAH 风格数据构建通用检索基础，第二阶段通过多跳和推理数据进行扩展。实验表明，在 InfiniteBench Code-Debug 上，LongAttnComp 能够匹配或超越全上下文精度，并显著优于无训练基线。在 LongBench v2 上，两阶段配方在多文档推理任务上有效缩小了性能差距，同时保持了代码调试性能，并可跨三个模型族的四个目标模型进行转移。

arXiv 推理编码论文/研究

5月30日

20:14

The Decoder：AI News（RSS）

陶哲轩认为 AI 可为数学带来史上首次分工

数学家陶哲轩阐述了 AI 如何通过首次实现分工来重塑数学研究。目前，研究者需亲力亲为完成从问题建模到结果验证的全过程。陶哲轩预见“工业数学”的出现：由大型 AI 辅助团队取代孤军奋战的天才，而人类在提供“灵感性猜想”方面仍不可或缺。

大佬观点推理

19:21

IT之家（RSS）

小米 MiMo-V2.5 系列 API 永久降价并公开推理优化方案

小米 MiMo-V2.5 系列 API 完成永久降价，最高降幅达 99%。其技术基础是公开的推理系统全链路优化方案：针对 Hybrid SWA + MoE + 多模态的复合架构，系统性重构了 KVCache 管理、分级缓存、前缀缓存与调度策略。核心优化包括将 KVCache 存储压缩至约 1/7，线上前缀缓存命中率平均达 93%，TTFT P90 降低 30%，Prefill 性能提升约 40%，Decode 阶段前 128 token 加速比达 2.3×。多模态视频处理端到端延时从 156 秒降至 23 秒。该方案宣称是业内首篇全面覆盖此类复合架构的大规模工程落地方案，模型能力无缩减。

推理教程/实践部署/工程

18:39

公众号：小米 MiMo

MiMo-V2.5 系列推理全链路优化：将 Hybrid SWA 效率推向极致

小米发布 MiMo-V2.5 系列模型（含 MiMo-V2.5、MiMo-V2.5-Pro），采用 Hybrid Sliding Window Attention（Hybrid SWA）架构，KVCache 存储与计算量均降至 Full Attention 的约 1/7。以 MiMo-V2.5-Pro 为例，70 层中仅 10 层为 Full Attention，60 层为 SWA（窗口大小 128）。团队围绕 KVCache 系统重构（双池管理、按层异步拉取、SWA-aware 前缀缓存树）及分布式缓存 GCache 等环节优化，使存储效率提升约 7×，显著降低长上下文推理成本。

推理教程/实践部署/工程

10:21

IT之家（RSS）

新一代全域智能操作系统麒麟 100 正式发布：打通移动与桌面生态，支持双系统无感切换

麒麟软件在天津2026世界智能产业博览会上发布了麒麟100智联操作系统。该系统采用自主可信内核与轻量级虚拟化技术，通过“平行视界”等模式，深度打通移动与桌面生态，支持双系统并行运行与无感切换，实现数据互通。系统全面适配智能手机、平板、笔记本等多类终端，实现无线互联与“一机双屏双系统”协同。安全方面构建了涵盖全栈国密、分层隔离与可信子系统的三重防护体系。智能化方面，系统深度优化端侧AI引擎，支持大模型智能路由调度与多智能体协同推理。

产品更新推理端侧

08:00

HuggingFace Daily Papers（社区热门论文）

OCC-RAG：为忠实问答优化的最优认知核心

OCC-RAG 是 Optimal Cognitive Core (OCC) 家族中专为忠实问答优化的 SLM。研究团队通过大规模合成多上下文、多跳 QA 数据（超300万样本）训练出 0.6B 和 1.7B 两个版本。模型生成结构化推理轨迹并引用原文证据。在 HotpotQA、MuSiQue、TAT-QA（多跳推理）、ConFiQA（忠实性）和 MuSiQue-Un（拒答）基准上，性能匹配或超越 2-6 倍规模的通用模型。

arXiv 检索增强推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FineVerify：用于智能体搜索的细粒度自验证框架

FineVerify是一种提升智能体搜索任务表现的自验证框架。它通过将问题分解为可验证的子问题，对采样出的候选答案进行逐一验证，并选择聚合得分最高的答案。在四个智能体搜索基准测试中，该框架效果显著：仅用四个采样轨迹，就能将GPT-5-mini的准确率提升8.2个百分点，将Gemini-3-flash平均提升5.6%。使用12个样本时，它能使GPT-5-mini在BrowseComp-Plus上超越前沿模型GPT-5。此外，该框架还能生成可解释的验证轨迹，有助于审查基准测试错误。相关代码与数据已开源。

智能体 arXiv 推理论文/研究

07:32

HuggingFace Daily Papers（社区热门论文）

为何远处看向上方：探查视觉语言模型中的空间表征

视觉语言模型（VLMs）在空间推理基准上表现优异，但其理解是否基于真正的3D结构尚不明确。研究通过构建对比嵌入对进行表征分析，发现多个模型族存在一致的“垂直距离纠缠”现象，即模型将图像垂直位置与空间距离混淆，这模仿了自然照片的透视偏差。该偏差导致模型在透视一致与反直觉案例间准确率差距显著，且随数据规模扩大而加剧，即使基准分数提升。分析还表明，基准分数相似的模型可能具有不同的内部表征，这能预测其在不同任务中的准确率与鲁棒性。为隔离数据集偏差，团队推出了合成基准SpatialTunnel，实验证实该纠缠是模型固有属性，空间轴分离度更高的模型表现更鲁棒。

多模态推理论文/研究

05:40

Hacker News 热门（buzzing.cc 中文翻译）

精选70

Liquid AI 公布了在 38T 数据集上训练的 8B-A1B MoE 模型

Liquid AI 发布了其 LFM2-5 系列的 8B-A1B 模型，该模型采用混合专家（MoE）架构，在包含 38T token 的数据集上训练完成。

智能体推理模型发布端侧

推荐理由：Liquid AI 把推理和工具调用塞进了消费级硬件，笔记本上跑 250 token/s，边缘 Agent 有了一个能打的离线选项。性能不算顶尖，但‘全本地’这个特性，对隐私敏感的场景是真卖点。

05:16

TechCrunch：AI（RSS）

英伟达200亿美元"非收购雇佣"后，AI芯片初创公司Groq据报道正融资6.5亿美元

AI芯片初创公司Groq计划进行一轮6.5亿美元的内部融资。该公司正从硬件制造转型，将业务重心更多地转向AI推理服务。

推理行业动态

03:16

TechCrunch：AI（RSS）

你听过这些AI术语但一知半解？让我们来弄清楚

AI的兴起带来了大量新术语与行话。文章提供了一份术语表，对其中最重要的一些词汇和短语进行了解释。

推理教程/实践

02:00

OpenRouter：Announcements（RSS）

精选77

OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7

一组预算模型通过OpenRouter平台进行模型融合，在包含100个复杂研究任务的评估中，得分超过了GPT-5.5与Claude Opus 4.7。

智能体产品更新推理搜索

关联讨论 1 条

推荐理由：OpenRouter 的 Fusion 功能把模型融合做成了 API 调用，实测用便宜模型组合就能逼近 Fable 5 的性能，成本却只有一半，这对做复杂推理和深度研究的开发者来说是个很实用的新工具。

01:45

TechCrunch：AI（RSS）

继英伟达200亿美元交易后，AI芯片初创公司Groq据称将融资6.5亿美元

AI芯片初创公司Groq计划融资6.5亿美元，将业务重心从硬件制造转向AI推理，专注于优化AI模型响应提示请求的过程。

推理行业动态

5月29日

23:10

Hacker News 热门（buzzing.cc 中文翻译）

在标准GPU上进行实时大语言模型推理：单次请求生成速度达3k tokens/s

该技术成果展示了在标准GPU硬件上实现大语言模型实时推理的可能性。核心性能指标为单次请求的生成速度可达到3000个tokens每秒（3k tokens/s per request）。这一结果表明，对于特定场景或模型配置，即使在非专用集群的常规计算设备上，也能实现高速的模型输出，对于降低大语言模型的使用门槛和成本具有参考意义。

推理教程/实践部署/工程

22:30

HuggingFace Daily Papers（社区热门论文）

可恢复思维程序：基于检查点修复的RePoT方法

RePoT是一种确定性验证重放方法，用于修复思维程序推理中产生的无效动作。当生成的Python轨迹出现无效状态转换时，它会回溯到已验证的前缀状态，并通过一次额外的大语言模型调用来恢复推理。在PuzzleZoo-775基准测试中，RePoT比PoT高出+3至+11个百分点，并在gpt-5.4-mini-medium上达到96.9%的准确率。可控恢复基准Derail-550的实验表明，检查点信息是关键的恢复信号。初步提出的自适应RePoT通过规则调度器在修复与重试间进行选择。

智能体 arXiv 推理论文/研究

21:15

TechCrunch：AI（RSS）

芯片初创公司 XCENA 融资 1.35 亿美元，押注 AI 最大瓶颈不是算力而是内存

韩国芯片初创公司 XCENA 获得 1.35 亿美元融资。该公司认为，AI 当前面临的真正瓶颈并非算力，而是内存。

推理行业动态部署/工程