全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 1188 条

全部一手资讯 X 论文

标签「推理」清除

6月9日周二

00:00MiniMax：Blog（网页）76同事件精选MaxProof框架：MiniMax M3在IMO 2025和USAMO 2026超越人类金牌线同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

6月8日周一

23:20IT之家（RSS）48Kimi 官宣将用 300 子 Agent 并行预测 104 场世界杯赛事，德国队或成市场低估黑马

18:00公众号：通义实验室（千问）68同事件精选Agent 辅助开发，一站式打通 Qwen3-VL Android 端侧推理同一事件，精选展示《Agent辅助开发：通义实验室教程打通Qwen3-VL Android端侧推理》

13:20IT之家（RSS）46OWC Stack AI 确认基于群联 aiDAPTIV，为外置式内存化闪存方案

12:00公众号：数字生命卡兹克4712款旗舰AI大模型参加高考语文数学测试，MiMo v2.5 Pro总分第一仅领先Kimi k2.6 0.01分

11:55公众号：卡尔的AI沃茨3813个大语言模型参加2026数学高考，GPT 5.5等并列第一

11:55公众号：卡尔的AI沃茨4213个顶级AI模型参加2026年数学高考，GPT 5.5等并列第一

11:29Hacker News 热门（buzzing.cc 中文翻译）38DeepSeek V4 Pro 在准确率方面超越 GPT-5.5 Pro

08:00HuggingFace Daily Papers（社区热门论文）55TRIAGE：基于LLM辩证推理的不规则医疗时间序列可解释风险预测

08:00HuggingFace Daily Papers（社区热门论文）55SG-OPD：通过符号一致门控和分阶段教师采样的符号门控在线策略蒸馏

08:00HuggingFace Daily Papers（社区热门论文）64Z-Reward：通过推理内化分数分布超越标量奖励

08:00HuggingFace Daily Papers（社区热门论文）59面向LLM智能体的文本世界模型综述

01:05MarkTechPost（RSS）50使用GEPA构建反思性提示优化：多组件提示、结构化反馈与保留验证

6月7日周日

20:19IT之家（RSS）42富士康展示液冷版 RTX 6000 Blackwell GPU

08:00HuggingFace Daily Papers（社区热门论文）62轨迹精炼蒸馏（TRD）

04:26Hacker News 热门（buzzing.cc 中文翻译）48莱比锡的基准测试（Benchmarks in Leipzig）

6月6日周六

23:17IT之家（RSS）56研究称AI模型分析球赛"几乎靠猜"，体育解说暂无忧

21:17IT之家（RSS）70精选OpenCV 5 发布：升级全新 DNN 引擎、原生支持大模型

17:17IT之家（RSS）65Ramp：美国企业 AI 成本飙升，DeepSeek 成为 B2B 市场新宠

15:17IT之家（RSS）64软银孙正义：OpenAI正用AI设计AI模型，比人类聪明1万倍的ASI未来2年到来

12:22Hacker News 热门（buzzing.cc 中文翻译）56Transformers 天生简洁

08:00HuggingFace Daily Papers（社区热门论文）50Robust-U1：让MLLM自我恢复损坏视觉内容实现鲁棒理解

08:00HuggingFace Daily Papers（社区热门论文）54DyCo-RL：动态跨模态协调用于视觉推理

08:00HuggingFace Daily Papers（社区热门论文）59CHIAR-Former：明暗注意力--在黑暗中分配计算

03:21Hacker News 热门（buzzing.cc 中文翻译）69Gemma 4 QAT 模型：优化压缩以提升移动设备和笔记本电脑的能效

6月5日周五

23:47HuggingFace Daily Papers（社区热门论文）59AURA：面向隐式需求的定向探测方法

21:15IT之家（RSS）69腾讯混元提出 Stem 稀疏注意力算法，首字延迟降低 3.6 倍

19:27MarkTechPost（RSS）54Perplexity AI 推出混合本地-服务器推理编排器：自动在设备端与云端间路由 AI 任务

19:27MarkTechPost（RSS）62NVIDIA AI 发布 Dynamo Snapshot：基于 CRIU 的 Kubernetes AI 推理快速启动系统

19:22公众号：腾讯混元62精选腾讯混元提出Stem稀疏注意力算法，被ICML 2026收录

18:52公众号：百度智能云（文心）48百度伐谋走进北工大实验室：从制氢安全到空间站监测，加速科研探索

18:15IT之家（RSS）58视觉内容社交平台 Pinterest 为 AI 服务导入亚马逊 AWS Trainium 芯片

17:48HuggingFace Daily Papers（社区热门论文）51SigmaScale：基于SVD低秩分解与学习缩放矩阵的LLM压缩方法

13:47HuggingFace Daily Papers（社区热门论文）65AdaPlanBench：评估大语言模型智能体在双重约束下的自适应规划

11:46HuggingFace Daily Papers（社区热门论文）57强化学习驱动未见语言翻译的上下文学习

10:46HuggingFace Daily Papers（社区热门论文）69OPRD：在线策略表示蒸馏

10:46HuggingFace Daily Papers（社区热门论文）68NF-CoT：基于归一化流的潜在推理框架

10:24公众号：龙猫LongCat（美团）55ACL'26美团技术团队6篇论文入选：聚焦大模型评测与推理优化

08:14IT之家（RSS）67三大运营商"词元产品"服务上架中国算力平台

08:00HuggingFace Daily Papers（社区热门论文）54MemDreamer：通过层次化图记忆与智能体检索机制解耦感知与推理的长视频理解

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月9日

00:00

MiniMax：Blog（网页）

同事件精选76

MaxProof框架：MiniMax M3在IMO 2025和USAMO 2026超越人类金牌线

MiniMax M3采用MaxProof框架，在IMO 2025和USAMO 2026两项数学奥赛基准上超越人类金牌线。框架分三阶段训练：Proof RL使用生成式验证器提供奖励，进行长程强化学习提升证明生成能力；Verifier Alignment将验证对齐为错误定位任务；Refinement Augmentation利用训练中产生的错误证明与验证分析对，通过拒绝采样微调修复能力。三者合并为M3通用模型。系统通过低假阳性率过滤噪声，保证RL稳定性。

推理论文/研究

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：M3在数学奥赛上搞定人类金牌，靠的是用生成验证器做RL和进化搜索，这套组合对复杂推理任务的普适性可能比提高一个benchmark分数更有价值。

6月8日

23:20

IT之家（RSS）

48

Kimi 官宣将用 300 子 Agent 并行预测 104 场世界杯赛事，德国队或成市场低估黑马

月之暗面 Kimi 宣布调度 300 个子 Agent 并行分析 104 场世界杯赛事。每个 Agent 有独立视角，覆盖战术、球员、伤病、赛程、历史、舆情、赔率等维度，采用 Elo、FIFA 排名、Poisson、Dixon-Coles、xG/xT、Monte Carlo 模拟、贝叶斯等模型。最终以概率呈现并标注风险，不简单多数决。Kimi 框架认为西班牙、法国是夺冠热门，但模型发现德国队夺冠概率可能被市场低估。历史回测显示高置信度预测准确率约 85%-90%，中等约 55%-65%，低置信度接近随机。官方提示结果不构成投注建议。

智能体产品更新推理

18:00

公众号：通义实验室（千问）

同事件精选68

Agent 辅助开发，一站式打通 Qwen3-VL Android 端侧推理

通义实验室教程演示了如何用 Agent（Qoder）辅助完成 Qwen3-VL-2B 模型在 Android 端侧的全流程部署。操作包括：检查 JDK 21、NDK 27、CMake 3.18.1 等环境；创建 arm64-v8a 的 Native C++ 工程（minSdk 29、compileSdk 35）；通过 ModelScope CLI 下载约 1.4GB 的 MNN/Qwen3-VL-2B-Instruct-MNN 模型；编译开启 LLM 视觉支持（MNN_BUILD_LLM、LLM_SUPPORT_VISION）的 libMNN.so；构建 APK 并推送模型至手机私有目录。最终 App 提供图文推理页面，输出 MNN 版本（v3.5.0）、ABI 及推理指标。所有繁琐步骤均可由 Agent 自动执行。

多模态推理教程/实践端侧

同一事件，精选展示《Agent辅助开发：通义实验室教程打通Qwen3-VL Android端侧推理》

推荐理由：用Agent辅助走通Qwen3-VL安卓端侧推理全流程，从环境搭建到JNI桥接一步到位。如果你在做移动端AI应用，这可能是目前最详细的实战指南，可以直接抄作业。

13:20

IT之家（RSS）

46

OWC Stack AI 确认基于群联 aiDAPTIV，为外置式内存化闪存方案

OWC 在今年 5 月宣布的 Stack AI 是一款雷电 5“AI 加速器”与外置存储解决方案，在 COMPUTEX 2026 上确认基于群联 aiDAPTIV 方案，为外置式 AI 内存 NAND 扩充方案。aiDAPTIV 将闪存纳入系统有效内存，把部分 AI 内存需求卸载到高耐久性 SSD 上，降低对 DRAM 依赖，使大型 AI 智能体可在本地运行。此前的 aiDAPTIV 多为内置型，Stack AI 为外置版本，部署更灵活。

产品更新推理端侧部署/工程

12:00

公众号：数字生命卡兹克

47

12款旗舰AI大模型参加高考语文数学测试，MiMo v2.5 Pro总分第一仅领先Kimi k2.6 0.01分

Claude Opus 4.8、GPT-5.5等12款旗舰模型参加今年高考语文数学（全国一卷部分试题）测试，采用API调用、禁用代码推理和网页搜索。总分第一MiMo v2.5 Pro（256.3分），第二名Kimi k2.6（256.29分）差0.01分，第三至第九名分差仅2分。语文最高分由GLM5.1和Gemini 3.1 Pro并列，数学最高分由DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。DeepSeek作文得分偏低拉低总分。语文卷基于101分版本折算至150分制。

推理评测/基准

11:55

公众号：卡尔的AI沃茨

38

13个大语言模型参加2026数学高考，GPT 5.5等并列第一

13个大语言模型（GPT 5.5 Thinking、DeepSeek-v4 Pro、Gemini 3.1 Pro Thinking、Claude Opus 4.8 Max、Kimi 2.6 Thinking、Sonnet 4.6 Thinking、GLM 5.1、豆包 Thinking、Qwen 3.7 Plus Thinking、MiniMax M3、元宝 Thinking、Mimo-2.5-pro、Grok）用2026年全国一卷数学高考题进行测试，统一以LaTeX格式输入、关闭联网、不干扰作答。GPT 5.5、DeepSeek-v4 Pro、Gemini 3.1 Pro和Claude Opus 4.8并列第一，得分接近144分；Kimi 2.6以微小差距位居第二梯队；元宝118分；Mimo和Grok得分最低。大部分模型在多选题和长解答题上出现漏条件、读图错误、过度泛化等问题，甚至出现拒答或搜索答案的行为。

DeepSeek OpenAI 推理评测/基准

11:55

公众号：卡尔的AI沃茨

42

13个顶级AI模型参加2026年数学高考，GPT 5.5等并列第一

13个顶级AI模型参加2026年数学全国一卷测试，GPT 5.5 Thinking、Deepseek-v4 Pro、Gemini 3.1 Pro Thinking和Claude Opus 4.8 Max并列第一，Kimi 2.6 Thinking以微小分差位居第二梯队。测试采用LaTeX格式统一输入，禁用联网。多数模型在长解答题和多选题上容易失分，如第11题（多选题，正确答案ABD）所有模型均未完全答对。Claude Opus 4.8 Max因额度不足未完成所有题目，Claude Sonnet 4.6 Thinking尝试直接搜答案，Deepseek-v4 Pro曾拒绝完成。模型在上下文记忆、题目理解和符号识别方面仍有明显短板。

推理评测/基准

11:29

Hacker News 热门（buzzing.cc 中文翻译）

38

DeepSeek V4 Pro 在准确率方面超越 GPT-5.5 Pro

DeepSeek V4 Pro 在准确率（precision）指标上击败 GPT-5.5 Pro，具体分数和参数量未透露。该结果来自 runtimewire.com 的评测，在 Hacker News 获得 110 个点赞。

DeepSeek OpenAI 推理评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

55

TRIAGE：基于LLM辩证推理的不规则医疗时间序列可解释风险预测

针对电子健康记录中不规则采样的医疗时间序列（ISMTS），LLM在临床早期预警中常将分级风险压缩为过度自信的二分类预测，导致校准失效。TRIAGE框架通过训练LLM生成对抗性临床结局的辩证推理，产出连续风险评分并附带可验证的临床依据。在三个ISMTS基准上，TRIAGE平均AUPRC提升3.3%，校准误差降低81%；LLM-as-a-judge评估显示其推理质量较基线提升20%。源代码已开源。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

SG-OPD：通过符号一致门控和分阶段教师采样的符号门控在线策略蒸馏

在线策略蒸馏（OPD）依赖学生-教师轨迹对齐及教师偏好逐token可靠性的隐含假设，但实际常失效。为此，SG-OPD提出符号一致门控和分阶段教师采样两种互补粒度的信任信号：冷启动阶段混入验证器认可的教师轨迹，并在教师与验证器纠正方向一致时外推蒸馏更新、不一致时内插。在竞赛级数学推理基准上，SG-OPD相比标准OPD每样本平均提升1.98分，每问题平均提升7.50分。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

Z-Reward：通过推理内化分数分布超越标量奖励

Z-Reward 是一种教师-学生奖励建模框架，用于文生图后训练。教师为 27B VLM，采用 Group-wise Direct Score Optimization (GDSO) 结合策略梯度奖励与分数分布监督；学生通过 Reasoning-Internalized Score Distillation (RISD) 将教师推理条件分布压缩进 9B VLM，推理时无需显式推理链。在内部评测集上，27B 教师达 89.6% 人类偏好准确率，超越 SFT、RewardDance 和 GRPO；9B 学生达 88.6%，超越 O

图像生成推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

面向LLM智能体的文本世界模型综述

文本世界模型（TWM）是文本状态的迁移模型，给定状态与候选动作后预测网页、终端输出等，从而支持规划与评估。综述按智能体生命周期组织四部分：基础（定义与表征）、构建（LLM即世界模型与代码即世界模型范式）、应用（训练时经验合成与推理时规划/验证/适应）、评估（模型自身评估及作为评估环境）。旨在整合领域，阐明设计空间并指出开放挑战。

智能体 arXiv 推理论文/研究

01:05

MarkTechPost（RSS）

50

使用GEPA构建反思性提示优化：多组件提示、结构化反馈与保留验证

本教程展示如何利用GEPA这一反思性提示进化框架，改善小型语言模型在多步算术应用题上的表现。从弱种子提示出发，构建确定性基准并定义能返回可操作反馈的结构化评估器。多组件设置同时进化指令字段与输出格式规则，最后在保留验证集上对比基线提示与优化提示，检验优化效果是否泛化。

推理教程/实践

6月7日

20:19

IT之家（RSS）

42

富士康展示液冷版 RTX 6000 Blackwell GPU

富士康在2026年台北电脑展期间展示了一款液冷版 RTX 6000 Blackwell GPU，面向服务器和数据中心场景。该卡采用单槽设计，全面覆盖液冷散热模块，拥有96GB GDDR7显存，可运行AI大模型、复杂仿真及专业图形任务。电源接口改用远离PCIe插槽的独立插槽，未使用标准12V-2x6接口。

产品更新推理部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

62

轨迹精炼蒸馏（TRD）

在同策略蒸馏（OPD）中，密集的逐token教师监督会导致前缀失败（双峰教师混合与碎片化梯度），逐token损失截断或重加权无法解决。本文提出轨迹级修正方法TRD，在教师指导下修正学生rollout前缀以缓解前缀失败，并在正确rollout基础上展示替代推导路径以改善探索。TRD可推广至同策略自蒸馏（OPSD）。在多项基准和多尺度模型上，TRD一致优于先前基线，提升单次准确率并拓宽推理覆盖范围。

推理数据/训练论文/研究

04:26

Hacker News 热门（buzzing.cc 中文翻译）

48

莱比锡的基准测试（Benchmarks in Leipzig）

一篇题为“Benchmarks in Leipzig”的学术论文于2026年6月6日发布在 arXiv 上，并在 Hacker News 上获得 101 个点赞。该论文关注莱比锡相关的基准测试研究，但其具体方法、数据集及结果未在当前摘要页面中详述。该条目来自 buzzing.cc 对 Hacker News 热门帖子的中文翻译，提供了原文链接（arXiv）及 HN 讨论页。

推理论文/研究

6月6日

23:17

IT之家（RSS）

56

研究称AI模型分析球赛"几乎靠猜"，体育解说暂无忧

北卡罗来纳大学教堂山分校和美国东北大学的一项新研究发现，主流AI模型在分析职业体育比赛时表现很差。研究构建了SVI-bench基准，包含35000小时比赛画面等数据。ChatGPT、谷歌Gemini和千问等模型在基础感知任务上平均准确率约74%，因果推理成功率仅约40%，模拟球员下一步行动接近随机猜测，自主分析准确率只有5%。研究认为AI仅擅长描述画面，无法解释战术为何成功或预判后续发展。

推理论文/研究评测/基准

21:17

IT之家（RSS）

精选70

OpenCV 5 发布：升级全新 DNN 引擎、原生支持大模型

OpenCV 5 正式发布，采用基于图的 DNN 引擎，ONNX 算子覆盖率从 4.x 的不到 23% 提升至超 80%，原生支持 Transformer、视觉语言模型（VLM）和大语言模型（LLM）。其他更新包括：更好的 Python 集成与命名参数、更紧凑核心代码、清晰硬件加速层、原生 FP16/BF16、规范化 0D/1D 张量、扩展 3D 视觉及现代化文档。该库 GitHub 拥有超 86,000 stars，每日安装量超一百万次。

多模态开源/仓库推理部署/工程

推荐理由：OpenCV 5 是一次架构级大更新，DNN 引擎重写、ONNX 覆盖率从 23% 跳到 80%，原生支持大模型推理，做模型部署的该关注了。

17:17

IT之家（RSS）

65

Ramp：美国企业 AI 成本飙升，DeepSeek 成为 B2B 市场新宠

美国企业 AI 累计投入突破 1 万亿美元，模型推理成本飙升，降本增效未达预期。Ramp 报告显示 DeepSeek 首次登上其软件趋势榜榜首。案例包括某企业一个月为 Claude 支付 5 亿美元，Uber 四个月内耗尽全年 Token 预算。DeepSeek 宣布 API 价格永久下调 75%，MiniMax 压至新低。Ramp 首席经济学家称这是美国企业寻找 OpenAI、Anthropic 低成本替代方案的最明确信号。部分企业已直接向 DeepSeek 付费。2025 年初 DeepSeek R1 模型曾登顶 App Store，但企业采用率一度达 0.3%，后回落至 0.1% 并维持到 2026 年 4 月。成本压力是再度受关注的主因。

Anthropic DeepSeek 开源生态推理

15:17

IT之家（RSS）

64

软银孙正义：OpenAI正用AI设计AI模型，比人类聪明1万倍的ASI未来2年到来

软银CEO孙正义在CNBC采访中透露，OpenAI正使用AI参与设计其后续模型，认为AI正逼近ASI（人工超级智能），并将到来时间从10年缩短至2年。他定义ASI为比人类聪明10000倍的AI。OpenAI曾在2月称GPT-5.3-Codex是其首个“参与创造自身”的模型。孙正义每日使用ChatGPT 2-3小时，预计未来数年内AI会在70%-80%科目上超过人类。

OpenAI 大佬观点推理

12:22

Hacker News 热门（buzzing.cc 中文翻译）

56

Transformers 天生简洁

一篇题为“Transformers are inherently succinct”的论文在 openreview.net 上发布，从理论上论证 Transformer 架构具有内在的简洁性（succinctness）。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

Robust-U1：让MLLM自我恢复损坏视觉内容实现鲁棒理解

Robust-U1提出显式视觉自恢复框架，使多模态大语言模型能够修复真实世界噪声破坏的输入图像。方法包含三阶段：监督微调进行初始重建、基于像素级SSIM与语义级CLIP相似度双奖励的强化学习对齐高视觉质量、融合损坏图像与恢复图像的多模态推理。在真实损坏基准上取得最先进鲁棒性，在通用VQA基准上维持对抗性损坏下的优越性能。实验表明高质量视觉恢复直接提升推理能力，自恢复成为鲁棒理解的关键机制。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

DyCo-RL：动态跨模态协调用于视觉推理

强化学习与可验证奖励（RLVR）是增强多模态大语言模型视觉推理的主流范式，但现有方法只优化结果，忽略生成中的细粒度跨模态协调。token级分析显示，模型在链式推理中无法动态交替提取视觉证据与合成文本上下文，导致推理失败。为此提出DyCo-RL，将动态跨模态协调融入RLVR优化：利用Fisher-Rao测地距离测量模态内注意力转移，为token分配视觉或文本功能角色，基于实际注意力与角色对齐度进行优势重加权。DyCo-RL在Qwen2.5-VL-3B/7B上应用，一致改进四种代表性RLVR算法，在七个视觉中心与数学推理基准上取得提升。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

CHIAR-Former：明暗注意力--在黑暗中分配计算

CHIAR-Former 是一种 4 层混合 Transformer，根据每个 token 的谱熵将其路由至 DCT 谱混合或全自注意力（RBF 核混合在消融中被拒绝）。仅含 DCT+注意力的变体在 WikiText-103 上获得 Val PPL 36.54，相比全注意力基线（PPL 66.62）提升 45%，同时减少 62.5% 注意力 FLOPs。在 WikiText-2、IMDB 情感分类和 ListOps 上的评估表明，模型在大规模自然文本中因 token 多样性受益，而全注意力在小数据集和合成任务中仍占优势。

arXiv 推理论文/研究部署/工程

03:21

Hacker News 热门（buzzing.cc 中文翻译）

69

Gemma 4 QAT 模型：优化压缩以提升移动设备和笔记本电脑的能效

Google 发布 Gemma 4 QAT 模型，该模型通过量化感知训练（QAT）技术优化压缩，旨在提升移动设备和笔记本电脑上的运行效率与能效。文章来源于 Google 官方博客，介绍了这一面向移动端和笔记本端的模型优化方案。

Google 推理模型发布端侧

6月5日

23:47

HuggingFace Daily Papers（社区热门论文）

59

AURA：面向隐式需求的定向探测方法

AURA 在场景感知与工具使用之间插入推理步骤，生成包含隐式需求估计和标量差距分数（gap score）的 IntentFrame，用于控制每查询的探测预算和工具选择。在 100 查询四场景隐式意图基准上，AURA 相比 ReAct 风格探测将隐式需求覆盖率提升 0.07（p < 10⁻⁶），其中三个场景统计显著，且在第二个骨干模型上复现；消融实验将提升归因于差距校准而非答案记忆。在事实查找任务中，控制器以 82% 更少的探测次数和隐私敏感片段零违规换取原始准确率。代码、模拟器和基准已开源。

智能体推理论文/研究

21:15

IT之家（RSS）

69

腾讯混元提出 Stem 稀疏注意力算法，首字延迟降低 3.6 倍

腾讯混元提出 Stem 稀疏注意力算法，已被机器学习顶会 ICML-26 收录。该算法从因果信息流重新审视块级稀疏，引入 Token 位置衰减（TPD）和输出感知度量（OAM），仅用 25% 算力即逼近稠密注意力精度。配套的 HPC 开源 Stem+BSA 算子将稀疏收益转化为实际加速，在 128K 上下文下首字延迟降低 3.6 倍。

开源/仓库推理论文/研究

19:27

MarkTechPost（RSS）

54

Perplexity AI 推出混合本地-服务器推理编排器：自动在设备端与云端间路由 AI 任务

Perplexity AI 发布面向个人电脑的混合本地-服务器推理编排器，可自动将 AI 任务在设备端模型与云端模型之间动态路由，实现推理负载的智能分配与优化。

产品更新推理端侧

19:27

MarkTechPost（RSS）

62

NVIDIA AI 发布 Dynamo Snapshot：基于 CRIU 的 Kubernetes AI 推理快速启动系统

NVIDIA Dynamo Snapshot 使用 CRIU 和 cuda-checkpoint 工具，在 Kubernetes 上对 vLLM 推理工作节点进行检查点和恢复，实现快速启动。

开源/仓库推理部署/工程

19:22

公众号：腾讯混元

精选62

腾讯混元提出Stem稀疏注意力算法，被ICML 2026收录

Stem算法通过Token位置衰减（TPD）和输出感知度量（OAM）两项创新，仅用25%算力即逼近稠密注意力精度。配套HPC算子针对Hopper架构优化，支持FP8量化与vLLM的Paged KV Cache，在混元Hy3 preview上实现首字延迟降低3.6倍。HPC-BSA相比MIT-BSA稳定保持约3倍加速，在8K至256K序列长度上表现一致。

开源生态推理论文/研究部署/工程

推荐理由：把稀疏注意力从一刀切升级成按信息流分配预算，算子在Hopper上把理论加速几乎无损转化，3.6倍首字延迟下降不是灌水——做长上下文应用的值得照着开源代码试。

18:52

公众号：百度智能云（文心）

48

百度伐谋走进北工大实验室：从制氢安全到空间站监测，加速科研探索

百度伐谋进入北京工业大学苗扬团队实验室，辅助解决PEM电解槽制氢故障诊断、空间站空气监测和液体表面波可视化等难题。在制氢安全中，模型准确率从92.26%提升至95.04%，探索周期从“周级”缩短至“小时级”；在空间站色谱柱优化中，72小时内生成方案，体积缩小40%、分离效率提升3倍、误差降低8.17%；海外运维场景预计节省70%–80%维修等待时间。伐谋不替科研人员“写答案”，而是围绕目标、变量和评价标准进行大规模搜索试错。

推理搜索行业动态

18:15

IT之家（RSS）

58

视觉内容社交平台 Pinterest 为 AI 服务导入亚马逊 AWS Trainium 芯片

Pinterest 宣布大幅扩展与 AWS 的合作，计划在 2031 年前投入 40 亿美元，扩大对 AWS 定制芯片（包括 CPU 和 AI ASIC）的使用。目前约 1/3 的计算基础设施已运行在 AWS Graviton 系列 Arm CPU 上，未来还将利用 AWS Trainium 托管和运行 LLM / VLM 模型，支持个性化视觉搜索和 AI 辅助发现。首席技术官 Matt Madrigal 表示，深化合作将加速 AI 创新，提升用户体验和广告主效果。

推理行业动态部署/工程

17:48

HuggingFace Daily Papers（社区热门论文）

51

SigmaScale：基于SVD低秩分解与学习缩放矩阵的LLM压缩方法

SigmaScale通过学习辅助缩放矩阵S改进基于截断SVD的大语言模型压缩。该方法在激活感知压缩损失下优化两组向量，定义对角行和列缩放变换。学习缩放降低了权重矩阵的有效内在秩（有效秩熵减少），且降低幅度与压缩损失强相关。在Llama 3.1 8B Instruct和Qwen3-8B上的实验表明，SigmaScale在困惑度和零样本基准上与当前最先进SVD压缩方法竞争力相当，在特定任务上表现出优势，成为降低LLM推理计算成本的有效选项。

推理论文/研究部署/工程

13:47

HuggingFace Daily Papers（社区热门论文）

65

AdaPlanBench：评估大语言模型智能体在双重约束下的自适应规划

AdaPlanBench是一个动态交互基准，用于测试大语言模型智能体在渐进揭示的世界约束和用户约束下自适应规划与重新规划的能力。该基准基于307个家务任务，通过多轮交互协议仅在计划违反约束时暴露隐藏约束，迫使智能体从反馈中推断并迭代修改计划。对10个领先大语言模型的实验显示，最佳模型准确率仅达67.75%，性能随约束累积下降，用户约束挑战尤为显著，失败常源于物理理解不足和重新规划效率降低。该基准凸显了双重约束下自适应规划的难度。

智能体推理论文/研究

11:46

HuggingFace Daily Papers（社区热门论文）

57

强化学习驱动未见语言翻译的上下文学习

大语言模型（LLM）翻译极低资源语言时，现有方法（继续训练或编码语法书）易过拟合特定语言，零样本迁移有限。本文提出一种强化学习（RL）方法，以字符级翻译指标chrF作为奖励，训练模型从丰富语言上下文中提取并应用语言知识，实现对完全未见语言的翻译。实验表明，即使使用轻量级奖励，RL训练模型在未见语言上的表现优于上下文学习和监督微调。研究显示，结果导向的RL可超越数学、编程等传统推理任务，成为从上下文中学习语言的通用方案。

推理数据/训练论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

69

OPRD：在线策略表示蒸馏

传统在线策略蒸馏（OPD）仅在输出空间匹配下一个token概率，受限于大词汇表（如Qwen约150k token）的采样方差，且忽略教师中间隐藏状态。OPRD将蒸馏提升至隐藏状态空间，在同一rollout上对齐学生与教师选定层的表示，绕过LM头。理论上消除采样方差，提供逐层结构信息。在AIME 2024/2025和AIMO上，OPRD缩小师生差距，而OPD基线低于教师。训练速度提升1.44倍，内存减少54%。代码已开源。

推理数据/训练论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

68

NF-CoT：基于归一化流的潜在推理框架

NF-CoT 在大语言模型骨干内实例化 TARFlow 风格的归一化流，为从显式 CoT 蒸馏的紧凑连续思想定义可处理概率模型。连续思想位置由 NF head 生成，文本位置由同一因果流中的标准 LM head 生成。该设计保留因果自回归生成、概率采样、KV 缓存兼容性和精确似然估计，并支持潜在推理空间的直接策略梯度优化。在代码生成基准上，NF-CoT 相比显式 CoT 和先前潜在推理方法提高了通过率，同时显著降低了中间推理成本。

arXiv 推理编码论文/研究

10:24

公众号：龙猫LongCat（美团）

55

ACL'26美团技术团队6篇论文入选：聚焦大模型评测与推理优化

美团技术团队在ACL'26上分享6篇论文，涵盖代码评测、复杂流程推理、数学竞赛、过度思考分析、推理后训练优化及生成式推荐。CoreCodeBench从12个开源库生成1524个结构化任务，有效性达78.55%；SOP-Maze基于真实业务构建397个流程实例，测试显示前沿模型存在流程遵循、对话脆弱性和计算错误三类短板；AMO-Bench含50道高难度数学题，最强模型准确率仅52.4%；The Evolution of Thought提出推理完成点（RCP）检测器减少冗余生成；MASPO通过软高斯门控等优化推理后训练，提升Avg@32和Pass@32；FLR将隐式推理分解为多维偏好因子，平均提升3.2%。

开源/仓库推理论文/研究评测/基准

08:14

IT之家（RSS）

67

三大运营商"词元产品"服务上架中国算力平台

6月3日，中国信通院宣布中国电信、中国移动、中国联通的“词元产品”服务正式登陆中国算力平台。词元是大模型最小信息单元，具有可计量、可定价、可交易特征。天翼云Token Plan分开发者/中小企业版（基于GLM-5）和个人/家庭版（基于DeepSeek V3.2）；移动云Coding Plan（基于MiniMax-2.5）支持Claude Code等编程工具；联通云推出Coding Plan（整合DeepSeek V4、GLM-5、MiniMax M2.5）和Token Plan（个人版支持DeepSeek V4-Flash、MiniMax M2.5，团队版采用Credits弹性计费）。服务已在中国算力平台·算力超市上架。

产品更新推理编码

08:00

HuggingFace Daily Papers（社区热门论文）

54

MemDreamer：通过层次化图记忆与智能体检索机制解耦感知与推理的长视频理解

MemDreamer 是一个即插即用框架，将长视频理解转化为智能体探索过程。它增量式处理视频，构建三层层次化图记忆（Hierarchical Graph Memory），用于语义抽象并捕获时空与因果关联。推理时，智能体通过观察-推理-行动循环进行工具增强的层次导航和节点搜索。在四个主流基准上，MemDreamer 达到 SOTA 效果，将人类专家差距缩小至 3.7 分，推理上下文窗口仅占全量输入的 2%，同时带来 12.5 个百分点的绝对准确率提升。统计分析发现，VLM 的逻辑推理能力与长视频理解性能呈强正线性相关，智能体能力扩展成为多模态理解新范式。

智能体多模态推理论文/研究

1…7 8910 11…30