AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
6月1日周一
12:03IT之家(RSS)64英伟达黄仁勋称"AI 减少岗位是胡说八道",软件工程师数量在增加
12:03IT之家(RSS)49至高 480GB 内存,英特尔进一步介绍数据中心 GPU "Crescent Island"
12:03IT之家(RSS)81同事件精选黄仁勋:英伟达下一代 AI 超级芯片平台 Vera Rubin 全面投产同一事件,精选展示《NVIDIA Vera Rubin 平台如何解决智能体 AI 的规模扩展问题》
11:46MiniMax (official)69MiniMax M3模型现已上线CREAO平台
11:39MiniMax:Blog(网页)83精选MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型
09:28IT之家(RSS)69戴尔向 CoreWeave 交付全球首套可运行的 NVIDIA Vera Rubin NVL72 系统
09:28IT之家(RSS)70首个三项能力兼备的国产旗舰模型:MiniMax M3 发布,百万上下文、原生多模态
09:23公众号:MiniMax(稀宇科技)65MiniMax M3 发布:1M 上下文、原生多模态、前沿编程与 Agent 能力
08:07OpenCode63MiniMax M3即将发布,可免费试用
08:00HuggingFace Daily Papers(社区热门论文)352FFS:面向随机Minimax树的双保真度最优动作识别算法
08:00HuggingFace Daily Papers(社区热门论文)45LayerRoute:面向智能体语言模型的输入条件自适应LoRA层跳过微调
08:00HuggingFace Daily Papers(社区热门论文)52AdaCodec:用于视频多模态大模型的预测性视觉编码
08:00HuggingFace Daily Papers(社区热门论文)62深度研究智能体轨迹中的跨度级错误定位研究
08:00HuggingFace Daily Papers(社区热门论文)61大语言模型多领域强化学习中的干扰与恢复的局部微扰理论
01:20SemiAnalysis30超低延迟AI的溢价空间待验证
5月31日周日
15:48Rohan Paul59戴尔交付全球首个Nvidia Vera Rubin NVL72机架
13:35AYi66Codex四大模型选购指南:如何按需省钱
13:11郭明錤|Ming-Chi Kuo61Nvidia N1X处理器供应链信息出炉,设备端AI算力仍属小众
11:24IT之家(RSS)43乐道沈斐总结焕新款 L60 汽车六大维度升级关键信息,称智驾进入第一梯队
10:49SemiAnalysis61CoreWeave与Dell率先宣布通过Rubin VR200 NVL72诊断
08:24IT之家(RSS)42IT早报 0531:微软宣布下周携手英伟达开启 PC 新时代;深圳网约车市场已饱和官方发风险提示;苹果 iPhone 18 机模曝光;MiniMax 启动 A 股 IPO 进程…
08:24IT之家(RSS)53消息称因战略分歧,三星与 OpenAI 定制 AI 芯片研发项目陷入停滞
08:00HuggingFace Daily Papers(社区热门论文)62人工推理之谜:探究大型推理模型的生成-评估差距
08:00HuggingFace Daily Papers(社区热门论文)48信任函数:通过学习何时信任弱教师实现近乎无损的弱到强泛化
08:00HuggingFace Daily Papers(社区热门论文)42反射性智能体中的记忆虚构现象
08:00HuggingFace Daily Papers(社区热门论文)62OmniOPD:基于推测验证的无需logits在线策略蒸馏
08:00HuggingFace Daily Papers(社区热门论文)61LongAttnComp: 面向长上下文推理的跨模型族上下文压缩
00:34Berryxia.AI51小米MiMo-V2.5降价背后的技术重构
5月30日周六
20:14The Decoder:AI News(RSS)53陶哲轩认为 AI 可为数学带来史上首次分工
19:44Xiaomi MiMo56MiMo-V2.5系列推理优化详解
19:21IT之家(RSS)61小米 MiMo-V2.5 系列 API 永久降价并公开推理优化方案
18:55Fuli Luo63MiMo-V2.5 系列 API 降价背后的推理优化
18:46Chubby♨️46期待下一次迭代会更好:如果GPT-5.6没有改进将令人惊讶
18:39公众号:小米 MiMo59MiMo-V2.5 系列推理全链路优化:将 Hybrid SWA 效率推向极致
17:16Rohan Paul63字节跳动开发自研CPU芯片,以支持AI智能体大规模部署
10:21IT之家(RSS)48新一代全域智能操作系统麒麟 100 正式发布:打通移动与桌面生态,支持双系统无感切换
08:18SemiAnalysis67NVLink多播在Blackwell机密计算中受限致性能下降
08:00HuggingFace Daily Papers(社区热门论文)55OCC-RAG:为忠实问答优化的最优认知核心
08:00HuggingFace Daily Papers(社区热门论文)65FineVerify:用于智能体搜索的细粒度自验证框架
07:32HuggingFace Daily Papers(社区热门论文)61为何远处看向上方:探查视觉语言模型中的空间表征
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月1日
12:03
IT之家(RSS)
64
英伟达黄仁勋称"AI 减少岗位是胡说八道",软件工程师数量在增加

英伟达 CEO 黄仁勋在台北电脑展表示,AI减少岗位的说法是胡说八道,实际上软件工程师数量正在增加。他认为“有用”的AI时代已至,token是新的利润单位,AI是GDP生成器。同时,黄仁勋称下一代超级AI芯片Vera Rubin是其最雄心勃勃的产品,由4万名工程师参与研发,将于今年下半年推出,他预计其将比Grace Blackwell更加成功。

推理行业动态部署/工程
12:03
IT之家(RSS)
49
至高 480GB 内存,英特尔进一步介绍数据中心 GPU "Crescent Island"

英特尔介绍了将于今年晚些时候推出的AI推理数据中心GPU "Crescent Island"。该卡支持从FP4到FP64的数据类型,配备至高480GB LPDDR5x内存,采用350W PCIe AIC设计,主打每瓦词元效率并拥有开源软件生态。其Xe3P GPU架构将应用于PC、数据中心、边缘及工作站领域,包括下一代PC芯片。

产品更新推理
12:03
IT之家(RSS)
同事件精选81
黄仁勋:英伟达下一代 AI 超级芯片平台 Vera Rubin 全面投产

英伟达 CEO 黄仁勋在 2026 台北电脑展宣布,下一代 AI 超级芯片平台 Vera Rubin 全面投产。该平台是 POD 级基础架构,与上一代 Grace Blackwell 平台相比,其大规模智能体吞吐量提高了 10 倍。凭借开源 MGX 设计,其供应链规模是 Grace Blackwell 的两倍,产品预计于今年秋季开始发货。

推理数据/训练模型发布
同一事件,精选展示《NVIDIA Vera Rubin 平台如何解决智能体 AI 的规模扩展问题》
推荐理由:Vera Rubin 全面投产,智能体吞吐量提升 10 倍,供应链规模翻倍,这是英伟达给 AI 算力瓶颈的一记重拳,做智能体应用的同行该开始计划升级硬件了。
11:46
MiniMax (official)@MiniMax_AI
69
@CreaoAI 行动迅速 🔥 M3在第一天就上线了,快去试试 【引用 @CreaoAI】:MiniMax M3现已在CREAO上线。 采用稀疏注意力推理,在长上下文下解码速度最高提升15.6倍,专为需要处理海量代码库、文档和转录文本而不减速的智能体打造。 从模型下拉菜单中选择M3即可运行。⚡

Creao AI: MiniMax M3 is now live on CREAO. Sparse-attention reasoning with up to 15.6× faster decoding at long context, built for ...

智能体推理模型发布
11:39
MiniMax:Blog(网页)
精选83
MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型

MiniMax M3 是一个开源前沿模型,具备先进的编码与AI智能体能力。它支持100万token的超长上下文窗口,并采用名为MSA(MiniMax Sparse Attention)的新型稀疏注意力架构。该架构使模型在100万token上下文下的每token计算成本降至前代的1/20,预填充速度提升9倍以上,解码速度提升15倍以上。在SWE-Bench Pro编码基准上,MiniMax M3得分59.0%,超越GPT-5.5和Gemini 3.1 Pro,性能接近Opus 4.7。该模型可通过MiniMax Code、Token Plan和API服务使用。

多模态开源/仓库推理模型发布
关联讨论 11 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)
推荐理由:MiniMax M3 把开源模型的编码能力推到了 GPT-5.5 和 Opus 4.7 这条线上,还附带 1M 上下文和原生多模态,这是开源社区真正能打的前沿选项,做 Agent 的值得立刻跑一下。
09:28
IT之家(RSS)
69
戴尔向 CoreWeave 交付全球首套可运行的 NVIDIA Vera Rubin NVL72 系统
推理行业动态部署/工程
09:28
IT之家(RSS)
70
首个三项能力兼备的国产旗舰模型:MiniMax M3 发布,百万上下文、原生多模态

MiniMax 发布旗舰大语言模型 M3,宣称是首个同时具备编码与智能体能力、百万上下文与原生多模态的国产模型。模型基于自研 MSA 架构,API 上下文窗口最高支持 1M tokens,保障至少 512K 可用。在 BrowseComp 智能体评测中,M3 以 83.5 分超越 Opus 4.7(79.3)。官方提供 M3 与 M3-highspeed 两个版本 API,标准版定价为输入 2.1 元、输出 8.4 元/百万 tokens(上下文≤512K,限时五折),并即将在 HuggingFace 与 GitHub 开源。

智能体多模态推理模型发布
关联讨论 11 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)
09:23
公众号:MiniMax(稀宇科技)
65
MiniMax M3 发布:1M 上下文、原生多模态、前沿编程与 Agent 能力

MiniMax M3 今日发布,采用自研 MSA 稀疏注意力架构,支持 1M 上下文窗口,100 万上下文下每 token 计算量仅为上代 1/20,prefilling 加速超 9 倍,decoding 加速超 15 倍。它是原生多模态模型,支持图片、视频输入及 Computer Use。Coding 与 Agent 能力在 SWE-Bench Pro(59.0%)、Terminal Bench 2.1(66.0%)等基准达到前沿水平。M3 是国内首个同时具备 1M 上下文、原生多模态、前沿编程与 Agent 能力的开源模型。API 已开放,按上下文分两档计价,上线首 7 天 512k 及以下 5 折。同步推出 MiniMax Code Agent 与 Token Plan 订阅(¥49/月起)。预计 10 天内发布技术报告并开源模型权重。

智能体多模态推理模型发布
关联讨论 11 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)
08:07
OpenCode@opencode
63
MiniMax M3即将发布 你现在就可以在OpenCode中免费试用
推理模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
35
2FFS:面向随机Minimax树的双保真度最优动作识别算法

针对深度极小极大搜索与蒙特卡洛树搜索(MCTS)中启发式评估廉价但有偏、准确rollout可靠但昂贵的权衡,提出2FFS,一种双保真度树搜索算法。该算法将多保真度平坦bandit思想引入树结构,结合minimax式快速扩展与MCTS式随机采样,自适应决定何时利用廉价评估、何时调用昂贵准确评估。理论证明固定置信度正确性与有限终止性,并给出多项式深度成本上界。数值实验表明,相比现有BAI-MCTS基线,2FFS所需样本和计算操作显著更少。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
LayerRoute:面向智能体语言模型的输入条件自适应LoRA层跳过微调

针对智能体语言模型中工具调用(短、确定、低困惑度)与规划推理(长、复杂、高困惑度)步骤异构但计算均分的问题,LayerRoute为Qwen2.5-0.5B-Instruct的24层transformer每层添加路由器和LoRA适配器(rank 8,约1.08M参数),仅训练1.10M参数(占494M主干0.22%),3000步(6.4分钟A100 40GB)后实现12.91%跳过差分:工具调用跳过15.25% FLOPs,规划步骤仅跳过2.34%,困惑度分别下降-1.29和-1.30。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
AdaCodec:用于视频多模态大模型的预测性视觉编码

AdaCodec是一种预测性视觉编码,仅在场景难以从先前上下文预测时向参考帧分配完整视觉token,否则将帧间变化(运动与预测残差)编码为紧凑的P-tokens。在全部11项基准测试中,AdaCodec在同等视觉token预算下优于Qwen3-VL-8B逐帧RGB基线。即便在1/7预算下,使用32k tokens的AdaCodec在所有长视频基准上超越了224k基线;在五项通用视频基准上平均得分提升,同时首token延迟从9.26秒降至1.62秒。

多模态推理视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
深度研究智能体轨迹中的跨度级错误定位研究

深度研究型AI智能体通过搜索、工具调用等长轨迹执行任务,但最终答案评估无法揭示轨迹中导致错误的环节。研究针对跨度级错误定位,从两个框架、三个模型和三个基准中收集2790条真实轨迹,经LLM辅助专家标注后构建1000实例的评测基准TELBench。同时提出以主张为中心的审计框架DRIFT,追踪智能体主张并核对轨迹证据支持度。实验表明,DRIFT在跨度级错误定位和首次错误准确率上提升高达30个百分点。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
大语言模型多领域强化学习中的干扰与恢复的局部微扰理论

研究发现,对大语言模型进行单一领域(如数学、代码)的强化学习后训练,会对其他领域产生干扰,即使全模型梯度近似正交也会发生。论文提出了一个局部微扰模型来解释此现象:干扰主要通过一个集中在低维共享冲突子空间中的二阶损害项发生。理论证明,一次简短的领域刷新可以收缩该子空间中的有害分量,从而实现选择性恢复。实验表明,在经历代码→数学→问答→创作写作的序列训练后,进行Re-Math刷新可将数学性能恢复,同时基本保持其他领域表现。

推理数据/训练论文/研究
01:20
SemiAnalysis@SemiAnalysis_
30
速度提升10倍,但每token价格溢价20至50倍。我们即将确切了解企业市场愿意为超低延迟AI支付多少费用。
推理现象/趋势行业动态
5月31日
15:48
Rohan Paul@rohanpaul_ai
59
一些很酷的视觉效果。 戴尔向CoreWeave交付全球首个Nvidia Vera Rubin NVL72机架。 它包含72个Rubin GPU、36个Vera CPU、3.6 exaFLOPS的FP4推理性能、75 TB的快速内存和260 TB/s的NVLink带宽。

Michael Dell 🇺🇸: We have the first @DellTech + @nvidia Vera Rubin NVL72 @CoreWeave. Here we go! 🚀

推理行业动态部署/工程
13:35
AYi@AYi_AInotes
66
Codex四大模型选购指南:如何按需省钱

Codex(由OpenAI发布)提供四个可选模型。其中,gpt-5.5作为质量优先的旗舰模型,适用于复杂编码、推理及知识工作,其定价较高,为输入$5.00、输出$30.00每百万tokens。主推文旨在帮助用户根据任务类型与成本考量进行选择。

AYi: http://x.com/i/article/2060676761914888194

OpenAI推理教程/实践编码
13:11
郭明錤|Ming-Chi Kuo@mingchikuo
61
Nvidia N1X处理器供应链信息出炉,设备端AI算力仍属小众

供应链信息显示,Nvidia即将推出的N1X处理器设备未来两年出货量约1000万台,仍属面向需要设备端AI算力的性能用户的小众市场。2026年PC市场热点是MacBook Neo销量上调和可运行AI智能体的小型PC,但两者均与设备端AI算力无关。真正的设备端AI优势在于操作系统层面的隐私与深度整合,而当前Windows的支持尚不足。N1X设备能为需要本地运行大语言模型的用户,提供一个更平衡的选择,但能否驱动升级周期,关键仍在于Windows能否提供相应的应用与工作流支持。

推理端侧行业动态
11:24
IT之家(RSS)
43
乐道沈斐总结焕新款 L60 汽车六大维度升级关键信息,称智驾进入第一梯队
产品更新推理端侧
10:49
SemiAnalysis@SemiAnalysis_
61
突发新闻:CoreWeave与Dell是首个宣布其Rubin VR200 NVL72已完全通过L11诊断的云服务商。下一步是获取多个机架进行数周的烧机测试,并完成软件层面的启动工作,如SGLang、vLLM、Dynamo等。
推理行业动态部署/工程
08:24
IT之家(RSS)
42
IT早报 0531:微软宣布下周携手英伟达开启 PC 新时代;深圳网约车市场已饱和官方发风险提示;苹果 iPhone 18 机模曝光;MiniMax 启动 A 股 IPO 进程…

小米公布其 MiMo 模型推理系统的全链路优化技术细节,核心是通过 Hybrid SWA 架构将 KVCache 存储压缩至 1/7,并结合分级缓存与调度,显著降低长序列推理成本,最高降价达 99%。此外,AI 独角兽 MiniMax 已与中信证券签署辅导协议,正式启动 A 股 IPO 进程。

推理行业动态部署/工程
08:24
IT之家(RSS)
53
消息称因战略分歧,三星与 OpenAI 定制 AI 芯片研发项目陷入停滞

据韩媒报道,三星为 OpenAI 定制研发基于 ARM 架构的推理型神经网络处理器(NPU)项目因双方战略分歧已陷入停滞。据报道指出,三星可能转而为 Anthropic 代工人工智能芯片。尽管芯片合作受阻,三星与 OpenAI 在其他领域仍有合作,例如共建人工智能数据中心及供应存储芯片。

AnthropicOpenAI推理行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
62
人工推理之谜:探究大型推理模型的生成-评估差距

人类评估推理通常比亲自推理差6%,但大型推理模型(LRM)存在显著生成-评估差距。基于VAIR数据集(含琐碎推理错误但答案正确的数学题)的测试显示,前沿LRM评估解题过程得分低至48%,尽管能近乎完美地生成正确答案。链式思维分析发现LRM存在答案确认偏差:先得答案再检查,而非逐句验证,甚至会编造合理化解释。线性探针和因果修补实验证实答案正确性主导判断,揭示当前推理训练方法在培养稳健评估能力上的根本缺陷。

安全/对齐推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
信任函数:通过学习何时信任弱教师实现近乎无损的弱到强泛化

弱到强泛化研究如何利用较弱教师的监督信号来提升强学生模型,核心挑战在于筛选出足够可靠的弱标签。信任函数为每个弱标签分配一个标量信任分数,并据此过滤弱监督信号。在世界知识、定量推理和策略游戏等多个领域,信任过滤训练出的学生模型能够匹配甚至超越基于真实标签监督的模型,实现近乎无损的弱到强泛化。此外,信任函数支持迭代式弱到强链——将训练好的学生作为下一轮教师,叠加增益效果。其优势可归因于多种机制。

arXiv安全/对齐推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
反射性智能体中的记忆虚构现象

研究发现,基于Reflexion的智能体依赖自我生成的反思作为记忆,但在ALFWorld和HumanEval任务中会系统性失败:智能体存储了自信但错误的任务解释,并在环境每次重置为正确任务的情况下仍持续按错误解释行动。该现象被命名为“记忆虚构”。作者提出Reflection Repetition Rate(RRR),一种基于日志的指标,用于检测对错误反思内容的重复依赖,并据此识别出ALFWorld中16个冻结环境(121条反思中0条提及正确目标对象)以及HumanEval中4个类似案例。缓解方案用程序化提取轨迹级失败信号替代开放式自我诊断,使正确提及目标对象从0%提升至86%,RRR从0.64降至0.10,并解决了16个冻结环境中的3个。

智能体arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
OmniOPD:基于推测验证的无需logits在线策略蒸馏

OmniOPD是一种无需教师token级logits的在线策略蒸馏框架。它通过蒙特卡洛展开在多token块上以连续语义相似度近似教师偏好,并用峰值熵调度器仅在高不确定性推理分叉处施加监督,同时以Dirichlet-Multinomial贝叶斯先验和基模型KL锚点防止策略坍塌。在数学基准上,OmniOPD相比标准OPD提升高达28.64%;与Claude-4.5-Haiku和Gemini-2.5-Flash等黑箱教师配合时,额外相对提升9.54%,令学生模型超越自我探索强化学习。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
LongAttnComp: 面向长上下文推理的跨模型族上下文压缩

LongAttnComp 是一种针对长上下文适配的方法,它通过微调一个轻量级跨注意力评分层,并引入了 token 级分块、token 预算 top-p 算法、位置重排和格式无关查询解析器。该方法采用两阶段微调:第一阶段基于 NIAH 风格数据构建通用检索基础,第二阶段通过多跳和推理数据进行扩展。实验表明,在 InfiniteBench Code-Debug 上,LongAttnComp 能够匹配或超越全上下文精度,并显著优于无训练基线。在 LongBench v2 上,两阶段配方在多文档推理任务上有效缩小了性能差距,同时保持了代码调试性能,并可跨三个模型族的四个目标模型进行转移。

arXiv推理编码论文/研究
00:34
Berryxia.AI@berryxia
51
小米MiMo-V2.5降价背后的技术重构

小米MiMo-V2.5系列近期实现了API降价。其核心支撑是团队对推理系统进行了彻底的工程重构。模型基于Hybrid Sliding Window Attention架构,理论上可将KVCache存储压缩至全注意力模型的约1/7。为将此架构优势落地,团队重新设计了KVCache管理、层级缓存和prefix-cache tree,并深度优化了调度与Prefill/Decode流水线。经真实生产流量验证,有效KVCache容量提升了近5倍,服务端缓存命中率稳定在93%-95%。这些优化与MoE配置调优共同作用,显著降低了长上下文推理成本,从而支撑了本次降价。

Fuli Luo: Inference Optimizations Behind the MiMo-V2.5 Series API Price Reductions Read the full technical blog: https://mimo.xiao...

推理行业动态部署/工程
5月30日
20:14
The Decoder:AI News(RSS)
53
陶哲轩认为 AI 可为数学带来史上首次分工

数学家陶哲轩阐述了 AI 如何通过首次实现分工来重塑数学研究。目前,研究者需亲力亲为完成从问题建模到结果验证的全过程。陶哲轩预见“工业数学”的出现:由大型 AI 辅助团队取代孤军奋战的天才,而人类在提供“灵感性猜想”方面仍不可或缺。

大佬观点推理
19:44
Xiaomi MiMo@XiaomiMiMo
56
MiMo-V2.5系列推理有哪些新进展? 我们刚刚发布了一篇博客,详细介绍了针对MiMo-V2.5系列的全链路推理优化,包括如何将混合SWA效率推向极限。 阅读全文请访问: https://mimo.xiaomi.com/blog/mimo-v2-5-inference
推理教程/实践部署/工程
19:21
IT之家(RSS)
61
小米 MiMo-V2.5 系列 API 永久降价并公开推理优化方案

小米 MiMo-V2.5 系列 API 完成永久降价,最高降幅达 99%。其技术基础是公开的推理系统全链路优化方案:针对 Hybrid SWA + MoE + 多模态的复合架构,系统性重构了 KVCache 管理、分级缓存、前缀缓存与调度策略。核心优化包括将 KVCache 存储压缩至约 1/7,线上前缀缓存命中率平均达 93%,TTFT P90 降低 30%,Prefill 性能提升约 40%,Decode 阶段前 128 token 加速比达 2.3×。多模态视频处理端到端延时从 156 秒降至 23 秒。该方案宣称是业内首篇全面覆盖此类复合架构的大规模工程落地方案,模型能力无缩减。

推理教程/实践部署/工程
18:55
Fuli Luo@_LuoFuli
63
MiMo-V2.5 系列 API 降价背后的推理优化

MiMo-V2.5 系列模型(包括 MiMo-V2.5 和 MiMo-V2.5-Pro)采用混合滑动窗口注意力(Hybrid SWA)架构,将 KVCache 存储压缩至全注意力的约1/7。为将架构优势转化为实际收益,团队重新设计了 KVCache 管理、分层缓存和前缀缓存树,并优化了 SWA KVCache 处理、调度及 Prefill/Decode 流水线。经真实生产流量验证,这些优化将有效 KVCache 容量提升近5倍,主流框架下服务器端缓存命中率达93%-95%。结合 MoE 配置调优与多模态推理优化,提升了长上下文推理效率,是近期 API 降价的基础。

产品更新推理部署/工程
18:46
Chubby♨️@kimmonismus
46
文章探讨了OpenAI GPT系列模型的迭代策略。核心观点是,模型更新不仅意味着能力增强,更重要的是token效率的提升。token效率的提高直接带来更低的延迟、成本和摩擦,对于未来更复杂、运行时间更长的AI智能体工作流至关重要。从GPT-5.0到GPT-5.5的每次迭代,都在能力和token效率(进而带来速度增益)上实现进步,GPT-5.5是目前最好的模型。作者肯定了GPT-5.5在推理和执行效率方面的实际提升,并对GPT-5.6将变得更高效抱有高期望。

Tibo: When we go from GPT-5.0 -> GPT-5.1 -> ... -> GPT-5.5, the number incrementing goes with improvements in capabilities and...

OpenAI大佬观点推理
18:39
公众号:小米 MiMo
59
MiMo-V2.5 系列推理全链路优化:将 Hybrid SWA 效率推向极致

小米发布 MiMo-V2.5 系列模型(含 MiMo-V2.5、MiMo-V2.5-Pro),采用 Hybrid Sliding Window Attention(Hybrid SWA)架构,KVCache 存储与计算量均降至 Full Attention 的约 1/7。以 MiMo-V2.5-Pro 为例,70 层中仅 10 层为 Full Attention,60 层为 SWA(窗口大小 128)。团队围绕 KVCache 系统重构(双池管理、按层异步拉取、SWA-aware 前缀缓存树)及分布式缓存 GCache 等环节优化,使存储效率提升约 7×,显著降低长上下文推理成本。

推理教程/实践部署/工程
17:16
Rohan Paul@rohanpaul_ai
63
字节跳动开发自研CPU芯片,以支持AI智能体大规模部署

路透社报道称,字节跳动正开发自研数据中心CPU芯片,以支持TikTok规模的AI智能体运行。此举受Groq的“语言处理单元”启发,旨在应对当前服务器处理器短缺问题。公司正在测试Arm和RISC-V两种架构,以比较成熟商业设计与可控开放指令集。由于CPU价格季度性上涨10%-35%且供应链延迟,开发自研芯片已成为一项成本与供应链策略,旨在减少对受限外国AI硬件的依赖并降低单次查询推理成本。AI智能体的推理对CPU依赖远大于传统模型,因单个用户请求可能触发多个步骤。据报道,字节跳动可能依赖外部合作伙伴进行芯片设计与制造。

推理行业动态
10:21
IT之家(RSS)
48
新一代全域智能操作系统麒麟 100 正式发布:打通移动与桌面生态,支持双系统无感切换

麒麟软件在天津2026世界智能产业博览会上发布了麒麟100智联操作系统。该系统采用自主可信内核与轻量级虚拟化技术,通过“平行视界”等模式,深度打通移动与桌面生态,支持双系统并行运行与无感切换,实现数据互通。系统全面适配智能手机、平板、笔记本等多类终端,实现无线互联与“一机双屏双系统”协同。安全方面构建了涵盖全栈国密、分层隔离与可信子系统的三重防护体系。智能化方面,系统深度优化端侧AI引擎,支持大模型智能路由调度与多智能体协同推理。

产品更新推理端侧
08:18
SemiAnalysis@SemiAnalysis_
67
TRUTH SOCIAL:根据@verdacloud最近的GitHub工单,NVLink多播在Blackwell"机密计算"上不被支持,导致SGLang Qwen3.5 397B性能下降61%。NVIDIA的"机密计算"完全是垃圾,此外根据NVIDIA自己的《NVIDIA Secure AI with Blackwell and Hopper GPUs》白皮书,Hopper的机密计算也存在完全未加密的NVLink。
推理行业动态部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
55
OCC-RAG:为忠实问答优化的最优认知核心

OCC-RAG 是 Optimal Cognitive Core (OCC) 家族中专为忠实问答优化的 SLM。研究团队通过大规模合成多上下文、多跳 QA 数据(超300万样本)训练出 0.6B 和 1.7B 两个版本。模型生成结构化推理轨迹并引用原文证据。在 HotpotQA、MuSiQue、TAT-QA(多跳推理)、ConFiQA(忠实性)和 MuSiQue-Un(拒答)基准上,性能匹配或超越 2-6 倍规模的通用模型。

arXiv检索增强推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
FineVerify:用于智能体搜索的细粒度自验证框架

FineVerify是一种提升智能体搜索任务表现的自验证框架。它通过将问题分解为可验证的子问题,对采样出的候选答案进行逐一验证,并选择聚合得分最高的答案。在四个智能体搜索基准测试中,该框架效果显著:仅用四个采样轨迹,就能将GPT-5-mini的准确率提升8.2个百分点,将Gemini-3-flash平均提升5.6%。使用12个样本时,它能使GPT-5-mini在BrowseComp-Plus上超越前沿模型GPT-5。此外,该框架还能生成可解释的验证轨迹,有助于审查基准测试错误。相关代码与数据已开源。

智能体arXiv推理论文/研究
07:32
HuggingFace Daily Papers(社区热门论文)
61
为何远处看向上方:探查视觉语言模型中的空间表征

视觉语言模型(VLMs)在空间推理基准上表现优异,但其理解是否基于真正的3D结构尚不明确。研究通过构建对比嵌入对进行表征分析,发现多个模型族存在一致的“垂直距离纠缠”现象,即模型将图像垂直位置与空间距离混淆,这模仿了自然照片的透视偏差。该偏差导致模型在透视一致与反直觉案例间准确率差距显著,且随数据规模扩大而加剧,即使基准分数提升。分析还表明,基准分数相似的模型可能具有不同的内部表征,这能预测其在不同任务中的准确率与鲁棒性。为隔离数据集偏差,团队推出了合成基准SpatialTunnel,实验证实该纠缠是模型固有属性,空间轴分离度更高的模型表现更鲁棒。

多模态推理论文/研究
‹ 上一页
1…2021222324…50
下一页 ›