英伟达 CEO 黄仁勋在台北电脑展表示,AI减少岗位的说法是胡说八道,实际上软件工程师数量正在增加。他认为“有用”的AI时代已至,token是新的利润单位,AI是GDP生成器。同时,黄仁勋称下一代超级AI芯片Vera Rubin是其最雄心勃勃的产品,由4万名工程师参与研发,将于今年下半年推出,他预计其将比Grace Blackwell更加成功。
英伟达 CEO 黄仁勋在台北电脑展表示,AI减少岗位的说法是胡说八道,实际上软件工程师数量正在增加。他认为“有用”的AI时代已至,token是新的利润单位,AI是GDP生成器。同时,黄仁勋称下一代超级AI芯片Vera Rubin是其最雄心勃勃的产品,由4万名工程师参与研发,将于今年下半年推出,他预计其将比Grace Blackwell更加成功。
英特尔介绍了将于今年晚些时候推出的AI推理数据中心GPU "Crescent Island"。该卡支持从FP4到FP64的数据类型,配备至高480GB LPDDR5x内存,采用350W PCIe AIC设计,主打每瓦词元效率并拥有开源软件生态。其Xe3P GPU架构将应用于PC、数据中心、边缘及工作站领域,包括下一代PC芯片。
英伟达 CEO 黄仁勋在 2026 台北电脑展宣布,下一代 AI 超级芯片平台 Vera Rubin 全面投产。该平台是 POD 级基础架构,与上一代 Grace Blackwell 平台相比,其大规模智能体吞吐量提高了 10 倍。凭借开源 MGX 设计,其供应链规模是 Grace Blackwell 的两倍,产品预计于今年秋季开始发货。
同一事件,精选展示《NVIDIA Vera Rubin 平台如何解决智能体 AI 的规模扩展问题》MiniMax M3 is now live on CREAO. Sparse-attention reasoning with up to 15.6× faster decoding at long context, built for ...
MiniMax M3 是一个开源前沿模型,具备先进的编码与AI智能体能力。它支持100万token的超长上下文窗口,并采用名为MSA(MiniMax Sparse Attention)的新型稀疏注意力架构。该架构使模型在100万token上下文下的每token计算成本降至前代的1/20,预填充速度提升9倍以上,解码速度提升15倍以上。在SWE-Bench Pro编码基准上,MiniMax M3得分59.0%,超越GPT-5.5和Gemini 3.1 Pro,性能接近Opus 4.7。该模型可通过MiniMax Code、Token Plan和API服务使用。
关联讨论 11 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)MiniMax 发布旗舰大语言模型 M3,宣称是首个同时具备编码与智能体能力、百万上下文与原生多模态的国产模型。模型基于自研 MSA 架构,API 上下文窗口最高支持 1M tokens,保障至少 512K 可用。在 BrowseComp 智能体评测中,M3 以 83.5 分超越 Opus 4.7(79.3)。官方提供 M3 与 M3-highspeed 两个版本 API,标准版定价为输入 2.1 元、输出 8.4 元/百万 tokens(上下文≤512K,限时五折),并即将在 HuggingFace 与 GitHub 开源。
关联讨论 11 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)MiniMax M3 今日发布,采用自研 MSA 稀疏注意力架构,支持 1M 上下文窗口,100 万上下文下每 token 计算量仅为上代 1/20,prefilling 加速超 9 倍,decoding 加速超 15 倍。它是原生多模态模型,支持图片、视频输入及 Computer Use。Coding 与 Agent 能力在 SWE-Bench Pro(59.0%)、Terminal Bench 2.1(66.0%)等基准达到前沿水平。M3 是国内首个同时具备 1M 上下文、原生多模态、前沿编程与 Agent 能力的开源模型。API 已开放,按上下文分两档计价,上线首 7 天 512k 及以下 5 折。同步推出 MiniMax Code Agent 与 Token Plan 订阅(¥49/月起)。预计 10 天内发布技术报告并开源模型权重。
关联讨论 11 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)针对深度极小极大搜索与蒙特卡洛树搜索(MCTS)中启发式评估廉价但有偏、准确rollout可靠但昂贵的权衡,提出2FFS,一种双保真度树搜索算法。该算法将多保真度平坦bandit思想引入树结构,结合minimax式快速扩展与MCTS式随机采样,自适应决定何时利用廉价评估、何时调用昂贵准确评估。理论证明固定置信度正确性与有限终止性,并给出多项式深度成本上界。数值实验表明,相比现有BAI-MCTS基线,2FFS所需样本和计算操作显著更少。
针对智能体语言模型中工具调用(短、确定、低困惑度)与规划推理(长、复杂、高困惑度)步骤异构但计算均分的问题,LayerRoute为Qwen2.5-0.5B-Instruct的24层transformer每层添加路由器和LoRA适配器(rank 8,约1.08M参数),仅训练1.10M参数(占494M主干0.22%),3000步(6.4分钟A100 40GB)后实现12.91%跳过差分:工具调用跳过15.25% FLOPs,规划步骤仅跳过2.34%,困惑度分别下降-1.29和-1.30。
AdaCodec是一种预测性视觉编码,仅在场景难以从先前上下文预测时向参考帧分配完整视觉token,否则将帧间变化(运动与预测残差)编码为紧凑的P-tokens。在全部11项基准测试中,AdaCodec在同等视觉token预算下优于Qwen3-VL-8B逐帧RGB基线。即便在1/7预算下,使用32k tokens的AdaCodec在所有长视频基准上超越了224k基线;在五项通用视频基准上平均得分提升,同时首token延迟从9.26秒降至1.62秒。
深度研究型AI智能体通过搜索、工具调用等长轨迹执行任务,但最终答案评估无法揭示轨迹中导致错误的环节。研究针对跨度级错误定位,从两个框架、三个模型和三个基准中收集2790条真实轨迹,经LLM辅助专家标注后构建1000实例的评测基准TELBench。同时提出以主张为中心的审计框架DRIFT,追踪智能体主张并核对轨迹证据支持度。实验表明,DRIFT在跨度级错误定位和首次错误准确率上提升高达30个百分点。
研究发现,对大语言模型进行单一领域(如数学、代码)的强化学习后训练,会对其他领域产生干扰,即使全模型梯度近似正交也会发生。论文提出了一个局部微扰模型来解释此现象:干扰主要通过一个集中在低维共享冲突子空间中的二阶损害项发生。理论证明,一次简短的领域刷新可以收缩该子空间中的有害分量,从而实现选择性恢复。实验表明,在经历代码→数学→问答→创作写作的序列训练后,进行Re-Math刷新可将数学性能恢复,同时基本保持其他领域表现。
We have the first @DellTech + @nvidia Vera Rubin NVL72 @CoreWeave. Here we go! 🚀
Codex(由OpenAI发布)提供四个可选模型。其中,gpt-5.5作为质量优先的旗舰模型,适用于复杂编码、推理及知识工作,其定价较高,为输入$5.00、输出$30.00每百万tokens。主推文旨在帮助用户根据任务类型与成本考量进行选择。
http://x.com/i/article/2060676761914888194
供应链信息显示,Nvidia即将推出的N1X处理器设备未来两年出货量约1000万台,仍属面向需要设备端AI算力的性能用户的小众市场。2026年PC市场热点是MacBook Neo销量上调和可运行AI智能体的小型PC,但两者均与设备端AI算力无关。真正的设备端AI优势在于操作系统层面的隐私与深度整合,而当前Windows的支持尚不足。N1X设备能为需要本地运行大语言模型的用户,提供一个更平衡的选择,但能否驱动升级周期,关键仍在于Windows能否提供相应的应用与工作流支持。
小米公布其 MiMo 模型推理系统的全链路优化技术细节,核心是通过 Hybrid SWA 架构将 KVCache 存储压缩至 1/7,并结合分级缓存与调度,显著降低长序列推理成本,最高降价达 99%。此外,AI 独角兽 MiniMax 已与中信证券签署辅导协议,正式启动 A 股 IPO 进程。
据韩媒报道,三星为 OpenAI 定制研发基于 ARM 架构的推理型神经网络处理器(NPU)项目因双方战略分歧已陷入停滞。据报道指出,三星可能转而为 Anthropic 代工人工智能芯片。尽管芯片合作受阻,三星与 OpenAI 在其他领域仍有合作,例如共建人工智能数据中心及供应存储芯片。
人类评估推理通常比亲自推理差6%,但大型推理模型(LRM)存在显著生成-评估差距。基于VAIR数据集(含琐碎推理错误但答案正确的数学题)的测试显示,前沿LRM评估解题过程得分低至48%,尽管能近乎完美地生成正确答案。链式思维分析发现LRM存在答案确认偏差:先得答案再检查,而非逐句验证,甚至会编造合理化解释。线性探针和因果修补实验证实答案正确性主导判断,揭示当前推理训练方法在培养稳健评估能力上的根本缺陷。
弱到强泛化研究如何利用较弱教师的监督信号来提升强学生模型,核心挑战在于筛选出足够可靠的弱标签。信任函数为每个弱标签分配一个标量信任分数,并据此过滤弱监督信号。在世界知识、定量推理和策略游戏等多个领域,信任过滤训练出的学生模型能够匹配甚至超越基于真实标签监督的模型,实现近乎无损的弱到强泛化。此外,信任函数支持迭代式弱到强链——将训练好的学生作为下一轮教师,叠加增益效果。其优势可归因于多种机制。
研究发现,基于Reflexion的智能体依赖自我生成的反思作为记忆,但在ALFWorld和HumanEval任务中会系统性失败:智能体存储了自信但错误的任务解释,并在环境每次重置为正确任务的情况下仍持续按错误解释行动。该现象被命名为“记忆虚构”。作者提出Reflection Repetition Rate(RRR),一种基于日志的指标,用于检测对错误反思内容的重复依赖,并据此识别出ALFWorld中16个冻结环境(121条反思中0条提及正确目标对象)以及HumanEval中4个类似案例。缓解方案用程序化提取轨迹级失败信号替代开放式自我诊断,使正确提及目标对象从0%提升至86%,RRR从0.64降至0.10,并解决了16个冻结环境中的3个。
OmniOPD是一种无需教师token级logits的在线策略蒸馏框架。它通过蒙特卡洛展开在多token块上以连续语义相似度近似教师偏好,并用峰值熵调度器仅在高不确定性推理分叉处施加监督,同时以Dirichlet-Multinomial贝叶斯先验和基模型KL锚点防止策略坍塌。在数学基准上,OmniOPD相比标准OPD提升高达28.64%;与Claude-4.5-Haiku和Gemini-2.5-Flash等黑箱教师配合时,额外相对提升9.54%,令学生模型超越自我探索强化学习。
LongAttnComp 是一种针对长上下文适配的方法,它通过微调一个轻量级跨注意力评分层,并引入了 token 级分块、token 预算 top-p 算法、位置重排和格式无关查询解析器。该方法采用两阶段微调:第一阶段基于 NIAH 风格数据构建通用检索基础,第二阶段通过多跳和推理数据进行扩展。实验表明,在 InfiniteBench Code-Debug 上,LongAttnComp 能够匹配或超越全上下文精度,并显著优于无训练基线。在 LongBench v2 上,两阶段配方在多文档推理任务上有效缩小了性能差距,同时保持了代码调试性能,并可跨三个模型族的四个目标模型进行转移。
小米MiMo-V2.5系列近期实现了API降价。其核心支撑是团队对推理系统进行了彻底的工程重构。模型基于Hybrid Sliding Window Attention架构,理论上可将KVCache存储压缩至全注意力模型的约1/7。为将此架构优势落地,团队重新设计了KVCache管理、层级缓存和prefix-cache tree,并深度优化了调度与Prefill/Decode流水线。经真实生产流量验证,有效KVCache容量提升了近5倍,服务端缓存命中率稳定在93%-95%。这些优化与MoE配置调优共同作用,显著降低了长上下文推理成本,从而支撑了本次降价。
Inference Optimizations Behind the MiMo-V2.5 Series API Price Reductions Read the full technical blog: https://mimo.xiao...
数学家陶哲轩阐述了 AI 如何通过首次实现分工来重塑数学研究。目前,研究者需亲力亲为完成从问题建模到结果验证的全过程。陶哲轩预见“工业数学”的出现:由大型 AI 辅助团队取代孤军奋战的天才,而人类在提供“灵感性猜想”方面仍不可或缺。
小米 MiMo-V2.5 系列 API 完成永久降价,最高降幅达 99%。其技术基础是公开的推理系统全链路优化方案:针对 Hybrid SWA + MoE + 多模态的复合架构,系统性重构了 KVCache 管理、分级缓存、前缀缓存与调度策略。核心优化包括将 KVCache 存储压缩至约 1/7,线上前缀缓存命中率平均达 93%,TTFT P90 降低 30%,Prefill 性能提升约 40%,Decode 阶段前 128 token 加速比达 2.3×。多模态视频处理端到端延时从 156 秒降至 23 秒。该方案宣称是业内首篇全面覆盖此类复合架构的大规模工程落地方案,模型能力无缩减。
MiMo-V2.5 系列模型(包括 MiMo-V2.5 和 MiMo-V2.5-Pro)采用混合滑动窗口注意力(Hybrid SWA)架构,将 KVCache 存储压缩至全注意力的约1/7。为将架构优势转化为实际收益,团队重新设计了 KVCache 管理、分层缓存和前缀缓存树,并优化了 SWA KVCache 处理、调度及 Prefill/Decode 流水线。经真实生产流量验证,这些优化将有效 KVCache 容量提升近5倍,主流框架下服务器端缓存命中率达93%-95%。结合 MoE 配置调优与多模态推理优化,提升了长上下文推理效率,是近期 API 降价的基础。
When we go from GPT-5.0 -> GPT-5.1 -> ... -> GPT-5.5, the number incrementing goes with improvements in capabilities and...
小米发布 MiMo-V2.5 系列模型(含 MiMo-V2.5、MiMo-V2.5-Pro),采用 Hybrid Sliding Window Attention(Hybrid SWA)架构,KVCache 存储与计算量均降至 Full Attention 的约 1/7。以 MiMo-V2.5-Pro 为例,70 层中仅 10 层为 Full Attention,60 层为 SWA(窗口大小 128)。团队围绕 KVCache 系统重构(双池管理、按层异步拉取、SWA-aware 前缀缓存树)及分布式缓存 GCache 等环节优化,使存储效率提升约 7×,显著降低长上下文推理成本。
路透社报道称,字节跳动正开发自研数据中心CPU芯片,以支持TikTok规模的AI智能体运行。此举受Groq的“语言处理单元”启发,旨在应对当前服务器处理器短缺问题。公司正在测试Arm和RISC-V两种架构,以比较成熟商业设计与可控开放指令集。由于CPU价格季度性上涨10%-35%且供应链延迟,开发自研芯片已成为一项成本与供应链策略,旨在减少对受限外国AI硬件的依赖并降低单次查询推理成本。AI智能体的推理对CPU依赖远大于传统模型,因单个用户请求可能触发多个步骤。据报道,字节跳动可能依赖外部合作伙伴进行芯片设计与制造。
麒麟软件在天津2026世界智能产业博览会上发布了麒麟100智联操作系统。该系统采用自主可信内核与轻量级虚拟化技术,通过“平行视界”等模式,深度打通移动与桌面生态,支持双系统并行运行与无感切换,实现数据互通。系统全面适配智能手机、平板、笔记本等多类终端,实现无线互联与“一机双屏双系统”协同。安全方面构建了涵盖全栈国密、分层隔离与可信子系统的三重防护体系。智能化方面,系统深度优化端侧AI引擎,支持大模型智能路由调度与多智能体协同推理。
OCC-RAG 是 Optimal Cognitive Core (OCC) 家族中专为忠实问答优化的 SLM。研究团队通过大规模合成多上下文、多跳 QA 数据(超300万样本)训练出 0.6B 和 1.7B 两个版本。模型生成结构化推理轨迹并引用原文证据。在 HotpotQA、MuSiQue、TAT-QA(多跳推理)、ConFiQA(忠实性)和 MuSiQue-Un(拒答)基准上,性能匹配或超越 2-6 倍规模的通用模型。
FineVerify是一种提升智能体搜索任务表现的自验证框架。它通过将问题分解为可验证的子问题,对采样出的候选答案进行逐一验证,并选择聚合得分最高的答案。在四个智能体搜索基准测试中,该框架效果显著:仅用四个采样轨迹,就能将GPT-5-mini的准确率提升8.2个百分点,将Gemini-3-flash平均提升5.6%。使用12个样本时,它能使GPT-5-mini在BrowseComp-Plus上超越前沿模型GPT-5。此外,该框架还能生成可解释的验证轨迹,有助于审查基准测试错误。相关代码与数据已开源。
视觉语言模型(VLMs)在空间推理基准上表现优异,但其理解是否基于真正的3D结构尚不明确。研究通过构建对比嵌入对进行表征分析,发现多个模型族存在一致的“垂直距离纠缠”现象,即模型将图像垂直位置与空间距离混淆,这模仿了自然照片的透视偏差。该偏差导致模型在透视一致与反直觉案例间准确率差距显著,且随数据规模扩大而加剧,即使基准分数提升。分析还表明,基准分数相似的模型可能具有不同的内部表征,这能预测其在不同任务中的准确率与鲁棒性。为隔离数据集偏差,团队推出了合成基准SpatialTunnel,实验证实该纠缠是模型固有属性,空间轴分离度更高的模型表现更鲁棒。