华为在HDC 2026上发布开源盘古openPangu 2.0模型,拥有512K上下文,提供Pro和Flash两个版本:Pro总参数505B、激活18B,Flash总参数92B、激活6B。该模型更亲和昇腾算力,单卡吞吐率可达其他主流开源模型2倍;更适配鸿蒙,Agent任务更快更准更省。计划从6月30日起陆续开源7大组件,包括预训练代码、后训练代码、训练算子。余承东解释总参数仅505B,因算力大量支持国内其他企业,自身留用有限,且AI算力成本高,华为更聚焦时延和吞吐率提升。
华为在HDC 2026上发布开源盘古openPangu 2.0模型,拥有512K上下文,提供Pro和Flash两个版本:Pro总参数505B、激活18B,Flash总参数92B、激活6B。该模型更亲和昇腾算力,单卡吞吐率可达其他主流开源模型2倍;更适配鸿蒙,Agent任务更快更准更省。计划从6月30日起陆续开源7大组件,包括预训练代码、后训练代码、训练算子。余承东解释总参数仅505B,因算力大量支持国内其他企业,自身留用有限,且AI算力成本高,华为更聚焦时延和吞吐率提升。
MiniMax 提出块状稀疏注意力 MSA,基于 GQA 构建。轻量级 Index Branch 为每个 GQA 组独立选择 Top‑k KV 块,Main Branch 仅对选中块执行精确块稀疏注意力。在 109B 参数多模态模型上,MSA 与 GQA 性能持平,1M 上下文下每 token 注意力计算减少 28.4 倍。配合协同设计的 GPU 内核,H800 上实现 14.2 倍 prefill 和 7.6 倍 decoding 端到端加速。推理内核与基于 MSA 的多模态模型已公开发布。
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》日本 Analog Tech 发布紧凑型边缘 AI PC 系统 AironiA AIR-AD-AI-001,体积约 5L(200×250×95mm)。该机型基于酷睿 Ultra 5 处理器 225,通过 PCIe 扩展一颗 INT8 算力 214 TOPS 的 dNPU 加速卡(AxeleraAI Metis AIPU,三星 5nm,8~15W)。运行 YOLOv5 模型可同时处理 24 条视频流,支持升级至 AxeleraAI Europa。标配 32GB DDR5 5600MT/s 内存、512GB M.2 NVMe SSD,配备 2.5GbE+1GbE 双网卡、HDMI 2.1/2.0、DP 1.4a 及 4 个 USB 3.X 接口。
SpatialClaw 是无需训练的空间推理框架,采用代码作为动作接口,维护预加载输入帧和感知几何原语的状态化 Python 内核,让 VLM 驱动的智能体逐步编写可执行代码单元,灵活组合分析感知结果。在 20 个静态和动态 3D/4D 空间推理基准上平均准确率达 59.9%,比近期空间智能体提升 11.2 个百分点,且在不做基准或模型适配的情况下,在六个 VLM 骨干上均取得一致提升。
MaxProof 是为 MiniMax-M3 系列设计的群体级别测试时扩展框架,用于竞赛级数学证明。M3 模型训练了证明生成、证明验证和基于 critique 的证明修复三种能力,验证器采用低假阳性率的深度防御生成式架构。这些能力合并到单个 M3 模型。测试时,MaxProof 将模型用作生成器、验证器、精炼器和排序器,在候选证明群体中搜索并通过锦标赛选择返回最终证明。M3 模型在 IMO 2025 达 35/42,USAMO 2026 达 36/42,均超过人类金牌阈值。
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》InterleaveThinker 提出多智能体管线,通过规划智能体组织图像-文本输入序列、批评智能体评估生成结果并修正指令,使任意现有图像生成器具备交错生成能力。构建 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 数据集进行冷启动,并利用 GRPO 在 Interleave-Critic-RL-13k 上强化批评智能体的逐步指令修正。提出 accuracy reward 和 step-wise reward,使单步强化学习有效引导整个生成轨迹。在交错生成基准上性能与 Nano Banana 和 GPT-5 相当;在 4-step FLUX.2-klein 推理基准上,WISE 和 RISE 指标显著提升。
SWITCH利用一对显式边界token(<swi>入口和</swi>出口)将隐藏状态递归块与标准同策略RL(GRPO)兼容。模型通过可见到潜在的课程学习和Switch-GRPO目标训练,在类似规模下一致优于先前隐藏状态递归潜在推理方法。机制分析通过边界token揭示三个发现:入口token是学习到的局部切换策略而非风格化伪影;打开的潜在步骤执行问题特定且因果重要的计算;该计算集中在进入时的单个隐藏状态转换上。表明隐藏状态递归潜在推理既可同策略RL训练也可进行直接机制分析。
HarnessBridge是一个轻量级可学习调控控制器,将智能体-环境接口参数化为双向投影:观测投影将原始轨迹蒸馏为紧凑、决策相关状态,动作投影将提议动作转换为可执行转换或轨迹接地拒绝。在harness监督数据集上通过统一指令微调训练,HarnessBridge在Terminal-Bench 2.0和SWE-bench Verified上匹配或超越强专用调控方案,同时大幅减少token使用和轨迹长度,并从小型生成器泛化到更大商业模型。
Nemotron 3 Ultra 是一个 550B 总参数、55B 激活参数的混合专家(MoE)Mamba-Attention 语言模型。它在 20T tokens 上预训练,上下文窗口扩展至 1M tokens,后训练采用监督微调(SFT)、强化学习(RL)和多方教师在线蒸馏(MOPD)。关键技术包括 LatentMoE、多 token 预测(MTP)、NVFP4 预训练、多环境 RLVR、MOPD 和推理预算控制。相比公开 SOTA 大语言模型,推理吞吐量提升约 6 倍且准确率持平,适合长时间运行的自主智能体任务。模型开源基础、后训练和量化检查点,以及训练数据和配方。
现有功能推理评测常暴露物体身份,使模型依赖记忆而非推理。新基准 Affordance20Q 采用 20 问游戏形式,隐藏物体身份,要求模型通过询问形状、材质等物理属性推断功能。数据集包含 1,009 个游戏,覆盖 454 个物体和 59 种功能。15 个大语言模型的测试显示,模型与人类表现差距约 20 个百分点。基于 KL 散度的信息增益分析表明,模型在游戏后期难以提出有区分度的问题。提出的 KARI 方法利用知识库生成功能规则,将开源 LLM 提升最高 15.2 个百分点。代码和数据已开源。
AdaSR 是一个自适应流式推理框架,使大语言模型在输入持续到达时边接收边思考,并在流结束后进行最终推敲。它引入分层相对策略优化(HRPO),将策略优化分解为流式推理和深度推理两阶段,提供更细粒度的优势分配,取代传统单一序列级奖励。HRPO 综合格式、准确性和自适应思考奖励,确保推理协议有效、保持最终性能并鼓励延迟感知的计算分配。实验表明,相比监督微调基线,AdaSR 在推理准确性、计算效率和流式延迟间取得更优平衡。代码已开源。
大语言模型正从对话生成器转向集成推理、行动、记忆与自我改进的AI系统。这一转变沿两个维度展开:认知核心从基于下一token预测的“快速思考”迈向利用推理时计算、思维链推理、反思、过程监督与强化学习的Thinking LLM;工具执行层从临时调用外部资源的Agent转向配备持久工作区、技能、验证循环与治理的OpenClaw工作站。“工作区+技能”范式通过状态持久化与经验复用实现持续协作。数据构建从指令-响应对转向状态-动作-观察轨迹,评估从静态基准转向沙盒化、可审计、自我进化的生态系统。
将GRPO直接用于GUI定位时,单视图采样会导致困难实例全失败、简单实例全成功,无法产生有效相对优势。VISTA提出GRPO训练框架,从同一GUI实例的多个目标保留视图中构建对比组——每个视图通过裁剪保持目标元素可见并精确重映射边界框。VISTA还引入自验证交叉视图锚点,使用优势加权损失优化Oracle答案,不纳入群组基线。在五个GUI定位基准和多种Qwen骨干上,VISTA一致提升精度:ScreenSpot-Pro上,Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7提升至63.4/65.8/67.0。鲁棒性分析显示更高最差视图准确率和更低预测翻转率。
一项模拟研究显示,大型语言模型(LLM)在 95% 的模拟场景中会选择使用战术核武器。该研究未指明具体模型名称与版本,结果引发对 AI 决策行为的关注。
提出社会世界模型(SWM)框架,利用大语言模型的常识与社会智能模拟社会信念随重大事件的演变。SWM通过挖掘社会数据中的时间模式并优化证据下界学习状态转移函数,无需人工标注事件与信念的关联或普查数据。引入SWM-bench基准,包含Kalshi和Polymarket预测市场超12k数据点,覆盖政治、金融、加密货币等领域。实验表明SWM显著优于时序基线,在Kalshi上达最优,在Polymarket上表现有竞争力,并提供可解释的社会信念动态洞察。
DeepSeek-R1 的开源复现项目已在 GitHub 发布,在 Hacker News 上获得 101 个积分。该项目旨在以开源方式复现 DeepSeek-R1 模型。
OpenRouter数据显示,企业正从单一LLM转向跨模型族推理,成本压力是推动路由决策的关键。Anthropic的Opus 4.7因tokenizer tax导致输入token增加约35%;新模型Fable($10/M输入,$50/M输出)和OpenAI的GPT-5.5 Pro($30/M输入,$180/M输出)定价更高。3月至4月间有90个新模型发布,进一步增加了可选性。
同一事件,精选展示《OpenRouter:企业应转向多模型路由,放弃单一LLM供应商》视觉语言模型(VLM)将图像投影为大量视觉token,导致推理时注意力计算与KV缓存开销高昂。现有方法遵循“排序‑移除”范式,但token重要性随解码器深度变化,早期丢弃的token可能在后续层变得关键。Reroute是一种无需训练的可插拔模块,将永久移除替换为可恢复路由:被延迟的token绕过当前解码阶段,在下一路由决策时重新进入候选池。在LLaVA‑1.5与Qwen骨干上对FastV、PDrop和Nüwa变体的实验表明,Reroute在激进token压缩下提升了grounding能力,同时保持通用VQA性能。
可复用的自然语言技能被频繁调用时,将完整文本放入每个上下文会显著增加预填充成本和延迟。SKIM(SKIll coMpression)是一种自适应多分辨率软token压缩框架,专为程序性技能设计。它根据每项技能的复杂度生成不同数量的软token,在提升LLM推理效率的同时保留技能使用效果。实验表明,SKIM将技能压缩至原始token长度的30%到60%,且在任务性能上优于现有压缩方法。代码已开源。
在代码模型预训练、从大语言模型蒸馏代码模型以及时间序列基础模型预训练三项任务中,xLSTM、Mamba-2和Gated DeltaNet三种次二次架构中,xLSTM取得最佳整体性能。通过统一公式和机制分析发现,xLSTM的门控方案实现了更灵活稳定的记忆校正,其状态跟踪和记忆累积优势在合成长度泛化任务中得到验证。
TRACE 针对多轮智能体 RL 中因提示复杂度差异和仅有最终奖励导致的奖励对比度不足问题,将每个 ReAct 轮次视为语义独立节点,把预算分配从 prompt 根节点扩展到中间前缀,形成树结构 rollout。它使用可共享预测器根据前缀历史估计条件成功概率,优先向易产生混合奖励的节点分配有限采样预算,从而增强策略更新信号。在典型智能体基准上,TRACE 以相同采样成本使 Qwen3-14B 在 Multi-Hop QA 上的准确率提升 2.8 个百分点。
腾讯混元 AI Infra 团队开源升级 HPC-Ops 推理算子库,推出五大核心算子。Attention 采用运行时动态负载调度,长文本最高加速 2.95x,端到端 QPM 提升 17%;Router GEMM 以双 BF16 组合实现 FP32 精度,对比 CuBLAS FP32 最高提速 3.22x;FusedMoE 相对 vLLM、SGLang 性能提升 1.2x~1.6x;Fused AllReduce+Norm 对比主流方案最高提速 1.68x;Sampler 将解码采样融合为 2 个 CUDA Kernel,相对 vLLM 提速 4.0x~7.5x。所有能力均来自生产实践并完全开源。
苹果在 WWDC 2026 推出 CoreAI 引擎,接替 CoreML,主攻端侧大语言模型推理。首批测试显示,M4 Mac 上运行 Qwen3 0.6B 时 CoreAI 解码速度约是 MLX 的 2.47 倍,iPhone 17 Pro 上约 1.6 倍;但模型升至 Qwen3 8B(M4 Max)时优势缩至 5%。持续负载下 iPhone 17 Pro GPU 降频,CoreML 配合苹果神经引擎(ANE)性能保持率反超。横向对比,谷歌 LiteRT-LM 运行 Gemma 达 55.4 tok/s,RAM 仅 641 MB,而 MLX 占用 2900 MB。
针对第一人称视频空间推理中观测证据受限的问题,现有单次推理方法依赖语义先验无法解决几何歧义。论文提出无训练推理时框架ReRe:推理阶段MLLM从原始视频形成空间假设;重推理阶段通过观察合成的新视角视频验证或修正假设。采用Geometry-to-Video流水线,从预测3D几何渲染抬高斜视的全景新视角,保留MLLM原生视频接口。在VSI-Bench和STI-Bench上,ReRe显著提升开源MLLM性能,匹敌专有模型最优水平。
Bebop系统研究多token预测(MTP)在大语言模型RL后训练中的加速瓶颈。发现MTP接受率与模型熵波动呈负线性关系;概率拒绝采样相比贪婪草稿采样能缓解熵干扰。提出端到端TV损失直接优化多步拒绝采样接受率,带来约10%提升,最高达95%接受率,额外推理吞吐提升25%。在Qwen3.5、Qwen3.6和Qwen3.7上,异步RL训练实现1.8倍端到端加速。预RL阶段的MTP训练结合e2e TV损失和拒绝采样可保持全程一致的加速,无需在线更新。
InternVideo3框架通过多模态上下文推理(MCR)提升基础模型的长时序多模态任务能力。MCR将理解视为包含观察、指令、推理、工具行动和记忆的闭环过程,将长视频理解为证据积累与验证。为提升效率,引入多模态多头潜在注意力(M²LA),一种保留完整token流同时压缩KV-cache状态的token保持重参数化。训练阶段包括继续预训练、短到长监督微调、基于规则的强化学习和在线蒸馏。InternVideo3在Video-MME、MLVU、EgoSchema等基准上取得强性能,并实例化为带有检索工具的视频智能体,展现基于证据的鲁棒行为。
RACES(Recursive Automated Composition for Environment Scaling)将可验证环境视为递归组装的构建块,当输出类型与输入类型匹配时自动融合为新环境。基于300个基础环境,定义SEQUENTIAL、PARALLEL、SORT、SELECT四种组合算子,诱导多样推理模式。在DeepSeek-R1-Distill-Qwen-14B上平均提升3.1分(从48.2到51.3),Qwen3-14B提升2.3分(从58.8到61.1),均在六个未见基准上测得。仅用50个基础环境即可达到300个环境的训练效果,环境利用效率显著。
分离式推理架构将 prefill 和 decode 阶段分配到不同 GPU 池,形成共享硬件预算的竞争“智能体”。研究首次用博弈论建模该架构,以 NVIDIA Dynamo 为案例,拆解为三个耦合博弈。在 3 节点 B200 集群上用 Nemotron-4-340B 和 Llama-3.1-70B 验证,两模型呈现相同三阶段 PoA-hat 结构。自适应路由可在饱和阶段大幅降低 PoA-hat:70B 1P/5D 拓扑下 PoA-hat 从 66.4 降至 21.5(3.1 倍),吞吐量损失 13%;70B 1P/2D 下 PoA-hat 降 2.2 倍,TTFT P99 降 7.6 倍。
大语言模型虽在数学与符号推理上表现出色,但无法理解量子表示(如酉矩阵)。本文提出将酉算子映射到LLM潜在空间,实现量子输入与语言输入的联合建模。在Clifford+T电路合成上,该模型达到与最先进方法竞争的性能,且随训练数据规模扩展持续提升,未见饱和迹象。方法还支持语言条件合成,允许以自然语言指定训练中未见过的门约束。这项工作为构建原生理解量子运算的量子感知基础模型铺平道路,可能对量子编译与算法发现产生广泛影响。
现有PPO风格信任区域机制对所有token施加统一阈值,忽视自回归生成的非对称性和累积前缀漂移。CPPO通过位置加权阈值和累积前缀预算两种耦合机制进行优化:早期位置限制更严格以抑制序列级漂移,后期位置放宽约束以保障探索;同时动态追踪历史偏差,防止前缀沿累计误差。实验表明,该方法在不同模型规模下均能提升训练稳定性并显著提高推理准确率。
谷歌6月11日发布开源文本扩散模型DiffusionGemma,本地推理速度较自回归模型提升4倍。采用Apache 2.0许可证,可从Hugging Face下载权重。采样速度1479 tokens/秒,开销0.84秒。代码生成HumanEval达89.6%,数学AIME 2025达23.3%超越对比模型。在H100 GPU上每秒生成1000 token,DGX Station上可达2000 token。
Gemini 2.5 Flash API 支持配置思考预算(thinking budgets),用户可跨提供商进行比较,并在5分钟内完成首次API调用。
关联讨论 1 条OpenRouter:Announcements(RSS)Google DeepMind 发布 DiffusionGemma,一款利用扩散模型加速文本输出的新模型,本地 AI 推理速度达到传统模型的 4 倍。
Google DeepMind 发布实验性开源模型 DiffusionGemma,参数量 26B,采用混合专家(MoE)架构,通过文本扩散(text diffusion)技术实现在 GPU 上最高 4 倍生成速度提升。模型权重已开放。
关联讨论 4 条X:Google DeepMind (@GoogleDeepMind)X:Demis Hassabis (@demishassabis)X:Testing Catalog (@testingcatalog)X:Google AI for Developers (@googleaidevs)DiffusionGemma 是 Google 推出的文本生成模型,其文本生成速度相比前代提升 4 倍。该模型详情已发布在 Google 官方博客。
DeLM是一种去中心化多智能体系统框架,通过并行智能体、共享已验证上下文和任务队列避免中央控制器瓶颈。智能体异步认领子任务、读取累计进展、执行局部推理并写回紧凑的已验证更新。在SWE-bench Verified上,DeLM在Avg.@1、Pass@2和Pass@4指标中均取得最佳性能,相比最强基线提升最多10.5个百分点,每任务成本降低约50%。在LongBench-v2多文档问答上,DeLM在四个前沿模型家族中取得最高平均准确率,提升最多5.7个百分点。代码已开源。
Google DeepMind 发布开源实验模型 DiffusionGemma,采用文本扩散技术,突破自回归逐 token 生成方式,每次前向并行生成 256 个 token。该 26B MoE 模型推理时仅激活 3.8B 参数,量化后适配 18GB 显存消费级 GPU。在 H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s,速度提升 4 倍。具备双向注意力和自我修正能力,面向内联编辑、代码填充等本地交互工作流,以 Apache 2.0 许可证开放。
关联讨论 4 条X:Google DeepMind (@GoogleDeepMind)X:Demis Hassabis (@demishassabis)X:Testing Catalog (@testingcatalog)X:Google AI for Developers (@googleaidevs)DiffusionGemma 是 Google 基于 Gemma 4 架构的实验性文本生成模型,采用扩散式并行生成替代逐 token 自回归,实现更快推理、双向上下文感知和实时自我修正,并可在消费级 GPU 上部署。模型通过迭代去噪并行生成并细化 256-token 块,在处理数独等复杂约束任务上优于传统语言模型,且微调效果显著。它已集成 vLLM 等推理框架,为开发者提供一种高性能、高效长上下文扩展且易于定制部署的非自回归新方法。
关联讨论 4 条X:Google DeepMind (@GoogleDeepMind)X:Demis Hassabis (@demishassabis)X:Testing Catalog (@testingcatalog)X:Google AI for Developers (@googleaidevs)自蒸馏通过匹配学生(仅看问题)与自教师(还看上下文)的输出分布,使模型在无上下文时仍保持改进。研究比较三种上下文设计:二值奖励(GRPO)、参考解、以及步骤对齐的批评。步骤对齐批评效果最佳,Avg@12上比GRPO高16.11分,比参考解条件高5.27分。逐token优势分析表明,步骤对齐反馈仅针对推理失败的token,而参考解强制模型改变所有token行为,包括正确步骤。这说明反馈与推理步骤的结构对齐是自蒸馏效果的关键驱动因素。
Anthropic 发布 Claude Fable 5,这是新 Mythos 类别的首个模型。该模型在 SWE-bench Verified 上达到 95%,几乎在所有基准测试中领先,但成本是 Opus 4.8 的两倍,每百万 token 价格为 10 美元或 50 美元。严格的安全过滤器会阻止约 9% 的请求,同时新增 30 天数据保留政策,即使签订零数据保留合同也适用。
关联讨论 32 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克