6月12日

15:35

IT之家（RSS）

华为在HDC 2026上发布开源盘古openPangu 2.0模型，拥有512K上下文，提供Pro和Flash两个版本：Pro总参数505B、激活18B，Flash总参数92B、激活6B。该模型更亲和昇腾算力，单卡吞吐率可达其他主流开源模型2倍；更适配鸿蒙，Agent任务更快更准更省。计划从6月30日起陆续开源7大组件，包括预训练代码、后训练代码、训练算子。余承东解释总参数仅505B，因算力大量支持国内其他企业，自身留用有限，且AI算力成本高，华为更聚焦时延和吞吐率提升。

开源生态推理模型发布

14:00

HuggingFace Daily Papers（社区热门论文）

同事件精选77

MiniMax Sparse Attention（MSA）块状稀疏注意力

MiniMax 提出块状稀疏注意力 MSA，基于 GQA 构建。轻量级 Index Branch 为每个 GQA 组独立选择 Top‑k KV 块，Main Branch 仅对选中块执行精确块稀疏注意力。在 109B 参数多模态模型上，MSA 与 GQA 性能持平，1M 上下文下每 token 注意力计算减少 28.4 倍。配合协同设计的 GPU 内核，H800 上实现 14.2 倍 prefill 和 7.6 倍 decoding 端到端加速。推理内核与基于 MSA 的多模态模型已公开发布。

GitHub Hugging Face 开源/仓库推理

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：MiniMax这个稀疏注意力把长上下文推理计算砍掉28倍，而且直接开源了高效CUDA kernel和模型，做agent和代码仓库级推理的团队可以赶紧试试。

12:34

IT之家（RSS）

Analog Tech 推出 5L 边缘 AI PC，内置 214 TOPS dNPU 加速卡

日本 Analog Tech 发布紧凑型边缘 AI PC 系统 AironiA AIR-AD-AI-001，体积约 5L（200×250×95mm）。该机型基于酷睿 Ultra 5 处理器 225，通过 PCIe 扩展一颗 INT8 算力 214 TOPS 的 dNPU 加速卡（AxeleraAI Metis AIPU，三星 5nm，8~15W）。运行 YOLOv5 模型可同时处理 24 条视频流，支持升级至 AxeleraAI Europa。标配 32GB DDR5 5600MT/s 内存、512GB M.2 NVMe SSD，配备 2.5GbE+1GbE 双网卡、HDMI 2.1/2.0、DP 1.4a 及 4 个 USB 3.X 接口。

产品更新推理端侧

11:00

HuggingFace Daily Papers（社区热门论文）

SpatialClaw：重新思考智能体空间推理的动作接口

SpatialClaw 是无需训练的空间推理框架，采用代码作为动作接口，维护预加载输入帧和感知几何原语的状态化 Python 内核，让 VLM 驱动的智能体逐步编写可执行代码单元，灵活组合分析感知结果。在 20 个静态和动态 3D/4D 空间推理基准上平均准确率达 59.9%，比近期空间智能体提升 11.2 个百分点，且在不做基准或模型适配的情况下，在六个 VLM 骨干上均取得一致提升。

智能体多模态推理论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

同事件精选79

MaxProof：面向数学证明的群体级别测试时扩展框架（MiniMax-M3）

MaxProof 是为 MiniMax-M3 系列设计的群体级别测试时扩展框架，用于竞赛级数学证明。M3 模型训练了证明生成、证明验证和基于 critique 的证明修复三种能力，验证器采用低假阳性率的深度防御生成式架构。这些能力合并到单个 M3 模型。测试时，MaxProof 将模型用作生成器、验证器、精炼器和排序器，在候选证明群体中搜索并通过锦标赛选择返回最终证明。M3 模型在 IMO 2025 达 35/42，USAMO 2026 达 36/42，均超过人类金牌阈值。

推理论文/研究

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：MiniMax-M3用生成-验证器RL把数学证明推到了人类金牌水平，IMO 2025 35/42，USAMO 2026 36/42。这篇的意义不只分数，而在于验证-修复-群体搜索的技术路线跑通了最难的人类竞赛。