6月13日

12:14

Berryxia.AI@berryxia

当前视频生成模型仅学到“手靠近→杯子动”的相关性，而非因果机制，导致抓杯子时杯子提前飞起。Aether AI 创始人黄碧薇教授提出因果世界模型（Causal World Model），旨在让 AI 理解物理运行机制而非仅预测表象。其 benchmark 显示，引入因果结构可使机器人成功率提升 25-50%，样本需求降低 5-10 倍。这标志着下一代 AI 需从“知道是什么”进化到“知道为什么”，尤其在机器人、自动驾驶等真实物理场景中。

huangserva: 当前的 AI,连一个杯子都还没"真懂"。极客公园「今夜科技谈」这期,Aether AI 创始人黄碧薇教授(@huang_biwei)举了个特别戳的例子: 让今天的视频生成模型去"抓一个杯子" 手还没真碰到,杯子自己就飞起来了。画面看着挺...

具身智能大佬观点推理

10:45

MiniMax (official)@MiniMax_AI

MiniMax 发布全新开源模型 M3，具备前沿编码、智能体能力、原生图像视频输入、Computer Use 及 1M-token 上下文窗口。核心采用 MSA 稀疏注意力架构：每个 query 仅对 128-token 的 KV 块打分，只关注 top 块，使超长上下文实际可部署。M3 在 vLLM 获 Day-0 支持，已在 NVIDIA 和 AMD 硬件验证，包括 MSA 专用 prefill/decode kernel、1M-token 上下文服务（prefix caching + chunked prefill）、BF16/MXFP8 检查点（Hopper 和 Blackwell 的 MoE 后端）、原生多模态输入，以及工具调用、推理解析和思考模式控制等功能。

vLLM: 🎉 Congrats to @MiniMax_AI on releasing MiniMax M3! Frontier coding and agentic capabilities, native image and video inp...

多模态开源生态推理模型发布

关联讨论 11 条

08:07

SemiAnalysis@SemiAnalysis_

祝贺 @vllm_project 和 @lmsysorg 在 CUDA 和 ROCm 堆栈上于第 0 天发布 MiniMax M3 428B！MiniMax M3 包含： 🟠 块稀疏注意力，预填充比 M2.7 快 9 倍 🟠 第 0 天开放 MXFP8 权重 🟠 此外，@Inferact 发布了第 0 天 EAGLE3 开放权重草稿模型支持期待尝试 MiniMax M3 的性能！

开源生态推理模型发布部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

同事件精选77

Ling-2.6与Ring-2.6技术报告：高效即时的万亿参数智能体智能

Ling-2.6优化即时响应与输出token能力，Ring-2.6针对深度推理和复杂智能体工作流。基于Ling-2.0通过架构迁移预训练和大规模后训练升级。架构引入融合Lightning Attention与MLA的混合线性注意力设计，提升长上下文训练与解码效率。通过进化思维链、语言单元策略优化、双向偏好对齐和最短正确响应蒸馏优化token效率。提出KPop强化学习框架支持Ring-2.6-1T在环境交互数据上稳定训练，通过异步调度提升编码、搜索、工具使用和工作流执行的训练效率。2.6系列全部检查点已开源。

智能体推理模型发布

同一事件，精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》

推荐理由：万亿参数开源 Agent 模型，一个走即时响应，一个专攻复杂推理，对于做工具调用和自动化工作流的团队是能立刻上手的重要弹药。

07:44

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

一年之内，AI从几乎无法解决任何最难数学问题，发展到几乎能解决所有它们。

Epoch AI: Claude Fable 5 scores very well on FrontierMath: Tiers 1-4 (v2), reaching 87% on Tiers 1-3 and 88% on Tier 4. This conti...

Anthropic 推理评测/基准

06:34

Artificial Analysis@ArtificialAnlys

Artificial Analysis 发布 AA-AgentPerf 基准，首批测试 DeepSeek V4 Pro 推理能效

Artificial Analysis 发布新基准 AA-AgentPerf，首批结果覆盖 DeepSeek V4 Pro 在 NVIDIA Blackwell（GB300、B300）、Hopper（H200）及 AMD MI355X 上的推理能效。核心指标为每兆瓦承载的并发智能体数（要求 20 tokens/s 且 TTFT≤10s）：GB300（机架级解耦）达 61,354，B300（单节点解耦）21,053，MI355X 3,551，H200 2,594。基准使用真实编码 agent 轨迹（最多 200 轮、序列超 100K tokens），允许 KV cache 复用、推测解码等生产优化并验证精度。测试显示 Blackwell 机架级比单节点能效高约 3 倍，且代际大幅领先 Hopper；MI355X 配置较早且未稳定启用推测解码，仍有优化空间。

DeepSeek 推理评测/基准

06:04

Rohan Paul@rohanpaul_ai

《从AGI到ASI》--Google DeepMind论文

Google DeepMind新论文提出从通用人工智能到超级智能的四条路径：持续扩展（计算、模型规模、数据、测试时推理）、算法范式革新（超越Transformer架构）、递归自我改进（AI加速自身研发）、多智能体集体智能（众多专业AI智能体协作出超人类智能）。扩展可能遇到数据、算力、能源瓶颈；递归改进最不确定；多智能体路径最易被低估，通过专业化与协调能超越单个强模型。ASI可能不是单次跃迁，而是AI辅助创造更好AI的加速链。

智能体推理论文/研究

05:43

MiniMax (official)@MiniMax_AI

同事件精选82

MiniMax M3 发布，具备前沿编码与智能体能力，原生图像视频输入和计算机使用，1M-token 上下文。核心采用 MSA 稀疏注意力：每个 query 评分 128-token KV 块，仅对 top 块做注意力。vLLM 当日即支持 M3，包括专用 MSA prefill/decode 核、前缀缓存与分块 prefill、BF16 和 MXFP8 检查点、Hopper 与 Blackwell 的 MoE 后端，并在 NVIDIA 与 AMD 硬件上验证。同时支持原生多模态输入、工具调用、推理解析和思考模式控制等智能体工作负载。

vLLM: 🎉 Congrats to @MiniMax_AI on releasing MiniMax M3! Frontier coding and agentic capabilities, native image and video inp...

多模态开源生态推理模型发布

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：M3把1M上下文从‘理论上能做’变成了‘今天就能部署’，MSA稀疏注意力是关键，开源社区和推理框架的深度合作值得关注。

05:28

MarkTechPost（RSS）

Google 发布 Gemini-SQL2：Gemini 3.1 Pro Text-to-SQL 在 BIRD 单模型排行榜上取得 80.04% 执行准确率

Google Research 于 2026 年 6 月 12 日发布 Gemini-SQL2，基于 Gemini 3.1 Pro 驱动的文本转 SQL（Text-to-SQL）能力，在 BIRD 单模型排行榜上达到 80.04% 的执行准确率。

Google 推理模型发布编码

04:52

Chubby♨️@kimmonismus

Apple用NVIDIA机密计算在谷歌云保护推理隐私

Kim解释Apple如何在Google Cloud上执行推理时保护隐私：最重的请求运行在Google Cloud的Blackwell B200s上，利用NVIDIA Confidential Computing提供基于硬件的安全层，将工作负载隔离在可信执行环境中加密处理数据，确保Google和Apple都无法看到数据。

大佬观点推理部署/工程