三大力量重塑 AI 成本：前沿闭源模型持续涨价，开源模型在多数场景已足够好，买家开始替代。Coinbase 将提示词路由至更便宜模型，成本持平但 token 用量指数增长。Lindy 全切至 DeepSeek v4，节省数百万美元且多项核心性能提升。Harvey 在 Legal Agent Benchmark 上通过 SFT 使 Kimi 2.6 all-pass 率达 15%，超越 Opus 的 14%，同一 100 任务成本 $84 vs $954（约 11 倍价差）。Cursor 后训练 Kimi K2.5 得到 Composer 2.5，称其“性能优异且效率高达同类模型 10 倍”。闭源越来越贵，开源平价且性能接近，选择决定企业单位经济学的斜率。

Anthropic DeepSeek 开源生态推理

推荐理由：Tunguz 用 Coinbase、Lindy 等真实案例，把「用开源/便宜模型替代昂贵前沿模型」的趋势讲透了，做 AI 应用的人该重新算一下单位经济账。

00:19

NotebookLM@NotebookLM

精选72

推出更强大的 NotebookLM 🚀 重大升级带来了对话中的智能体能力、更高级的推理以及一系列新的输出格式。处理复杂的多步骤研究问题从未如此简单。现已面向 Google AI Ultra 订阅者推出。

Google 产品更新多模态推理

关联讨论 1 条

推荐理由：NotebookLM 这次升级把 agent 能力塞进聊天框，从被动答案变成能拆解多步研究，对深度资料整理的人是真迭代，但仅限 Google AI Ultra 订阅，门槛不低。

00:00

MiniMax：Blog（网页）

同事件精选76

MaxProof框架：MiniMax M3在IMO 2025和USAMO 2026超越人类金牌线

MiniMax M3采用MaxProof框架，在IMO 2025和USAMO 2026两项数学奥赛基准上超越人类金牌线。框架分三阶段训练：Proof RL使用生成式验证器提供奖励，进行长程强化学习提升证明生成能力；Verifier Alignment将验证对齐为错误定位任务；Refinement Augmentation利用训练中产生的错误证明与验证分析对，通过拒绝采样微调修复能力。三者合并为M3通用模型。系统通过低假阳性率过滤噪声，保证RL稳定性。

推理论文/研究

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：M3在数学奥赛上搞定人类金牌，靠的是用生成验证器做RL和进化搜索，这套组合对复杂推理任务的普适性可能比提高一个benchmark分数更有价值。

6月8日

23:20

IT之家（RSS）

Kimi 官宣将用 300 子 Agent 并行预测 104 场世界杯赛事，德国队或成市场低估黑马

月之暗面 Kimi 宣布调度 300 个子 Agent 并行分析 104 场世界杯赛事。每个 Agent 有独立视角，覆盖战术、球员、伤病、赛程、历史、舆情、赔率等维度，采用 Elo、FIFA 排名、Poisson、Dixon-Coles、xG/xT、Monte Carlo 模拟、贝叶斯等模型。最终以概率呈现并标注风险，不简单多数决。Kimi 框架认为西班牙、法国是夺冠热门，但模型发现德国队夺冠概率可能被市场低估。历史回测显示高置信度预测准确率约 85%-90%，中等约 55%-65%，低置信度接近随机。官方提示结果不构成投注建议。

智能体产品更新推理

22:40

Xiaomi MiMo@XiaomiMiMo

同事件精选82

小米 MiMo-V2.5-Pro-UltraSpeed 突破 1，000 tokens/s，单台 8-GPGPU 节点运行 1T MoE 模型

小米 MiMo 联合 TileRT_AI 发布 MiMo-V2.5-Pro-UltraSpeed，首次在 1 万亿参数 MoE 模型上实现超过 1,000 tokens/s 输出速度，仅用单台标准 8-GPGPU 节点（非 Cerebras 或 Groq 方案）。提供限时免费聊天体验，UltraSpeed API 价格为 3 倍，输出体验提升约 10 倍。申请时间为 6 月 8 日至 23 日（PDT），企业可邮件联系 business-mimo@xiaomi.com。

推理模型发布部署/工程

同一事件，精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式，1T 模型输出突破 1000 tokens/s》

推荐理由：小米用单节点8卡标准GPU在1T MoE模型上跑出1000+ tokens/s，没有走晶圆级或专用芯片的路子，直接把推理成本门槛拉低了一大截，做实时对话和Agent的可以申请免费聊天先上手感受一下。

20:14

郭明錤｜Ming-Chi Kuo@mingchikuo

郭明錤：WWDC26不影响苹果2026下半年股价积极趋势，但考验看涨叙事持久力

郭明錤指出，苹果核心看涨叙事是“AI暂时落后但最终会迎头赶上”。供应链显示业务势头年底前强劲，强化“无AI已不错，有AI更想象”叙事。故无论WWDC26内容，只要叙事不变，苹果2026下半年股价趋势积极。WWDC26真正看点在于苹果能否用同款Gemini做出比谷歌更好的AI应用、智能体工作流及端云混合体验。若能，叙事延续；若不能，Gemini设定AI上限，“苹果最终领先”将受质疑。

智能体 Google 大佬观点推理

18:00

公众号：通义实验室（千问）

同事件精选68

Agent 辅助开发，一站式打通 Qwen3-VL Android 端侧推理

通义实验室教程演示了如何用 Agent（Qoder）辅助完成 Qwen3-VL-2B 模型在 Android 端侧的全流程部署。操作包括：检查 JDK 21、NDK 27、CMake 3.18.1 等环境；创建 arm64-v8a 的 Native C++ 工程（minSdk 29、compileSdk 35）；通过 ModelScope CLI 下载约 1.4GB 的 MNN/Qwen3-VL-2B-Instruct-MNN 模型；编译开启 LLM 视觉支持（MNN_BUILD_LLM、LLM_SUPPORT_VISION）的 libMNN.so；构建 APK 并推送模型至手机私有目录。最终 App 提供图文推理页面，输出 MNN 版本（v3.5.0）、ABI 及推理指标。所有繁琐步骤均可由 Agent 自动执行。

多模态推理教程/实践端侧

同一事件，精选展示《Agent辅助开发：通义实验室教程打通Qwen3-VL Android端侧推理》

推荐理由：用Agent辅助走通Qwen3-VL安卓端侧推理全流程，从环境搭建到JNI桥接一步到位。如果你在做移动端AI应用，这可能是目前最详细的实战指南，可以直接抄作业。