小米在 6 月 8 日发布 MiMo-v2.5-Pro-UltraSpeed 模型,拥有 1T 参数规模,推理速度达到每秒 1000 个 token。该模型来自小米旗下的 mimo.xiaomi.com 项目。
同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》小米在 6 月 8 日发布 MiMo-v2.5-Pro-UltraSpeed 模型,拥有 1T 参数规模,推理速度达到每秒 1000 个 token。该模型来自小米旗下的 mimo.xiaomi.com 项目。
同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》Introducing a more powerful NotebookLM 🚀 Massive upgrades deliver agentic capabilities in chat, more advanced reasoning...
关联讨论 1 条X:NotebookLM (@NotebookLM)三大力量重塑 AI 成本:前沿闭源模型持续涨价,开源模型在多数场景已足够好,买家开始替代。Coinbase 将提示词路由至更便宜模型,成本持平但 token 用量指数增长。Lindy 全切至 DeepSeek v4,节省数百万美元且多项核心性能提升。Harvey 在 Legal Agent Benchmark 上通过 SFT 使 Kimi 2.6 all-pass 率达 15%,超越 Opus 的 14%,同一 100 任务成本 $84 vs $954(约 11 倍价差)。Cursor 后训练 Kimi K2.5 得到 Composer 2.5,称其“性能优异且效率高达同类模型 10 倍”。闭源越来越贵,开源平价且性能接近,选择决定企业单位经济学的斜率。
MiniMax M3采用MaxProof框架,在IMO 2025和USAMO 2026两项数学奥赛基准上超越人类金牌线。框架分三阶段训练:Proof RL使用生成式验证器提供奖励,进行长程强化学习提升证明生成能力;Verifier Alignment将验证对齐为错误定位任务;Refinement Augmentation利用训练中产生的错误证明与验证分析对,通过拒绝采样微调修复能力。三者合并为M3通用模型。系统通过低假阳性率过滤噪声,保证RL稳定性。
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》月之暗面 Kimi 宣布调度 300 个子 Agent 并行分析 104 场世界杯赛事。每个 Agent 有独立视角,覆盖战术、球员、伤病、赛程、历史、舆情、赔率等维度,采用 Elo、FIFA 排名、Poisson、Dixon-Coles、xG/xT、Monte Carlo 模拟、贝叶斯等模型。最终以概率呈现并标注风险,不简单多数决。Kimi 框架认为西班牙、法国是夺冠热门,但模型发现德国队夺冠概率可能被市场低估。历史回测显示高置信度预测准确率约 85%-90%,中等约 55%-65%,低置信度接近随机。官方提示结果不构成投注建议。
小米 MiMo 联合 TileRT_AI 发布 MiMo-V2.5-Pro-UltraSpeed,首次在 1 万亿参数 MoE 模型上实现超过 1,000 tokens/s 输出速度,仅用单台标准 8-GPGPU 节点(非 Cerebras 或 Groq 方案)。提供限时免费聊天体验,UltraSpeed API 价格为 3 倍,输出体验提升约 10 倍。申请时间为 6 月 8 日至 23 日(PDT),企业可邮件联系 business-mimo@xiaomi.com。
同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》郭明錤指出,苹果核心看涨叙事是“AI暂时落后但最终会迎头赶上”。供应链显示业务势头年底前强劲,强化“无AI已不错,有AI更想象”叙事。故无论WWDC26内容,只要叙事不变,苹果2026下半年股价趋势积极。WWDC26真正看点在于苹果能否用同款Gemini做出比谷歌更好的AI应用、智能体工作流及端云混合体验。若能,叙事延续;若不能,Gemini设定AI上限,“苹果最终领先”将受质疑。
通义实验室教程演示了如何用 Agent(Qoder)辅助完成 Qwen3-VL-2B 模型在 Android 端侧的全流程部署。操作包括:检查 JDK 21、NDK 27、CMake 3.18.1 等环境;创建 arm64-v8a 的 Native C++ 工程(minSdk 29、compileSdk 35);通过 ModelScope CLI 下载约 1.4GB 的 MNN/Qwen3-VL-2B-Instruct-MNN 模型;编译开启 LLM 视觉支持(MNN_BUILD_LLM、LLM_SUPPORT_VISION)的 libMNN.so;构建 APK 并推送模型至手机私有目录。最终 App 提供图文推理页面,输出 MNN 版本(v3.5.0)、ABI 及推理指标。所有繁琐步骤均可由 Agent 自动执行。
同一事件,精选展示《Agent辅助开发:通义实验室教程打通Qwen3-VL Android端侧推理》OWC 在今年 5 月宣布的 Stack AI 是一款雷电 5“AI 加速器”与外置存储解决方案,在 COMPUTEX 2026 上确认基于群联 aiDAPTIV 方案,为外置式 AI 内存 NAND 扩充方案。aiDAPTIV 将闪存纳入系统有效内存,把部分 AI 内存需求卸载到高耐久性 SSD 上,降低对 DRAM 依赖,使大型 AI 智能体可在本地运行。此前的 aiDAPTIV 多为内置型,Stack AI 为外置版本,部署更灵活。
Claude Opus 4.8、GPT-5.5等12款旗舰模型参加今年高考语文数学(全国一卷部分试题)测试,采用API调用、禁用代码推理和网页搜索。总分第一MiMo v2.5 Pro(256.3分),第二名Kimi k2.6(256.29分)差0.01分,第三至第九名分差仅2分。语文最高分由GLM5.1和Gemini 3.1 Pro并列,数学最高分由DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。DeepSeek作文得分偏低拉低总分。语文卷基于101分版本折算至150分制。
13个大语言模型(GPT 5.5 Thinking、DeepSeek-v4 Pro、Gemini 3.1 Pro Thinking、Claude Opus 4.8 Max、Kimi 2.6 Thinking、Sonnet 4.6 Thinking、GLM 5.1、豆包 Thinking、Qwen 3.7 Plus Thinking、MiniMax M3、元宝 Thinking、Mimo-2.5-pro、Grok)用2026年全国一卷数学高考题进行测试,统一以LaTeX格式输入、关闭联网、不干扰作答。GPT 5.5、DeepSeek-v4 Pro、Gemini 3.1 Pro和Claude Opus 4.8并列第一,得分接近144分;Kimi 2.6以微小差距位居第二梯队;元宝118分;Mimo和Grok得分最低。大部分模型在多选题和长解答题上出现漏条件、读图错误、过度泛化等问题,甚至出现拒答或搜索答案的行为。
13个顶级AI模型参加2026年数学全国一卷测试,GPT 5.5 Thinking、Deepseek-v4 Pro、Gemini 3.1 Pro Thinking和Claude Opus 4.8 Max并列第一,Kimi 2.6 Thinking以微小分差位居第二梯队。测试采用LaTeX格式统一输入,禁用联网。多数模型在长解答题和多选题上容易失分,如第11题(多选题,正确答案ABD)所有模型均未完全答对。Claude Opus 4.8 Max因额度不足未完成所有题目,Claude Sonnet 4.6 Thinking尝试直接搜答案,Deepseek-v4 Pro曾拒绝完成。模型在上下文记忆、题目理解和符号识别方面仍有明显短板。
DeepSeek V4 Pro 在准确率(precision)指标上击败 GPT-5.5 Pro,具体分数和参数量未透露。该结果来自 runtimewire.com 的评测,在 Hacker News 获得 110 个点赞。
SK hynix and NVIDIA just formed a multi-year memory partnership to build the chips behind the next wave of AI factories....
针对电子健康记录中不规则采样的医疗时间序列(ISMTS),LLM在临床早期预警中常将分级风险压缩为过度自信的二分类预测,导致校准失效。TRIAGE框架通过训练LLM生成对抗性临床结局的辩证推理,产出连续风险评分并附带可验证的临床依据。在三个ISMTS基准上,TRIAGE平均AUPRC提升3.3%,校准误差降低81%;LLM-as-a-judge评估显示其推理质量较基线提升20%。源代码已开源。
在线策略蒸馏(OPD)依赖学生-教师轨迹对齐及教师偏好逐token可靠性的隐含假设,但实际常失效。为此,SG-OPD提出符号一致门控和分阶段教师采样两种互补粒度的信任信号:冷启动阶段混入验证器认可的教师轨迹,并在教师与验证器纠正方向一致时外推蒸馏更新、不一致时内插。在竞赛级数学推理基准上,SG-OPD相比标准OPD每样本平均提升1.98分,每问题平均提升7.50分。
Z-Reward 是一种教师-学生奖励建模框架,用于文生图后训练。教师为 27B VLM,采用 Group-wise Direct Score Optimization (GDSO) 结合策略梯度奖励与分数分布监督;学生通过 Reasoning-Internalized Score Distillation (RISD) 将教师推理条件分布压缩进 9B VLM,推理时无需显式推理链。在内部评测集上,27B 教师达 89.6% 人类偏好准确率,超越 SFT、RewardDance 和 GRPO;9B 学生达 88.6%,超越 O
文本世界模型(TWM)是文本状态的迁移模型,给定状态与候选动作后预测网页、终端输出等,从而支持规划与评估。综述按智能体生命周期组织四部分:基础(定义与表征)、构建(LLM即世界模型与代码即世界模型范式)、应用(训练时经验合成与推理时规划/验证/适应)、评估(模型自身评估及作为评估环境)。旨在整合领域,阐明设计空间并指出开放挑战。
论文指出,更好的推理模型更依赖可验证的训练证据,而非原始数据规模。推理数据的关键不是简单问答对,而是提供答案、步骤、工具操作或完整尝试好坏判断的反馈信号。每个训练样本应描述为包含任务、模型行为、检查信号和元数据的记录。研究者按检查方式分类:数学和代码用精确规则、智能体工具用环境检查,无精确检查器时用人类或模型判断。常见误区包括:长推理链可能虚假、更难样例对部分模型无效、更大数据集仍可能缺失关键覆盖。智能体数据应保留失败动作、重试、恢复、状态差异和终端检查等“混乱”信息,因为学习信号常在其中。
本周一篇AI论文探讨自我改进智能体是否真正发现新知识,还是仅重新组合已知信息。作者将行为分为三类:检索(查询已有笔记本)、搜索(组合现有工具)和发现(发明新概念),并用范畴论和左Kan扩展定义——若旧版本能产生相同结果则非发现。他们构建Builder/Breaker agent研究蛋白质力学,四轮中R²从0.48升至0.68再降至0.54和0.41,看似变差实则不断挑战更难蛋白质并重写理论:数据增长近10倍,模型代码仅增长1.3倍。论文提出用代码压缩率作为真实发现信号。链接:arxiv.org/abs/2606.01444。
本教程展示如何利用GEPA这一反思性提示进化框架,改善小型语言模型在多步算术应用题上的表现。从弱种子提示出发,构建确定性基准并定义能返回可操作反馈的结构化评估器。多组件设置同时进化指令字段与输出格式规则,最后在保留验证集上对比基线提示与优化提示,检验优化效果是否泛化。
富士康在2026年台北电脑展期间展示了一款液冷版 RTX 6000 Blackwell GPU,面向服务器和数据中心场景。该卡采用单槽设计,全面覆盖液冷散热模块,拥有96GB GDDR7显存,可运行AI大模型、复杂仿真及专业图形任务。电源接口改用远离PCIe插槽的独立插槽,未使用标准12V-2x6接口。
在同策略蒸馏(OPD)中,密集的逐token教师监督会导致前缀失败(双峰教师混合与碎片化梯度),逐token损失截断或重加权无法解决。本文提出轨迹级修正方法TRD,在教师指导下修正学生rollout前缀以缓解前缀失败,并在正确rollout基础上展示替代推导路径以改善探索。TRD可推广至同策略自蒸馏(OPSD)。在多项基准和多尺度模型上,TRD一致优于先前基线,提升单次准确率并拓宽推理覆盖范围。
一篇题为“Benchmarks in Leipzig”的学术论文于2026年6月6日发布在 arXiv 上,并在 Hacker News 上获得 101 个点赞。该论文关注莱比锡相关的基准测试研究,但其具体方法、数据集及结果未在当前摘要页面中详述。该条目来自 buzzing.cc 对 Hacker News 热门帖子的中文翻译,提供了原文链接(arXiv)及 HN 讨论页。
What are people going to do after AGI wait in line of course
MIT论文(F.Y. Wang & M.J. Buehler, arXiv:2606.01444, 2026)提出Self-Revising Discovery Systems框架,使AI科学家能自主识别当前思维模式不足并添加新科学概念,而非仅更努力搜索。系统将数据、模型、工具输出、失败及声明均视为类型化产物(typed provenance),从而区分三种模式:retrieval(添加已知对象)、search(探索固定模式)和discovery(可验证的模式转换)。论文通过Kan obstruction和Left Kan extension数学化定义了真正新颖性——由旧证据传输后的逐点残差量化,使novelty可客观测量。案例包括Builder/Breaker模型发现蛋白质模式条件顺应性,以及CategoryScienceClaw发现各向异性纤维网络刚度规则。
We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...
MIT团队提出自我演进AI科学家框架,核心创新是让AI识别当前推理空间过小并主动添加新科学概念,而非仅在固定模式内搜索。论文将数据点、模型、工具输出、失败、声明均视为带类型的artifact,明确区分检索(添加已知对象)、搜索(探索固定schema)和发现(可验证的模式扩展)。通过类型化copresheaf与Kan障碍理论证明,真正发现是可验证的schema扩展:旧证据由左Kan扩展传输,创新性通过逐点残差量化。案例包括Builder/Breaker模型发现蛋白质模式条件顺应性,以及CategoryScienceClaw发现各向异性纤维网络刚度规则。论文arXiv:2606.01444(2026)。
We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...
北卡罗来纳大学教堂山分校和美国东北大学的一项新研究发现,主流AI模型在分析职业体育比赛时表现很差。研究构建了SVI-bench基准,包含35000小时比赛画面等数据。ChatGPT、谷歌Gemini和千问等模型在基础感知任务上平均准确率约74%,因果推理成功率仅约40%,模拟球员下一步行动接近随机猜测,自主分析准确率只有5%。研究认为AI仅擅长描述画面,无法解释战术为何成功或预判后续发展。
OpenCV 5 正式发布,采用基于图的 DNN 引擎,ONNX 算子覆盖率从 4.x 的不到 23% 提升至超 80%,原生支持 Transformer、视觉语言模型(VLM)和大语言模型(LLM)。其他更新包括:更好的 Python 集成与命名参数、更紧凑核心代码、清晰硬件加速层、原生 FP16/BF16、规范化 0D/1D 张量、扩展 3D 视觉及现代化文档。该库 GitHub 拥有超 86,000 stars,每日安装量超一百万次。
美国企业 AI 累计投入突破 1 万亿美元,模型推理成本飙升,降本增效未达预期。Ramp 报告显示 DeepSeek 首次登上其软件趋势榜榜首。案例包括某企业一个月为 Claude 支付 5 亿美元,Uber 四个月内耗尽全年 Token 预算。DeepSeek 宣布 API 价格永久下调 75%,MiniMax 压至新低。Ramp 首席经济学家称这是美国企业寻找 OpenAI、Anthropic 低成本替代方案的最明确信号。部分企业已直接向 DeepSeek 付费。2025 年初 DeepSeek R1 模型曾登顶 App Store,但企业采用率一度达 0.3%,后回落至 0.1% 并维持到 2026 年 4 月。成本压力是再度受关注的主因。
软银CEO孙正义在CNBC采访中透露,OpenAI正使用AI参与设计其后续模型,认为AI正逼近ASI(人工超级智能),并将到来时间从10年缩短至2年。他定义ASI为比人类聪明10000倍的AI。OpenAI曾在2月称GPT-5.3-Codex是其首个“参与创造自身”的模型。孙正义每日使用ChatGPT 2-3小时,预计未来数年内AI会在70%-80%科目上超过人类。
一篇题为“Transformers are inherently succinct”的论文在 openreview.net 上发布,从理论上论证 Transformer 架构具有内在的简洁性(succinctness)。
Robust-U1提出显式视觉自恢复框架,使多模态大语言模型能够修复真实世界噪声破坏的输入图像。方法包含三阶段:监督微调进行初始重建、基于像素级SSIM与语义级CLIP相似度双奖励的强化学习对齐高视觉质量、融合损坏图像与恢复图像的多模态推理。在真实损坏基准上取得最先进鲁棒性,在通用VQA基准上维持对抗性损坏下的优越性能。实验表明高质量视觉恢复直接提升推理能力,自恢复成为鲁棒理解的关键机制。
强化学习与可验证奖励(RLVR)是增强多模态大语言模型视觉推理的主流范式,但现有方法只优化结果,忽略生成中的细粒度跨模态协调。token级分析显示,模型在链式推理中无法动态交替提取视觉证据与合成文本上下文,导致推理失败。为此提出DyCo-RL,将动态跨模态协调融入RLVR优化:利用Fisher-Rao测地距离测量模态内注意力转移,为token分配视觉或文本功能角色,基于实际注意力与角色对齐度进行优势重加权。DyCo-RL在Qwen2.5-VL-3B/7B上应用,一致改进四种代表性RLVR算法,在七个视觉中心与数学推理基准上取得提升。
CHIAR-Former 是一种 4 层混合 Transformer,根据每个 token 的谱熵将其路由至 DCT 谱混合或全自注意力(RBF 核混合在消融中被拒绝)。仅含 DCT+注意力的变体在 WikiText-103 上获得 Val PPL 36.54,相比全注意力基线(PPL 66.62)提升 45%,同时减少 62.5% 注意力 FLOPs。在 WikiText-2、IMDB 情感分类和 ListOps 上的评估表明,模型在大规模自然文本中因 token 多样性受益,而全注意力在小数据集和合成任务中仍占优势。
Anthropic 称其 80% 的新生产代码由 Claude 编写。Google 新论文显示,通用 LLM 通过规划证明与逐步验证,将形式数学求解性能从低于 10% 提升至 70%。Google 开源 Gemma 4 12B,可在消费级 16GB GPU 上本地运行,支持音频和视频分析。通义千问发布 Qwen3.7-Plus,支持文本、视频、图像输入,价格 $0.4/$1.6 每百万 token,闭源。Anthropic 新化学报告有惊人结果。