6月16日

15:05

🚨 AI News | TestingCatalog@testingcatalog

精选75

Cartesia 推出 Sonic 3.5 和 Ink 2 两个模型，作为单一实时语音栈，分别负责文本转语音和语音转文本。Ink 2 在 Artificial Analysis 的流式语音转文字排行榜上排名第一。Sonic 3.5 在实时文本转语音中位列榜首，首音频延迟约 82ms。Cartesia 成为目前唯一同时拥有 #1 听与说模型的提供商。

Karan Goel: We released Sonic-3.5 and Ink-2, the #1 streaming models for text to speech and speech to text you can use in your voice...

智能体模型发布语音

推荐理由：Cartesia 同时发布实时语音合成和识别两个模型的迭代版，双双登顶第三方基准，80ms 首音频延迟让语音代理的交互感接近真人，做实时语音应用的开发者可以重点看一下。

14:30

公众号：通义实验室（千问）

Qwen-Robot 发布：打通大模型到物理世界的最后一公里

通义实验室推出 Qwen-Robot，包含三个基础模型：Qwen-RobotNav 以单套权重统一五类导航任务，五项基准达 SOTA，零样本部署于宇树 Go2 机器人（推理延迟 196ms）；Qwen-RobotManip 基于 Qwen3.5-4B VL，采用 80 维状态-动作统一表示，利用超 38,100 小时开源数据训练，在多个操作基准超越 π0.5；Qwen-RobotWorld 以 860 万视频-文本对训练，通过自然语言动作接口统一 20 余种本体，多项世界模型评测第一。三个模型通过语言优先接口可被通用 Qwen 模型组合调用，实现物理智能体闭环。

具身智能多模态模型发布

关联讨论 3 条

12:39

Qwen：Blog Retrieval（API）

同事件精选72

Qwen-RobotManip：对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作（VLA）基础模型，引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频，构建约 38,100 小时预训练语料，涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%，RoboTwin-C2R Hard 达 69.4%，RoboCasa365 Composite-Unseen 达 14.9%，EBench 达 45.6%，RoboTwin-IF 达 72.0%，并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道（1,933 小时第一人称视频转 24,808 小时数据）及上下文策略适配。

具身智能开源生态数据/训练模型发布

同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

推荐理由：Qwen 这次发布的机器人模型，用统一对齐框架把跨实体数据规模化训练跑通了，OOD 泛化大幅领先，做具身智能的值得认真看一下。

12:39

Qwen：Blog Retrieval（API）

精选72

Qwen-RobotWorld：具身智能体的无界世界

Qwen-RobotWorld以语言为统一动作接口，采用双流Multimodal Diffusion Transformer（MMDiT）架构，将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩，统一20余种机器人形态，基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别，支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。

具身智能多模态模型发布

关联讨论 3 条

推荐理由：具身智能的世界模型长期受限于单一形态，Qwen-RobotWorld用语言统一动作接口，把操作、驾驶、导航合训，多视角几何一致性和人类演示迁移是过去一年最扎实的落地信号，做机器人的别错过。

12:39

Qwen：Blog Retrieval（API）

Qwen-Robot Suite：面向物理世界智能的基础模型套件

Qwen 发布三款基础模型——Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld。Nav 通过可控观测协议统一指令跟随、点/物体目标导航、目标追踪和自动驾驶五类任务，在 VLN-CE RxR 上达 76.5% SR，HM3Dv2 物体目标导航（仅 RGB）75.6% SR，EVT-Bench 追踪率 90.0%，NAVSIM 91.4 PDMS。Manip 利用规范状态-动作空间对超 38,100 小时异构开源机器人数据进行跨本体训练。World 通过自然语言动作接口协同训练 20 余种本体，预测操控、驾驶和导航的物理未来。三者共同将通用智能转化为物理行动。

具身智能模型发布

关联讨论 3 条

12:39

Qwen：Blog Retrieval（API）

同事件精选70

Qwen-RobotNav：面向智能体导航系统的可扩展导航模型

Qwen 发布 Qwen-RobotNav，基于 Qwen3-VL 在 15.6M 样本上训练，统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域，无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA：VLN-CE RxR 成功率 76.5%，HM3Dv2 目标导航 75.6%（仅 RGB），EVT-Bench 跟踪率 90.0%，NAVSIM PDMS 91.4，以及三项 EQA 新标杆。模型暴露四个可调轴（视觉 token 预算、时间衰减、相机权重、帧采样模式）。作为智能体系统的一部分，上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%，导航步数减少 77%。模型已零样本部署在 Unitree Go2 四足机器人上，无需环境微调。

具身智能模型发布

同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

推荐理由：把导航任务看作上下文配置问题，单一模型覆盖从跟随指令到自动驾驶五种任务，在四足机器人上零样本部署，具身智能的工程化样本。

10:40

公众号：蚂蚁百灵（Ling）

同事件精选79

蚂蚁百灵发布 Ling & Ring 2.6 技术报告

蚂蚁百灵发布 Ling & Ring 2.6 技术报告，系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构，将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s，Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60，ClawEval 得 63.82。三款模型均已开源。

智能体开源/仓库推理模型发布

同一事件，精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》

推荐理由：蚂蚁百灵2.6技术报告首次公开Hybrid Linear Attention与KPop Agent RL细节，开源模型在OpenClaw登顶，把万亿模型从聊天拉到真实工作流，做Agent应用的值得细读。

10:08

小互@xiaohu

字节跳动推出Seedance 2.0 Mini

字节跳动推出Seedance 2.0精简版Mini，价格比原版便宜约30%，速度是Fast版2倍，画质接近。API定价约$0.073/秒，30秒广告视频成本约$2.19。支持文生/图生视频，可通过CapCut App、Dreamina使用。限时优惠：Pro用户生成720P视频积分减33%，CapCut App购买Pro套餐最高4折，叠加后比原版最多便宜55%。

模型发布

10:00

IT之家（RSS）

精选70

成本砍半，字节跳动推出 Seedance 2.0 Mini 视频生成模型

字节跳动火山引擎旗下火山方舟体验中心于 6 月 15 日上线 Seedance 2.0 Mini 视频生成模型，计划近期开放 API。该模型比 Seedance 2.0 Fast 快 2 倍，输出质量相当。图生视频定价 0.023 元/千 tokens，视频生视频 0.014 元/千 tokens，720P 规格下单秒生成成本约 0.5 元，较 Seedance 2.0 标准版降低约一半。模型面向电商内容生产、营销素材批量生成、UGC 创作及特效玩法等高频率、大规模视频生成场景。

模型发布视频

推荐理由：Seedance 2.0 Mini 把视频生成成本压到 0.5 元/秒，比标准版便宜一半，对做大批量电商素材和 UGC 的团队是个实际信号，值得等 API 开放后看实测。

07:19

Rohan Paul@rohanpaul_ai

Pythagoras-Prover 发布 4B 参数定理证明器及扩散模型概念验证版

Pythagoras-Prover 团队发布最小定理证明器 4B 版本及首个扩散模型概念验证版，均仅 4B 参数。在 MiniF2F 测试中，4B 模型以 86.1% Pass@32 超越 DeepSeek-Prover-V2-671B；32B 版本达 89.8% Pass@32 和 92.6% Pass@2024，创当前最佳成绩。核心在于数据效率：构造约 80 万 Lean 验证示例，按易到难训练，并采用 LoRA 微调避免全参数更新。模型上下文窗口为 8192 tokens。模型、数据及训练流水线将陆续开源。

Joshua Ong @ ICML: 🚀🚀 Introducing Pythagoras-Prover 🚀🚀 🔹 The smallest theorem prover to date - Pythagoras-Prover-4B 🔹 The first proof...

开源/仓库推理数据/训练模型发布

04:06

Chubby♨️@kimmonismus

有了 Mistral 的 Le Chaton Fat，谁还需要 Fable 5？

图像生成模型发布

01:25

LMSYS：Blog（Chatbot Arena 团队）

精选67

下一代投机解码：DFlash 与 Spec V2

Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token，在 Qwen 3.5 397B-A17B（BF16）的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3

Hugging Face 推理模型发布部署/工程

推荐理由：DFlash 用并行起草和 KV 注入实现了实测 4.3 倍吞吐，再加上 SGLang Spec V2 引擎优化，推理加速不再是纸上谈兵。做 LLM 部署和推理服务的人，可以直接用这个组合试试。

6月15日

23:49

IT之家（RSS）

MiniMax M3 模型正式开源：原生多模态、百万上下文

MiniMax 于 6 月 12 日开源 MiniMax M3 模型权重并发布 MSA 技术论文。M3 是原生多模态旗舰模型，总参数 428B，激活参数 23B，为首个从 Step 0 开始多模态混合训练的开源模型。在 Artificial Analysis 综合智能指数上获全球开源最高排名。输出速度从约 30 TPS 提升至约 80 TPS，后续还将提速 30-40%。M3 在编码与智能体评测中达行业顶尖水平，具备自主任务拆解、工具调用与多步推理能力，上下文支持百万级别。

arXiv Hugging Face 多模态开源生态

23:01

公众号：MiniMax（稀宇科技）

同事件精选76

MiniMax 开源 M3 模型权重及 MSA 技术论文

MiniMax 上周五开源了 428B 总参数、23B 激活参数的 M3 模型权重，同步发布 MSA（MiniMax Sparse Attention）技术论文，该架构显著降低长上下文计算成本。M3 是首个从预训练阶段就进行文本、图像等多模态交错混合训练的开源模型。发布两周后，M3 在 Artificial Analysis 综合智能指数、GDPval-AA 排行榜均获开源模型第一，Code Arena WebDev 跻身帕累托最优序列，Vals.AI 榜单居国产模型首位。输出速度已从约 30 TPS 提升至约 80 TPS，计划再提速 30–40%；Token Plan 后台新增调用量看板。

多模态数据/训练模型发布

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：M3 是第一个从预训练阶段就深度融合多模态的开源模型，MSA 架构让长上下文成本大幅降低，它的开源会给做多模态应用的团队一个高性价比的选择，国产开源又多了一个能打的基座。

18:44

小互@xiaohu

Perceptron发布Agentic Detection视觉检测模型

Perceptron推出Agentic Detection视觉检测模型，用户只需提供一张图片并用自然语言描述目标，即可自动框出并分类，无需预先训练。该模型还能处理物理推理检测任务，例如定位森林火灾的起火点（“烟的来源”）、挑出变形电线杆（“需要维修的电线杆”）、标记空车位等。引用推文指出，该模型支持用自然语言或示例描述任意物体进行定位。

Perceptron AI: Today we're releasing Perceptron Agentic Detection: localize anything you can describe in natural language or show examp...

多模态模型发布

17:43

IT之家（RSS）

理想汽车宣布下半年马赫VLA能力持续进化，第四季度对齐特斯拉FSD V14能力

理想汽车在 Livis Day 发布会上宣布，第三季度 AD Max 推送全新马赫 VLA，第四季度对齐特斯拉 FSD V14 能力。双马赫 M100 芯片算力 2560TOPS，模仿学习规模提升 50%、强化学习提升 15 倍、模型参数量提升 10 倍、计算量提升 15 倍。自研马赫 Mind-4 系列基座大模型包括 Mind-Pro 和 Mind-Edge；Mind-Pro 在多项基准及 Agent 评测中领先，Mind-Edge 为端侧原生具身智能体，数据不上传。

具身智能模型发布端侧

16:23

Berryxia.AI@berryxia

Gemma 4 12B Coder GGUF 发布：将 Fable 5 推理链蒸馏至本地可跑

Berry Xia 介绍了基于 Google gemma-4-12B-it 微调的 Gemma 4 12B Coder GGUF 模型。它将 Fable 5 的推理链条蒸馏进 12B 参数模型，训练数据使用 Composer 2.5 真实通过案例并由 Fable 5 辅助补全。GGUF 格式让模型在 12GB 消费级显卡即可本地运行，甚至支持 CPU。模型专为代码生成、调试、复杂算法、链式思考提示等任务优化，无需 API 费用且无导出限制。该模型基于 Google 最新 gemma-4 架构，目前下载量已破六千，社区反馈其在本地 coding 场景表现出色，填补了云端模型与本地可用之间的鸿沟。

Hugging Models: Gemma 4 12B Coder is here and it's a game changer for local code generation. This GGUF model packs Google's latest gemma...

Google 开源生态推理模型发布

15:50

meng shao@shao__meng

智谱的 Codex？不，是 ZCode！

模型发布编码

14:38

MarkTechPost（RSS）

Z.ai 发布 GLM-5.2，支持可用 1M Token 上下文窗口及两种思考强度

Z.ai 于 6 月 13 日发布 GLM-5.2，这是 GLM-5 系列四个月内的第四款旗舰编码模型。核心亮点是可用的 100 万 token 上下文窗口（标识为 glm-5.2[1m]），每轮最多输出 131,072 token，约为 GLM-5.1 的 5 倍。新增 High 和 Max 两种思考强度级别，Max 推荐用于复杂多步编码任务。架构未在发布时公开，但社区指出 GLM-5 基础为 744B 参数的 MoE 模型，每 token 激活 40B 参数。Z.ai 未公布任何基准测试分数。GLM-5.2 兼容 Claude Code、Cline 等 8 种编码智能体工具，可通过 Anthropic 兼容端点直接替换使用，对所有 GLM Coding Plan 用户（Lite/Pro/Max/Team）开放。

推理模型发布编码

01:59

Hacker News 热门（buzzing.cc 中文翻译）

精选72

里约热内卢市政府 AI 模型 Rio3.5 在基准测试中击败 Qwen3.7

里约热内卢市政府开发的 AI 模型 Rio3.5，在近期基准测试中超越了 Qwen3.7。该消息源自 Hacker News 上的一篇帖子，指出 Rio3.5 在多项评测中表现优于 Qwen3.7。目前尚未公开具体的测试细节或基准名称。

Hugging Face 开源/仓库模型发布评测/基准

推荐理由：一个市政府 IT 部门训练的模型在基准测试中击败了 Qwen3.7，这让人重新审视谁在参与前沿模型竞争。如果结果可复现，可能是今年最意外的黑马。

6月14日

22:44

Rohan Paul@rohanpaul_ai

字节跳动Dreamina将推Seedance 2.0 mini

传闻字节跳动旗下Dreamina正在准备一个更小、更便宜的Seedance版本——Seedance 2.0 mini，预计6月15日发布。该版本在质量上接近Seedance 2.0，但价格大幅降低，为喜欢Seedance但担忧成本的创作者提供了更经济的选择。

模型发布

15:11

StepFun@StepFun_ai

Step 3.7 Flash 现已在 @DeepInfra 上线 🚀 开发者现在可以通过 DeepInfra 的 API 试用我们的开源多模态推理模型，并支持为专用工作负载部署私有端点。专为智能体编程、工具使用、搜索和视觉工作流打造。感谢 DeepInfra 团队！

DeepInfra: Step 3.7 Flash is Live on DeepInfra: An Agentic, Multimodal Model Built for Production

多模态推理模型发布

07:48

🚨 AI News | TestingCatalog@testingcatalog

同事件精选78

智谱发布最强开源模型GLM-5.2，面向所有GLM Coding Plan用户（Lite/Pro/Max）开放。该模型支持真正可用的100万上下文窗口，在长程任务独立完成方面保持领先，适合构建复杂AI智能体应用，也是国产最强编码模型的核心引擎。面对外部封锁限制，智谱强调科学全球性、AGI不应被高墙垄断，采取激进开源态度。GLM-5.2的开源与API预计下周同步上线。

jietang: GLM-5.2 is Fully Open, Frontier Intelligence Belongs to Everyone Today, the sudden restriction of certain frontier model...

开源生态模型发布编码

同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

推荐理由：智谱发布 GLM-5.2，把 1M 上下文和强编码能力装进开源模型，在当前地缘限制下这种激进开放是难得的立场，做 agent 的值得上手一试。

07:37

IT之家（RSS）

智谱 GLM-5.2 下周开源，支持 1M 上下文

智谱 GLM-5.2 将面向 GLM Coding Plan 全量用户开放，模型下周正式开源。GLM-5.2 是智谱迄今能力最强的开源模型，支持真正可用的 1M 上下文，并在长程任务中继续保持领先。

模型发布行业动态

06:00

Chubby♨️@kimmonismus

里约热内卢市政府 IT 公司开发的 Rio 3.5 Open 397B（397B 参数）开源模型达到 SOTA，性能超过阿里 Qwen 3.7。此前 Qwen 3.7 因专有立场逐渐退出前沿竞争，取而代之的是 MiniMax M3 和 Rio 3.5。该模型已上传至 HuggingFace（prefeitura-rio/Rio-3.5-Open-397B）。

Zen Magnets: Alibaba Qwen3.7 slowly fading into irrelevance at the frontier due to proprietary stance. In it's place we have Minimax ...

开源生态模型发布

04:44

SemiAnalysis@SemiAnalysis_

情况检测到：里约热内卢市后训练了一个模型。基于 Qwen 7/2，Rio 3.5 Open 397B 在基础 Qwen 模型之上添加了 SwiReasoning--一个在标准链式推理与隐空间推理之间动态切换的框架，由基于熵的置信信号引导，使模型仅在必要时"出声思考"，其余时间在隐藏空间内静默推理，以提高 token 效率。

推理模型发布

03:24

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选72

GLM 5.2 发布

GLM 5.2 版本已正式发布。该消息来自 Hacker News 的一则热门讨论，帖子获得 111 个 HN 积分。页面包含一张发布图片，但未提供具体功能或更新内容。

开源生态模型发布编码

同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

推荐理由：GLM-5.2 把 1M 上下文和长链推理压进了开源模型，智谱高调喊出“前沿智能应属于所有人”，这对被断供的开发者是一剂强心针，可以立刻上手试试。