6月17日

00:53

MarkTechPost（RSS）

同事件精选76

Qwen团队发布三个具身AI模型组成的套件Qwen-RobotSuite：Qwen-RobotManip（基于Qwen3.5-4B的VLA模型，通过统一对齐框架和3800小时开源数据（含24708小时合成）实现跨本体操作，在LIBERO-Plus OOD基准上达91.4%，跨本体迁移性能为π0.5的3.2倍）、Qwen-RobotWorld（60层MMDiT+冻结Qwen2.5-VL编码器的语言条件视频世界模型，以自然语言为统一动作接口预测未来视频）和Qwen-RobotNav（基于Qwen3-VL的导航模型，2B/4B/8B，输出航点轨迹）。RobotManip与RobotNav已开源GitHub。

具身智能多模态开源/仓库模型发布

同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

推荐理由：Qwen-RobotSuite 一次性放出三个具身模型，用统一对齐策略解决了机器人数据碎片化问题，多个 SOTA 结果加上两个开源仓库，做具身智能的值得认真看一下。

6月16日

14:30

公众号：通义实验室（千问）

Qwen-Robot 发布：打通大模型到物理世界的最后一公里

通义实验室推出 Qwen-Robot，包含三个基础模型：Qwen-RobotNav 以单套权重统一五类导航任务，五项基准达 SOTA，零样本部署于宇树 Go2 机器人（推理延迟 196ms）；Qwen-RobotManip 基于 Qwen3.5-4B VL，采用 80 维状态-动作统一表示，利用超 38,100 小时开源数据训练，在多个操作基准超越 π0.5；Qwen-RobotWorld 以 860 万视频-文本对训练，通过自然语言动作接口统一 20 余种本体，多项世界模型评测第一。三个模型通过语言优先接口可被通用 Qwen 模型组合调用，实现物理智能体闭环。

具身智能多模态模型发布

关联讨论 2 条

12:39

Qwen：Blog Retrieval（API）

同事件精选72

Qwen-RobotManip：对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作（VLA）基础模型，引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频，构建约 38,100 小时预训练语料，涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%，RoboTwin-C2R Hard 达 69.4%，RoboCasa365 Composite-Unseen 达 14.9%，EBench 达 45.6%，RoboTwin-IF 达 72.0%，并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道（1,933 小时第一人称视频转 24,808 小时数据）及上下文策略适配。

具身智能开源生态数据/训练模型发布

同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

推荐理由：Qwen 这次发布的机器人模型，用统一对齐框架把跨实体数据规模化训练跑通了，OOD 泛化大幅领先，做具身智能的值得认真看一下。

12:39

Qwen：Blog Retrieval（API）

精选72

Qwen-RobotWorld：具身智能体的无界世界

Qwen-RobotWorld以语言为统一动作接口，采用双流Multimodal Diffusion Transformer（MMDiT）架构，将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩，统一20余种机器人形态，基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别，支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。

具身智能多模态模型发布

关联讨论 2 条

推荐理由：具身智能的世界模型长期受限于单一形态，Qwen-RobotWorld用语言统一动作接口，把操作、驾驶、导航合训，多视角几何一致性和人类演示迁移是过去一年最扎实的落地信号，做机器人的别错过。

12:39

Qwen：Blog Retrieval（API）

Qwen-Robot Suite：面向物理世界智能的基础模型套件

Qwen 发布三款基础模型——Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld。Nav 通过可控观测协议统一指令跟随、点/物体目标导航、目标追踪和自动驾驶五类任务，在 VLN-CE RxR 上达 76.5% SR，HM3Dv2 物体目标导航（仅 RGB）75.6% SR，EVT-Bench 追踪率 90.0%，NAVSIM 91.4 PDMS。Manip 利用规范状态-动作空间对超 38,100 小时异构开源机器人数据进行跨本体训练。World 通过自然语言动作接口协同训练 20 余种本体，预测操控、驾驶和导航的物理未来。三者共同将通用智能转化为物理行动。

具身智能模型发布

关联讨论 2 条

12:39

Qwen：Blog Retrieval（API）

同事件精选70

Qwen-RobotNav：面向智能体导航系统的可扩展导航模型

Qwen 发布 Qwen-RobotNav，基于 Qwen3-VL 在 15.6M 样本上训练，统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域，无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA：VLN-CE RxR 成功率 76.5%，HM3Dv2 目标导航 75.6%（仅 RGB），EVT-Bench 跟踪率 90.0%，NAVSIM PDMS 91.4，以及三项 EQA 新标杆。模型暴露四个可调轴（视觉 token 预算、时间衰减、相机权重、帧采样模式）。作为智能体系统的一部分，上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%，导航步数减少 77%。模型已零样本部署在 Unitree Go2 四足机器人上，无需环境微调。

具身智能模型发布

同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

推荐理由：把导航任务看作上下文配置问题，单一模型覆盖从跟随指令到自动驾驶五种任务，在四足机器人上零样本部署，具身智能的工程化样本。

10:40

公众号：蚂蚁百灵（Ling）

同事件精选79

蚂蚁百灵发布 Ling & Ring 2.6 技术报告

蚂蚁百灵发布 Ling & Ring 2.6 技术报告，系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构，将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s，Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60，ClawEval 得 63.82。三款模型均已开源。

智能体开源/仓库推理模型发布

同一事件，精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》

推荐理由：蚂蚁百灵2.6技术报告首次公开Hybrid Linear Attention与KPop Agent RL细节，开源模型在OpenClaw登顶，把万亿模型从聊天拉到真实工作流，做Agent应用的值得细读。

10:00

IT之家（RSS）

精选70

成本砍半，字节跳动推出 Seedance 2.0 Mini 视频生成模型

字节跳动火山引擎旗下火山方舟体验中心于 6 月 15 日上线 Seedance 2.0 Mini 视频生成模型，计划近期开放 API。该模型比 Seedance 2.0 Fast 快 2 倍，输出质量相当。图生视频定价 0.023 元/千 tokens，视频生视频 0.014 元/千 tokens，720P 规格下单秒生成成本约 0.5 元，较 Seedance 2.0 标准版降低约一半。模型面向电商内容生产、营销素材批量生成、UGC 创作及特效玩法等高频率、大规模视频生成场景。

模型发布视频

推荐理由：Seedance 2.0 Mini 把视频生成成本压到 0.5 元/秒，比标准版便宜一半，对做大批量电商素材和 UGC 的团队是个实际信号，值得等 API 开放后看实测。

01:25

LMSYS：Blog（Chatbot Arena 团队）

精选67

下一代投机解码：DFlash 与 Spec V2

Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token，在 Qwen 3.5 397B-A17B（BF16）的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3

Hugging Face 推理模型发布部署/工程

推荐理由：DFlash 用并行起草和 KV 注入实现了实测 4.3 倍吞吐，再加上 SGLang Spec V2 引擎优化，推理加速不再是纸上谈兵。做 LLM 部署和推理服务的人，可以直接用这个组合试试。

6月15日

23:49

IT之家（RSS）

MiniMax M3 模型正式开源：原生多模态、百万上下文

MiniMax 于 6 月 12 日开源 MiniMax M3 模型权重并发布 MSA 技术论文。M3 是原生多模态旗舰模型，总参数 428B，激活参数 23B，为首个从 Step 0 开始多模态混合训练的开源模型。在 Artificial Analysis 综合智能指数上获全球开源最高排名。输出速度从约 30 TPS 提升至约 80 TPS，后续还将提速 30-40%。M3 在编码与智能体评测中达行业顶尖水平，具备自主任务拆解、工具调用与多步推理能力，上下文支持百万级别。

arXiv Hugging Face 多模态开源生态

23:01

公众号：MiniMax（稀宇科技）

同事件精选76

MiniMax 开源 M3 模型权重及 MSA 技术论文

MiniMax 上周五开源了 428B 总参数、23B 激活参数的 M3 模型权重，同步发布 MSA（MiniMax Sparse Attention）技术论文，该架构显著降低长上下文计算成本。M3 是首个从预训练阶段就进行文本、图像等多模态交错混合训练的开源模型。发布两周后，M3 在 Artificial Analysis 综合智能指数、GDPval-AA 排行榜均获开源模型第一，Code Arena WebDev 跻身帕累托最优序列，Vals.AI 榜单居国产模型首位。输出速度已从约 30 TPS 提升至约 80 TPS，计划再提速 30–40%；Token Plan 后台新增调用量看板。

多模态数据/训练模型发布

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：M3 是第一个从预训练阶段就深度融合多模态的开源模型，MSA 架构让长上下文成本大幅降低，它的开源会给做多模态应用的团队一个高性价比的选择，国产开源又多了一个能打的基座。

17:43

IT之家（RSS）

理想汽车宣布下半年马赫VLA能力持续进化，第四季度对齐特斯拉FSD V14能力

理想汽车在 Livis Day 发布会上宣布，第三季度 AD Max 推送全新马赫 VLA，第四季度对齐特斯拉 FSD V14 能力。双马赫 M100 芯片算力 2560TOPS，模仿学习规模提升 50%、强化学习提升 15 倍、模型参数量提升 10 倍、计算量提升 15 倍。自研马赫 Mind-4 系列基座大模型包括 Mind-Pro 和 Mind-Edge；Mind-Pro 在多项基准及 Agent 评测中领先，Mind-Edge 为端侧原生具身智能体，数据不上传。

具身智能模型发布端侧

14:38

MarkTechPost（RSS）

Z.ai 发布 GLM-5.2，支持可用 1M Token 上下文窗口及两种思考强度

Z.ai 于 6 月 13 日发布 GLM-5.2，这是 GLM-5 系列四个月内的第四款旗舰编码模型。核心亮点是可用的 100 万 token 上下文窗口（标识为 glm-5.2[1m]），每轮最多输出 131,072 token，约为 GLM-5.1 的 5 倍。新增 High 和 Max 两种思考强度级别，Max 推荐用于复杂多步编码任务。架构未在发布时公开，但社区指出 GLM-5 基础为 744B 参数的 MoE 模型，每 token 激活 40B 参数。Z.ai 未公布任何基准测试分数。GLM-5.2 兼容 Claude Code、Cline 等 8 种编码智能体工具，可通过 Anthropic 兼容端点直接替换使用，对所有 GLM Coding Plan 用户（Lite/Pro/Max/Team）开放。

推理模型发布编码

01:59

Hacker News 热门（buzzing.cc 中文翻译）

精选72

里约热内卢市政府 AI 模型 Rio3.5 在基准测试中击败 Qwen3.7

里约热内卢市政府开发的 AI 模型 Rio3.5，在近期基准测试中超越了 Qwen3.7。该消息源自 Hacker News 上的一篇帖子，指出 Rio3.5 在多项评测中表现优于 Qwen3.7。目前尚未公开具体的测试细节或基准名称。

Hugging Face 开源/仓库模型发布评测/基准

推荐理由：一个市政府 IT 部门训练的模型在基准测试中击败了 Qwen3.7，这让人重新审视谁在参与前沿模型竞争。如果结果可复现，可能是今年最意外的黑马。

6月14日

03:24

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选72

GLM 5.2 发布

GLM 5.2 版本已正式发布。该消息来自 Hacker News 的一则热门讨论，帖子获得 111 个 HN 积分。页面包含一张发布图片，但未提供具体功能或更新内容。

开源生态模型发布编码

同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

推荐理由：GLM-5.2 把 1M 上下文和长链推理压进了开源模型，智谱高调喊出“前沿智能应属于所有人”，这对被断供的开发者是一剂强心针，可以立刻上手试试。

01:04

The Decoder：AI News（RSS）

新AI模型"Count Anything"可对任意图像中的物体进行计数

“Count Anything”是一个新AI模型，仅通过文本提示即可对任意类型图像（如人群、显微镜下细胞样本）中的物体进行计数。对比测试显示，其错误率比此前系统降低一半。但该模型在处理极密集物体和模糊术语时仍存在困难。

多模态模型发布

6月13日

20:33

The Decoder：AI News（RSS）

Google Research 的 Gemini-SQL2 在 text-to-SQL 基准测试中以大幅优势领先

Google Research 推出 Gemini-SQL2，基于 Gemini 3.1 Pro，可将自然语言转换为可执行 SQL 查询。该模型在 BIRD 基准上达到 80.04% 准确率，大幅领先 OpenAI 和 Anthropic。Google 表示该技术将改进其数据服务的自然语言功能。

Google 推理模型发布

18:36

IT之家（RSS）

科大讯飞发布星火多模态大模型 X2-VL，当前唯一基于全国产算力训练的主流大模型

6月13日，科大讯飞在长三角机器人及自动化展览会上发布星火多模态大模型X2-VL。该模型基于全国产算力平台太湖星跃训练，采用专属MoE架构。面向高中各科图文结合试题，答题准确率近95%；挑战2026年高考数学全国I卷获148分，高于对比模型A-E（144、143、137、145、142分）。科大讯飞已在无锡高新区成立子公司负责日常运营。

多模态推理模型发布

17:54

公众号：智谱（GLM）

同事件精选70

智谱 GLM-5.2 全量开放，支持 1M 上下文且下周开源

GLM-5.2 是智谱迄今能力最强的开源模型，支持真正可用的 1M 上下文，在长程任务中继续保持领先，并被智谱称为最强的国产 Coding 模型。今晚 5:21 起面向 GLM Coding Plan 全量用户开放（覆盖 Lite、Pro、Max、团队版）。API 将于下周上线，模型下周正式开源，遵循 MIT 协议。

开源生态模型发布编码

同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

推荐理由：智谱把最强大模型全量开放且开源，这事本身就在打脸那些收回权限的闭源模型，做中文编码的开发者可以认真看看。

17:02

The Decoder：AI News（RSS）

月之暗面开源模型Kimi K2.7 Code每个token价格比GPT-5.5和Claude低12倍

Moonshot AI发布Kimi K2.7 Code，一款拥有1万亿参数的开源权重编程模型。在编程基准测试上仍落后于GPT-5.5和Claude Opus 4.8，但每个token的价格比竞争对手低最多12倍。核心问题在于：同等预算下额外获得的运行次数能否弥补质量差距。

开源/仓库模型发布编码

14:36

IT之家（RSS）

谷歌发布Gemini-SQL2，Text-to-SQL准确率80.04%登顶

Google Research发布Gemini-SQL2模型，基于Gemini 3.1 Pro，专攻自然语言转SQL任务。在BIRD单模型赛道执行准确率80.04%，超越此前Gemini-SQL。BIRD涵盖95个数据库、37个专业领域及12751组问题-SQL配对，含脏数据与外部知识需求。业务人员可用自然语言查询营收、流失等指标。谷歌尚未公布API、模型卡或技术报告，亦未确认产品接入。

Google 推理模型发布

14:36

IT之家（RSS）

智谱：GLM-5.2 面向 GLM Coding Plan 全量用户开放，下周开源

智谱今日宣布，GLM-5.2 面向 GLM Coding Plan 全量用户开放，覆盖 Lite/Pro/Max/团队版。其 API 将于下周上线，模型下周正式开源，遵循 MIT 协议。智谱称 GLM-5.2 是迄今能力最强的开源模型，支持真正可用的 1M 上下文，在长程任务中保持领先。此前，智谱于今年 3 月发布 GLM-5.1，5 月发布 GLM-5.1 高速版，输出速度达 400 tokens/s。

开源生态模型发布

13:17

蚂蚁 inclusionAI：HuggingFace 新模型

精选62

inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型

VISTA-4B 是基于 Qwen3.5-4B 骨干的 GUI 定位模型，输入截图与自然语言指令，输出归一化 0-1000 坐标。训练采用视图一致 GRPO 和自验证交叉视图锚定。在 GUI 定位基准上，SSPro 得分 64.2（相比 GRPO-4B 提升 2.0），SSV2 得分 93.8（下降 0.4），OSWorld-G 得分 61.2（提升 1.3），OSWorld-G-R 得分 69.7（提升 0.5）。模型已开源在 HuggingFace，推荐使用提示词并返回 [x,y] 格式坐标。

智能体 Hugging Face 多模态模型发布

推荐理由：蚂蚁 inclusionAI 开源了一款 GUI 定位模型，基于 Qwen3.5 微调，在接地基准上小幅提升，关键是提供了自验证训练方法，做桌面自动化的可以直接下载用。

13:17

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/VISTA-9B：基于VISTA训练的GUI定位视觉语言模型

VISTA-9B是基于Qwen3.5 9B骨干训练的GUI定位模型，输入截图与自然语言指令，输出0-1000归一化坐标。采用VISTA（视图一致自验证）方法，含view-consistent GRPO与self-verified cross-view anchoring。在SSPro、SSV2、OSWorld-G、OSWorld-G-R上分别取得69.2、95.8、68.1、75.5分，超越Qwen3.5-9B与GRPO-9B基线。模型已开源，可通过HuggingFace加载使用。

智能体 Hugging Face 多模态模型发布

12:59

MarkTechPost（RSS）

Moonshot AI 开源 Kimi K2.7-Code：编程模型在 Kimi Code Bench v2 上较 K2.6 提升 21.8%

Moonshot AI 以 Modified MIT 许可证开源了 Kimi K2.7-Code，一款专注编程的智能体模型，基于 Kimi K2.6，拥有 256K 上下文窗口，推理 token 使用量降低约 30%。在六项基准测试中均优于 K2.6，其中在 Kimi Code Bench v2 上提升 21.8%。该模型可通过 Kimi API 和 Kimi Code 获取。

开源生态模型发布编码

08:00

HuggingFace Daily Papers（社区热门论文）

同事件精选77

Ling-2.6与Ring-2.6技术报告：高效即时的万亿参数智能体智能

Ling-2.6优化即时响应与输出token能力，Ring-2.6针对深度推理和复杂智能体工作流。基于Ling-2.0通过架构迁移预训练和大规模后训练升级。架构引入融合Lightning Attention与MLA的混合线性注意力设计，提升长上下文训练与解码效率。通过进化思维链、语言单元策略优化、双向偏好对齐和最短正确响应蒸馏优化token效率。提出KPop强化学习框架支持Ring-2.6-1T在环境交互数据上稳定训练，通过异步调度提升编码、搜索、工具使用和工作流执行的训练效率。2.6系列全部检查点已开源。

智能体推理模型发布

同一事件，精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》

推荐理由：万亿参数开源 Agent 模型，一个走即时响应，一个专攻复杂推理，对于做工具调用和自动化工作流的团队是能立刻上手的重要弹药。

05:28

MarkTechPost（RSS）

Google 发布 Gemini-SQL2：Gemini 3.1 Pro Text-to-SQL 在 BIRD 单模型排行榜上取得 80.04% 执行准确率

Google Research 于 2026 年 6 月 12 日发布 Gemini-SQL2，基于 Gemini 3.1 Pro 驱动的文本转 SQL（Text-to-SQL）能力，在 BIRD 单模型排行榜上达到 80.04% 的执行准确率。

Google 推理模型发布编码

6月12日

21:18

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选77

Kimi K2.7-Code：具有更高模型 token 效率的开源编码模型

Kimi K2.7-Code 是一个开源编码模型，相比同类模型拥有更高的模型 token 效率，能够用更少的 token 完成相同的代码生成任务。模型已在 HuggingFace 上发布。

智能体 Hugging Face 推理模型发布

同一事件，精选展示《6倍速！Kimi K2.7 Code 高速版已上线》

推荐理由：Kimi K2.7-Code 把推理 token 砍掉 30%，在长程编码任务上有实打实的提升，是编码智能体赛道的一个有力信号，做代码 Agent 的可以盯一下。