We released Sonic-3.5 and Ink-2, the #1 streaming models for text to speech and speech to text you can use in your voice...
We released Sonic-3.5 and Ink-2, the #1 streaming models for text to speech and speech to text you can use in your voice...
通义实验室推出 Qwen-Robot,包含三个基础模型:Qwen-RobotNav 以单套权重统一五类导航任务,五项基准达 SOTA,零样本部署于宇树 Go2 机器人(推理延迟 196ms);Qwen-RobotManip 基于 Qwen3.5-4B VL,采用 80 维状态-动作统一表示,利用超 38,100 小时开源数据训练,在多个操作基准超越 π0.5;Qwen-RobotWorld 以 860 万视频-文本对训练,通过自然语言动作接口统一 20 余种本体,多项世界模型评测第一。三个模型通过语言优先接口可被通用 Qwen 模型组合调用,实现物理智能体闭环。
关联讨论 3 条Hacker News 热门(buzzing.cc 中文翻译)X:通义千问 / Qwen (@Alibaba_Qwen)MarkTechPost(RSS)Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作(VLA)基础模型,引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频,构建约 38,100 小时预训练语料,涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%,RoboTwin-C2R Hard 达 69.4%,RoboCasa365 Composite-Unseen 达 14.9%,EBench 达 45.6%,RoboTwin-IF 达 72.0%,并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道(1,933 小时第一人称视频转 24,808 小时数据)及上下文策略适配。
同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》Qwen-RobotWorld以语言为统一动作接口,采用双流Multimodal Diffusion Transformer(MMDiT)架构,将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩,统一20余种机器人形态,基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别,支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。
关联讨论 3 条Hacker News 热门(buzzing.cc 中文翻译)X:通义千问 / Qwen (@Alibaba_Qwen)MarkTechPost(RSS)Qwen 发布三款基础模型——Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld。Nav 通过可控观测协议统一指令跟随、点/物体目标导航、目标追踪和自动驾驶五类任务,在 VLN-CE RxR 上达 76.5% SR,HM3Dv2 物体目标导航(仅 RGB)75.6% SR,EVT-Bench 追踪率 90.0%,NAVSIM 91.4 PDMS。Manip 利用规范状态-动作空间对超 38,100 小时异构开源机器人数据进行跨本体训练。World 通过自然语言动作接口协同训练 20 余种本体,预测操控、驾驶和导航的物理未来。三者共同将通用智能转化为物理行动。
关联讨论 3 条Hacker News 热门(buzzing.cc 中文翻译)X:通义千问 / Qwen (@Alibaba_Qwen)MarkTechPost(RSS)Qwen 发布 Qwen-RobotNav,基于 Qwen3-VL 在 15.6M 样本上训练,统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域,无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA:VLN-CE RxR 成功率 76.5%,HM3Dv2 目标导航 75.6%(仅 RGB),EVT-Bench 跟踪率 90.0%,NAVSIM PDMS 91.4,以及三项 EQA 新标杆。模型暴露四个可调轴(视觉 token 预算、时间衰减、相机权重、帧采样模式)。作为智能体系统的一部分,上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%,导航步数减少 77%。模型已零样本部署在 Unitree Go2 四足机器人上,无需环境微调。
同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》蚂蚁百灵发布 Ling & Ring 2.6 技术报告,系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构,将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s,Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60,ClawEval 得 63.82。三款模型均已开源。
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》字节跳动推出Seedance 2.0精简版Mini,价格比原版便宜约30%,速度是Fast版2倍,画质接近。API定价约$0.073/秒,30秒广告视频成本约$2.19。支持文生/图生视频,可通过CapCut App、Dreamina使用。限时优惠:Pro用户生成720P视频积分减33%,CapCut App购买Pro套餐最高4折,叠加后比原版最多便宜55%。
字节跳动火山引擎旗下火山方舟体验中心于 6 月 15 日上线 Seedance 2.0 Mini 视频生成模型,计划近期开放 API。该模型比 Seedance 2.0 Fast 快 2 倍,输出质量相当。图生视频定价 0.023 元/千 tokens,视频生视频 0.014 元/千 tokens,720P 规格下单秒生成成本约 0.5 元,较 Seedance 2.0 标准版降低约一半。模型面向电商内容生产、营销素材批量生成、UGC 创作及特效玩法等高频率、大规模视频生成场景。
Pythagoras-Prover 团队发布最小定理证明器 4B 版本及首个扩散模型概念验证版,均仅 4B 参数。在 MiniF2F 测试中,4B 模型以 86.1% Pass@32 超越 DeepSeek-Prover-V2-671B;32B 版本达 89.8% Pass@32 和 92.6% Pass@2024,创当前最佳成绩。核心在于数据效率:构造约 80 万 Lean 验证示例,按易到难训练,并采用 LoRA 微调避免全参数更新。模型上下文窗口为 8192 tokens。模型、数据及训练流水线将陆续开源。
🚀🚀 Introducing Pythagoras-Prover 🚀🚀 🔹 The smallest theorem prover to date - Pythagoras-Prover-4B 🔹 The first proof...
Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token,在 Qwen 3.5 397B-A17B(BF16)的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3
MiniMax 于 6 月 12 日开源 MiniMax M3 模型权重并发布 MSA 技术论文。M3 是原生多模态旗舰模型,总参数 428B,激活参数 23B,为首个从 Step 0 开始多模态混合训练的开源模型。在 Artificial Analysis 综合智能指数上获全球开源最高排名。输出速度从约 30 TPS 提升至约 80 TPS,后续还将提速 30-40%。M3 在编码与智能体评测中达行业顶尖水平,具备自主任务拆解、工具调用与多步推理能力,上下文支持百万级别。
MiniMax 上周五开源了 428B 总参数、23B 激活参数的 M3 模型权重,同步发布 MSA(MiniMax Sparse Attention)技术论文,该架构显著降低长上下文计算成本。M3 是首个从预训练阶段就进行文本、图像等多模态交错混合训练的开源模型。发布两周后,M3 在 Artificial Analysis 综合智能指数、GDPval-AA 排行榜均获开源模型第一,Code Arena WebDev 跻身帕累托最优序列,Vals.AI 榜单居国产模型首位。输出速度已从约 30 TPS 提升至约 80 TPS,计划再提速 30–40%;Token Plan 后台新增调用量看板。
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》Perceptron推出Agentic Detection视觉检测模型,用户只需提供一张图片并用自然语言描述目标,即可自动框出并分类,无需预先训练。该模型还能处理物理推理检测任务,例如定位森林火灾的起火点(“烟的来源”)、挑出变形电线杆(“需要维修的电线杆”)、标记空车位等。引用推文指出,该模型支持用自然语言或示例描述任意物体进行定位。
Today we're releasing Perceptron Agentic Detection: localize anything you can describe in natural language or show examp...
理想汽车在 Livis Day 发布会上宣布,第三季度 AD Max 推送全新马赫 VLA,第四季度对齐特斯拉 FSD V14 能力。双马赫 M100 芯片算力 2560TOPS,模仿学习规模提升 50%、强化学习提升 15 倍、模型参数量提升 10 倍、计算量提升 15 倍。自研马赫 Mind-4 系列基座大模型包括 Mind-Pro 和 Mind-Edge;Mind-Pro 在多项基准及 Agent 评测中领先,Mind-Edge 为端侧原生具身智能体,数据不上传。
Berry Xia 介绍了基于 Google gemma-4-12B-it 微调的 Gemma 4 12B Coder GGUF 模型。它将 Fable 5 的推理链条蒸馏进 12B 参数模型,训练数据使用 Composer 2.5 真实通过案例并由 Fable 5 辅助补全。GGUF 格式让模型在 12GB 消费级显卡即可本地运行,甚至支持 CPU。模型专为代码生成、调试、复杂算法、链式思考提示等任务优化,无需 API 费用且无导出限制。该模型基于 Google 最新 gemma-4 架构,目前下载量已破六千,社区反馈其在本地 coding 场景表现出色,填补了云端模型与本地可用之间的鸿沟。
Gemma 4 12B Coder is here and it's a game changer for local code generation. This GGUF model packs Google's latest gemma...
Z.ai 于 6 月 13 日发布 GLM-5.2,这是 GLM-5 系列四个月内的第四款旗舰编码模型。核心亮点是可用的 100 万 token 上下文窗口(标识为 glm-5.2[1m]),每轮最多输出 131,072 token,约为 GLM-5.1 的 5 倍。新增 High 和 Max 两种思考强度级别,Max 推荐用于复杂多步编码任务。架构未在发布时公开,但社区指出 GLM-5 基础为 744B 参数的 MoE 模型,每 token 激活 40B 参数。Z.ai 未公布任何基准测试分数。GLM-5.2 兼容 Claude Code、Cline 等 8 种编码智能体工具,可通过 Anthropic 兼容端点直接替换使用,对所有 GLM Coding Plan 用户(Lite/Pro/Max/Team)开放。
里约热内卢市政府开发的 AI 模型 Rio3.5,在近期基准测试中超越了 Qwen3.7。该消息源自 Hacker News 上的一篇帖子,指出 Rio3.5 在多项评测中表现优于 Qwen3.7。目前尚未公开具体的测试细节或基准名称。
传闻字节跳动旗下Dreamina正在准备一个更小、更便宜的Seedance版本——Seedance 2.0 mini,预计6月15日发布。该版本在质量上接近Seedance 2.0,但价格大幅降低,为喜欢Seedance但担忧成本的创作者提供了更经济的选择。
Step 3.7 Flash is Live on DeepInfra: An Agentic, Multimodal Model Built for Production
GLM-5.2 is Fully Open, Frontier Intelligence Belongs to Everyone Today, the sudden restriction of certain frontier model...
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》智谱 GLM-5.2 将面向 GLM Coding Plan 全量用户开放,模型下周正式开源。GLM-5.2 是智谱迄今能力最强的开源模型,支持真正可用的 1M 上下文,并在长程任务中继续保持领先。
Alibaba Qwen3.7 slowly fading into irrelevance at the frontier due to proprietary stance. In it's place we have Minimax ...
GLM 5.2 版本已正式发布。该消息来自 Hacker News 的一则热门讨论,帖子获得 111 个 HN 积分。页面包含一张发布图片,但未提供具体功能或更新内容。
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》MiniMax M3 模型已上线 HuggingFace 并集成至 InferenceX。M3 总参数量约 428B,激活参数约 23B。得益于 Inferact 工程支持,M3 在 NVIDIA B300 Blackwell Ultra 上通过 vLLM 实现 Day 0 优化推理。Inferact 还发布了 EAGLE3 heads 以进一步加速。团队正在 InferenceX 上基准测试 Day 0 MI355X 性能。
“Count Anything”是一个新AI模型,仅通过文本提示即可对任意类型图像(如人群、显微镜下细胞样本)中的物体进行计数。对比测试显示,其错误率比此前系统降低一半。但该模型在处理极密集物体和模糊术语时仍存在困难。
GLM-5.2 is Fully Open, Frontier Intelligence Belongs to Everyone Today, the sudden restriction of certain frontier model...
Nvidia发布Cosmos 3——一种全模态世界模型,将语言、图像、视频、音频和动作整合到同一系统,使物理AI能跨越“理解、模拟、行动”三大任务。它把动作视为世界的第一类语言,通过动作token设计,让模型可基于视频推断动作,或同时生成未来场景及对应运动。这使机器人从“识别物体”升级为预测“移动、抓取、滑动”等交互后果。相关论文《Cosmos 3: Omnimodal World Models for Physical AI》已发布于arXiv。
Google Research 推出 Gemini-SQL2,基于 Gemini 3.1 Pro,可将自然语言转换为可执行 SQL 查询。该模型在 BIRD 基准上达到 80.04% 准确率,大幅领先 OpenAI 和 Anthropic。Google 表示该技术将改进其数据服务的自然语言功能。
Intelligence should be open, accessible, and ready to build with, empowering every developer, everywhere. GLM-5.2 is now...
6月13日,科大讯飞在长三角机器人及自动化展览会上发布星火多模态大模型X2-VL。该模型基于全国产算力平台太湖星跃训练,采用专属MoE架构。面向高中各科图文结合试题,答题准确率近95%;挑战2026年高考数学全国I卷获148分,高于对比模型A-E(144、143、137、145、142分)。科大讯飞已在无锡高新区成立子公司负责日常运营。
Intelligence should be open, accessible, and ready to build with, empowering every developer, everywhere. GLM-5.2 is now...
GLM-5.2 是智谱迄今能力最强的开源模型,支持真正可用的 1M 上下文,在长程任务中继续保持领先,并被智谱称为最强的国产 Coding 模型。今晚 5:21 起面向 GLM Coding Plan 全量用户开放(覆盖 Lite、Pro、Max、团队版)。API 将于下周上线,模型下周正式开源,遵循 MIT 协议。
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》Intelligence should be open, accessible, and ready to build with, empowering every developer, everywhere. GLM-5.2 is now...
Moonshot AI发布Kimi K2.7 Code,一款拥有1万亿参数的开源权重编程模型。在编程基准测试上仍落后于GPT-5.5和Claude Opus 4.8,但每个token的价格比竞争对手低最多12倍。核心问题在于:同等预算下额外获得的运行次数能否弥补质量差距。
Intelligence should be open, accessible, and ready to build with, empowering every developer, everywhere. GLM-5.2 is now...
智谱(Z.ai)发布新旗舰模型 GLM-5.2,现已对 GLM Coding Plan 用户(Lite/Pro/Max/Team 计划)开放。该模型具备强大编程能力、可用的 1M 上下文支持,并延续长程任务优势。API 和聊天机器人服务将于下周上线,模型也将于下周以 MIT 许可证正式开源。
关联讨论 8 条公众号:智谱(GLM)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客The Decoder:AI News(RSS)Nathan Lambert:Interconnects(RSS)智谱:研究(网页内嵌数据)Hugging Face:Blog(RSS)Hacker News 热门(buzzing.cc 中文翻译)