全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「模型发布」清除

6月17日周三

16:05MarkTechPost（RSS）70同事件精选MiniMax 发布 MSA 稀疏注意力方法，开源推理内核并推出 MiniMax-M3 模型同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

15:16🚨 AI News | TestingCatalog80Z ai 发布 GLM-5.2：开源权重新 SOTA，智能指数 51 分排名第四

15:05IT之家（RSS）41ChatGPT 语音最大规模升级：OpenAI 正筹备推出 GPT-Bidi-1 模型

14:15数字生命卡兹克56智谱GLM-5.2开源，1M上下文，称可比肩Opus 4.8

13:35DogeDesigner49Grok Imagine 1.5 Fast 视频生成速度翻倍

13:05IT之家（RSS）58Grok Imagine Video 1.5 模型正式上线：6 秒 720P 视频仅需 25 秒

12:54Orange AI71智谱开源 GLM 5.2，编程能力达 Opus 水平

12:35DogeDesigner45Grok Imagine 1.5 视频质量大幅提升

12:29歸藏(guizang.ai)72智谱 GLM-5.2 发布开源，支持Codepilot添加

12:27SiliconFlow42GLM 5.2 CodeArena登顶，全开源1M上下文

12:25Andrew Milich44Imagine Video 1.5 实现真实运动与一致文本

12:24Elon Musk56Grok Imagine 1.5 现已广泛发布

12:05xAI：News（网页）73同事件精选xAI 发布 Grok Imagine Video 1.5同一事件，精选展示《xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）》

12:05IT之家（RSS）66大晓机器人开源 ACE-Ego 具身操作 VLA 模型

12:05xAI52Grok Imagine Video 1.5 发布

11:38karminski-牙医67GLM-5.2 发布：1M上下文窗口，MIT开源权重

11:29歸藏(guizang.ai)79智谱 GLM-5.2 发布并开源

11:24Orange AI76GLM-5.2 开源模型编程能力首次达到Opus水平

10:03IT之家（RSS）73智谱开源GLM-5.2模型：1M无损上下文，Code Arena全球可用模型第一

09:20公众号：智谱（GLM）81GLM-5.2上线并开源：专注Coding与长程任务

08:35Berryxia.AI73GLM-5.2 开源发布：MIT 协议、1M 上下文、强化长程 Agent 能力

06:56Hacker News 热门（buzzing.cc 中文翻译）69SubQ 1.1 Small

06:26Hacker News 热门（buzzing.cc 中文翻译）71Qwen-Robot Suite：一套面向物理世界智能的基础模型套件

04:35Rohan Paul65Catnip推出MaineCoon：22B实时音频-视觉流式基础模型

03:55elvis56GLM-5.2登顶Design Arena，超越Claude Fable 5

03:55elvis70Z.AI 推出 GLM-5.2，MIT 开源权重

02:24Chubby♨️83GLM-5.2 发布：1M 上下文窗口，MIT 开源权重

02:16🚨 AI News | TestingCatalog77GLM-5.2 发布：1M 上下文窗口，开源权重，DeepSWE SOTA 46.2%

02:03Z.ai73智谱发布GLM-5.2：开源权重与1M上下文

01:53OpenRouter53GLM-5.2 上线 OpenRouter，1M token 窗口

00:53MarkTechPost（RSS）76同事件精选Qwen团队发布三个具身AI模型套件 Qwen-RobotSuite同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

00:46🚨 AI News | TestingCatalog34OpenAI 语音升级：GPT-Bidi-1 模型曝光

00:46🚨 AI News | TestingCatalog41Mistral预告今夏推出新"fat"开源模型系列

00:01StepFun51阶跃星辰 Step 3.7 Flash 登陆 Novita 与 OpenRouter

6月16日周二

22:18SiliconFlow65同事件精选Kimi K2.7 Code发布：专注编码的智能体模型，接近GPT5.5同一事件，精选展示《6倍速！Kimi K2.7 Code 高速版已上线》

21:50Ant Ling77Ling & Ring 2.6 技术报告发布

21:44Alibaba Cloud70阿里云发布 Qwen-Robot 套件：Qwen-RobotNav、Qwen-RobotManip、Qwen-RobotWorld 三个基础模型

21:15Qwen72通义千问发布Qwen-Robot Suite，含三个具身智能基础模型

15:05🚨 AI News | TestingCatalog75精选Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型

14:30公众号：通义实验室（千问）73Qwen-Robot 发布：打通大模型到物理世界的最后一公里

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月17日

16:05

MarkTechPost（RSS）

同事件精选70

MiniMax 发布 MSA 稀疏注意力方法，开源推理内核并推出 MiniMax-M3 模型

MiniMax 发布 MSA（MiniMax Sparse Attention），一种构建在 Grouped Query Attention 上的稀疏注意力方法。它将注意力分解为索引分支与主分支：索引分支以块粒度（默认 128 token）为每个 GQA 组选择 16 个 token 块（固定预算 2048 个键值 token），主分支仅在这些块上执行精确 softmax 注意力。MSA 在 109B 参数 MoE 模型上训练，开源了面向 NVIDIA SM100 GPU 的推理内核 fmha_sm100（MIT 许可，支持 BF16/FP8/NVFP4/FP4），并发布生产模型 MiniMax-M3。MSA-PT 在 MMLU、GSM8K、HumanEval、RULER-8K、RULER-32K 上分别达 67.2、77.7、64.0、84.2、77.5，与全注意力基线持平。128K 上下文下，其 exp-free Top-k 选择比 torch.topk 快 5.1 倍。

开源生态推理模型发布部署/工程

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：MiniMax 把长上下文注意力从 O(N) 压到固定每查询 2048 token，还同时开源高效内核与生产模型，对做长上下文 agent 的团队是即时可用的方法，遗憾是只限 SM100 GPU。

15:16

🚨 AI News | TestingCatalog@testingcatalog

80

Z ai 推出 GLM-5.2，在 Artificial Analysis Intelligence Index 上得 51 分排名第四，成为开源权重 SOTA。模型规模同 GLM-5.1（744B 总/40B 活跃参数），智能指数 v4.1 提升 11 分。科学推理显著增强：CritPt +16% 至 21%，HLE +12% 至 40%，GPQA Diamond +3% 至 89%。上下文窗口升至 1M tokens。API 定价 $1.4/$4.4/$0.26 每 1M 输入/输出/缓存命中 token，每任务成本约 $0.46，处智能 vs 成本帕累托前沿。MIT 许可证，已上线 DeepInfra 等第三方平台。

Artificial Analysis: Z ai's GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index scoring 51 and it sit...

开源生态推理模型发布

15:05

IT之家（RSS）

41

ChatGPT 语音最大规模升级：OpenAI 正筹备推出 GPT-Bidi-1 模型

OpenAI 正筹备推出 GPT-Bidi-1 模型，采用双向（BiDi）架构，能同时听和说，吸收用户打断并在对话中实时调整。相比已进化至 GPT-5.5 的文本模型，ChatGPT 的语音能力仍基于较旧音频技术栈，GPT-Bidi-1 旨在弥合这一差距。上线后用户可切换双向模式与现有高级语音模式，并支持 High、Medium 及 Instant 智能等级，按任务调整速度和深度。

OpenAI 模型发布语音

14:15

数字生命卡兹克@Khazix0918

56

智谱发布GLM-5.2，开源模型（MIT许可），在编码和智能体任务上有显著提升，支持1M上下文窗口。提供两种推理努力级别：GLM-5.2 （max）极限模式、GLM-5.2 （high）性能与token效率平衡。API定价与GLM-5.1保持不变。官方评测显示其性能已可与Opus 4.8竞争。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

开源生态模型发布

13:35

DogeDesigner@cb_doge

49

Grok Imagine Video 1.5 Fast 的视频生成速度几乎翻倍。它可在约25秒内生成一段6秒720p视频，而上一代模型需要40秒以上。这是一次巨大的速度升级。以下是对比：

模型发布视频

13:05

IT之家（RSS）

58

Grok Imagine Video 1.5 模型正式上线：6 秒 720P 视频仅需 25 秒

6 月 17 日，xAI 宣布 Grok Imagine Video 1.5 模型正式在 xAI API 上线。该模型支持静态图一键生成带同步音频的短视频，单次生成同时输出音效、环境音和对话，语音清晰度和口型同步效果提升。运动连贯性增强，减少了肢体扭曲和物体漂浮，更好模拟重量感与动量。Fast 模式下生成一段 6 秒 720p 视频约需 25 秒，较前代 40 秒以上显著提速。开发者可通过上传起始图片、描述运动方式并选择分辨率和时长调用 API。

xAI 模型发布视频

12:54

Orange AI@oran_ge

71

智谱开源 GLM 5.2，编程能力达 Opus 水平

智谱今日正式开源 GLM 5.2，这是首个编程 coding 能力达到 Opus 水平的开源模型。目前该模型已接入 Cola 作为 beta 模型开放测试，定价与官方一致，欢迎体验和反馈。

开源生态模型发布编码

12:35

DogeDesigner@cb_doge

45

所有这些视频都是用 Grok Imagine 1.5 创建的。重大升级。质量大幅跃升。🚀

图像生成模型发布视频

12:29

歸藏(guizang.ai)@op7418

72

智谱 GLM-5.2 正式发布并开源，定位处理长周期任务。模型具备稳定的100万上下文窗口，并引入思考力度控制。架构上采用 IndexShare 机制，每四层稀疏注意力共享同一个 indexer，在百万 token 上下文中将每 token 计算量降低约 2.9 倍。用户现可在 Codepilot 模型管理中添加使用 GLM-5.2。

歸藏(guizang.ai): 智谱 GLM-5.2 正式发布和开源了,基准测试成绩相当吓人核心定位是处理长周期任务,并且有稳定的 100 万上下文,模型还引入了思考力度控制。架构层面,GLM-5.2 提出了 IndexShare 机制,每四层稀疏注意力共享同一个 i...

开源生态推理模型发布

12:27

SiliconFlow@SiliconFlowAI

42

GLM 5.2 CodeArena登顶，全开源1M上下文

智谱 GLM 5.2 在编码评测 CodeArena 的可用模型中排名第一。硅基流动同步首发，定价 Input Cache/Input/Output 分别为 $0.26/1.40/4.40 每百万 token，支持 1M 上下文，具备可靠的长时间任务执行能力，编码性能与 Opus 4.8 持平。提供双思考模式：max 侧重深度，high 侧重质量成本平衡。模型完全开源。

开源生态模型发布编码

12:25

Andrew Milich@milichab

44

Imagine Video 1.5 提供真实运动、逼真环境以及跨帧一致文本

xAI: Grok Imagine Video 1.5 is here Our new image-to-video model with sharper realism, better physics and faster generations ...

xAI 模型发布视频

12:24

Elon Musk@elonmusk

56

Grok Imagine 1.5 现已广泛发布

xAI: Grok Imagine Video 1.5 is here Our new image-to-video model with sharper realism, better physics and faster generations ...

xAI 图像生成模型发布视频

12:05

xAI：News（网页）

同事件精选73

xAI 发布 Grok Imagine Video 1.5

xAI 将 Grok Imagine Video 1.5 从预览转为全面可用，在 Imagine API 上提供 grok-imagine-video-1.5，并在 grok.com/imagine 及 iOS/Android 应用上推出 Video 1.5 Fast 版。相比前代，模型在音频与语音（更清晰、嘴型同步更好）、运动与物理（更连贯、重量感更真实）、生成速度（6 秒 720p 视频约 25 秒，此前超 40 秒）上全面提升。同时逐步推出 Projects、Multiple agents（并行运行多个生成任务）、Search 等新功能，以优化创作流程。

xAI 多模态模型发布视频

同一事件，精选展示《xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）》

推荐理由：Grok Imagine 1.5 把视频生成速度砍半，音效同步和项目功能让创作者工作流更顺畅，xAI 在视频方向上站住了脚。

12:05

IT之家（RSS）

66

大晓机器人开源 ACE-Ego 具身操作 VLA 模型

6 月 17 日，大晓机器人联合香港中文大学发布并开源具身操作 VLA 模型 ACE-Ego。在 RoboCasa GR1 TableTop 基准上，ACE-Ego 以 72.8% 平均成功率刷新纪录，超越英伟达 GR00T 等模型；在 RoboTwin 2.0 强域随机化测试中成功率达 90.62%。该模型已能稳定完成塑料袋打包、鞋子装入鞋盒等长周期复杂零售操作。

具身智能模型发布

12:05

xAI@xai

52

Grok Imagine Video 1.5 来了我们新的图像转视频模型，具有更清晰的真实感、更好的物理效果和更快的生成🧵 http://grok.com/imagine

xAI 模型发布

11:38

karminski-牙医@karminski3

67

智谱（Z.ai）发布GLM-5.2模型，编程与智能体任务显著改进，支持1M上下文窗口。提供两种推理模式：GLM-5.2（max）追求极限性能，GLM-5.2（high）平衡性能与token效率。模型权重以MIT许可开源，API定价与GLM-5.1保持一致。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

开源生态推理模型发布编码

11:29

歸藏(guizang.ai)@op7418

79

智谱 GLM-5.2 发布并开源

智谱发布并开源 GLM-5.2，定位长周期任务，支持 100 万 token 稳定上下文。引入思考力度控制：GLM-5.2 max 追求极限性能，GLM-5.2 high 兼顾效率。架构采用 IndexShare 机制，每四层稀疏注意力共享 indexer，百万 token 下每 token 计算量降低约 2.9 倍。编码与智能体任务表现显著提升。模型权重以 MIT 许可证开源，API 定价与 GLM-5.1 一致。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

开源生态推理模型发布编码

11:24

Orange AI@oran_ge

76

GLM-5.2 开源模型发布，其编程（Coding）能力首次达到Opus级别。该模型在编程与智能体（Agentic）任务上显著提升，支持1M上下文窗口，提供两级推理难度--GLM-5.2 （max）追求极限性能，GLM-5.2 （high）平衡性能与token效率。采用MIT许可证开源，API定价与GLM-5.1保持一致。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

开源生态模型发布编码

10:03

IT之家（RSS）

73

智谱开源GLM-5.2模型：1M无损上下文，Code Arena全球可用模型第一

智谱今日开源GLM-5.2模型，稳定支撑1M上下文。在Code Arena盲测中取得全球可用模型第一，主流编程基准保持开源SOTA，与Claude Opus 4.8可比。通过极致Infra优化，1M上下文下单位token FLOPs降至2.9倍。Day 0已适配华为昇腾、平头哥、摩尔线程、寒武纪等国产算力平台，预计下半年昇腾950超节点将成为其算力底座。开源链接已发布于GitHub、HuggingFace、ModelScope。

开源生态模型发布编码

09:20

公众号：智谱（GLM）

81

GLM-5.2上线并开源：专注Coding与长程任务

智谱今日发布并开源GLM-5.2，在前端开发盲测系统Code Arena上取得全球可用模型第一。该模型专为长程任务设计，实现1M无损上下文，支持跨越数天的任务执行。在FrontierSWE上仅比Claude Opus 4.8低1%，超过GPT-5.5（1%）和Opus 4.7（11%）；Terminal-Bench 2.1上比Opus 4.8低4%，较GLM-5.1提升17.5%。引入思考档位控制，Coding能力介于Opus 4.7与4.8之间。提出IndexShare架构降低单位FLOPs至2.9倍，改进MTP层提升接受长度20%。已在华为昇腾等国产算力平台适配。模型权重以MIT协议开源，API已上线并纳入GLM Coding Plan。

智能体 Hugging Face 模型发布编码

关联讨论 10 条X：Testing Catalog (@testingcatalog)Hacker News 热门（buzzing.cc 中文翻译）X：硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客The Decoder：AI News（RSS）X：智谱 Z.ai (@Zai_org)Nathan Lambert：Interconnects（RSS）智谱：研究（网页内嵌数据）公众号：智谱（GLM）Hugging Face：Blog（RSS）

08:35

Berryxia.AI@berryxia

73

GLM-5.2 开源发布：MIT 协议、1M 上下文、强化长程 Agent 能力

GLM-5.2 以 MIT 协议开源权重，支持 1M 上下文窗口。相比 GLM-5.1，在 Coding、Tool use、Reasoning 上明显提升，尤其在长程 Agent 任务（大规模代码实现、自动化研究、性能优化、复杂调试）中更稳定。提供 Max 和 High 两种推理模式，分别侧重极致性能与 Token 效率平衡。API 价格与上一代相同。社区已在 DeepSWE 等基准上验证其能力。此外，Slide 生成、长文档处理和角色扮演等任务也有进步。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

智能体 Hugging Face 开源/仓库模型发布

06:56

Hacker News 热门（buzzing.cc 中文翻译）

69

SubQ 1.1 Small 基于 Subquadratic Sparse Attention (SSA)，在 needle-in-a-haystack 测试中接近完美检索 12M token，注意力计算减少近 1000 倍。1M token 时计算量仅密集注意力的 1/64.5，速度是 FlashAttention-2 的 56 倍。GPQA Diamond 85.4%，LiveCodeBench v6 pass@4 89.7%，AutomationBench Finance 13%。模型基于现有开源前沿模型改造，通过阶段上下文扩展（262K 至 2M）和约 1 万亿 token 继续预训练实现。已与设计合作伙伴部署，计划年内推出 2M–12M token 更大系列。

推理数据/训练模型发布

06:26

Hacker News 热门（buzzing.cc 中文翻译）

71

Qwen-Robot Suite：一套面向物理世界智能的基础模型套件

Qwen-Robot Suite 包含三个基础模型：Qwen-RobotNav 通过可控观察编码统一指令跟随、点/物体目标导航、目标跟踪和自动驾驶五个导航域；Qwen-RobotManip 利用规范状态-动作空间和相机帧增量位姿，在超3.81万小时开源语料上实现跨具身操作对齐；Qwen-RobotWorld 以自然语言为动作接口，联合训练20余种具身，预测物理世界动态。三者可组合成通用智能体系统。

具身智能模型发布

关联讨论 1 条Qwen：Blog Retrieval（API）

04:35

Rohan Paul@rohanpaul_ai

65

Catnip推出MaineCoon：22B实时音频-视觉流式基础模型

Catnip推出MaineCoon，一个22B参数的实时音频-视觉基础模型，能将文本提示词转化为带同步语音、动作和表情的实时角色流，支持无限时长交互。作为首个流式原生模型，MaineCoon实现亚秒级首帧，单张H100上达47.5FPS，单张RTX Pro 6000上达30FPS，内部测试吞吐量比同类音频-视觉系统快约7倍。与被动视频生成不同，它能因果性地实时响应，记住自身不完美的过去，并保持角色身份、声音和节奏的连贯一致，让AI从轮次式应答变为“与你同在”的实时存在。

Catnip: 🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...

多模态模型发布视频语音

03:55

elvis@omarsar0

56

智谱发布GLM-5.2，在Design Arena评测中跃居第1名，Elo评分1360，超过已下架的Claude Fable 5，提升4个名次和27 Elo分。该模型为开源权重。DAIR.AI创始人Elvis Saravia表示若属实则令人印象深刻，并称已在内部用例测试，后续将汇报结果。

Design Arena: BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...

模型发布编码评测/基准

03:55

elvis@omarsar0

70

Z.AI 发布 GLM-5.2，采用 MIT 许可证开源权重。模型在编码与智能体任务上显著提升，支持 1M 上下文窗口，具备长时能力。提供两种推理力度：GLM-5.2 （max）与 GLM-5.2 （high），后者平衡性能与 token 效率。API 定价与 GLM-5.1 相同。DAIR.AI 的 Elvis Saravia 评价其在前沿开放权重模型中表现令人印象深刻，并关注其长时任务表现。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

智能体开源生态推理模型发布

02:24

Chubby♨️@kimmonismus

83

GLM-5.2 作为开放权重模型发布，采用 MIT 许可，拥有 1M 上下文窗口。提供两种推理模式：max（极限推理）和 high（平衡性能与 token 效率）。在编码和智能体任务上有显著提升，专为大规模实现、自动化研究、性能优化和复杂调试训练。API 定价与 GLM-5.1 保持一致。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

Hugging Face 开源生态推理模型发布

02:16

🚨 AI News | TestingCatalog@testingcatalog

77

ZAI 在 Hugging Face 上发布 GLM-5.2，采用 MIT 开源许可，API 定价与 GLM-5.1 相同。模型支持 1M 上下文窗口，提供两种推理努力级别：max（极致性能）和 high（平衡性能与 token 效率）。在编程和 AI 智能体任务上有显著提升，具备长程任务能力。DeepSWE 基准得分 46.2%，创下开源权重模型的 SOTA 纪录。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

Hugging Face 开源生态推理模型发布

02:03

Z.ai@Zai_org

73

智谱发布GLM-5.2：开源权重与1M上下文

智谱（Z.ai）正式发布GLM-5.2，采用MIT开源协议开放模型权重。相比前代，在编码和智能体任务上有显著提升，支持1M上下文窗口。提供两种推理努力级别：GLM-5.2（max）追求极致性能，GLM-5.2（high）在效果与token效率间取得平衡。API定价与GLM-5.1保持一致。技术博客、权重及API文档均已上线。

开源生态模型发布编码

01:53

OpenRouter@OpenRouter

53

来自 @Zai_org 的 GLM-5.2 已在 OpenRouter 上线！ Z.ai 的旗舰模型，专为长期任务设计，现在拥有 1M token 上下文窗口，能够在冗长杂乱的编码智能体工作中保持可靠。

推理模型发布编码

00:53

MarkTechPost（RSS）

同事件精选76

Qwen团队发布三个具身AI模型套件 Qwen-RobotSuite

Qwen团队发布三个具身AI模型组成的套件Qwen-RobotSuite：Qwen-RobotManip（基于Qwen3.5-4B的VLA模型，通过统一对齐框架和3800小时开源数据（含24708小时合成）实现跨本体操作，在LIBERO-Plus OOD基准上达91.4%，跨本体迁移性能为π0.5的3.2倍）、Qwen-RobotWorld（60层MMDiT+冻结Qwen2.5-VL编码器的语言条件视频世界模型，以自然语言为统一动作接口预测未来视频）和Qwen-RobotNav（基于Qwen3-VL的导航模型，2B/4B/8B，输出航点轨迹）。RobotManip与RobotNav已开源GitHub。

具身智能多模态开源/仓库模型发布

同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

推荐理由：Qwen-RobotSuite 一次性放出三个具身模型，用统一对齐策略解决了机器人数据碎片化问题，多个 SOTA 结果加上两个开源仓库，做具身智能的值得认真看一下。

00:46

🚨 AI News | TestingCatalog@testingcatalog

34

OPENAI 🔥： ChatGPT 即将迎来语音模式升级，新模型 "gpt-bidi-1" 已被发现，同时还有公告更新。敬请期待 👀 鸣谢 @M1Astra 来自 DevMode

Chetaslua: 🚨 OpenAI is planning to release GPT-Bidi-1 very soon Their next-generation voice model for more natural conversations [...

OpenAI 模型发布语音

00:46

🚨 AI News | TestingCatalog@testingcatalog

41

Mistral预告今夏推出新"fat"开源模型系列

Mistral 预告将在今年夏季推出一个新的“fat”模型系列，模型为 open-weight，7 月面向研究、政府和行业关键合作伙伴开放早期访问。官方称该系列“fat indeed, but sparse”（大但稀疏），并强调开放权重对客户信任和开发者社区至关重要。后续模型也将保持开源。此外，推文还提及了“Le Chaton Fat”的代号。

Arthur Mensch: We somehow got put in the spotlight the last few days! First we'd like to thank the organizers of the AI show for that, ...

开源生态模型发布

00:01

StepFun@StepFun_ai

51

阶跃星辰的 Step 3.7 Flash 已通过 Novita 在 OpenRouter 上线。该模型专为高效智能体工作负载设计，具备原生多模态理解、强智能体编码能力、可靠工具使用，以及网页与视觉搜索工作流。引用信息强调其高效多模态推理和多步工具使用能力，主要面向编码与智能体应用场景。

Novita AI: 🚀 Step 3.7 Flash from @StepFun_ai is now available via Novita on @OpenRouter. High-efficiency multimodal reasoning. Mul...

智能体多模态推理模型发布

6月16日

22:18

SiliconFlow@SiliconFlowAI

同事件精选65

Kimi K2.7 Code发布：专注编码的智能体模型，接近GPT5.5

硅基流动上线月之暗面Kimi K2.7 Code模型。基于K2.6改进，专注编码与智能体任务。32B激活/1T总参，VLM多模态，支持交错思考与多步工具调用。相比K2.6，推理token使用减少30%，减少过度思考；长程编码任务指令遵循和完成率提升。性能接近GPT5.5与Opus 4.8。价格：缓存输入0.19/输入0.94/输出4.00每百万token。

多模态模型发布编码

同一事件，精选展示《6倍速！Kimi K2.7 Code 高速版已上线》

推荐理由：K2.7 Code 在编码上逼近 GPT-5.5 和 Opus 4.8，同时推理 token 用量降低 30%，对追求前沿编码能力又在意成本的技术团队是个实用选择，硅基流动上的定价也给了明确预期。

21:50

Ant Ling@AntLingAGI

77

Ling & Ring 2.6 技术报告发布，带来两款开放权重基座模型。我们通过架构、训练和智能体能力的协同设计，共同优化模型与系统： • 7：1 混合线性注意力 • 用于稳定智能体强化学习的 KPop：SWE-bench Verified 76.28% • 约 4 倍 token 效率

开源生态推理模型发布编码

关联讨论 4 条蚂蚁 inclusionAI：HuggingFace 新模型HuggingFace Daily Papers（社区热门论文）公众号：蚂蚁百灵（Ling）X：蚂蚁百灵 (@AntLingAGI)

21:44

Alibaba Cloud@alibaba_cloud

70

阿里云发布 Qwen-Robot 套件：Qwen-RobotNav、Qwen-RobotManip、Qwen-RobotWorld 三个基础模型

阿里云推出 Qwen-Robot 套件，包含三个基础模型：Qwen-RobotNav 统一指令跟随、点目标、对象目标、目标追踪和自动驾驶 5 种导航任务，提供可控观测协议和智能体工具接口；Qwen-RobotManip 统一异构机器人状态-动作空间，基于 38,100+ 小时开源语料预训练；Qwen-RobotWorld 单个世界模型支持 20+ 种具身形态，通过自然语言动作接口预测操控、驾驶、导航等物理可行未来。三者可独立使用，也可组合为通用智能体系统的底层物理世界工具。

具身智能模型发布

21:15

Qwen@Alibaba_Qwen

72

通义千问发布Qwen-Robot Suite，含三个具身智能基础模型

通义千问推出Qwen-Robot Suite，包含三个基础模型：Qwen-RobotNav统一5种导航任务（指令跟随、点目标、物体目标、目标追踪、自动驾驶），具备可控观测协议和智能体工具接口；Qwen-RobotManip实现异构机器人统一状态-动作空间，基于38,100+小时开源语料预训练；Qwen-RobotWorld是单一世界模型，支持20+具身形态，通过自然语言动作接口预测物理世界未来（涵盖操作、驾驶、导航）。三个模型可独立使用或组合，构成通用智能体的底层工具包。

具身智能模型发布

关联讨论 1 条Qwen：Blog Retrieval（API）

15:05

🚨 AI News | TestingCatalog@testingcatalog

精选75

Cartesia 推出 Sonic 3.5 和 Ink 2 两个模型，作为单一实时语音栈，分别负责文本转语音和语音转文本。Ink 2 在 Artificial Analysis 的流式语音转文字排行榜上排名第一。Sonic 3.5 在实时文本转语音中位列榜首，首音频延迟约 82ms。Cartesia 成为目前唯一同时拥有 #1 听与说模型的提供商。

Karan Goel: We released Sonic-3.5 and Ink-2, the #1 streaming models for text to speech and speech to text you can use in your voice...

智能体模型发布语音

推荐理由：Cartesia 同时发布实时语音合成和识别两个模型的迭代版，双双登顶第三方基准，80ms 首音频延迟让语音代理的交互感接近真人，做实时语音应用的开发者可以重点看一下。

14:30

公众号：通义实验室（千问）

73

Qwen-Robot 发布：打通大模型到物理世界的最后一公里

通义实验室推出 Qwen-Robot，包含三个基础模型：Qwen-RobotNav 以单套权重统一五类导航任务，五项基准达 SOTA，零样本部署于宇树 Go2 机器人（推理延迟 196ms）；Qwen-RobotManip 基于 Qwen3.5-4B VL，采用 80 维状态-动作统一表示，利用超 38,100 小时开源数据训练，在多个操作基准超越 π0.5；Qwen-RobotWorld 以 860 万视频-文本对训练，通过自然语言动作接口统一 20 余种本体，多项世界模型评测第一。三个模型通过语言优先接口可被通用 Qwen 模型组合调用，实现物理智能体闭环。

具身智能多模态模型发布

关联讨论 1 条Qwen：Blog Retrieval（API）

1…7 8910 11…43