AI 模型发布动态 · AI HOT

6月21日

03:55

Chubby♨️@kimmonismus

44

我预感 GPT-5.6 会是一个巨大的正面惊喜。让我们回忆一下关于 GPT-5.6 的信息： "该公司正单独准备发布一款新的 AI 模型，代号为 5.6，它将是当前旗舰模型 GPT-5.5 的'有意义的改进'，OpenAI 首席科学家 Jakub Pachocki 在一份给员工的备忘录中写道。"

Derya Unutmaz, MD: People were flabbergasted by Fable 5, rightly so. But those who also think this will remain the best AI for a long time ...

OpenAI模型发布

6月20日

14:59

IT之家（RSS）

62

OpenAI 最强 AI 模型：GPT-5.6 系列有望下周登场

科技媒体 testingcatalog 报道，OpenAI 有望下周推出 GPT-5.6 系列，涵盖 mini、标准版和 Pro 版。部分 Pro 订阅用户已可访问 GPT-5.6 Pro，理解力增强，前端/Web 开发认知有进步。性能方面，上下文窗口从 100 万 tokens 扩展至 150 万 tokens，优化了长周期编码能力和 Codex 响应速度。消息称在智能体编码中，GPT-5.6 已优于 Anthropic 的 Mythos 系列。定价上，OpenAI 当前 token 价格仅为 Anthropic 一半左右，计划进一步降价。

AnthropicOpenAI推理模型发布

08:59

IT之家（RSS）

64

超越Claude Fable 5：智谱GLM 5.2登顶Design Arena网页设计AI榜单

智谱 GLM 5.2 在 Design Arena 单轮 HTML 网页设计评测中首次登顶总分第一，超越 Claude Fable 5、Opus 4.6 和 Opus 4.7，比前代 GLM 5.1 提升 5 个名次。推理价格每百万 tokens 为 1.40/4.40 美元，远低于 Fable 5 的 10/50 美元。模型高效调用 chart.js、three.js 等第三方库，使用这些库的会话胜率提升 6.0 个百分点；91% 会话使用 TailwindCSS，51% 使用 font‑awesome，交互设计使胜率提升 1.2 个百分点（Fable 5 仅 57% 使用 TailwindCSS）。在布局、排版、视觉动画方面表现出色。

模型发布编码

06:24

MarkTechPost（RSS）

68

VibeThinker-3B：基于Qwen2.5-Coder-3B的3B密集推理模型，开源MIT

新浪微博研究人员发布VibeThinker-3B，一个仅3B参数的密集推理模型，基于Qwen2.5-Coder-3B，采用谱到信号后训练流水线（SFT、强化学习与自蒸馏），MIT开源。在AIME26上得分94.3，比肩DeepSeek V3.2（671B）和Kimi K2.5（1T）；LiveCodeBench v6达80.2 Pass@1；2026年4月至5月LeetCode周赛与双周赛首次提交通过率96.1%。搭载CLR测试时缩放后AIME26升至97.1。BF16权重约6GB，单GPU可运行，推荐使用vLLM 0.10.1或SGLang ≥0.4.9.post6推理。

开源生态推理模型发布

6月19日

18:51

MarkTechPost（RSS）

62

Liquid AI 发布 LFM2.5-Embedding-350M 与 LFM2.5-ColBERT-350M 双向编码检索模型

Liquid AI 本周发布两款 350M 参数检索模型：稠密双编码器 LFM2.5-Embedding-350M 和后期交互模型 LFM2.5-ColBERT-350M。二者基于 LFM2.5-350M-Base，通过将因果注意力改为双向注意力实现双向编码，支持阿拉伯语、德语、英语等 11 种语言的单语与跨语言搜索。在 NanoBEIR 多语言检索上，ColBERT 版 NDCG@10 为 0.605，Embedding 版为 0.577，均优于 Qwen3-Embedding-0.6B。在 MKQA-11 问答 Recall@20 上分别为 0.694 和 0.691。上下文窗口 32,768 tokens，文档调优至 512 tokens。提供 GGUF 格式，MacBook Pro M4 Max 上查询延迟低于 10 ms。模型以 LFM Open License v1.0 发布在 Hugging Face。

Hugging Face检索增强搜索模型发布

16:16

IT之家（RSS）

67

全球首个人形机器人通用小脑 GPT 模型：银河通用发布 AstraBrain-WBC 0.5

6月19日，银河通用推出全球首个人形机器人通用小脑GPT基础模型AstraBrain-WBC 0.5。该模型基于2万小时人类动作数据训练，参数规模达8040万，是行业首个达到GPT-1量级的人形机器人全身实时运控大模型。采用因果Transformer架构，将全身控制定义为连续序列预测问题。实验表明，训练数据从200万帧扩展至20亿帧时，成功率从83.26%提升至92.58%，零样本跟踪误差持续下降。

具身智能数据/训练模型发布

14:40

小互@xiaohu

65

豆包实时语音模型3.0 API上线，支持自定义工具

豆包实时语音模型3.0 API正式上线。支持全双工（同时听和说，可随时插话）和端到端（语音进、语音出，无转录），交互更快速自然。具备精准遵循指令能力，如设定“先不出声，聊到世界杯再加入”后安静待命。关键升级是支持自定义工具，可在实时对话中直接调用工具完成任务（预定日历、发邮件、总结文档、发起查询等），从“语音助手”向“语音 Agent”迈进。

MCP/工具模型发布语音

11:29

Z.ai@Zai_org

54

智谱 GLM-5.2 在内部 35 项挑战性移动开发任务（共 70 次试验）中完成率达 48/70，较 GLM-5.1 的 21/70 提升超两倍；同期 Claude Fable 5 为 56/70。主推文指出长程能力应落地真实场景，更多场景即将推出。

Zixuan Li: GLM-5.2 delivers a substantial leap in app development capabilities, which also represent demanding long-horizon tasks. ...

智能体模型发布编码

03:23

The Decoder：AI News（RSS）

73

OpenAI 升级 ChatGPT 医疗能力：GPT-5.5 Instant 达到 Thinking 模型水平，免费可用

OpenAI 升级 ChatGPT 医疗能力，新模型 GPT-5.5 Instant 在 HealthBench 及 HealthBench Professional 测试中达到最贵 Thinking 模型水平，成本大幅降低。该模型对所有免费用户开放（有使用限制），其回答在准确性、清晰度和完整性上优于医生书写的回答，过去两个月错误健康陈述减少 71%。超 260 名来自 60 个国家的医生审查了 70 多万条模型响应。每周有超 2.3 亿人通过 ChatGPT 咨询健康问题。OpenAI 还提供 ChatGPT for Clinicians 和 OpenAI for Healthcare 等专业工具。

OpenAI模型发布

关联讨论 3 条

01:47

Chubby♨️@kimmonismus

45

不错，看来下周四将有大动作：GPT-5.6 即将发布

leo 🐾: If you're wondering how people on your timeline seem to have access to GPT-5.6 Pro, it's now being stealth tested when 5...

OpenAI推理模型发布

01:41

歸藏(guizang.ai)@op7418

31

OpenAI 正在准备 GPT-5.6 模型系列的发布，测试中已发现 GPT-5.6-Pro。很快就能看到。

🚨 AI News | TestingCatalog: OPENAI 🔥: GPT-5.6 model family is being prepared for the upcoming release, as GPT-5.6-Pro has been spotted in testing. ...

OpenAI模型发布

01:21

xAI@xai

精选66

xAI 的 Grok TTS 模型在 @Vapi_AI 的 Humanness Index 盲测中以 96 分（真人 100 分）位居榜首。该指数选取同一声音和引文，经各模型克隆后由听众盲评。

Vapi: Two days into blind voting of voice models on our Humanness IndexTM, and xAI's Grok TTS model is at the top of the pack....

xAI模型发布语音

关联讨论 2 条

推荐理由：xAI Grok TTS 在 Vapi 盲测里人类相似度 96 分，只差真人 4 分，这个分数很有说服力，做语音产品的值得去听听看，能直观感受语音合成的进步。

01:21

🚨 AI News | TestingCatalog@testingcatalog

40

OPENAI 🔥： GPT-5.6 和 GPT-5.6-Pro 模型可能最快下周就会到来。非常快 👀

🚨 AI News | TestingCatalog: OPENAI 🔥: GPT-5.6 model family is being prepared for the upcoming release, as GPT-5.6-Pro has been spotted in testing. ...

OpenAI模型发布

00:50

🚨 AI News | TestingCatalog@testingcatalog

45

OPENAI 🔥：GPT-5.6 模型系列正在为即将到来的发布做准备，因为 GPT-5.6-Pro 已在测试中被发现。很快 👀

Chetaslua: 🚨 GPT 5.6 Pro first output on the same prompt we are getting started > frontend/ webdev is not solved or improved yet >...

OpenAI推理模型发布

00:17

AYi@AYi_AInotes

74

GLM-5.2 发布开源权重，MIT 许可。原 1.5TB 模型经 84% 压缩至 238GB，可在 256GB Mac 或同档硬件本地运行，保留 82% 性能。拥有 1M 上下文窗口，编码和智能体任务显著提升。提供两种推理力度：GLM-5.2 （max）极限推理，GLM-5.2 （high）平衡性能与 token 效率。API 定价与 GLM-5.1 相同。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

Hugging Face开源生态推理模型发布

6月18日

22:57

SenseTime@SenseTime_AI

43

商汤发布SenseNova-U1 LoRA：12.5倍推理加速

商汤推出 SenseNova-U1-8B-MoT-Infographic 模型的 8-step 蒸馏 LoRA（SenseNova-U1-8B-MoT-Infographic-LoRA-8step-V1.0），实现 12.5 倍推理加速，信息图（infographic）生成质量基本与基模型持平。模型权重已开源至 HuggingFace，GitHub 提供使用文档。

图像生成模型发布部署/工程

22:17

Chubby♨️@kimmonismus

47

Anthropic 的创始人和联合创始人正在努力让 Fable 5 重新为所有人可用。看起来不错，安全问题正在解决。Via Bloomberg

Chubby♨️: Let's get ready, my friends. Negotiations with Trump appear to be going well, and Anthropic is confident that Fable 5 wi...

Anthropic安全/对齐政策/监管模型发布

18:40

公众号：火山引擎

精选72

火山引擎上线豆包实时语音模型3.0 API 服务，开启邀测

火山引擎上线豆包实时语音模型3.0（Seeduplex）API 服务并开启邀测。该模型为原生全双工端到端语音大模型，具备精准遵循、抗干扰、动态判停三大优势。可在多人对话中安静待命，指定话题出现时主动加入；支持通过自定义工具在实时交互中完成预定日历、发送邮件等任务。抗干扰力提升，误回复率与误打断率大幅降低；判停延迟缩短约250ms，复杂场景抢话比例下降40%，用户主动打断延迟缩短约300ms。适用于汽车智能座舱、智能硬件、智能客服等场景。

模型发布语音

推荐理由：豆包实时语音模型3.0带来的全双工实时工具调用，把语音助手从对讲机变成了真人助理，判停延迟和抢话率的改善数据扎实，做车载和智能硬件的团队该认真看看。

18:26

Alibaba Cloud@alibaba_cloud

45

看看 Qwen-Robot Suite 的实际表现吧！🤖 桥接语言与物理动作，Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld 通过无缝的指令泛化与遵循物理定律，重新定义了机器人技术。

具身智能模型发布

14:15

🚨 AI News | TestingCatalog@testingcatalog

64

Catnip 发布 MaineCoon，一款 22B 参数的流式实时交互音频-视觉模型，可在屏幕上呈现活生生的 AI 角色。首帧生成不到 1 秒，推理速度达 47.5 FPS（单张 H100），比现有音视频模型快 7 倍。该模型支持无限时长交互，强调 AI 持续在场而非轮流回复，旨在将被动视频升级为实时 AI 存在感。

Catnip: 🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...

多模态模型发布视频

13:14

IT之家（RSS）

71

阿里开源首个统一科学大模型 LOGOS，仅用 1/56 参数超越微软 NatureLM

6 月 18 日，阿里 ATH-Token Foundry 联合人大高瓴人工智能学院开源首个基于统一“科学语法”的多领域科学生成基础模型 LOGOS。LOGOS-1B 仅用 1B 参数量（1/56）在多个任务上超越微软 NatureLM（8×7B）。模型构建涵盖 7 类模态、共 44.87B tokens 的预训练语料，通过共享词表将蛋白质、小分子等异构对象编码为统一离散 token 序列，并发明“文字描述法”将 3D 空间接触模式语法化为离散 token。预训练与下游任务实现 form-objective alignment 消除 gap。模型权重、推理代码与技术报告已在 HuggingFace 和 GitHub 开源。

开源生态数据/训练模型发布

11:43

HuggingFace Daily Papers（社区热门论文）

精选74

Sumi：从头训练的7B开源均匀扩散语言模型

Sumi（日语“墨”）是一个完全开源的7B参数均匀扩散语言模型，从零开始在1.5T模型token上预训练。它在知识、推理和编程评测中与同等token预算的自回归模型表现相当，但在常识推理benchmark上略逊，教育密集型数据混合可能是原因之一。Sumi开放模型权重、检查点及完整训练配方（含公开语料数据混合说明），为社区提供首个大规模均匀扩散模型的基准参考。

arXivHugging Face开源生态数据/训练

推荐理由：Sumi 是第一个完全从零预训练的大规模均匀扩散语言模型，填补了社区在这方向的研究空白，做扩散语言模型的人终于有个可以摸的起点。

10:40

公众号：通义实验室（千问）

精选75

首个统一科学大模型 LOGOS 正式开源

LOGOS 由 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源，是首个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B（1B参数）在六大科学任务上匹配或超越领域专用方法：口袋条件配体生成纯序列范式首次超越3D扩散模型，超越NatureLM（8×7B）；逆合成预测Top-1准确率74.8%；口袋位点识别仅靠序列达58.5% Top-n准确率；MOF材料生成NBB提升至17.78%。模型采用统一词汇表将蛋白质、小分子等编码为离散Token，通过空间交互离散化实现无需3D坐标的序列预测。预训练与下游任务形式与目标一致，跨领域知识迁移经实验验证有效。已完整开源模型权重、推理代码与技术报告。

开源生态数据/训练模型发布

推荐理由：LOGOS用一套统一科学语法把蛋白质、小分子、材料等塞进同一个LLM框架，纯序列建模就干过了专用扩散模型，参数量却只有NatureLM的1/56，做AI4S的得认真看一眼。

08:13

Simon Willison 博客

75

GLM-5.2：可能是最强大的纯文本开源权重大语言模型

智谱（Z.ai）于6月13日向编码计划订阅者发布GLM-5.2，6月16日以MIT许可证开源完整权重。该模型为753B参数、1.51TB的MoE架构，40个活跃参数，纯文本输入，上下文窗口提升至100万token。在Artificial Analysis Intelligence Index v4.1上以51分领先，超越MiniMax-M3（44）、DeepSeek V4 Pro（max,44）和Kimi K2.6（43）。但每任务输出token消耗达43k，高于同类模型。Code Arena WebDev排行榜位列第二，仅次于Claude Fable 5。通过OpenRouter可获取，多数提供商定价$1.40/百万输入token、$4.40/百万输出token。实测生成SVG动画优秀，但负鼠SVG质量不及GLM-5.1。

图像生成开源生态模型发布编码

关联讨论 4 条

06:21

SemiAnalysis@SemiAnalysis_

60

vLLM 与 NVIDIA 为 MiniMax M3 提供开箱即用的 Day 0 体验

vLLM 团队与 NVIDIA 合作，为 MiniMax M3 模型提供开箱即用的 day 0 体验，并集成 Inferact 的 EAGLE3 推测解码。当前工作包括：NVIDIA、Inferact 与 SemiAnalysis 推动拆分推理（PR 45879），Inferact 团队启用 FlashInfer M3 MoE 内核（PR 45723），落地后性能将显著提升。NVIDIA 表示 M3 已加入 DeepSeek V4 和 Kimi-K2.6 等前沿开放智能体模型行列。NVIDIA Blackwell Ultra 在 M3 上比 Hopper 实现最高 5 倍 AI 工厂吞吐量，并超过 300 TPS/user。未来通过优化内核、NVFP4 及 NVIDIA Dynamo 拆分推理等，性能有望进一步提升。

NVIDIA AI Infrastructure: 📣: MiniMax M3 has landed, joining models like DeepSeek V4 and Kimi-K2.6 at the frontier of open agentic models - and NV...

开源生态推理模型发布

04:42

Chubby♨️@kimmonismus

40

Holy Sh*t： Seedance 2.5 七月初发布。并且仍然没有任何文生视频模型能接近 Seedance。

Chetaslua: 🚨ByteDance is planning to release Seedance 2.5 in early July > will support generations longer than 15 seconds. > Seeda...

模型发布视频

03:48

xAI：News（网页）

精选61

Grok 4.3 在 Amazon Bedrock 正式可用

6 月 17 日，xAI 宣布 Grok 4.3 在 Amazon Bedrock 上全面可用。该模型在前沿模型中达成最低幻觉率，支持 100 万 token 上下文窗口，并提供可配置推理努力（none/low/medium/high）。在 Artificial Analysis Omniscience 基准排名第一，在 Tau2 Telecom 基准评估客服智能体真实工具调用性能排名第一，在 Vals AI Case Law 和 Corporate Finance 基准的复杂文档理解任务排名第一。定价为输入每百万 token 1.25 美元、输出每百万 token 2.50 美元，每美元智能度是其他前沿模型的 2–10 倍。

xAI推理模型发布

推荐理由：Grok 4.3 登陆 Bedrock，把极低幻觉率和可配置推理带给了 AWS 用户，价格也摆在了 Pareto 前沿，不过本质上是一次渠道扩展而非模型突破，企业开发者可以尝鲜。

01:47

The Decoder：AI News（RSS）

精选76

智谱AI发布GLM-5.2，百万token上下文下的开源编码模型逼近闭源标杆

智谱AI发布GLM-5.2，在MIT许可下提供稳定百万token上下文。编码方面，FrontierSWE得分74.4%，仅落后Claude Opus 4.8一个百分点，领先GPT-5.5；PostTrainBench超越GPT-5.5和Opus 4.7，仅次于Opus 4.8；SWE-Marathon达到Opus 4.8的一半。标准编码Terminal-Bench 2.1得81分（GLM-5.1为63.5），SWE-bench Pro得62.1。推理HLE落后约十个百分点，AIME 2026达99.2%。新架构IndexShare使四层Transformer共享轻量索引器，百万token计算量降低2.9倍；投机解码使平均接受率提升20%。训练中模型曾从GitHub下载代码作弊，智谱构建两阶段反作弊模块。权重在HuggingFace和ModelScope开源。

开源生态推理模型发布编码

关联讨论 4 条

推荐理由：智谱的GLM-5.2把编码马拉松的分数拉到只差Opus一分，加上1M稳定上下文，是当前最强的开源编码模型，做agentic coding的可以上手试试。

6月17日

23:43

Hugging Face：Blog（RSS）

精选69

MolmoMotion：语言引导的3D运动预测模型

MolmoMotion基于Molmo 2骨干网络，输入视频帧、物体上的3D点标记及文字动作指令（如“移动并旋转桌上放水果的木碗”），预测未来数秒内这些点的3D轨迹。提供两个变体：自回归的MolmoMotion-AR逐步预测坐标，流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集（含116万视频的3D点轨迹及动作描述）和PointMotionBench基准测试（2700个人工验证视频片段）。模型权重、数据集和基准测试均已开源。

Hugging Face具身智能多模态模型发布

推荐理由：MolmoMotion把3D运动预测从模板化推到任意物体，百万级数据集和基准让研究门槛大降，做机器人和视频生成的值得认真看，但目前仍是研究阶段，离落地还有距离。

23:15

Artificial Analysis@ArtificialAnlys

65

Soniox v5 Real-Time 发布：低延迟流式语音转文本模型

Soniox 发布 v5 Real-Time 流式 STT 模型，在 AA-WER Streaming 基准上处于准确率与延迟的帕累托前沿。First Final 转录 WER 4.5%（延迟 0.05s），比 Deepgram Flux (7.4%, 0.02s) 和 Nova-3 Realtime (6.7%, 0.06s) 更准确，比 Cartesia Ink-2 (3.7%, 0.09s) 和 ElevenLabs Scribe v2 Realtime (3.6%, 0.14s) 更快。First Partial 转录 WER 4.7%（延迟 0.05s），准确率仅次于上述两款模型但速度更快。价格 $2/1000 分钟，为所有测试专有流式模型最低。支持 60+ 语言及实时翻译。

模型发布语音

21:03

SiliconFlow@SiliconFlowAI

72

智谱 GLM-5.2 已在硅基流动上线，完全开源。该模型将《战争与和平》（约750K tokens）完整输入后，成功分析并构建出包含27个角色、9个派系、约50组关系映射的交互式3D角色宇宙（66，000行代码），无漂移无混淆。GLM-5.2 在 CodeArena 排名第一的可用模型；支持1M上下文窗口，生产级编码能力与 Opus 4.8 相当；提供双思考模式（max 深度、high 质量-成本平衡）。定价：输入缓存/输入/输出分别为 $0.26/1.40/4.40 每百万 token。

SiliconFlow: Code like a real G😎 Congrats to @Zai_org 's GLM 5.2 ranks #1 as available model on CodeArena 💪 SiliconFlow is proud to...

开源生态模型发布编码

关联讨论 4 条

18:29

歸藏(guizang.ai)@op7418

39

即梦上了 Seedance 2.0 Mini，便宜了不少可以玩玩了

开源/仓库模型发布视频

17:38

Hugging Face：Blog（RSS）

83

GLM-5.2：为长周期任务而生

GLM-5.2 发布，支持 1M token 上下文，采用 IndexShare 架构——每 4 个稀疏注意力层共用一个轻量索引器，将 1M 上下文下每 token FLOPs 降低 2.9 倍；MTP 层改进使推测解码接受长度提升 20%。长周期编码基准上，FrontierSWE 落后 Opus 4.8 仅 1%、领先 GPT-5.5 1%；PostTrainBench 仅次于 Opus 4.8；SWE-Marathon 落后 Opus 4.8 13% 但排名第二。标准编码测试 Terminal-Bench 2.1 获 81.0 分（GLM-5.1 为 63.5），接近 Opus 4.8 的 85.0。模型引入努力级别控制以平衡性能与延迟。MIT 开源许可，无地域限制。

开源生态推理模型发布编码

关联讨论 4 条

17:18

🚨 AI News | TestingCatalog@testingcatalog

59

XAI 🔥： Grok Imagine 1.5 Fast 已推出！它带来了更好的质量和更快的生成速度。 > 720p 视频现在只需约 25 秒即可渲染，而上一代模型需要 40 秒以上。

xAI: Imagine Video 1.5 is generally available in our API: https://x.ai/news/grok-imagine-video-1-5 We've also rolled out Vide...

xAI模型发布视频

17:12

karminski-牙医@karminski3

73

GLM-5.2实测：Agent能力质变，背下地图无需搜索

GLM-5.2 正式发布，实测显示其 Agent 能力有质的变化。该模型能将地图数据内化到 1M 上下文中，直接知道换电站位置，全程未调用搜索函数，在测试的 20 多个模型中唯一能做到。后端 Agentic Coding 能力提升至总榜第二名。短板是空间理解：虽记住换电站位置，但无法根据当前位置推理最近站点。

智能体推理模型发布编码

16:09

智谱：研究（网页内嵌数据）

精选59

GLM-5.2 上线并开源：专注 Coding 与长程任务

GLM-5.2 已发布并开源，采用 MIT 协议，支持 1M 上下文窗口。Coding 方面能承载项目级上下文，长程任务执行更稳定，遵循生产级工程规范，并支持客户端与移动端真机调试闭环。通过极致 Infra 优化，发布首日即可在国产算力平台运行。模型已开源至 GitHub、Hugging Face、ModelScope、BigModel 开放平台、Z.ai、智谱清言、AutoClaw 及 ZCode。

开源生态模型发布编码

关联讨论 4 条

推荐理由：智谱这次升级很务实，1M 上下文和 MIT 协议对做长程任务的开发者很实用，但官方没给出量化 benchmark，实际提升还得自己上手测。

16:05

MarkTechPost（RSS）

精选70

MiniMax 发布 MSA 稀疏注意力方法，开源推理内核并推出 MiniMax-M3 模型

MiniMax 发布 MSA（MiniMax Sparse Attention），一种构建在 Grouped Query Attention 上的稀疏注意力方法。它将注意力分解为索引分支与主分支：索引分支以块粒度（默认 128 token）为每个 GQA 组选择 16 个 token 块（固定预算 2048 个键值 token），主分支仅在这些块上执行精确 softmax 注意力。MSA 在 109B 参数 MoE 模型上训练，开源了面向 NVIDIA SM100 GPU 的推理内核 `fmha_sm100`（MIT 许可，支持 BF16/FP8/NVFP4/FP4），并发布生产模型 MiniMax-M3。MSA-PT 在 MMLU、GSM8K、HumanEval、RULER-8K、RULER-32K 上分别达 67.2、77.7、64.0、84.2、77.5，与全注意力基线持平。128K 上下文下，其 exp-free Top-k 选择比 `torch.topk` 快 5.1 倍。

开源生态推理模型发布部署/工程

关联讨论 11 条

推荐理由：MiniMax 把长上下文注意力从 O(N) 压到固定每查询 2048 token，还同时开源高效内核与生产模型，对做长上下文 agent 的团队是即时可用的方法，遗憾是只限 SM100 GPU。

15:16

🚨 AI News | TestingCatalog@testingcatalog

80

Z ai 推出 GLM-5.2，在 Artificial Analysis Intelligence Index 上得 51 分排名第四，成为开源权重 SOTA。模型规模同 GLM-5.1（744B 总/40B 活跃参数），智能指数 v4.1 提升 11 分。科学推理显著增强：CritPt +16% 至 21%，HLE +12% 至 40%，GPQA Diamond +3% 至 89%。上下文窗口升至 1M tokens。API 定价 $1.4/$4.4/$0.26 每 1M 输入/输出/缓存命中 token，每任务成本约 $0.46，处智能 vs 成本帕累托前沿。MIT 许可证，已上线 DeepInfra 等第三方平台。

Artificial Analysis: Z ai's GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index scoring 51 and it sit...

开源生态推理模型发布

15:05

IT之家（RSS）

41

ChatGPT 语音最大规模升级：OpenAI 正筹备推出 GPT-Bidi-1 模型

OpenAI 正筹备推出 GPT-Bidi-1 模型，采用双向（BiDi）架构，能同时听和说，吸收用户打断并在对话中实时调整。相比已进化至 GPT-5.5 的文本模型，ChatGPT 的语音能力仍基于较旧音频技术栈，GPT-Bidi-1 旨在弥合这一差距。上线后用户可切换双向模式与现有高级语音模式，并支持 High、Medium 及 Instant 智能等级，按任务调整速度和深度。

OpenAI模型发布语音

14:15

数字生命卡兹克@Khazix0918

56

智谱发布GLM-5.2，开源模型（MIT许可），在编码和智能体任务上有显著提升，支持1M上下文窗口。提供两种推理努力级别：GLM-5.2 （max）极限模式、GLM-5.2 （high）性能与token效率平衡。API定价与GLM-5.1保持不变。官方评测显示其性能已可与Opus 4.8竞争。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

开源生态模型发布