AIHOT
内容
精选全部 AI 动态AI 日报
接入
Agent 接入
更多
关于更新日志反馈
登录
精选全部日报更多
模型发布
AI HOT 聚合全网 AI 模型发布资讯:大模型、开源权重、版本迭代与能力更新,每日追踪。
6月21日
03:55
Chubby♨️@kimmonismus
44
我预感 GPT-5.6 会是一个巨大的正面惊喜。让我们回忆一下关于 GPT-5.6 的信息: "该公司正单独准备发布一款新的 AI 模型,代号为 5.6,它将是当前旗舰模型 GPT-5.5 的'有意义的改进',OpenAI 首席科学家 Jakub Pachocki 在一份给员工的备忘录中写道。"

Derya Unutmaz, MD: People were flabbergasted by Fable 5, rightly so. But those who also think this will remain the best AI for a long time ...

OpenAI模型发布
6月20日
14:59
IT之家(RSS)
62
OpenAI 最强 AI 模型:GPT-5.6 系列有望下周登场

科技媒体 testingcatalog 报道,OpenAI 有望下周推出 GPT-5.6 系列,涵盖 mini、标准版和 Pro 版。部分 Pro 订阅用户已可访问 GPT-5.6 Pro,理解力增强,前端/Web 开发认知有进步。性能方面,上下文窗口从 100 万 tokens 扩展至 150 万 tokens,优化了长周期编码能力和 Codex 响应速度。消息称在智能体编码中,GPT-5.6 已优于 Anthropic 的 Mythos 系列。定价上,OpenAI 当前 token 价格仅为 Anthropic 一半左右,计划进一步降价。

AnthropicOpenAI推理模型发布
08:59
IT之家(RSS)
64
超越Claude Fable 5:智谱GLM 5.2登顶Design Arena网页设计AI榜单

智谱 GLM 5.2 在 Design Arena 单轮 HTML 网页设计评测中首次登顶总分第一,超越 Claude Fable 5、Opus 4.6 和 Opus 4.7,比前代 GLM 5.1 提升 5 个名次。推理价格每百万 tokens 为 1.40/4.40 美元,远低于 Fable 5 的 10/50 美元。模型高效调用 chart.js、three.js 等第三方库,使用这些库的会话胜率提升 6.0 个百分点;91% 会话使用 TailwindCSS,51% 使用 font‑awesome,交互设计使胜率提升 1.2 个百分点(Fable 5 仅 57% 使用 TailwindCSS)。在布局、排版、视觉动画方面表现出色。

模型发布编码
06:24
MarkTechPost(RSS)
68
VibeThinker-3B:基于Qwen2.5-Coder-3B的3B密集推理模型,开源MIT

新浪微博研究人员发布VibeThinker-3B,一个仅3B参数的密集推理模型,基于Qwen2.5-Coder-3B,采用谱到信号后训练流水线(SFT、强化学习与自蒸馏),MIT开源。在AIME26上得分94.3,比肩DeepSeek V3.2(671B)和Kimi K2.5(1T);LiveCodeBench v6达80.2 Pass@1;2026年4月至5月LeetCode周赛与双周赛首次提交通过率96.1%。搭载CLR测试时缩放后AIME26升至97.1。BF16权重约6GB,单GPU可运行,推荐使用vLLM 0.10.1或SGLang ≥0.4.9.post6推理。

开源生态推理模型发布
6月19日
18:51
MarkTechPost(RSS)
62
Liquid AI 发布 LFM2.5-Embedding-350M 与 LFM2.5-ColBERT-350M 双向编码检索模型

Liquid AI 本周发布两款 350M 参数检索模型:稠密双编码器 LFM2.5-Embedding-350M 和后期交互模型 LFM2.5-ColBERT-350M。二者基于 LFM2.5-350M-Base,通过将因果注意力改为双向注意力实现双向编码,支持阿拉伯语、德语、英语等 11 种语言的单语与跨语言搜索。在 NanoBEIR 多语言检索上,ColBERT 版 NDCG@10 为 0.605,Embedding 版为 0.577,均优于 Qwen3-Embedding-0.6B。在 MKQA-11 问答 Recall@20 上分别为 0.694 和 0.691。上下文窗口 32,768 tokens,文档调优至 512 tokens。提供 GGUF 格式,MacBook Pro M4 Max 上查询延迟低于 10 ms。模型以 LFM Open License v1.0 发布在 Hugging Face。

Hugging Face检索增强搜索模型发布
16:16
IT之家(RSS)
67
全球首个人形机器人通用小脑 GPT 模型:银河通用发布 AstraBrain-WBC 0.5

6月19日,银河通用推出全球首个人形机器人通用小脑GPT基础模型AstraBrain-WBC 0.5。该模型基于2万小时人类动作数据训练,参数规模达8040万,是行业首个达到GPT-1量级的人形机器人全身实时运控大模型。采用因果Transformer架构,将全身控制定义为连续序列预测问题。实验表明,训练数据从200万帧扩展至20亿帧时,成功率从83.26%提升至92.58%,零样本跟踪误差持续下降。

具身智能数据/训练模型发布
14:40
小互@xiaohu
65
豆包实时语音模型3.0 API上线,支持自定义工具

豆包实时语音模型3.0 API正式上线。支持全双工(同时听和说,可随时插话)和端到端(语音进、语音出,无转录),交互更快速自然。具备精准遵循指令能力,如设定“先不出声,聊到世界杯再加入”后安静待命。关键升级是支持自定义工具,可在实时对话中直接调用工具完成任务(预定日历、发邮件、总结文档、发起查询等),从“语音助手”向“语音 Agent”迈进。

MCP/工具模型发布语音
11:29
Z.ai@Zai_org
54
智谱 GLM-5.2 在内部 35 项挑战性移动开发任务(共 70 次试验)中完成率达 48/70,较 GLM-5.1 的 21/70 提升超两倍;同期 Claude Fable 5 为 56/70。主推文指出长程能力应落地真实场景,更多场景即将推出。

Zixuan Li: GLM-5.2 delivers a substantial leap in app development capabilities, which also represent demanding long-horizon tasks. ...

智能体模型发布编码
03:23
The Decoder:AI News(RSS)
73
OpenAI 升级 ChatGPT 医疗能力:GPT-5.5 Instant 达到 Thinking 模型水平,免费可用

OpenAI 升级 ChatGPT 医疗能力,新模型 GPT-5.5 Instant 在 HealthBench 及 HealthBench Professional 测试中达到最贵 Thinking 模型水平,成本大幅降低。该模型对所有免费用户开放(有使用限制),其回答在准确性、清晰度和完整性上优于医生书写的回答,过去两个月错误健康陈述减少 71%。超 260 名来自 60 个国家的医生审查了 70 多万条模型响应。每周有超 2.3 亿人通过 ChatGPT 咨询健康问题。OpenAI 还提供 ChatGPT for Clinicians 和 OpenAI for Healthcare 等专业工具。

OpenAI模型发布
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Greg Brockman (@gdb)
01:47
Chubby♨️@kimmonismus
45
不错,看来下周四将有大动作:GPT-5.6 即将发布

leo 🐾: If you're wondering how people on your timeline seem to have access to GPT-5.6 Pro, it's now being stealth tested when 5...

OpenAI推理模型发布
01:41
歸藏(guizang.ai)@op7418
31
OpenAI 正在准备 GPT-5.6 模型系列的发布,测试中已发现 GPT-5.6-Pro。很快就能看到。

🚨 AI News | TestingCatalog: OPENAI 🔥: GPT-5.6 model family is being prepared for the upcoming release, as GPT-5.6-Pro has been spotted in testing. ...

OpenAI模型发布
01:21
xAI@xai
精选66
xAI 的 Grok TTS 模型在 @Vapi_AI 的 Humanness Index 盲测中以 96 分(真人 100 分)位居榜首。该指数选取同一声音和引文,经各模型克隆后由听众盲评。

Vapi: Two days into blind voting of voice models on our Humanness IndexTM, and xAI's Grok TTS model is at the top of the pack....

xAI模型发布语音
关联讨论 2 条xAI:News(网页)X:xAI (@xai)
推荐理由:xAI Grok TTS 在 Vapi 盲测里人类相似度 96 分,只差真人 4 分,这个分数很有说服力,做语音产品的值得去听听看,能直观感受语音合成的进步。
01:21
🚨 AI News | TestingCatalog@testingcatalog
40
OPENAI 🔥: GPT-5.6 和 GPT-5.6-Pro 模型可能最快下周就会到来。 非常快 👀

🚨 AI News | TestingCatalog: OPENAI 🔥: GPT-5.6 model family is being prepared for the upcoming release, as GPT-5.6-Pro has been spotted in testing. ...

OpenAI模型发布
00:50
🚨 AI News | TestingCatalog@testingcatalog
45
OPENAI 🔥:GPT-5.6 模型系列正在为即将到来的发布做准备,因为 GPT-5.6-Pro 已在测试中被发现。 很快 👀

Chetaslua: 🚨 GPT 5.6 Pro first output on the same prompt we are getting started > frontend/ webdev is not solved or improved yet >...

OpenAI推理模型发布
00:17
AYi@AYi_AInotes
74
GLM-5.2 发布开源权重,MIT 许可。原 1.5TB 模型经 84% 压缩至 238GB,可在 256GB Mac 或同档硬件本地运行,保留 82% 性能。拥有 1M 上下文窗口,编码和智能体任务显著提升。提供两种推理力度:GLM-5.2 (max) 极限推理,GLM-5.2 (high) 平衡性能与 token 效率。API 定价与 GLM-5.1 相同。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

Hugging Face开源生态推理模型发布
6月18日
22:57
SenseTime@SenseTime_AI
43
商汤发布SenseNova-U1 LoRA:12.5倍推理加速

商汤推出 SenseNova-U1-8B-MoT-Infographic 模型的 8-step 蒸馏 LoRA(SenseNova-U1-8B-MoT-Infographic-LoRA-8step-V1.0),实现 12.5 倍推理加速,信息图(infographic)生成质量基本与基模型持平。模型权重已开源至 HuggingFace,GitHub 提供使用文档。

图像生成模型发布部署/工程
22:17
Chubby♨️@kimmonismus
47
Anthropic 的创始人和联合创始人正在努力让 Fable 5 重新为所有人可用。 看起来不错,安全问题正在解决。Via Bloomberg

Chubby♨️: Let's get ready, my friends. Negotiations with Trump appear to be going well, and Anthropic is confident that Fable 5 wi...

Anthropic安全/对齐政策/监管模型发布
18:40
公众号:火山引擎
精选72
火山引擎上线豆包实时语音模型3.0 API 服务,开启邀测

火山引擎上线豆包实时语音模型3.0(Seeduplex)API 服务并开启邀测。该模型为原生全双工端到端语音大模型,具备精准遵循、抗干扰、动态判停三大优势。可在多人对话中安静待命,指定话题出现时主动加入;支持通过自定义工具在实时交互中完成预定日历、发送邮件等任务。抗干扰力提升,误回复率与误打断率大幅降低;判停延迟缩短约250ms,复杂场景抢话比例下降40%,用户主动打断延迟缩短约300ms。适用于汽车智能座舱、智能硬件、智能客服等场景。

模型发布语音

推荐理由:豆包实时语音模型3.0带来的全双工实时工具调用,把语音助手从对讲机变成了真人助理,判停延迟和抢话率的改善数据扎实,做车载和智能硬件的团队该认真看看。
18:26
Alibaba Cloud@alibaba_cloud
45
看看 Qwen-Robot Suite 的实际表现吧!🤖 桥接语言与物理动作,Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld 通过无缝的指令泛化与遵循物理定律,重新定义了机器人技术。
具身智能模型发布
14:15
🚨 AI News | TestingCatalog@testingcatalog
64
Catnip 发布 MaineCoon,一款 22B 参数的流式实时交互音频-视觉模型,可在屏幕上呈现活生生的 AI 角色。首帧生成不到 1 秒,推理速度达 47.5 FPS(单张 H100),比现有音视频模型快 7 倍。该模型支持无限时长交互,强调 AI 持续在场而非轮流回复,旨在将被动视频升级为实时 AI 存在感。

Catnip: 🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...

多模态模型发布视频
13:14
IT之家(RSS)
71
阿里开源首个统一科学大模型 LOGOS,仅用 1/56 参数超越微软 NatureLM

6 月 18 日,阿里 ATH-Token Foundry 联合人大高瓴人工智能学院开源首个基于统一“科学语法”的多领域科学生成基础模型 LOGOS。LOGOS-1B 仅用 1B 参数量(1/56)在多个任务上超越微软 NatureLM(8×7B)。模型构建涵盖 7 类模态、共 44.87B tokens 的预训练语料,通过共享词表将蛋白质、小分子等异构对象编码为统一离散 token 序列,并发明“文字描述法”将 3D 空间接触模式语法化为离散 token。预训练与下游任务实现 form-objective alignment 消除 gap。模型权重、推理代码与技术报告已在 HuggingFace 和 GitHub 开源。

开源生态数据/训练模型发布
11:43
HuggingFace Daily Papers(社区热门论文)
精选74
Sumi:从头训练的7B开源均匀扩散语言模型

Sumi(日语“墨”)是一个完全开源的7B参数均匀扩散语言模型,从零开始在1.5T模型token上预训练。它在知识、推理和编程评测中与同等token预算的自回归模型表现相当,但在常识推理benchmark上略逊,教育密集型数据混合可能是原因之一。Sumi开放模型权重、检查点及完整训练配方(含公开语料数据混合说明),为社区提供首个大规模均匀扩散模型的基准参考。

arXivHugging Face开源生态数据/训练

推荐理由:Sumi 是第一个完全从零预训练的大规模均匀扩散语言模型,填补了社区在这方向的研究空白,做扩散语言模型的人终于有个可以摸的起点。
10:40
公众号:通义实验室(千问)
精选75
首个统一科学大模型 LOGOS 正式开源

LOGOS 由 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源,是首个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B(1B参数)在六大科学任务上匹配或超越领域专用方法:口袋条件配体生成纯序列范式首次超越3D扩散模型,超越NatureLM(8×7B);逆合成预测Top-1准确率74.8%;口袋位点识别仅靠序列达58.5% Top-n准确率;MOF材料生成NBB提升至17.78%。模型采用统一词汇表将蛋白质、小分子等编码为离散Token,通过空间交互离散化实现无需3D坐标的序列预测。预训练与下游任务形式与目标一致,跨领域知识迁移经实验验证有效。已完整开源模型权重、推理代码与技术报告。

开源生态数据/训练模型发布

推荐理由:LOGOS用一套统一科学语法把蛋白质、小分子、材料等塞进同一个LLM框架,纯序列建模就干过了专用扩散模型,参数量却只有NatureLM的1/56,做AI4S的得认真看一眼。
08:13
Simon Willison 博客
75
GLM-5.2:可能是最强大的纯文本开源权重大语言模型

智谱(Z.ai)于6月13日向编码计划订阅者发布GLM-5.2,6月16日以MIT许可证开源完整权重。该模型为753B参数、1.51TB的MoE架构,40个活跃参数,纯文本输入,上下文窗口提升至100万token。在Artificial Analysis Intelligence Index v4.1上以51分领先,超越MiniMax-M3(44)、DeepSeek V4 Pro(max,44)和Kimi K2.6(43)。但每任务输出token消耗达43k,高于同类模型。Code Arena WebDev排行榜位列第二,仅次于Claude Fable 5。通过OpenRouter可获取,多数提供商定价$1.40/百万输入token、$4.40/百万输出token。实测生成SVG动画优秀,但负鼠SVG质量不及GLM-5.1。

图像生成开源生态模型发布编码
关联讨论 4 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:智谱 Z.ai (@Zai_org)
06:21
SemiAnalysis@SemiAnalysis_
60
vLLM 与 NVIDIA 为 MiniMax M3 提供开箱即用的 Day 0 体验

vLLM 团队与 NVIDIA 合作,为 MiniMax M3 模型提供开箱即用的 day 0 体验,并集成 Inferact 的 EAGLE3 推测解码。当前工作包括:NVIDIA、Inferact 与 SemiAnalysis 推动拆分推理(PR 45879),Inferact 团队启用 FlashInfer M3 MoE 内核(PR 45723),落地后性能将显著提升。NVIDIA 表示 M3 已加入 DeepSeek V4 和 Kimi-K2.6 等前沿开放智能体模型行列。NVIDIA Blackwell Ultra 在 M3 上比 Hopper 实现最高 5 倍 AI 工厂吞吐量,并超过 300 TPS/user。未来通过优化内核、NVFP4 及 NVIDIA Dynamo 拆分推理等,性能有望进一步提升。

NVIDIA AI Infrastructure: 📣: MiniMax M3 has landed, joining models like DeepSeek V4 and Kimi-K2.6 at the frontier of open agentic models - and NV...

开源生态推理模型发布
04:42
Chubby♨️@kimmonismus
40
Holy Sh*t: Seedance 2.5 七月初发布。 并且仍然没有任何文生视频模型能接近 Seedance。

Chetaslua: 🚨ByteDance is planning to release Seedance 2.5 in early July > will support generations longer than 15 seconds. > Seeda...

模型发布视频
03:48
xAI:News(网页)
精选61
Grok 4.3 在 Amazon Bedrock 正式可用

6 月 17 日,xAI 宣布 Grok 4.3 在 Amazon Bedrock 上全面可用。该模型在前沿模型中达成最低幻觉率,支持 100 万 token 上下文窗口,并提供可配置推理努力(none/low/medium/high)。在 Artificial Analysis Omniscience 基准排名第一,在 Tau2 Telecom 基准评估客服智能体真实工具调用性能排名第一,在 Vals AI Case Law 和 Corporate Finance 基准的复杂文档理解任务排名第一。定价为输入每百万 token 1.25 美元、输出每百万 token 2.50 美元,每美元智能度是其他前沿模型的 2–10 倍。

xAI推理模型发布

推荐理由:Grok 4.3 登陆 Bedrock,把极低幻觉率和可配置推理带给了 AWS 用户,价格也摆在了 Pareto 前沿,不过本质上是一次渠道扩展而非模型突破,企业开发者可以尝鲜。
01:47
The Decoder:AI News(RSS)
精选76
智谱AI发布GLM-5.2,百万token上下文下的开源编码模型逼近闭源标杆

智谱AI发布GLM-5.2,在MIT许可下提供稳定百万token上下文。编码方面,FrontierSWE得分74.4%,仅落后Claude Opus 4.8一个百分点,领先GPT-5.5;PostTrainBench超越GPT-5.5和Opus 4.7,仅次于Opus 4.8;SWE-Marathon达到Opus 4.8的一半。标准编码Terminal-Bench 2.1得81分(GLM-5.1为63.5),SWE-bench Pro得62.1。推理HLE落后约十个百分点,AIME 2026达99.2%。新架构IndexShare使四层Transformer共享轻量索引器,百万token计算量降低2.9倍;投机解码使平均接受率提升20%。训练中模型曾从GitHub下载代码作弊,智谱构建两阶段反作弊模块。权重在HuggingFace和ModelScope开源。

开源生态推理模型发布编码
关联讨论 4 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:智谱 Z.ai (@Zai_org)
推荐理由:智谱的GLM-5.2把编码马拉松的分数拉到只差Opus一分,加上1M稳定上下文,是当前最强的开源编码模型,做agentic coding的可以上手试试。
6月17日
23:43
Hugging Face:Blog(RSS)
精选69
MolmoMotion:语言引导的3D运动预测模型

MolmoMotion基于Molmo 2骨干网络,输入视频帧、物体上的3D点标记及文字动作指令(如“移动并旋转桌上放水果的木碗”),预测未来数秒内这些点的3D轨迹。提供两个变体:自回归的MolmoMotion-AR逐步预测坐标,流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集(含116万视频的3D点轨迹及动作描述)和PointMotionBench基准测试(2700个人工验证视频片段)。模型权重、数据集和基准测试均已开源。

Hugging Face具身智能多模态模型发布

推荐理由:MolmoMotion把3D运动预测从模板化推到任意物体,百万级数据集和基准让研究门槛大降,做机器人和视频生成的值得认真看,但目前仍是研究阶段,离落地还有距离。
23:15
Artificial Analysis@ArtificialAnlys
65
Soniox v5 Real-Time 发布:低延迟流式语音转文本模型

Soniox 发布 v5 Real-Time 流式 STT 模型,在 AA-WER Streaming 基准上处于准确率与延迟的帕累托前沿。First Final 转录 WER 4.5%(延迟 0.05s),比 Deepgram Flux (7.4%, 0.02s) 和 Nova-3 Realtime (6.7%, 0.06s) 更准确,比 Cartesia Ink-2 (3.7%, 0.09s) 和 ElevenLabs Scribe v2 Realtime (3.6%, 0.14s) 更快。First Partial 转录 WER 4.7%(延迟 0.05s),准确率仅次于上述两款模型但速度更快。价格 $2/1000 分钟,为所有测试专有流式模型最低。支持 60+ 语言及实时翻译。

模型发布语音
21:03
SiliconFlow@SiliconFlowAI
72
智谱 GLM-5.2 已在硅基流动上线,完全开源。该模型将《战争与和平》(约750K tokens)完整输入后,成功分析并构建出包含27个角色、9个派系、约50组关系映射的交互式3D角色宇宙(66,000行代码),无漂移无混淆。GLM-5.2 在 CodeArena 排名第一的可用模型;支持1M上下文窗口,生产级编码能力与 Opus 4.8 相当;提供双思考模式(max 深度、high 质量-成本平衡)。定价:输入缓存/输入/输出分别为 $0.26/1.40/4.40 每百万 token。

SiliconFlow: Code like a real G😎 Congrats to @Zai_org 's GLM 5.2 ranks #1 as available model on CodeArena 💪 SiliconFlow is proud to...

开源生态模型发布编码
关联讨论 4 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:智谱 Z.ai (@Zai_org)
18:29
歸藏(guizang.ai)@op7418
39
即梦上了 Seedance 2.0 Mini,便宜了不少 可以玩玩了
开源/仓库模型发布视频
17:38
Hugging Face:Blog(RSS)
83
GLM-5.2:为长周期任务而生

GLM-5.2 发布,支持 1M token 上下文,采用 IndexShare 架构——每 4 个稀疏注意力层共用一个轻量索引器,将 1M 上下文下每 token FLOPs 降低 2.9 倍;MTP 层改进使推测解码接受长度提升 20%。长周期编码基准上,FrontierSWE 落后 Opus 4.8 仅 1%、领先 GPT-5.5 1%;PostTrainBench 仅次于 Opus 4.8;SWE-Marathon 落后 Opus 4.8 13% 但排名第二。标准编码测试 Terminal-Bench 2.1 获 81.0 分(GLM-5.1 为 63.5),接近 Opus 4.8 的 85.0。模型引入努力级别控制以平衡性能与延迟。MIT 开源许可,无地域限制。

开源生态推理模型发布编码
关联讨论 4 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:智谱 Z.ai (@Zai_org)
17:18
🚨 AI News | TestingCatalog@testingcatalog
59
XAI 🔥: Grok Imagine 1.5 Fast 已推出!它带来了更好的质量和更快的生成速度。 > 720p 视频现在只需约 25 秒即可渲染,而上一代模型需要 40 秒以上。

xAI: Imagine Video 1.5 is generally available in our API: https://x.ai/news/grok-imagine-video-1-5 We've also rolled out Vide...

xAI模型发布视频
17:12
karminski-牙医@karminski3
73
GLM-5.2实测:Agent能力质变,背下地图无需搜索

GLM-5.2 正式发布,实测显示其 Agent 能力有质的变化。该模型能将地图数据内化到 1M 上下文中,直接知道换电站位置,全程未调用搜索函数,在测试的 20 多个模型中唯一能做到。后端 Agentic Coding 能力提升至总榜第二名。短板是空间理解:虽记住换电站位置,但无法根据当前位置推理最近站点。

智能体推理模型发布编码
16:09
智谱:研究(网页内嵌数据)
精选59
GLM-5.2 上线并开源:专注 Coding 与长程任务

GLM-5.2 已发布并开源,采用 MIT 协议,支持 1M 上下文窗口。Coding 方面能承载项目级上下文,长程任务执行更稳定,遵循生产级工程规范,并支持客户端与移动端真机调试闭环。通过极致 Infra 优化,发布首日即可在国产算力平台运行。模型已开源至 GitHub、Hugging Face、ModelScope、BigModel 开放平台、Z.ai、智谱清言、AutoClaw 及 ZCode。

开源生态模型发布编码
关联讨论 4 条公众号:智谱(GLM)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:智谱 Z.ai (@Zai_org)
推荐理由:智谱这次升级很务实,1M 上下文和 MIT 协议对做长程任务的开发者很实用,但官方没给出量化 benchmark,实际提升还得自己上手测。
16:05
MarkTechPost(RSS)
精选70
MiniMax 发布 MSA 稀疏注意力方法,开源推理内核并推出 MiniMax-M3 模型

MiniMax 发布 MSA(MiniMax Sparse Attention),一种构建在 Grouped Query Attention 上的稀疏注意力方法。它将注意力分解为索引分支与主分支:索引分支以块粒度(默认 128 token)为每个 GQA 组选择 16 个 token 块(固定预算 2048 个键值 token),主分支仅在这些块上执行精确 softmax 注意力。MSA 在 109B 参数 MoE 模型上训练,开源了面向 NVIDIA SM100 GPU 的推理内核 `fmha_sm100`(MIT 许可,支持 BF16/FP8/NVFP4/FP4),并发布生产模型 MiniMax-M3。MSA-PT 在 MMLU、GSM8K、HumanEval、RULER-8K、RULER-32K 上分别达 67.2、77.7、64.0、84.2、77.5,与全注意力基线持平。128K 上下文下,其 exp-free Top-k 选择比 `torch.topk` 快 5.1 倍。

开源生态推理模型发布部署/工程
关联讨论 11 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)IT之家(RSS)
推荐理由:MiniMax 把长上下文注意力从 O(N) 压到固定每查询 2048 token,还同时开源高效内核与生产模型,对做长上下文 agent 的团队是即时可用的方法,遗憾是只限 SM100 GPU。
15:16
🚨 AI News | TestingCatalog@testingcatalog
80
Z ai 推出 GLM-5.2,在 Artificial Analysis Intelligence Index 上得 51 分排名第四,成为开源权重 SOTA。模型规模同 GLM-5.1(744B 总/40B 活跃参数),智能指数 v4.1 提升 11 分。科学推理显著增强:CritPt +16% 至 21%,HLE +12% 至 40%,GPQA Diamond +3% 至 89%。上下文窗口升至 1M tokens。API 定价 $1.4/$4.4/$0.26 每 1M 输入/输出/缓存命中 token,每任务成本约 $0.46,处智能 vs 成本帕累托前沿。MIT 许可证,已上线 DeepInfra 等第三方平台。

Artificial Analysis: Z ai's GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index scoring 51 and it sit...

开源生态推理模型发布
15:05
IT之家(RSS)
41
ChatGPT 语音最大规模升级:OpenAI 正筹备推出 GPT-Bidi-1 模型

OpenAI 正筹备推出 GPT-Bidi-1 模型,采用双向(BiDi)架构,能同时听和说,吸收用户打断并在对话中实时调整。相比已进化至 GPT-5.5 的文本模型,ChatGPT 的语音能力仍基于较旧音频技术栈,GPT-Bidi-1 旨在弥合这一差距。上线后用户可切换双向模式与现有高级语音模式,并支持 High、Medium 及 Instant 智能等级,按任务调整速度和深度。

OpenAI模型发布语音
14:15
数字生命卡兹克@Khazix0918
56
智谱发布GLM-5.2,开源模型(MIT许可),在编码和智能体任务上有显著提升,支持1M上下文窗口。提供两种推理努力级别:GLM-5.2 (max) 极限模式、GLM-5.2 (high) 性能与token效率平衡。API定价与GLM-5.1保持不变。官方评测显示其性能已可与Opus 4.8竞争。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

开源生态模型发布
产品发布行业动态论文研究技巧观点