全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 727 条

全部一手资讯 X 论文

标签「模型发布」清除

4月4日周六

00:57Nathan Lambert：Interconnects（RSS）精选Gemma 4 与开放模型成功之道

4月2日周四

19:58公众号：龙猫LongCat（美团）37LongCat-Flash-Prover：AI 攻克数学定理证明，不仅要"算得对"，更要"证得严"

19:58公众号：龙猫LongCat（美团）53美团发布原生多模态 LongCat-Next：当视觉和语音成为AI的母语

13:46公众号：阶跃星辰（Step）42阶跃 Step 3.5 Flash 系列上新，Step Plan 用户现可体验

12:32公众号：通义实验室（千问）54Qwen3.6-Plus：编码智能体能力全面跃升！

08:05公众号：智谱（GLM）45智谱发布GLM-5V-Turbo多模态Coding基座模型

08:00Google Developers Blog（RSS）81精选通过 Gemma 4 将先进的智能体能力引入边缘

08:00Hugging Face：Blog（RSS）88精选Welcome Gemma 4：设备端的 Frontier 多模态智能

04:00Qwen：Blog Retrieval（API）Qwen3.6-Plus：迈向真实世界 Agent

00:00智谱：研究（网页内嵌数据）精选GLM-5V-Turbo发布：多模态Coding基座模型

4月1日周三

15:13Hugging Face：Blog（RSS）70精选Falcon Perception

14:57公众号：通义实验室（千问）59Wan2.7-Image：人更真，字更稳，色更准

00:00Google Blog：AI（RSS）使用 Veo 3.1 Lite 构建：我们成本效益最高的视频生成模型

3月31日周二

23:10Hugging Face：Blog（RSS）70精选Granite 4.0 3B Vision：面向企业文档的紧凑型多模态智能

00:00Meta Engineering Blog（RSS）71精选AI助力美国产水泥与混凝土

3月30日周一

21:08公众号：通义实验室（千问）59215项SOTA + 自然涌现Vibe Coding！Qwen3.5-Omni发布

11:25美团 LongCat：HuggingFace 新模型精选LongCat-AudioDiT-1B：高保真波形潜空间扩散式文本转语音模型

04:00Qwen：Blog Retrieval（API）精选Qwen3.5-Omni：全面扩展，迈向原生全模态 AGI

3月27日周五

21:12公众号：昆仑万维（天工）54昆仑万维携AIGC全家桶亮相2026中关村论坛，三大世界第一梯队模型发布

19:21公众号：智谱（GLM）52GLM-5.1已面向所有Coding Plan用户开放

3月26日周四

23:21Google Blog：AI（RSS）精选Gemini 3.1 Flash Live：让音频 AI 更自然、更可靠

00:00Google Blog：AI（RSS）精选基于 Lyria 3 构建：全新音乐生成模型开放预览

3月25日周三

21:18美团 LongCat：HuggingFace 新模型美团 LongCat-Next

13:15公众号：昆仑万维（天工）46Mureka V8登顶Artificial Analysis双榜单第一

3月24日周二

15:34公众号：通义实验室（千问）51PrismAudio：声画同频，音效随行

3月23日周一

00:00Mistral AI：News（网页）Voxtral 发布 40 亿参数文本转语音模型

3月20日周五

12:04美团 LongCat：HuggingFace 新模型美团 LongCat 发布 LongCat-Flash-Prover

3月19日周四

08:00Cursor Blog精选Composer 2 正式发布

04:00Qwen：Blog Retrieval（API）精选Qwen3.5-Max-Preview 现已上线 Arena

00:48公众号：小米 MiMo53Xiaomi MiMo-V2-Pro & Omni & TTS 全球发布

00:45公众号：小米 MiMo37Xiaomi MiMo-V2-TTS 发布：为 Agent 注入灵魂，从此刻开始发声

00:25公众号：小米 MiMo49Xiaomi MiMo-V2-Omni 发布：看得清，听得懂，能动手的全模态 Agent 基座

00:23公众号：小米 MiMo46Xiaomi MiMo-V2-Pro 发布：面向 Agent 时代的旗舰基座

3月18日周三

13:39公众号：MiniMax（稀宇科技）50MiniMax M2.7：开启模型的自我进化

05:08Midjourney：Updates（RSS）V8 Alpha

00:00MiniMax：Blog（网页）61精选MiniMax M2.7：自我进化的早期回声

3月17日周二

20:33Hugging Face：Blog（RSS）83精选Holotron-12B - 高吞吐计算机使用智能体

18:00OpenAI：官网动态（RSS · 排除企业/客户案例）精选推出 GPT-5.4 mini 和 nano

3月16日周一

10:30公众号：智谱（GLM）35GLM-5-Turbo：龙虾增强的基座模型

00:00Mistral AI：News（网页）93研究 ## 推出 Mistral Small 4 模型

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

4月4日

00:57

Nathan Lambert：Interconnects（RSS）

精选

Gemma 4 与开放模型成功之道

Gemma 4 的发布揭示了开放模型成功的真正标准。文章指出，决定模型成败的关键并非基准测试分数（benchmark scores），而是其他因素。当前 AI 领域过度关注 leaderboard 排名，但高分数不等于实际应用价值与社区采用率。真正的成功取决于模型解决真实场景需求的能力、开发者友好度以及生态建设，而非单纯的技术指标领先。这一观点挑战了以 benchmark 为导向的行业评估范式。

Google 大佬观点开源生态模型发布

关联讨论 1 条X：Francois Chollet (@fchollet)

推荐理由：开源模型成败不只看榜单分数，Hugging Face 大佬揭秘真实胜负手

4月2日

19:58

公众号：龙猫LongCat（美团）

37

LongCat-Flash-Prover：AI 攻克数学定理证明，不仅要"算得对"，更要"证得严"

推理模型发布

19:58

公众号：龙猫LongCat（美团）

53

美团发布原生多模态 LongCat-Next：当视觉和语音成为AI的母语

美团发布原生多模态模型 LongCat-Next，将视觉与语音作为模型的固有输入输出模态，而非传统语言模型的外部插件。该模型旨在构建能够直接感知、理解并作用于真实世界的 AI 系统，强调多模态能力在底层架构中的原生融合，而非后期拼接。

多模态模型发布

13:46

公众号：阶跃星辰（Step）

42

阶跃 Step 3.5 Flash 系列上新，Step Plan 用户现可体验

阶跃星辰发布 Step 3.5 Flash 系列，主打更快、更好用、更加 Agent-native，面向所有 Step Plan 用户开放体验。

智能体模型发布

12:32

公众号：通义实验室（千问）

54

Qwen3.6-Plus：编码智能体能力全面跃升！

智能体模型发布编码

08:05

公众号：智谱（GLM）

45

智谱发布GLM-5V-Turbo多模态Coding基座模型

智谱今日发布GLM-5V-Turbo，这是一款多模态Coding基座模型，专注于编程场景下的多模态任务处理。

多模态模型发布

08:00

Google Developers Blog（RSS）

精选81

通过 Gemma 4 将先进的智能体能力引入边缘

Google DeepMind 发布了 Gemma 4 系列开源模型，旨在直接在设备端实现多步骤规划和自主智能体工作流。该版本包含用于实验“智能体技能”的 Google AI Edge Gallery，以及为开发者提供显著速度提升和结构化输出的 LiteRT-LM 库。Gemma 4 采用 Apache 2.0 许可，支持超过 140 种语言，并兼容移动设备、台式机及树莓派等多种物联网硬件平台。

智能体 Google 模型发布端侧

推荐理由：开源 agentic 模型支持端侧运行，开发者可快速构建本地智能应用。

08:00

Hugging Face：Blog（RSS）

精选88

Welcome Gemma 4：设备端的 Frontier 多模态智能

Google 正式发布了 Gemma 4，这是一款前沿的多模态人工智能模型，其核心特点是能够在设备端本地运行。该模型通过开源方式发布，旨在推动人工智能技术的进步与民主化。Gemma 4 的“在设备端”能力意味着数据处理可在本地完成，无需持续连接云端，这有望提升响应速度、增强隐私保护并实现离线使用。此举是 Google 通过开源和开放科学来普及人工智能的持续努力的一部分。

Google 多模态模型发布端侧

推荐理由：前沿多模态模型开源，设备端可运行，降低AI部署门槛。

04:00

Qwen：Blog Retrieval（API）

Qwen3.6-Plus：迈向真实世界 Agent

Qwen3.6-Plus 定位真实世界 Agent 应用，Qwen Studio 平台集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能，覆盖多模态任务与复杂场景需求。

智能体多模态模型发布

00:00

智谱：研究（网页内嵌数据）

精选

GLM-5V-Turbo发布：多模态Coding基座模型

智谱发布GLM-5V-Turbo多模态Coding基座模型，原生支持图像、视频、设计稿理解及画框、截图、读网页等工具调用，上下文窗口达200k。采用新一代CogViT视觉编码器与30+任务协同强化学习，在保持纯文本编程能力的同时强化GUI Agent能力。与Claude Code、AutoClaw等框架深度协同，支持"图像即代码"前端复刻及GUI自主探索，提供开箱即用的官方Skills。

智能体多模态模型发布编码

推荐理由：智谱发布多模态Coding基座GLM-5V-Turbo，深度适配Claude Code等Agent

4月1日

15:13

Hugging Face：Blog（RSS）

精选70

Falcon Perception

Technology Innovation Institute 在 Hugging Face 平台发布了一篇博客文章，介绍了其 Falcon Perception 系统。该系统是一种先进的感知技术方案，专注于提升机器对复杂环境的理解与交互能力。文章阐述了其核心架构的更新，包括多模态数据融合机制的优化，以及实时处理效率的显著提升。关键性能指标显示，其在标准基准测试中的准确率与响应速度均有突破。

Hugging Face 开源生态模型发布

推荐理由：Falcon 系列新成员，开源多模态模型阵营再添一员，开发者可关注选型

14:57

公众号：通义实验室（千问）

59

Wan2.7-Image：人更真，字更稳，色更准

图像生成模型发布

00:00

Google Blog：AI（RSS）

使用 Veo 3.1 Lite 构建：我们成本效益最高的视频生成模型

Veo 3.1 Lite 现已开放付费预览，作为 Google 成本效益最高的视频生成模型，支持通过 Gemini API 调用及 Google AI Studio 测试。

Google 模型发布视频

3月31日

23:10

Hugging Face：Blog（RSS）

精选70

Granite 4.0 3B Vision：面向企业文档的紧凑型多模态智能

IBM Granite团队发布了Granite 4.0 3B Vision模型，这是一个专为企业文档处理设计的紧凑型多模态大语言模型。该模型参数为30亿，具备视觉理解能力，能够同时处理文本和图像信息，特别针对报告、表格、图表等企业文档进行优化。其紧凑尺寸旨在降低部署和运行成本，使企业能够在资源受限的环境中高效实现文档智能分析、信息提取和知识管理。模型已在Hugging Face平台发布。

多模态模型发布端侧

推荐理由：IBM 推出轻量级多模态模型，企业文档场景可直接落地部署

00:00

Meta Engineering Blog（RSS）

精选71

AI助力美国产水泥与混凝土

Meta发布了名为贝叶斯优化的新AI模型，用于设计混凝土配比。该模型旨在帮助建筑行业生产更高质量、更可持续的混凝土混合物，并特别聚焦于美国本土生产的产品。此次发布与2026年美国混凝土学会春季大会同步进行，是Meta长期路线图的一部分，旨在推动建筑业利用人工智能优化材料性能与环保指标。

Meta 模型发布部署/工程

推荐理由：Meta 将 AI 应用于传统建筑行业，展示垂直领域落地案例，启发其他行业探索 AI 应用。

3月30日

21:08

公众号：通义实验室（千问）

59

215项SOTA + 自然涌现Vibe Coding！Qwen3.5-Omni发布

Qwen3.5-Omni发布，在215项基准上达到SOTA，并自然涌现出Vibe Coding能力，成为原生全模态新标杆。

多模态模型发布

11:25

美团 LongCat：HuggingFace 新模型

精选

LongCat-AudioDiT-1B：高保真波形潜空间扩散式文本转语音模型

美团 LongCat 团队开源的扩散式 TTS 模型摒弃传统的 mel-spectrogram 中间表示，直接在波形潜空间操作，仅通过 Wav-VAE 与扩散骨干网络即可合成语音。该模型修复了训练-推理不匹配问题，并以自适应投影引导替代无分类器引导。最大版本 3.5B 在 Seed 基准实现 SOTA 零样本语音克隆，说话人相似度（SIM）在 Seed-ZH 达 0.818、Seed-Hard 达 0.797，超越此前最优的 Seed-TTS。研究还发现 Wav-VAE 的重建保真度与最终合成质量并非正相关。

开源生态模型发布语音

关联讨论 1 条美团 LongCat：HuggingFace 新模型

推荐理由：美团开源 1B 语音克隆模型，Seed 基准超 Seed-TTS，零样本推理可用

04:00

Qwen：Blog Retrieval（API）

精选

Qwen3.5-Omni：全面扩展，迈向原生全模态 AGI

Qwen Studio 发布，集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具使用及 Artifacts 功能，提供全模态 AI 一站式解决方案。

智能体多模态模型发布

关联讨论 1 条Qwen：Blog Retrieval（API）

推荐理由：阿里发布Qwen3.5-Omni多模态模型，迈向原生全模态AGI

3月27日

21:12

公众号：昆仑万维（天工）

54

昆仑万维携AIGC全家桶亮相2026中关村论坛，三大世界第一梯队模型发布

昆仑万维在2026中关村论坛发布AIGC全家桶，其中包括三款达到世界第一梯队的模型。

多模态模型发布

19:21

公众号：智谱（GLM）

52

GLM-5.1已面向所有Coding Plan用户开放

智谱GLM-5.1已面向所有Coding Plan用户开放。

模型发布编码

3月26日

23:21

Google Blog：AI（RSS）

精选

Gemini 3.1 Flash Live：让音频 AI 更自然、更可靠

Gemini 3.1 Flash Live 已上线 Google 全系产品，提供更自然、可靠的实时音频 AI 交互能力。

Google 模型发布语音

关联讨论 1 条Google DeepMind：Blog（RSS）

推荐理由：Google发布Gemini 3.1 Flash Live，提升音频AI自然度与可靠性

00:00

Google Blog：AI（RSS）

精选

基于 Lyria 3 构建：全新音乐生成模型开放预览

Lyria 3 音乐生成模型现已开放付费预览，开发者可通过 Gemini API 调用，或在 Google AI Studio 免费测试。

Google 多模态模型发布

推荐理由：Google 发布音乐生成模型 Lyria 3，现可通过 Gemini API 和 AI Studio 体验

3月25日

21:18

美团 LongCat：HuggingFace 新模型

美团 LongCat-Next

美团开源项目 LongCat-Next 正式发布，宣称将通过开源与开放科学推进人工智能技术的普及与民主化。该项目目前仅公开使命宣言，强调降低AI技术门槛的愿景，尚未披露具体模型架构、训练数据或性能基准等技术指标，也未说明应用场景或发布时间表。

Hugging Face 开源生态模型发布

13:15

公众号：昆仑万维（天工）

46

Mureka V8登顶Artificial Analysis双榜单第一

Mureka V8 在 Artificial Analysis 两项榜单中均位列第一。

多模态模型发布

3月24日

15:34

公众号：通义实验室（千问）

51

PrismAudio：声画同频，音效随行

PrismAudio 由通义实验室（千问）开源发布，定位为“更会思考的AI音效师”，能够实现声画同频、音效随行的智能音效生成。

多模态模型发布视频

3月23日

00:00

Mistral AI：News（网页）

Voxtral 发布 40 亿参数文本转语音模型

Voxtral 发布 40 亿参数文本转语音模型 Voxtral TTS，支持英语、法语等 9 种语言的逼真语音生成。该模型仅需 3 秒参考音频即可实现零样本语音克隆，延迟低至 70 毫秒。人工评测显示，其在保持与 ElevenLabs Flash v2.5 相当首音时间的同时，自然度表现更优，与 ElevenLabs v3 质量持平。模型支持情感控制和跨语言语音迁移，适用于企业级语音代理工作流。

智能体模型发布语音

3月20日

12:04

美团 LongCat：HuggingFace 新模型

美团 LongCat 发布 LongCat-Flash-Prover

美团 LongCat 团队发布开源项目 LongCat-Flash-Prover，致力于通过开源与开放科学推进人工智能技术的普及与民主化。该项目旨在降低 AI 技术应用门槛，促进先进技术的广泛可及性，但尚未公布具体的技术架构、功能特性及性能评估指标。

Hugging Face 推理模型发布

3月19日

08:00

Cursor Blog

精选

Composer 2 正式发布

Composer 2 登陆 Cursor，定价 $0.50/M（输入）和 $2.50/M（输出），Terminal-Bench 2.0 得分 61.3，SWE-bench Multilingual 达 73.7，显著优于前代。支持数百步长周期编码任务，团队同步发布训练技术报告。

智能体模型发布编码

推荐理由：Cursor发布Composer 2编程Agent，性能大幅提升且定价极具竞争力

04:00

Qwen：Blog Retrieval（API）

精选

Qwen3.5-Max-Preview 现已上线 Arena

Qwen3.5-Max-Preview 已登陆 LMSYS Chatbot Arena。Qwen Studio 提供聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索、工具调用及 artifacts 等全栈功能。

智能体多模态模型发布

推荐理由：阿里 Qwen3.5-Max 预览版上线 Arena，支持多模态理解与工具调用

00:48

公众号：小米 MiMo

53

Xiaomi MiMo-V2-Pro & Omni & TTS 全球发布

多模态模型发布语音

00:45

公众号：小米 MiMo

37

Xiaomi MiMo-V2-TTS 发布：为 Agent 注入灵魂，从此刻开始发声

多模态模型发布语音

00:25

公众号：小米 MiMo

49

Xiaomi MiMo-V2-Omni 发布：看得清，听得懂，能动手的全模态 Agent 基座

智能体多模态模型发布

00:23

公众号：小米 MiMo

46

Xiaomi MiMo-V2-Pro 发布：面向 Agent 时代的旗舰基座

智能体模型发布

3月18日

13:39

公众号：MiniMax（稀宇科技）

50

MiniMax M2.7：开启模型的自我进化

MiniMax 发布 M2.7 模型，主打模型的自我进化能力。该版本在架构或训练方式上实现了关键突破，使模型能够在不依赖人工标注或外部反馈的条件下持续改进自身性能。具体技术细节和评测数据尚未公开。

05:08

Midjourney：Updates（RSS）

Midjourney 开放 V8 模型 Alpha 版本测试，用户可访问 alpha.midjourney.com 体验早期版本并提交反馈。V8 在提示词遵循能力上较此前版本有明显提升。

图像生成模型发布

00:00

MiniMax：Blog（网页）

精选61

MiniMax M2.7：自我进化的早期回声

M2.7是M2系列中首个深度参与自身进化的模型。它能构建复杂的智能体框架，完成精细的生产力任务，尤其在软件工程方面表现突出，其SWE-Pro基准测试得分56.22%，接近Opus的最佳水平。模型的办公软件处理能力在开源模型中领先，GDPval-AA的ELO分数为1495。M2.7能保持97%的技能遵循率，处理超过40个、每个超过2000 token的复杂技能。该模型通过内部研究智能体框架，实现了“分析-修改-评估”的自主迭代优化循环，在内部评估中提升了性能。

智能体模型发布编码

关联讨论 2 条MiniMax：Blog（网页）HuggingFace Daily Papers（社区热门论文）

推荐理由：MiniMax M2.7 让模型参与自身进化，在 SWE-Pro 和 VIBE-Pro 上接近 Opus 水平，Agent Teams 设计也值得看，但整体仍是追赶者姿态。

3月17日

20:33

Hugging Face：Blog（RSS）

精选83

Holotron-12B - 高吞吐计算机使用智能体

H公司发布了多模态计算机使用模型Holotron-12B。该模型基于NVIDIA开源的Nemotron-Nano-12B-VL模型，使用专有数据混合进行训练，专注于在交互环境中高效感知、决策和行动。其采用混合状态空间模型与注意力机制架构，在单张H100 GPU上实现了比前代Holo2-8B高2倍以上的吞吐量，在100并发基准测试中达到每秒8900个token。在WebVoyager基准测试中，性能从基线的35.1%提升至80.5%，在定位和导航基准上也显著提升。模型已通过NVIDIA开放模型许可在Hugging Face发布。

智能体 Hugging Face 多模态模型发布

推荐理由：高效推理的计算机使用代理模型，适合生产部署，开发者可直接试用。

18:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

推出 GPT-5.4 mini 和 nano

GPT-5.4 mini 与 nano 发布，为 GPT-5.4 的轻量高速版本，针对编程、工具调用、多模态推理及高并发 API 和子代理任务优化。

智能体 OpenAI 模型发布编码

推荐理由：OpenAI 发布 GPT-5.4 mini/nano，针对编码与 Agent 场景优化

3月16日

10:30

公众号：智谱（GLM）

35

GLM-5-Turbo：龙虾增强的基座模型

智谱发布GLM-5-Turbo基座模型，该模型采用了龙虾增强技术，被描述为“龙虾增强的基座模型”，是一款基于龙虾增强的基座模型。

00:00

Mistral AI：News（网页）

93

研究 ## 推出 Mistral Small 4 模型

Mistral AI 发布新一代开源模型 Mistral Small 4，首次将 Magistral 的推理、Pixtral 的多模态和 Devstral 的编码能力整合于单一模型。它采用混合专家架构，拥有119B总参数和256k上下文窗口，支持图文输入及可配置的推理强度。性能上，其端到端延迟降低40%，吞吐量较前代提升3倍。该模型基于 Apache 2.0 许可证开源，并加入 NVIDIA Nemotron 联盟，优化了在 vLLM 等框架上的推理效率，适用于聊天、编码和复杂任务处理。

多模态推理模型发布

1…11 121314 15…19