全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「模型发布」清除

4月12日周日

18:13Rohan PaulMeta发布Muse Spark：企业AI将走向定制化运营层

4月10日周五

22:58TestingCatalog News 🗞Meta 计划近期通过 API 发布 Muse Spark

21:30公众号：MiniMax（稀宇科技）30MiniMax Music 2.6：我们想讲四个人的故事

17:14公众号：智谱（GLM）59GLM-5.1获LMArena代码榜开源第一、全球第三

14:57karminski-牙医Qwen3.5-Omni-Plus实测：全模态交互、OCR精度与端侧控制

4月9日周四

18:30Haider.啥情况

17:01公众号：腾讯混元51腾讯Robotics X实验室联合混元推出2B具身模型：22项评测16项最佳

11:37Ethan MollickAmazon Nova 到底什么情况？Nova 2 自去年12月发布，其顶级模型…

08:05Jeff DeanGemma 4 模型反响热烈，能力表现获认可

06:57Sundar PichaiGoogle Gemma 4周下载破千万，总下载量超5亿

06:36karminski-牙医Meta发布Muse Spark：高效多模态但非旗舰

00:19Yuchen JinMeta 发布 Avocado，内部代号 Muse Spark

4月8日周三

14:06蚂蚁 inclusionAI：HuggingFace 新模型34inclusionAI/TC-AE

13:14Artificial Analysis韩国Upstage发布Solar Pro 3：韩实验室第二强模型

10:41公众号：智谱（GLM）62精选GLM-5.1开源：一个独立工作8小时的模型

02:14Dario AmodeiAnthropic 宣布 Project Glasswing 获众多全球领先企业支持，共同应对先进 AI 网络威胁

4月7日周二

19:32公众号：蚂蚁百灵（Ling）52Ming-flash-omni：从看图到发文，打通全模态创作闭环

4月4日周六

01:07François Chollet来自 Sachin 的会议首个更新：Gemma 4 现已在 KerasHub 上线！目前推理和智能体工作流的最佳开源模型。

00:57Nathan Lambert：Interconnects（RSS）精选Gemma 4 与开放模型成功之道

4月3日周五

22:01Demis Hassabis精选Gemma 4 性能超越体量 10 倍以上的模型！（注意 x 轴为对数坐标！）

17:18karminski-牙医Qwen3.6-Plus实测：多模态编程与设计还原能力评测

11:57Artificial Analysis印度发布首批从头预训练开源大模型Sarvam 105B与30B

08:29Artificial Analysis56微软发布MAI-Transcribe-1语音转录模型，准确率达3.0%

01:09Artificial Analysis精选Google发布Gemma 4多模态开源模型系列

00:13Sundar Pichai精选Gemma 4 正式发布，单位参数量智能密度极高 👇

00:08Demis Hassabis精选Gemma 4 发布：各尺寸最强的开源模型

00:03Google DeepMind精选Gemma 4 发布：可在本地硬件运行的全新开源模型系列

4月2日周四

22:29Satya Nadella精选MAI 模型家族全面登陆 Foundry，面向所有开发者开放

19:58公众号：龙猫LongCat（美团）37LongCat-Flash-Prover：AI 攻克数学定理证明，不仅要"算得对"，更要"证得严"

19:58公众号：龙猫LongCat（美团）53美团发布原生多模态 LongCat-Next：当视觉和语音成为AI的母语

13:46公众号：阶跃星辰（Step）42阶跃 Step 3.5 Flash 系列上新，Step Plan 用户现可体验

13:03karminski-牙医智谱GLM-5V-Turbo实测：多模态补强但代码生成偏弱

12:32公众号：通义实验室（千问）54Qwen3.6-Plus：编码智能体能力全面跃升！

08:05公众号：智谱（GLM）45智谱发布GLM-5V-Turbo多模态Coding基座模型

08:00Google Developers Blog（RSS）81精选通过 Gemma 4 将先进的智能体能力引入边缘

08:00Hugging Face：Blog（RSS）88精选Welcome Gemma 4：设备端的 Frontier 多模态智能

04:00Qwen：Blog Retrieval（API）Qwen3.6-Plus：迈向真实世界 Agent

00:00智谱：研究（网页内嵌数据）精选GLM-5V-Turbo发布：多模态Coding基座模型

4月1日周三

18:17karminski-牙医阿里 WAN-2.7-Image 发布：图像生成与修图能力升级

15:13Hugging Face：Blog（RSS）70精选Falcon Perception

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

4月12日

18:13

Rohan Paul@rohanpaul_ai

Meta发布Muse Spark：企业AI将走向定制化运营层

Mark Zuckerberg指出，未来企业不会拥有前沿AI基础模型，而是基于共享模型构建定制化运营层，反映其业务流程与客户历史，用于客户互动和支持。与此同时，Meta发布原生多模态推理模型Muse Spark，采用多智能体编排架构，多个副本可并行推理并比较结果，用比Llama 4 Maverick少10倍以上的训练计算达到类似能力，标志着AI性能提升从单一模型扩展转向运行时智能分配计算资源。

Rohan Paul: Meta is back. 🔥 Finally dropped its first model since Zuckerberg started writing checks like crazy. Launched Muse Spark...

智能体 Meta 推理模型发布

关联讨论 3 条X：Artificial Analysis (@ArtificialAnlys)X：slow_developer (@slow_developer)X：Testing Catalog (@testingcatalog)

4月10日

22:58

TestingCatalog News 🗞@testingcatalog

Meta 即将通过 API 发布 Muse Spark，作者同时期待能体验 Meta 的 9B 模型（如果最终发布）。

AI at Meta: 🔜

Meta 图像生成模型发布

21:30

公众号：MiniMax（稀宇科技）

30

MiniMax Music 2.6：我们想讲四个人的故事

MiniMax Music 2.6 版本发布，以“四个人的故事”为主题。

多模态模型发布

17:14

公众号：智谱（GLM）

59

GLM-5.1获LMArena代码榜开源第一、全球第三

GLM-5.1在LMArena Code Arena登顶开源第一、全球第三。它继承上一代的SOTA编码能力，并在长程任务突破：8小时构建Linux桌面、655次迭代优化向量数据库、1000轮工具调用优化机器学习模型。METR榜下，它是唯一达8小时级持续工作的开源模型（除Claude Opus 4.6外）。

开源生态模型发布编码

14:57

karminski-牙医@karminski3

Qwen3.5-Omni-Plus实测：全模态交互、OCR精度与端侧控制

Qwen3.5-Omni-Plus作为全模态大模型，支持文本、音频、图像、视频输入及文本与语音输出。实测显示其视频理解能精准捕捉画面细节，OCR能力在2000字内错误率低于0.1%，但存在幻觉问题，会虚构音乐或情节。作者通过修改openclaw框架，实现了该模型对平板屏幕和摄像头的直接控制，拓展了端侧AI交互场景。

智能体多模态模型发布

4月9日

18:30

Haider.@haider1

OpenAI 计划向少数公司限量开放具备高级网络安全能力的新模型，暂不公开发布，与 Anthropic 限制发布 Mythos 类似。作者质疑这是 PR 噱头，原本期待的是 GPT-5.5 或 GPT-5o 的正式亮相。

Wall St Engine: Axios: OpenAI is planning a staggered rollout for a new model with advanced cybersecurity capabilities, limiting access ...

Anthropic OpenAI 安全/对齐模型发布

17:01

公众号：腾讯混元

51

腾讯Robotics X实验室联合混元推出2B具身模型：22项评测16项最佳

腾讯Robotics X实验室与混元联合推出2B参数规模的具身模型，在22项评测中取得16项最佳成绩。该模型旨在为真实世界AI智能体提供基础支撑。

具身智能模型发布

11:37

Ethan Mollick@emollick

Amazon Nova 2 自去年12月发布至今，其顶级模型性能仍落后于 Sonnet 4.5，且始终未能脱离预览阶段，进展缓慢。

大佬观点模型发布评测/基准

08:05

Jeff Dean@JeffDean

Gemma 4 发布一周内下载量突破 1000 万次，Gemma 系列模型累计下载量已超 5 亿次。Sundar Pichai 公布数据并期待看到开发者基于该模型的创作。

Sundar Pichai: Lots of love for Gemma 4! Team just told me it's already had 10M+ downloads since last week's launch. Gemma models have ...

Google 开源生态模型发布

06:57

Sundar Pichai@sundarpichai

Google开源模型Gemma 4发布仅一周下载量已突破1000万次，Gemma系列模型历史累计下载量更超过5亿次。这一数据反映出开发者社区对最新开源模型的热烈反响。官方对此表示欣喜，并期待看到用户基于Gemma 4开发的各类创新应用和创作成果。

Google 开源生态模型发布

06:36

karminski-牙医@karminski3

Meta发布Muse Spark：高效多模态但非旗舰

Muse Spark是Meta继Llama 4后推出的原生多模态推理模型，支持文本与图像输入。该模型在图像理解、医疗健康及代理搜索任务上达到SOTA水平，但Agent与多任务编排等主打功能评分未达顶尖。官方强调其计算效率较Llama 4 Maverick提升一个数量级，并透露更大模型正在开发中。技术路线采用"多小模型并行推理"策略，以低延迟换取性能，而非依赖单一大模型的长时间思考。

智能体 Meta 多模态模型发布

00:19

Yuchen Jin@Yuchenj_UW

Meta TBD 实验室发布 Avocado（内部代号 Muse Spark），未开源。团队仅用 9 个月重建预训练技术栈，以不到 Llama 4 Maverick 十分之一的算力达到相近能力。作者认为，基础设施才是 AI 实验室的真正护城河，决定模型训练速度和实验迭代效率。

Meta 数据/训练模型发布

4月8日

14:06

蚂蚁 inclusionAI：HuggingFace 新模型

34

inclusionAI/TC-AE

inclusionAI团队发布了TC-AE项目，旨在通过开源与开放科学推动人工智能技术的进步与民主化。该项目致力于降低AI技术的使用门槛，促进更广泛的社区参与和创新。核心变化在于构建了一个可访问的AI开发框架，强调协作与知识共享。此举预期将加速AI工具在多元领域的应用，并推动技术发展的透明性与包容性。

开源/仓库模型发布

13:14

Artificial Analysis@ArtificialAnlys

韩国Upstage发布Solar Pro 3：韩实验室第二强模型

韩国AI实验室Upstage发布Solar Pro 3，AI Index得分26，为韩国实验室第二强模型。采用MoE架构（102B总参数/12B激活参数），支持128k上下文。核心优势在于agentic工具调用与指令遵循，IFBench得分71%与GLM-5、Kimi K2.5相当，τ²-Bench Telecom达86%。但token消耗较高（约100M），可靠性不足（AA-Omniscience得分-54），准确性18%优于其他韩国模型。可通过Upstage API访问。

智能体推理模型发布

10:41

公众号：智谱（GLM）

精选62

GLM-5.1开源：一个独立工作8小时的模型

智谱推出开源模型GLM-5.1，支持独立工作长达8小时。模型可直接部署使用，无需人工频繁干预，适用于长周期自动化任务场景。

智能体开源生态模型发布

关联讨论 2 条公众号：智谱（GLM）IT之家（RSS）

推荐理由：智谱把 GLM-5.1 开源，并且主打 8 小时独立工作，这个定位切中了 agent 场景下长任务执行的痛点，想做自动化流程的可以跑起来试试。

02:14

Dario Amodei@DarioAmodei

Anthropic 发起 Project Glasswing 安全倡议，联合多家全球领先企业应对日益先进的 AI 系统带来的网络威胁。该计划基于最新前沿模型 Claude Mythos Preview，其发现软件漏洞的能力仅次于最顶尖的人类专家，旨在保护全球关键软件安全。

Anthropic: Introducing Project Glasswing: an urgent initiative to help secure the world's most critical software. It's powered by o...

Anthropic 安全/对齐模型发布

4月7日

19:32

公众号：蚂蚁百灵（Ling）

52

Ming-flash-omni：从看图到发文，打通全模态创作闭环

Ming-flash-omni 模型具备全模态创作能力，能够同时完成照片中路人干扰的识别、自动修图、修图效果自评，并最终生成一段社交媒体推文，实现从视觉理解到内容发布的完整闭环。

多模态模型发布

4月4日

01:07

François Chollet@fchollet

来自 Sachin 的会议首个更新：Gemma 4 现已在 KerasHub 上线！目前推理和智能体工作流的最佳开源模型。

François Chollet: The Keras team is doing a community call today at 10am PT. That's in 25 min. The call is open to all -- join to learn ab...

智能体 Google 推理模型发布

00:57

Nathan Lambert：Interconnects（RSS）

精选

Gemma 4 与开放模型成功之道

Gemma 4 的发布揭示了开放模型成功的真正标准。文章指出，决定模型成败的关键并非基准测试分数（benchmark scores），而是其他因素。当前 AI 领域过度关注 leaderboard 排名，但高分数不等于实际应用价值与社区采用率。真正的成功取决于模型解决真实场景需求的能力、开发者友好度以及生态建设，而非单纯的技术指标领先。这一观点挑战了以 benchmark 为导向的行业评估范式。

Google 大佬观点开源生态模型发布

关联讨论 1 条X：Francois Chollet (@fchollet)

推荐理由：开源模型成败不只看榜单分数，Hugging Face 大佬揭秘真实胜负手

4月3日

22:01

Demis Hassabis@demishassabis

精选

Gemma 4 在基准测试中性能超越体量 10 倍以上的大模型，图表 x 轴为对数坐标，凸显其极高的参数效率。

DeepMind Google 开源生态模型发布

推荐理由：Google 开源小模型 Gemma 4 发布，性能超越 10 倍体量级大模型

17:18

karminski-牙医@karminski3

Qwen3.6-Plus实测：多模态编程与设计还原能力评测

Qwen3.6-Plus 实测显示其多模态编程能力突出。该模型支持图像输入并生成对应代码，测试中通过 three.js 成功还原手表与分体键盘的3D建模，并能依据 UI Kit 参考图生成界面组件。验证了其空间理解、建模能力及前端代码生成水平，展现了从设计图到代码的直接转换能力。

多模态模型发布编码

11:57

Artificial Analysis@ArtificialAnlys

印度发布首批从头预训练开源大模型Sarvam 105B与30B

Sarvam AI发布印度首批从头预训练的开源权重模型Sarvam 105B与30B，采用MoE架构并在本土训练。两款模型在Intelligence Index分别得分18和12，支持推理与非推理双模式。105B在Agentic任务表现优于部分同类模型，但TerminalBench Hard编码测试成绩落后且幻觉率较高。模型采用Apache 2.0协议开源，上下文窗口128K/65K tokens，目前通过API免费提供服务。

开源生态推理模型发布

08:29

Artificial Analysis@ArtificialAnlys

56

微软发布MAI-Transcribe-1语音转录模型，准确率达3.0%

微软AI超级智能团队发布了MAI-Transcribe-1语音转录模型。该模型在Artificial Analysis语音转文本排行榜的AA-WER指标上达到3.0%的词错误率，位列第四，仅次于Mistral Voxtral Small、Google Gemini 3.1 Pro High和ElevenLabs Scribe v2。其处理速度约为实时音频的69倍，属于高速高精度模型。模型支持包括英语、法语、阿拉伯语、日语和中文在内的25种语言，其API目前已在Microsoft Foundry的Azure Speech服务上提供公开预览。

Microsoft 模型发布语音

01:09

Artificial Analysis@ArtificialAnlys

精选

Google发布Gemma 4多模态开源模型系列

Google DeepMind推出Gemma 4系列四款多模态开源模型，支持文本、图像及视频输入。31B（密集架构）与26B A4B（MoE架构）拥有256k上下文窗口，可在单张H100运行；另两款较小模型支持128k上下文。GPQA Diamond测试中，Gemma 4 31B（Reasoning）获85.7%，仅次于Qwen3.5 27B，但输出token仅约1.2M，效率更优；26B A4B（Reasoning）得分79.2%，超越gpt-oss-120B。

DeepMind Google 多模态开源生态

关联讨论 2 条X：Artificial Analysis (@ArtificialAnlys)X：Jeff Dean (@JeffDean)

推荐理由：Google发布多模态开源模型Gemma 4，单卡H100可跑且科学推理能力突出

00:13

Sundar Pichai@sundarpichai

精选

Gemma 4 开源模型发布，提供 31B dense、26B MoE 及有效 2B/4B 四种尺寸，分别针对性能、低延迟和边缘设备优化。Google DeepMind 称其为同尺寸最佳开源模型，强调单位参数量智能密度极高。

Demis Hassabis: Excited to launch Gemma 4: the best open models in the world for their respective sizes. Available in 4 sizes that can b...

Google 开源生态模型发布端侧

推荐理由：Google发布Gemma 4开源模型，4种尺寸覆盖从云端到端侧全场景

00:08

Demis Hassabis@demishassabis

精选

Gemma 4 开源模型发布，提供 4 种尺寸：31B dense 版追求极致性能，26B MoE 版实现低延迟，2B 与 4B 版适配边缘设备，均可针对特定任务微调。

DeepMind Google 开源生态模型发布

推荐理由：Google 发布 Gemma 4 开源模型，覆盖 2B 至 31B 多尺寸，支持端侧与 MoE 架构

00:03

Google DeepMind@GoogleDeepMind

精选

Google 发布 Gemma 4 开源模型系列，采用 Apache 2.0 许可证，支持在本地硬件运行，专为高级推理和 agentic 工作流设计。

智能体 DeepMind Google 推理

推荐理由：Google 开源 Gemma 4 模型，支持本地硬件运行并强化 Agent 与推理能力

4月2日

22:29

Satya Nadella@satyanadella

精选

MAI 模型家族正式登陆 Foundry 平台，推出三款新模型：MAI-Transcribe-1（支持25种语言的最准确转录模型）、MAI-Voice-1（自然语音生成）和 MAI-Image-2（最强图像生成模型）。开发者现可通过该平台直接调用。

Microsoft 多模态模型发布语音

推荐理由：Microsoft CEO 亲自发布 MAI 系列三大新模型，覆盖语音转录、合成与图像生成

19:58

公众号：龙猫LongCat（美团）

37

LongCat-Flash-Prover：AI 攻克数学定理证明，不仅要"算得对"，更要"证得严"

推理模型发布

19:58

公众号：龙猫LongCat（美团）

53

美团发布原生多模态 LongCat-Next：当视觉和语音成为AI的母语

美团发布原生多模态模型 LongCat-Next，将视觉与语音作为模型的固有输入输出模态，而非传统语言模型的外部插件。该模型旨在构建能够直接感知、理解并作用于真实世界的 AI 系统，强调多模态能力在底层架构中的原生融合，而非后期拼接。

多模态模型发布

13:46

公众号：阶跃星辰（Step）

42

阶跃 Step 3.5 Flash 系列上新，Step Plan 用户现可体验

阶跃星辰发布 Step 3.5 Flash 系列，主打更快、更好用、更加 Agent-native，面向所有 Step Plan 用户开放体验。

智能体模型发布

13:03

karminski-牙医@karminski3

智谱GLM-5V-Turbo实测：多模态补强但代码生成偏弱

智谱发布多模态模型 GLM-5V-Turbo，弥补 GLM-5.1 缺乏视觉输入的短板。实测显示其文本识别准确率保持水准，但前端代码生成能力一般。在网页克隆测试中，面对 JavaScript 背景定位、透明文本、SVG 分割及复杂 DIV 布局等场景，模型将设计图转换为精确代码的表现仍有提升空间。

多模态模型发布编码

12:32

公众号：通义实验室（千问）

54

Qwen3.6-Plus：编码智能体能力全面跃升！

智能体模型发布编码

08:05

公众号：智谱（GLM）

45

智谱发布GLM-5V-Turbo多模态Coding基座模型

智谱今日发布GLM-5V-Turbo，这是一款多模态Coding基座模型，专注于编程场景下的多模态任务处理。

多模态模型发布

08:00

Google Developers Blog（RSS）

精选81

通过 Gemma 4 将先进的智能体能力引入边缘

Google DeepMind 发布了 Gemma 4 系列开源模型，旨在直接在设备端实现多步骤规划和自主智能体工作流。该版本包含用于实验“智能体技能”的 Google AI Edge Gallery，以及为开发者提供显著速度提升和结构化输出的 LiteRT-LM 库。Gemma 4 采用 Apache 2.0 许可，支持超过 140 种语言，并兼容移动设备、台式机及树莓派等多种物联网硬件平台。

智能体 Google 模型发布端侧

推荐理由：开源 agentic 模型支持端侧运行，开发者可快速构建本地智能应用。

08:00

Hugging Face：Blog（RSS）

精选88

Welcome Gemma 4：设备端的 Frontier 多模态智能

Google 正式发布了 Gemma 4，这是一款前沿的多模态人工智能模型，其核心特点是能够在设备端本地运行。该模型通过开源方式发布，旨在推动人工智能技术的进步与民主化。Gemma 4 的“在设备端”能力意味着数据处理可在本地完成，无需持续连接云端，这有望提升响应速度、增强隐私保护并实现离线使用。此举是 Google 通过开源和开放科学来普及人工智能的持续努力的一部分。

Google 多模态模型发布端侧

推荐理由：前沿多模态模型开源，设备端可运行，降低AI部署门槛。

04:00

Qwen：Blog Retrieval（API）

Qwen3.6-Plus：迈向真实世界 Agent

Qwen3.6-Plus 定位真实世界 Agent 应用，Qwen Studio 平台集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能，覆盖多模态任务与复杂场景需求。

智能体多模态模型发布

00:00

智谱：研究（网页内嵌数据）

精选

GLM-5V-Turbo发布：多模态Coding基座模型

智谱发布GLM-5V-Turbo多模态Coding基座模型，原生支持图像、视频、设计稿理解及画框、截图、读网页等工具调用，上下文窗口达200k。采用新一代CogViT视觉编码器与30+任务协同强化学习，在保持纯文本编程能力的同时强化GUI Agent能力。与Claude Code、AutoClaw等框架深度协同，支持"图像即代码"前端复刻及GUI自主探索，提供开箱即用的官方Skills。

智能体多模态模型发布编码

推荐理由：智谱发布多模态Coding基座GLM-5V-Turbo，深度适配Claude Code等Agent

4月1日

18:17

karminski-牙医@karminski3

阿里 WAN-2.7-Image 发布：图像生成与修图能力升级

阿里发布 WAN-2.7-Image 图像生成与修图大模型，重点优化了人物生成美观度与文本渲染精准度。该模型支持文生图及图像编辑功能，博主对其文本到图像生成能力进行了初步测试。作为阿里万相系列最新版本，WAN-2.7-Image 在视觉质量和语义理解方面展现出改进，为创作者提供更精准的图像生成工具。

图像生成模型发布

15:13

Hugging Face：Blog（RSS）

精选70

Falcon Perception

Technology Innovation Institute 在 Hugging Face 平台发布了一篇博客文章，介绍了其 Falcon Perception 系统。该系统是一种先进的感知技术方案，专注于提升机器对复杂环境的理解与交互能力。文章阐述了其核心架构的更新，包括多模态数据融合机制的优化，以及实时处理效率的显著提升。关键性能指标显示，其在标准基准测试中的准确率与响应速度均有突破。

Hugging Face 开源生态模型发布

推荐理由：Falcon 系列新成员，开源多模态模型阵营再添一员，开发者可关注选型

1…34 353637 38…43