4月2日

04:00

Qwen：Blog Retrieval（API）

Qwen3.6-Plus：迈向真实世界 Agent

Qwen3.6-Plus 定位真实世界 Agent 应用，Qwen Studio 平台集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具调用及 Artifacts 等全栈功能，覆盖多模态任务与复杂场景需求。

智能体多模态模型发布

00:00

智谱：研究（网页内嵌数据）

精选

GLM-5V-Turbo发布：多模态Coding基座模型

智谱发布GLM-5V-Turbo多模态Coding基座模型，原生支持图像、视频、设计稿理解及画框、截图、读网页等工具调用，上下文窗口达200k。采用新一代CogViT视觉编码器与30+任务协同强化学习，在保持纯文本编程能力的同时强化GUI Agent能力。与Claude Code、AutoClaw等框架深度协同，支持"图像即代码"前端复刻及GUI自主探索，提供开箱即用的官方Skills。

智能体多模态模型发布编码

推荐理由：智谱发布多模态Coding基座GLM-5V-Turbo，深度适配Claude Code等Agent

4月1日

15:13

Hugging Face：Blog（RSS）

精选70

Falcon Perception

Technology Innovation Institute 在 Hugging Face 平台发布了一篇博客文章，介绍了其 Falcon Perception 系统。该系统是一种先进的感知技术方案，专注于提升机器对复杂环境的理解与交互能力。文章阐述了其核心架构的更新，包括多模态数据融合机制的优化，以及实时处理效率的显著提升。关键性能指标显示，其在标准基准测试中的准确率与响应速度均有突破。

Hugging Face 开源生态模型发布

推荐理由：Falcon 系列新成员，开源多模态模型阵营再添一员，开发者可关注选型

14:57

公众号：通义实验室（千问）

Wan2.7-Image：人更真，字更稳，色更准

图像生成模型发布

00:00

Google Blog：AI（RSS）

使用 Veo 3.1 Lite 构建：我们成本效益最高的视频生成模型

Veo 3.1 Lite 现已开放付费预览，作为 Google 成本效益最高的视频生成模型，支持通过 Gemini API 调用及 Google AI Studio 测试。

Google 模型发布视频

3月31日

23:10

Hugging Face：Blog（RSS）

精选70

Granite 4.0 3B Vision：面向企业文档的紧凑型多模态智能

IBM Granite团队发布了Granite 4.0 3B Vision模型，这是一个专为企业文档处理设计的紧凑型多模态大语言模型。该模型参数为30亿，具备视觉理解能力，能够同时处理文本和图像信息，特别针对报告、表格、图表等企业文档进行优化。其紧凑尺寸旨在降低部署和运行成本，使企业能够在资源受限的环境中高效实现文档智能分析、信息提取和知识管理。模型已在Hugging Face平台发布。

多模态模型发布端侧

推荐理由：IBM 推出轻量级多模态模型，企业文档场景可直接落地部署

00:00

Meta Engineering Blog（RSS）

精选71

AI助力美国产水泥与混凝土

Meta发布了名为贝叶斯优化的新AI模型，用于设计混凝土配比。该模型旨在帮助建筑行业生产更高质量、更可持续的混凝土混合物，并特别聚焦于美国本土生产的产品。此次发布与2026年美国混凝土学会春季大会同步进行，是Meta长期路线图的一部分，旨在推动建筑业利用人工智能优化材料性能与环保指标。

Meta 模型发布部署/工程

推荐理由：Meta 将 AI 应用于传统建筑行业，展示垂直领域落地案例，启发其他行业探索 AI 应用。

3月30日

21:08

公众号：通义实验室（千问）

215项SOTA + 自然涌现Vibe Coding！Qwen3.5-Omni发布

Qwen3.5-Omni发布，在215项基准上达到SOTA，并自然涌现出Vibe Coding能力，成为原生全模态新标杆。

多模态模型发布

11:25

美团 LongCat：HuggingFace 新模型

精选

LongCat-AudioDiT-1B：高保真波形潜空间扩散式文本转语音模型

美团 LongCat 团队开源的扩散式 TTS 模型摒弃传统的 mel-spectrogram 中间表示，直接在波形潜空间操作，仅通过 Wav-VAE 与扩散骨干网络即可合成语音。该模型修复了训练-推理不匹配问题，并以自适应投影引导替代无分类器引导。最大版本 3.5B 在 Seed 基准实现 SOTA 零样本语音克隆，说话人相似度（SIM）在 Seed-ZH 达 0.818、Seed-Hard 达 0.797，超越此前最优的 Seed-TTS。研究还发现 Wav-VAE 的重建保真度与最终合成质量并非正相关。

开源生态模型发布语音

关联讨论 1 条

推荐理由：美团开源 1B 语音克隆模型，Seed 基准超 Seed-TTS，零样本推理可用

04:00

Qwen：Blog Retrieval（API）

精选

Qwen3.5-Omni：全面扩展，迈向原生全模态 AGI

Qwen Studio 发布，集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具使用及 Artifacts 功能，提供全模态 AI 一站式解决方案。

智能体多模态模型发布

关联讨论 1 条

推荐理由：阿里发布Qwen3.5-Omni多模态模型，迈向原生全模态AGI

3月27日

21:12

公众号：昆仑万维（天工）

昆仑万维携AIGC全家桶亮相2026中关村论坛，三大世界第一梯队模型发布

昆仑万维在2026中关村论坛发布AIGC全家桶，其中包括三款达到世界第一梯队的模型。

多模态模型发布

19:21

公众号：智谱（GLM）

GLM-5.1已面向所有Coding Plan用户开放

智谱GLM-5.1已面向所有Coding Plan用户开放。

模型发布编码

3月26日

23:21

Google Blog：AI（RSS）

精选

Gemini 3.1 Flash Live：让音频 AI 更自然、更可靠

Gemini 3.1 Flash Live 已上线 Google 全系产品，提供更自然、可靠的实时音频 AI 交互能力。

Google 模型发布语音

关联讨论 1 条

推荐理由：Google发布Gemini 3.1 Flash Live，提升音频AI自然度与可靠性

00:00

Google Blog：AI（RSS）

精选

基于 Lyria 3 构建：全新音乐生成模型开放预览

Lyria 3 音乐生成模型现已开放付费预览，开发者可通过 Gemini API 调用，或在 Google AI Studio 免费测试。

Google 多模态模型发布

推荐理由：Google 发布音乐生成模型 Lyria 3，现可通过 Gemini API 和 AI Studio 体验

3月25日