3月31日

23:10

Hugging Face：Blog（RSS）

精选70

IBM Granite团队发布了Granite 4.0 3B Vision模型，这是一个专为企业文档处理设计的紧凑型多模态大语言模型。该模型参数为30亿，具备视觉理解能力，能够同时处理文本和图像信息，特别针对报告、表格、图表等企业文档进行优化。其紧凑尺寸旨在降低部署和运行成本，使企业能够在资源受限的环境中高效实现文档智能分析、信息提取和知识管理。模型已在Hugging Face平台发布。

多模态模型发布端侧

推荐理由：IBM 推出轻量级多模态模型，企业文档场景可直接落地部署

16:37

Artificial Analysis@ArtificialAnlys

精选

KwaiKAT发布KAT-Coder-Pro V2：非推理代码模型性能比肩Claude Sonnet 4.6

KwaiKAT发布非推理代码模型KAT-Coder-Pro V2，在Artificial Analysis Intelligence Index获44分，较V1提升8分，与Claude Sonnet 4.6持平。该模型token效率显著，运行仅需约9M输出token，远低于Claude系列及DeepSeek等推理模型。Agent能力大幅提升，Terminal-Bench Hard得分49%（提升40个百分点），匹配Claude Opus 4.6。成本降至73美元，响应速度达109 token/秒。但在长上下文推理和知识回忆方面较V1有所退步。

智能体模型发布编码

推荐理由：快手发布 KAT-Coder-Pro V2，非推理架构实现 44 分智能指数，Agent 能力跃升 40 个百分点，成本仅为 Claude Sonnet 的 5%。

00:00

Meta Engineering Blog（RSS）

精选71

AI助力美国产水泥与混凝土

Meta发布了名为贝叶斯优化的新AI模型，用于设计混凝土配比。该模型旨在帮助建筑行业生产更高质量、更可持续的混凝土混合物，并特别聚焦于美国本土生产的产品。此次发布与2026年美国混凝土学会春季大会同步进行，是Meta长期路线图的一部分，旨在推动建筑业利用人工智能优化材料性能与环保指标。

Meta 模型发布部署/工程

推荐理由：Meta 将 AI 应用于传统建筑行业，展示垂直领域落地案例，启发其他行业探索 AI 应用。

3月30日

21:08

公众号：通义实验室（千问）

215项SOTA + 自然涌现Vibe Coding！Qwen3.5-Omni发布

Qwen3.5-Omni发布，在215项基准上达到SOTA，并自然涌现出Vibe Coding能力，成为原生全模态新标杆。

多模态模型发布

11:25

美团 LongCat：HuggingFace 新模型

精选

LongCat-AudioDiT-1B：高保真波形潜空间扩散式文本转语音模型

美团 LongCat 团队开源的扩散式 TTS 模型摒弃传统的 mel-spectrogram 中间表示，直接在波形潜空间操作，仅通过 Wav-VAE 与扩散骨干网络即可合成语音。该模型修复了训练-推理不匹配问题，并以自适应投影引导替代无分类器引导。最大版本 3.5B 在 Seed 基准实现 SOTA 零样本语音克隆，说话人相似度（SIM）在 Seed-ZH 达 0.818、Seed-Hard 达 0.797，超越此前最优的 Seed-TTS。研究还发现 Wav-VAE 的重建保真度与最终合成质量并非正相关。

开源生态模型发布语音

关联讨论 1 条

推荐理由：美团开源 1B 语音克隆模型，Seed 基准超 Seed-TTS，零样本推理可用

08:47

karminski-牙医@karminski3

GLM-5.1登顶全球SOTA，向量数据库测试刷新纪录

GLM-5.1在vector-db-bench向量数据库基准测试中登顶第一，实现从国产SOTA到全球SOTA的关键跨越。测试数据显示其性能已超越国际主流模型，展现强劲竞争力。相比之下，GPT-5.4-Pro(xhigh)单次测试成本高达150美元，价格劣势显著。作者将发布详细评测视频进一步解析GLM-5.1的技术表现与性价比优势。

检索增强模型发布

04:00

Qwen：Blog Retrieval（API）

精选

Qwen3.5-Omni：全面扩展，迈向原生全模态 AGI

Qwen Studio 发布，集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具使用及 Artifacts 功能，提供全模态 AI 一站式解决方案。

智能体多模态模型发布

关联讨论 1 条

推荐理由：阿里发布Qwen3.5-Omni多模态模型，迈向原生全模态AGI

3月27日

21:12

公众号：昆仑万维（天工）

昆仑万维携AIGC全家桶亮相2026中关村论坛，三大世界第一梯队模型发布

昆仑万维在2026中关村论坛发布AIGC全家桶，其中包括三款达到世界第一梯队的模型。

多模态模型发布

19:21

公众号：智谱（GLM）

GLM-5.1已面向所有Coding Plan用户开放

智谱GLM-5.1已面向所有Coding Plan用户开放。

模型发布编码

02:53

Demis Hassabis@demishassabis

精选

Google 发布 Gemini 3.1 Flash Live，称其迄今最高质量音频模型，具备更低延迟、更高精度和更自然的对话体验，改进了函数调用能力。现已在 Gemini App 和 Google AI Studio 上线。

Google DeepMind: Say hello to Gemini 3.1 Flash Live. 🗣️ Our latest audio model delivers more natural conversations with improved functio...

智能体 Google 模型发布语音

推荐理由：Google发布Gemini 3.1 Flash Live，支持低延迟语音交互与Agent构建

3月26日

23:31

Google DeepMind@GoogleDeepMind

精选

Gemini 3.1 Flash Live 音频模型发布，支持更自然的实时对话，函数调用能力改进，使 AI 助手更实用、信息获取更充分。

Google MCP/工具模型发布语音

推荐理由：Google发布Gemini 3.1 Flash Live音频模型，支持更自然对话与函数调用

23:28

Sundar Pichai@sundarpichai

精选

Gemini 3.1 Flash Live 发布，为 Google 迄今最高质量音频语音模型，精度和推理能力显著提升，交互更自然直观。现已在 Google AI Studio 通过 Gemini Live API 预览版上线。

Google 模型发布语音

推荐理由：Google 发布 Gemini 3.1 Flash Live 语音模型，实时 API 已开放试用

23:21

Google Blog：AI（RSS）

精选

Gemini 3.1 Flash Live：让音频 AI 更自然、更可靠

Gemini 3.1 Flash Live 已上线 Google 全系产品，提供更自然、可靠的实时音频 AI 交互能力。

Google 模型发布语音

关联讨论 1 条

推荐理由：Google发布Gemini 3.1 Flash Live，提升音频AI自然度与可靠性

13:46

Artificial Analysis@ArtificialAnlys

精选

OpenAI发布GPT-5.4 mini与nano轻量模型

OpenAI发布GPT-5.4 mini与nano轻量模型，保留多档推理能力与400K上下文窗口，价格降至$0.20/$1.25每百万token。基准测试显示，GPT-5.4 nano在τ²-Bench等多项测试中领先Claude Haiku 4.5与Gemini 3.1 Flash-Lite Preview，但幻觉率较高且token消耗量大。得益于极低单价，nano在Intelligence Index测试中的有效成本反而低于竞品，展现出优秀的性价比优势。

智能体 OpenAI 推理模型发布

推荐理由：OpenAI 发布 GPT-5.4 mini/nano，性价比突出且评测数据详实，nano 性能超越同级竞品。

00:00

Google Blog：AI（RSS）

精选

基于 Lyria 3 构建：全新音乐生成模型开放预览

Lyria 3 音乐生成模型现已开放付费预览，开发者可通过 Gemini API 调用，或在 Google AI Studio 免费测试。

Google 多模态模型发布

推荐理由：Google 发布音乐生成模型 Lyria 3，现可通过 Gemini API 和 AI Studio 体验

3月25日