全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 588 条

全部一手资讯 X 论文

5月27日周三

14:14IT之家（RSS）629.4 秒生成 512×512 图像，Bonsai Image 4B 生图 AI 登陆苹果 iPhone 17 Pro Max

14:14IT之家（RSS）63微软最强生图 AI 模型 MAI-Image-2.5 冲上 Arena 第三：更强文字生成

06:37MarkTechPost（RSS）61Stability AI 发布 Stable Audio 3：用于音频生成与编辑的快速潜在扩散模型家族

5月26日周二

14:11IT之家（RSS）76精选面壁智能开源 MiniCPM5-1B：在 AA-Index 上超越所有 2B 参数以下模型，能跑在手机、浏览器上

13:11IT之家（RSS）77同事件精选谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题同一事件，精选展示《AlphaProof Nexus：用形式化验证驱动AI数学证明搜索》

13:11IT之家（RSS）67昆仑万维天工 AI 发布 SkyClaw-v1.0：面向真实工作流的百万上下文 Agent 模型

11:35公众号：面壁智能（MiniCPM）59面壁智能联合清华大学、OpenBMB发布端侧文本基座模型MiniCPM5-1B

11:30公众号：昆仑万维（天工）53天工AI发布SkyClaw-v1.0：面向真实工作流的百万上下文Agent模型

09:11IT之家（RSS）59Anthropic 或公开最强模型 Mythos，曾短暂现身多款产品

5月25日周一

18:49蚂蚁 inclusionAI：HuggingFace 新模型71同事件精选<中文标题>SingGuard：策略自适应多模态护栏模型族开源</中文标题>同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

18:48蚂蚁 inclusionAI：HuggingFace 新模型69同事件精选蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

18:48蚂蚁 inclusionAI：HuggingFace 新模型68同事件精选inclusionAI 发布 Sing-Guard-2b：策略自适应多模态大模型安全护栏同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

15:25蚂蚁 inclusionAI：GitHub 新仓库67精选蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard

15:11IT之家（RSS）52马斯克宣布 Grok V9-Medium 1.5T 模型完成训练：加入大量 Cursor 数据，两到三周内发布

12:11IT之家（RSS）72同事件精选面壁智能联合清华等开源中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN同一事件，精选展示《首个基于华为昇腾910B NPU全栈训练的1.58比特开源大模型BitCPM-CANN发布》

11:35公众号：面壁智能（MiniCPM）59面壁智能联合清华开源中国首个基于昇腾训练的1.58-bit端侧大模型 BitCPM-CANN

07:06MarkTechPost（RSS）61阶跃星辰发布StepAudio 2.5 Realtime：一款具有角色扮演RLHF和副语言理解的端到端语音模型

5月24日周日

16:06MarkTechPost（RSS）56NVIDIA发布Gated DeltaNet-2：解耦Delta规则中擦除与写入的线性注意力层

5月23日周六

18:27The Decoder：AI News（RSS）65阿里巴巴最新AI模型自主运行35小时为自研芯片优化代码

15:09IT之家（RSS）56让机器人拥有"肌肉记忆"，智元推出新一代二阶段 BFM-2 基座模型

11:09IT之家（RSS）65微软推出 Fara1.5 系列浏览器 AI 智能体模型，72% 任务成功率超 OpenAI Operator

08:16Hugging Face：Blog（RSS）63精选NVIDIA 发布 Nemotron-Labs Diffusion 系列模型，支持三种生成模式

5月22日周五

20:09IT之家（RSS）75阿里千问 App、PC 端及网页端接入全新一代大模型 Qwen3.7-Max

18:09IT之家（RSS）70精选网易有道"子曰4"多模态模型、语音合成模型全量开源

16:35MarkTechPost（RSS）66微软发布Fara1.5浏览器操作智能体系列：性能超越OpenAI Operator与Gemini 2.5

15:09IT之家（RSS）70美团开源 LongCat-Video-Avatar 1.5：数字人视频从"彩排"走向"真舞台"，生成 10 秒视频仅需 1 分钟

14:09IT之家（RSS）62"拼好模"：字节跳动开源轻量原生统一多模态 AI 模型 Lance

14:02公众号：龙猫LongCat（美团）54从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

10:09IT之家（RSS）73同事件精选智谱GLM-5.1高速版发布：刷新全球大模型API速度纪录同一事件，精选展示《GLM-5.1开源：一个独立工作8小时的模型》

09:41公众号：智谱（GLM）63同事件精选智谱推出GLM-5.1高速版同一事件，精选展示《GLM-5.1开源：一个独立工作8小时的模型》

06:35MarkTechPost（RSS）59Qwen推出Qwen3.7-Max：配备100万token上下文窗口的推理智能体模型

06:05MarkTechPost（RSS）62Cohere发布Command A+：适用于智能体工作流的218B稀疏MoE模型，最少需两块H100 GPU运行

00:07美团 LongCat：HuggingFace 新模型73精选LongCat-Video-Avatar-1.5：升级版音频驱动数字人视频生成框架

00:00Mistral AI：News（网页）69Vibe中的远程智能体，由Mistral Medium 3.5驱动。介绍Mistral Medium 3.5、Vibe中的远程编程智能体，以及Le Chat中用于复杂任务的新Work模式。2026年5月22日，Mistral AI

5月21日周四

23:26The Decoder：AI News（RSS）66Cohere开源迄今最强模型

18:06IT之家（RSS）70腾讯混元发布新一代翻译模型Hy-MT2，支持手机端本地部署

16:43公众号：腾讯混元58腾讯混元全新翻译模型Hy-MT2开源，小程序「腾讯Hy翻译」开放体验

15:27MarkTechPost（RSS）63一个模型，三种模态：字节跳动发布 Lance 用于图像与视频的理解、生成和编辑

5月20日周三

23:56IT之家（RSS）71精选Stability AI 推出音频模型 Stability Audio 3.0，可生成最长 6 分钟专业级歌曲

23:03The Decoder：AI News（RSS）61Stability AI 发布 Stable Audio 3.0，支持长达六分钟音轨并开放权重

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月27日

14:14

IT之家（RSS）

62

9.4 秒生成 512×512 图像，Bonsai Image 4B 生图 AI 登陆苹果 iPhone 17 Pro Max

图像生成模型发布端侧

14:14

IT之家（RSS）

63

微软最强生图 AI 模型 MAI-Image-2.5 冲上 Arena 第三：更强文字生成

Microsoft 图像生成多模态模型发布

06:37

MarkTechPost（RSS）

61

Stability AI 发布 Stable Audio 3：用于音频生成与编辑的快速潜在扩散模型家族

Stability AI 发布了 Stable Audio 3，这是一个用于器乐和音效生成的潜在扩散模型家族。此次发布包含 Small 和 Medium 两个开放权重变体。Small 变体可在 MacBook Pro M4 CPU 上运行，Medium 变体适配 8GB 显存的消费级显卡。两者均采用流匹配、蒸馏预热和对抗后训练的三阶段流水线，以生成 44.1 kHz 的立体声音频。在 BBC Sound Effects 基准测试（5秒片段）中，SA3 Medium 的 FAD 得分为 0.369，优于论文中评估的所有开放权重基线。

多模态模型发布语音

5月26日

14:11

IT之家（RSS）

精选76

面壁智能开源 MiniCPM5-1B：在 AA-Index 上超越所有 2B 参数以下模型，能跑在手机、浏览器上

面壁智能开源其新一代端侧大语言模型MiniCPM5-1B。该模型仅1B参数，在AA-Index榜单上超越所有2B参数以下模型，相比3个月前的Qwen3.5-2B效果更优且参数量减半。经INT4量化后权重仅0.5GB，支持在手机和浏览器上运行。其Base Model版本由面壁智能自主研发的AI训练框架ForgeTrain预训练完成，现已全面开源模型权重、训练数据集与部署方案。

开源生态模型发布端侧

推荐理由：1B参数干翻所有2B以下模型，量化后0.5GB就能塞进手机和浏览器，这个效率把端侧模型的门槛又压低了，做移动端AI的值得跟进。

13:11

IT之家（RSS）

同事件精选77

谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题

智能体 DeepMind 开源生态推理

同一事件，精选展示《AlphaProof Nexus：用形式化验证驱动AI数学证明搜索》

推荐理由：AlphaProof Nexus 不是刷榜，是真解了 Erdős 难题，56 年悬而未决的那两道——这说明 AI 开始从具身数学题爬向纯数学研究了，做理论的人该认真看一眼。

13:11

IT之家（RSS）

67

昆仑万维天工 AI 发布 SkyClaw-v1.0：面向真实工作流的百万上下文 Agent 模型

昆仑万维天工AI近日正式推出高性能智能体模型SkyClaw-v1.0及其轻量化版本SkyClaw-v1.0-lite。该模型支持百万token上下文，深度适配真实智能体工作场景，重点优化了复杂工具调用、多轮任务执行与代码生成等能力。在多项智能体基准测试中，其性能超越了MiniMax 2.7、DeepSeek V4 Flash等开源模型，并接近DeepSeek V4 Pro、Claude Opus 4.6等更大规模模型。该模型定价极具竞争力，已接入天工Skywork，并提供2至4周免费试用。

智能体模型发布编码

11:35

公众号：面壁智能（MiniCPM）

59

面壁智能联合清华大学、OpenBMB发布端侧文本基座模型MiniCPM5-1B

面壁智能联合清华大学、OpenBMB开源社区发布并开源MiniCPM5-1B，一款1B参数的端侧文本基座大模型。其在AA-Index榜单得分17.9分，超越所有2B以下参数模型，包括Qwen3.5-2B（16.3分），验证了智能密度约每3.5个月翻一番的密度定律。INT4量化后权重仅0.5GB，可运行于手机、浏览器等终端。Base Model由AI训练框架ForgeTrain（全球首个完全由AI编写，训练速度比Megatron快10%）在华为昇腾上预训练完成。模型全面开源权重、训练数据集Ultra-FineWeb-L3及部署方案，支持Llama_factory、SGLang、vLLM等主流框架。

Hugging Face 开源生态推理模型发布

11:30

公众号：昆仑万维（天工）

53

天工AI发布SkyClaw-v1.0：面向真实工作流的百万上下文Agent模型

天工AI今日推出SkyClaw-v1.0及轻量版SkyClaw-v1.0-lite，支持百万token上下文，深度适配复杂工具调用、多轮任务执行、代码生成与文件编辑等智能体场景。模型在主流Agent benchmark上全面超越Minimax 2.7、DeepSeek V4 Flash及Qwen 3.6，在OpenClaw任务上接近更大规模模型，定价低于Minimax 2.7与Qwen 3.6一半。训练采用大规模mid-train、合成轨迹SFT与端到端Agentic RL优化，适配OpenClaw、Hermes、Claude Code等主流Agent框架。模型已于5月22日接入天工Skywork，开放2至4周免费试用，并提供兼容OpenAI格式的免费API调用。

智能体模型发布编码

09:11

IT之家（RSS）

59

Anthropic 或公开最强模型 Mythos，曾短暂现身多款产品

据科技媒体报道，Anthropic 似乎准备公开上线其前沿模型 Claude Mythos 预览版。该模型名称“claude-mythos-1-preview”曾短暂出现在 Claude Code 和 Claude Security 的公开版本中。Claude Mythos 定位为面向计算机安全任务的模型，相比现有旗舰模型 Opus 4.7，在代码推理和自主执行方面有显著提升。但因其能力过强，Anthropic 担忧公开发布可能带来安全风险，目前尚未全面开放。同时，Anthropic 还在推进名为“Glasswing”的联合项目，旨在保护关键软件系统。

Anthropic 安全/对齐模型发布

5月25日

18:49

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选71

<中文标题>SingGuard：策略自适应多模态护栏模型族开源</中文标题>

<中文摘要>SingGuard 是一个策略自适应的多模态护栏模型族，包含 Sing-Guard-4b 和 Sing-Guard-8b 两个版本。它将安全策略作为运行时输入而非固定分类，部署团队可自定义自然语言规则而无需重训练模型。支持文本、图像、图文、多语言以及查询端与响应端的安全评估，提供快速和快慢结合两种推理模式。在涵盖多模态安全、纯图像安全、文本查询/响应安全、多语言查询/响应安全六大类基准上取得平均 SOTA 表现。模型已开源至 HuggingFace 和 ModelScope。</中文摘要>

Hugging Face 多模态安全/对齐模型发布

同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

推荐理由：蚂蚁的 SingGuard 把安全策略变成了运行时输入，意味着审核规则可以随时改而不必重训模型，这对做内容安全的产品人是真省事，值得跟进。

18:48

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选69

蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b

SingGuard 是蚂蚁 inclusionAI 推出的策略自适应多模态大语言模型安全护栏模型族（版本 Sing-Guard-8b），支持纯文本、纯图像、图文混合、多语言查询与回复的安全评估。其核心设计将安全策略作为运行时输入，部署团队可基于默认分类或自定义自然语言规则评估内容，无需重新训练模型。模型内置 fast-slow 动态推理流程：首 token 路由快速输出安全信号，需深度推理时继续生成更精确的最终判断。在涵盖多模态安全、纯图像安全、文本查询与回复安全、多语言查询与回复安全的六大基准测试上取得平均 SOTA 性能，并已开源至 HuggingFace 与 ModelScope。

Hugging Face 多模态安全/对齐开源/仓库

同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

推荐理由：蚂蚁集团开源的多模态内容审核模型，最大亮点是运行时动态注入安全策略而不需重训，对需要灵活定制审核规则的团队是低门槛的高分工程实现。

18:48

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选68

inclusionAI 发布 Sing-Guard-2b：策略自适应多模态大模型安全护栏

inclusionAI 开源了 Sing-Guard 模型家族，版本包括 Sing-Guard-2b 和 Sing-Guard-8b。该模型将安全策略作为运行时输入，支持文本、图像、图文及多语言场景的查询侧

Hugging Face 多模态安全/对齐模型发布

同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

推荐理由：SingGuard把安全策略变成运行时输入，不用再为新规则重新训练模型，这对需要频繁调整审核标准的团队来说是个实用的发布。

15:25

蚂蚁 inclusionAI：GitHub 新仓库

精选67

蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard

SingGuard 是蚂蚁 inclusionAI 开源的多模态安全护栏模型族，提供 2B、4B、8B 三个参数版本。它将安全策略作为运行时输入，支持文本、图像、图文、多语言及查询/回复侧的安全评估，无需重新训练即可适配不同规则。采用快慢动态推理机制，在低延迟场景下输出紧凑判断，对模糊或高风险内容进行策略引导的推理。在多模态安全、图像安全、文本查询与回复安全、多语言查询与回复安全等基准上达到 SOTA 平均性能。模型已上架 HuggingFace 和 ModelScope。

多模态安全/对齐模型发布

推荐理由：蚂蚁 inclusionAI 把安全护栏做成了“运行时可配置”的模型，换审核规则不用重训，对需要快速适配法规的团队是个真需求。不过生态刚起步，暂时还是小众工具。

15:11

IT之家（RSS）

52

马斯克宣布 Grok V9-Medium 1.5T 模型完成训练：加入大量 Cursor 数据，两到三周内发布

xAI 模型发布编码

12:11

IT之家（RSS）

同事件精选72

面壁智能联合清华等开源中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN

开源生态模型发布端侧

同一事件，精选展示《首个基于华为昇腾910B NPU全栈训练的1.58比特开源大模型BitCPM-CANN发布》

推荐理由：谁说国产算力只能跑小模型？面壁这个1.58-bit模型在昇腾上原生训练，直接把8B塞进旗舰手机，开源全套训练底座，做端侧的该看一眼。

11:35

公众号：面壁智能（MiniCPM）

59

面壁智能联合清华开源中国首个基于昇腾训练的1.58-bit端侧大模型 BitCPM-CANN

面壁智能联合清华大学正式开源中国首个基于昇腾训练的1.58-bit端侧大模型BitCPM-CANN，实现6倍显存效率提升，可将60B参数大模型封装进手机等端侧设备。

推理模型发布端侧

07:06

MarkTechPost（RSS）

61

阶跃星辰发布StepAudio 2.5 Realtime：一款具有角色扮演RLHF和副语言理解的端到端语音模型

阶跃星辰于2026年5月发布StepAudio 2.5 Realtime，这是一款支持完全可定制个性化角色的端到端实时语音大语言模型。该模型通过WebSocket API提供服务，支持中英文。在2026年4月进行的五个基准测试维度中均排名第一，具体包括80.41的人类评测得分和82.18的副语言理解得分。

模型发布语音

5月24日

16:06

MarkTechPost（RSS）

56

NVIDIA发布Gated DeltaNet-2：解耦Delta规则中擦除与写入的线性注意力层

NVIDIA推出了改进的线性注意力模型Gated DeltaNet-2。其核心创新在于将Delta规则中控制记忆擦除与写入的单一门控机制，解耦为两个独立的通道级门控。该模型参数规模为1.3B，在100B个FineWeb-Edu令牌数据上训练。实验表明，它在语言建模、常识推理和长上下文检索等任务中全面超越了Mamba-2、Gated DeltaNet、KDA及Mamba-3等现有模型，尤其在RULER S-NIAH和多关键针检索任务中取得了最显著的性能提升。

推理搜索模型发布

5月23日

18:27

The Decoder：AI News（RSS）

65

阿里巴巴最新AI模型自主运行35小时为自研芯片优化代码

阿里巴巴云千问团队发布Qwen3.7-Max，这是一款专为长时间自主智能体任务设计的闭源模型。该模型曾在单次会话中持续运行35小时，为阿里巴巴自研的专用芯片优化代码。在标准基准测试中，Qwen3.7-Max的表现与Claude Opus 4.6持平，并超越了国内竞品如DeepSeek V4 Pro和Kimi K2.6。此外，团队还现场演示了该模型指挥一个四足机器人执行任务的能力。

智能体模型发布编码

15:09

IT之家（RSS）

56

让机器人拥有"肌肉记忆"，智元推出新一代二阶段 BFM-2 基座模型

智元于5月23日发布新一代二阶段运动控制基座模型BFM-2，其核心特点是让机器人具备“肌肉记忆”。该模型使机器人能在静态、预设动作或随机输入等任意状态下，自主完成高稳定性的动作插值与动态任务闭环，为具身智能提供可靠的运动基础。演示视频显示，搭载该模型的机器人在被击倒后能快速自主站起并恢复平衡。

具身智能数据/训练模型发布

11:09

IT之家（RSS）

65

微软推出 Fara1.5 系列浏览器 AI 智能体模型，72% 任务成功率超 OpenAI Operator

微软研究院发布了 Fara1.5 系列浏览器 AI 智能体模型，包含 4B、9B 和 27B 三个版本。该模型专为浏览器操作设计，能读取截图并输出鼠标键盘指令。其 27B 版本在 Online-Mind2Web 基准测试中取得 72% 的任务成功率，显著超过 OpenAI Operator（58.3%）和 Gemini 2.5 Computer Use（57.3%）。模型基于约 200 万样本微调训练，并具备安全机制，在关键操作前会主动向用户确认。

智能体 Microsoft 模型发布

08:16

Hugging Face：Blog（RSS）

精选63

NVIDIA 发布 Nemotron-Labs Diffusion 系列模型，支持三种生成模式

NVIDIA 发布 Nemotron-Labs Diffusion 系列，含 3B、8B、14B 文本模型和 8B 视觉-语言模型（VLM），均采用商用友好的 NVIDIA Nemotron Open Model License 或 NVIDIA Source Code License。模型支持自回归、扩散（逐块并行生成后逐步精炼）和自推测（扩散草拟候选 token 再自回归验证）三种模式。8B 模型平均准确率比 Qwen3 8B 提升 1.2%，扩散模式每次前向传递的 token 数（TPF）达自回归的 2.6 倍，自推测达 6–6.4 倍。模型在 1.3T tokens 上预训练、45B tokens 上微调，代码与模型已发布于 HuggingFace 和 GitHub，推理将获 SGLang 支持。

多模态推理模型发布

推荐理由：自推测模式让文本生成速度飙到AR模型的4倍，而且输出质量无损。NVIDIA这次开源的不仅是个新模型，更是一套能直接用在现有流程里的加速方案。

5月22日

20:09

IT之家（RSS）

75

阿里千问 App、PC 端及网页端接入全新一代大模型 Qwen3.7-Max

5月22日，阿里千问App官方宣布，千问App、PC端及网页端接入全新一代大模型Qwen3.7-Max。用户需将千问App更新至6.9.7及以上版本，即可免费体验该模型。Qwen3.7-Max定位为全能的智能体基座，核心能力覆盖编程开发、办公流程自动化及超长周期任务执行。官方实测显示，在一项长达35小时、包含超过1000次工具调用的全自主内核优化实验中，该模型保持了连贯推理。此外，模型具备跨框架泛化能力，并即将通过阿里云百炼平台提供API调用服务。

智能体 MCP/工具模型发布

关联讨论 8 条公众号：通义实验室（千问）X：通义千问 / Qwen (@Alibaba_Qwen)X：阿里云 / Alibaba Cloud (@alibaba_cloud)X：X.PIN (@thexpin)X：Rohan Paul (@rohanpaul_ai)Qwen：Blog Retrieval（API）Hacker News 热门（buzzing.cc 中文翻译）X：OpenRouter (@OpenRouter)

18:09

IT之家（RSS）

精选70

网易有道"子曰4"多模态模型、语音合成模型全量开源

网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。其中，多模态模型（27B参数）专注于教育场景，在处理高难度视觉数理问题上达到行业顶尖水平，纯文本中文数理难题准确率为81.4%。该模型通过思维链优化，将输出长度压缩43.2%，有效降低了推理成本。同时开源的语音合成模型支持跨语种音色与情感迁移克隆，3秒内即可完成零样本复制，准确度超97%，并支持包括中、英、日、韩在内的14种语言。

多模态开源生态推理模型发布

推荐理由：有道把垂直教育的多模态模型全量开源，27B参数在视觉数理上做到SOTA，还把思维链压缩了43%，推理成本实打实下降，做教育应用的可以拿来做二次开发；TTS的跨语种情感克隆也实用，3秒克隆14种语言。

16:35

MarkTechPost（RSS）

66

微软发布Fara1.5浏览器操作智能体系列：性能超越OpenAI Operator与Gemini 2.5

微软研究院近日推出Fara1.5系列浏览器操作智能体，包含4B、9B和27B三种参数规模。其中最大模型Fara1.5-27B在Online-Mind2Web基准测试中达到72%的准确率，显著优于OpenAI Operator、Gemini 2.5 Computer Use等主流模型。此次发布同步推出FaraGen1.5合成数据流水线，可在受控环境中高效训练智能体，为自动化浏览器操作提供了新解决方案。

智能体 MCP/工具 Microsoft 模型发布

15:09

IT之家（RSS）

70

美团开源 LongCat-Video-Avatar 1.5：数字人视频从"彩排"走向"真舞台"，生成 10 秒视频仅需 1 分钟

美团技术团队开源了数字人视频生成模型 LongCat-Video-Avatar 1.5。该版本在唇形同步、物理合理性、长视频稳定性和多人互动方面全面升级，支持复杂语音输入与多种主体。通过 DMD 蒸馏技术，推理效率提升约 15 倍，生成 10 秒视频仅需约 1 分钟。在性能评测中，模型在四个关键维度表现领先，用户偏好对比中胜率均超 54%，旨在推动数字人视频从技术演示走向商业应用。

开源生态推理模型发布视频

14:09

IT之家（RSS）

62

"拼好模"：字节跳动开源轻量原生统一多模态 AI 模型 Lance

字节跳动开源了轻量级多模态模型Lance，其激活参数量为3B。该模型采用原生统一架构，在训练阶段即整合图像与视频的理解、生成及跨模态编辑功能。Lance通过双流专家设计和模态感知旋转位置编码等技术，平衡了理解任务所需的高层语义与生成任务所需的低层连续表示。模型训练共分四阶段，数据规模约1.9T标记，计算预算控制在128张GPU内。基准测试表明，Lance在图像生成、视频生成、图像编辑及视频理解等多项任务中表现突出。该模型权重已依据Apache 2.0协议开源。

多模态开源生态模型发布

14:02

公众号：龙猫LongCat（美团）

54

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

美团技术团队正式开源 LongCat-Video-Avatar 1.5，该版本从高拟真走向真可用，将视频头像生成从室内彩排演练推向千人千面的真实应用场景。

图像生成模型发布视频

10:09

IT之家（RSS）

同事件精选73

智谱GLM-5.1高速版发布：刷新全球大模型API速度纪录

5月22日，智谱向部分企业客户推出了旗舰大模型GLM-5.1的高速版API“GLM-5.1-highspeed”。该版本输出速度达400 tokens/s，刷新了全球大模型API速度上限。关键突破在于，它首次在国产大模型中实现了旗舰级能力与低延迟的结合，打破了“高速模型即轻量模型”的传统。该版本由智谱GLM团队与TileRT团队合作，通过系统级优化确保了速度的生产级稳定性，适用于AI编程、实时语音交互等场景。

推理模型发布部署/工程

同一事件，精选展示《GLM-5.1开源：一个独立工作8小时的模型》

推荐理由：智谱把旗舰模型拉到 400 tokens/s，还保持全尺寸能力，不是那种为快阉割的小模型。做实时交互、AI 编程的可以认真看看，延迟敏感场景的选型参数要重写了。

09:41

公众号：智谱（GLM）

同事件精选63

智谱推出GLM-5.1高速版

智谱发布GLM-5.1高速版，推理速度达400 tokens/s，在顶尖模型中生成速度最快。

推理模型发布部署/工程

同一事件，精选展示《GLM-5.1开源：一个独立工作8小时的模型》

推荐理由：智谱把GLM-5.1做到了400 tokens/s，虽然发布已半个月，但这是国产模型在推理速度上的新标杆，做实时应用的可以看看。

06:35

MarkTechPost（RSS）

59

Qwen推出Qwen3.7-Max：配备100万token上下文窗口的推理智能体模型

在2026年阿里云峰会上，阿里巴巴的Qwen团队发布了其迄今最先进、最全面的智能体模型Qwen3.7-Max。该模型核心特点是具备100万token的超长上下文窗口，并引入扩展思考模式，专为代码编写、调试及多步骤工作流自动化等长周期任务设计。在Artificial Analysis Intelligence Index评测中，该模型获得56.6分，在所有专有模型中排名第五。

智能体推理模型发布编码

06:05

MarkTechPost（RSS）

62

Cohere发布Command A+：适用于智能体工作流的218B稀疏MoE模型，最少需两块H100 GPU运行

Cohere发布开源模型Command A+，采用218B参数稀疏混合专家架构，整合了此前四个Command A变体。该模型支持智能体工作流，在W4A4量化配置下仅需两块H100 GPU即可运行，支持48种语言，并首次具备多模态推理能力。

智能体多模态模型发布

00:07

美团 LongCat：HuggingFace 新模型

精选73

LongCat-Video-Avatar-1.5：升级版音频驱动数字人视频生成框架

美团LongCat团队发布了LongCat-Video-Avatar-1.5，一个专注于音频驱动数字人视频生成的开源框架。其核心升级在于采用Whisper-Large音频编码器，显著优化了唇部动态的流畅度与自然度。该版本实现了精准的唇形同步、全身时序稳定性以及长视频中的身份一致性，并能泛化应用于动漫、动物及多人交互等复杂场景。通过基于DMD2的步蒸馏技术，模型仅需8步即可高效推理。团队还构建了一个涵盖多场景、多语言的人工评估基准，通过大规模主观评分与专家分析，验证了其在多项关键维度上的优异性能。

Hugging Face 图像生成多模态开源/仓库

推荐理由：美团把数字人模型升级到1.5版，换了Whisper做音频编码，唇形同步比之前自然不少，而且开源了训练代码，做电商直播和虚拟博主的朋友可以直接拿过来跟商业方案掰手腕。

00:00

Mistral AI：News（网页）

69

Vibe中的远程智能体，由Mistral Medium 3.5驱动。介绍Mistral Medium 3.5、Vibe中的远程编程智能体，以及Le Chat中用于复杂任务的新Work模式。2026年5月22日，Mistral AI

Mistral AI发布了新模型Mistral Medium 3.5。该模型为Vibe产品中的远程编程智能体（remote coding agents）提供支持，这些智能体可在终端、IDE和后台运行。同时，Le Chat新增Work模式，专为处理复杂任务而设计。发布日期为2026年5月22日。

智能体模型发布编码

5月21日

23:26

The Decoder：AI News（RSS）

66

Cohere开源迄今最强模型

加拿大AI公司Cohere以Apache 2.0许可证开源了其迄今最强语言模型Command A+。该公司宣称这是其最高性能的模型，此次开源标志着Cohere在开放AI生态中的重要布局。Command A+面向开发者与研究社区免费开放，旨在推动大模型技术的透明化与协同创新，为行业提供更高性能的基础模型选择。

开源生态模型发布

18:06

IT之家（RSS）

70

腾讯混元发布新一代翻译模型Hy-MT2，支持手机端本地部署

腾讯混元正式开源新一代多语言翻译模型Hy-MT2，提供1.8B、7B、30B-A3B三种尺寸，支持33种语言及5种民族语言/方言互译。相比上一代，模型在指令遵循与专业领域翻译能力上显著提升。其中1.8B轻量模型仅需440MB存储，可部署于手机芯片进行本地推理，速度提升1.5倍。同步推出的腾讯Hy翻译小程序支持自定义风格、离线翻译，并开源了翻译指令遵循测试集IFMTBench，模型已上架GitHub、HuggingFace等平台。

开源生态模型发布端侧部署/工程

关联讨论 1 条X：腾讯混元 (@TencentHunyuan)

16:43

公众号：腾讯混元

58

腾讯混元全新翻译模型Hy-MT2开源，小程序「腾讯Hy翻译」开放体验

开源生态模型发布

15:27

MarkTechPost（RSS）

63

一个模型，三种模态：字节跳动发布 Lance 用于图像与视频的理解、生成和编辑

字节跳动智能创作实验室发布了Lance，这是一款开源的原生统一多模态模型。它能够在单一框架内，同时处理图像与视频的理解、生成和编辑三大任务。该模型仅需激活30亿参数，实现了用一个轻量级模型统一处理多种视觉内容创作与理解的需求。

图像生成多模态开源生态模型发布

5月20日

23:56

IT之家（RSS）

精选71

Stability AI 推出音频模型 Stability Audio 3.0，可生成最长 6 分钟专业级歌曲

Stability AI 推出 Stability Audio 3.0 音频生成模型家族，包含四款不同规格模型，参数从45900万到27亿。小型模型专注设备端运行，可本地生成两分钟以内的音频；中型和大型模型支持创作超过6分20秒的完整音乐，

多模态开源/仓库模型发布

推荐理由：Stability Audio 3.0 把AI音乐从几十秒的demo拉到了六分钟的完整歌曲，而且中小模型直接开源，任何一个能跑模型的设备都能玩，音乐创作的门槛继续被踩低。

23:03

The Decoder：AI News（RSS）

61

Stability AI 发布 Stable Audio 3.0，支持长达六分钟音轨并开放权重

Stability AI正式推出Stable Audio 3.0音频生成模型套件。该系列包含三个已开放模型权重的版本，能够生成最长六分钟的连贯音乐音轨。公司强调，所有模型均完全基于授权音乐数据集进行训练，确保了生成内容的合规性。此次发布标志着在AI音乐生成领域的技术进步，为音乐创作者和开发者提供了更长时长、更开放可用的工具。

多模态模型发布

1…6 789 10…15