全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 728 条

全部一手资讯 X 论文

标签「模型发布」清除

5月19日周二

16:51IT之家（RSS）74精选地平线开源 HoloMotion-1 4 亿参数机器人小脑大模型，可实现舞蹈、健身、搬箱子等动作

14:50Hacker News 热门（buzzing.cc 中文翻译）68Agora-1：多智能体世界模型

09:45IT之家（RSS）45Qwen 3.7？阿里云峰会 5 月 20 日举行，千问官宣"重量级新朋友"即将亮相

06:45IT之家（RSS）65阿里云千问大模型 Qwen3.7-Max-Preview 首发亮相 Arena AI

03:34Hacker News 热门（buzzing.cc 中文翻译）78精选Qwen 3.7 预览版

02:06The Decoder：AI News（RSS）62Cursor 发布 Composer 2.5：性能比肩 Opus 4.7 与 GPT-5.5，成本大幅降低

5月16日周六

23:31Hacker News 热门（buzzing.cc 中文翻译）73精选SANA-WM：一个用于生成1分钟720p视频的26亿级开源世界模型

15:42IT之家（RSS）66蚂蚁集团百灵开源万亿级思考模型 Ring-2.6-1T，支持 high 与 xhigh 两种推理强度

06:50Google DeepMind：Blog（RSS）75精选Gemini 3.5：具备行动能力的前沿智能

5月15日周五

11:02蚂蚁 inclusionAI：HuggingFace 新模型56精选蚂蚁集团提出 ARGenSeg-8B：基于自回归图像生成模型的图像分割框架

09:00公众号：蚂蚁百灵（Ling）51Ring-2.6-1T 正式开源：为真实复杂任务打造的万亿级思考模型

07:41IT之家（RSS）69IT早报 0515：《GTA 6》游戏解锁时间公布；小米 YU7 GT 高清实车图曝光；英伟达市值超世界第三大经济体德国 GDP；微信团队投入一半人适配鸿蒙…

03:45Hugging Face：Blog（RSS）60精选IBM 发布 Granite Embedding Multilingual R2 开源多语言嵌入模型

5月14日周四

23:31蚂蚁 inclusionAI：HuggingFace 新模型59精选蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T

21:45The Decoder：AI News（RSS）64阿里巴巴的 Qwen-Image-2.0 将压缩率提升一倍，并将生成步骤从40步削减至4步

09:40IT之家（RSS）67雷军谈小米自动驾驶模型 Xiaomi OneVL：业内率先通过潜空间推理将 VLA、世界模型统一到一套框架

5月13日周三

17:39IT之家（RSS）69小米开源 Xiaomi OneVL 自动驾驶模型，业内率先实现 VLA、世界模型等多技术路线统一

13:39IT之家（RSS）60面壁智能 MiniCPM-V 4.6 发布开源：1.3B 参数仅需 6G 内存即可流畅运行

11:45公众号：面壁智能（MiniCPM）54新一代「小钢炮」来袭！1.3B 模型性能效率双杀，MiniCPM-V 4.6 正式开源

04:56Hacker News 热门（buzzing.cc 中文翻译）65Show HN： Needle：我们将"双子座工具召唤"浓缩为一个26M模型

5月12日周二

21:40The Decoder：AI News（RSS）66Thinking Machines Lab发布首款模型，主张交互性才是OpenAI语音技术的误区

12:44HuggingFace Daily Papers（社区热门论文）76精选Qwen-Image-2.0技术报告

01:39The Decoder：AI News（RSS）66Baidu的Ernie 5.1在性能比肩顶尖模型的同时，将预训练成本削减94%

5月11日周一

08:00Thinking Machines Lab：官方博客（RSS）59精选Thinking Machines Lab发布Interaction Models研究预览

5月9日周六

11:29IT之家（RSS）69百度发布文心大模型 5.1：搜索能力位居国内首位，预训练成本仅为业界 6%

11:29IT之家（RSS）68蚂蚁集团百灵发布万亿级旗舰思考模型 Ring-2.6-1T：限时一周免费体验，引入 Reasoning Effort 机制

10:29IT之家（RSS）66阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime，支持情绪感知与人设自定义

09:00公众号：蚂蚁百灵（Ling）56Ring-2.6-1T 正式发布

02:34Hugging Face：Blog（RSS）52CyberSecQwen-4B 发布：防御性网络安全专用小模型

00:34Hugging Face：Blog（RSS）72精选EMO：为涌现模块化预训练的专家混合模型

5月8日周五

20:22IT之家（RSS）67消息称 DeepSeek 寻求 500 亿元融资，下月将发布 V4.1 更新

19:18The Decoder：AI News（RSS）61OpenAI 向通过审查的安全研究人员开放 GPT-5.5-Cyber

13:36Hacker News 热门（buzzing.cc 中文翻译）57ZAYA1-8B 在数学计算方面与 DeepSeek-R1 表现相当，且活跃参数少于 10 亿

10:16IT之家（RSS）57商汤发布日日新 SenseNova 6.7 Flash-Lite 多模态模型，Token Plan 限时免费

09:16IT之家（RSS）70OpenAI 最智能 AI 语音模型：GPT-Realtime-2 登场，GPT-5 级推理能力

05:49OpenAI：官网动态（RSS · 排除企业/客户案例）74精选Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber

03:10The Decoder：AI News（RSS）70OpenAI发布新语音模型，为实时对话带来GPT-5级推理能力

01:18OpenAI：官网动态（RSS · 排除企业/客户案例）86精选通过 API 中的新模型推进语音智能

5月7日周四

18:16IT之家（RSS）69小米开源 OmniVoice 多语言语音克隆 TTS，号称一个模型搞定 600 余种语言

10:01公众号：腾讯混元32腾讯混元 Hy3 preview 上线两周 Token 调用增长 10 倍

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月19日

16:51

IT之家（RSS）

精选74

地平线开源 HoloMotion-1 4 亿参数机器人小脑大模型，可实现舞蹈、健身、搬箱子等动作

地平线机器人实验室发布了其开源的人形机器人全身控制模型 HoloMotion-1。这是一个拥有 4 亿参数的“小脑”大模型，通过 MoE 稀疏激活与 KV-cache 推理机制，在端侧实现了约 300FPS 的实时推理能力。该模型利用互联网视频、光学动捕、VR 遥操作等多种来源的动作数据进行训练，并在真实机器人上成功展示了舞蹈、爬行、健身、搬箱子等复杂动作的零样本迁移能力。相关代码与技术报告已公开。

具身智能开源生态模型发布

推荐理由：地平线开源的这个4亿参数模型，把机器人“小脑”拉到一个小模型级别，300FPS实时跑在端侧，零样本跳舞搬箱子，搞具身智能的该跟进看看了。

14:50

Hacker News 热门（buzzing.cc 中文翻译）

68

Agora-1：多智能体世界模型

Agora-1是一个新发布的多智能体世界模型，旨在为人工智能系统提供对复杂环境进行协同模拟与推理的能力。该模型聚焦于让多个AI智能体在共享的虚拟世界中互动、规划和协作，可能应用于机器人控制、游戏AI或复杂场景仿真等前沿领域。其发布标志着多智能体系统与环境建模技术融合的一个新进展。

智能体模型发布视频

09:45

IT之家（RSS）

45

Qwen 3.7？阿里云峰会 5 月 20 日举行，千问官宣"重量级新朋友"即将亮相

阿里云峰会将于5月20日举行。千问大模型官方发布预热海报，透露将有一位“重量级新朋友”亮相，其特点是“更全能、更强大、有深度、有广度”。结合海报中的吉祥物元素，预计本次将公布Qwen系列大模型的最新重要成果。此前，Qwen 3.7-Max-Preview和Qwen 3.7-Plus-Preview版本已率先在相关平台上线，有望在峰会上正式发布。

开源生态模型发布

06:45

IT之家（RSS）

65

阿里云千问大模型 Qwen3.7-Max-Preview 首发亮相 Arena AI

阿里云通义千问最新模型 Qwen3.7-Max-Preview 与 Qwen3.7-Plus-Preview 已登陆 Qwen Chat 和 Arena AI 平台，预计于 5 月 20 日阿里云峰会正式发布。在 Arena AI 评测中，Max-Preview 在文本领域综合排名第 13，细分领域数学排名第 7，专家级应用与软件 IT 均位列第 9；Plus-Preview 在视觉领域综合排名第 16。据此，阿里通义千问在文本实验室榜单中排名第 6，视觉榜单中位列第 5。

多模态模型发布

03:34

Hacker News 热门（buzzing.cc 中文翻译）

精选78

Qwen 3.7 预览版

多模态推理模型发布

推荐理由：阿里 Qwen 3.7 预览版来了，国产模型在推理和多模态上的推进速度令人侧目，虽然还是预览，但已经是一个值得开发者提前盯紧的信号。

02:06

The Decoder：AI News（RSS）

62

Cursor 发布 Composer 2.5：性能比肩 Opus 4.7 与 GPT-5.5，成本大幅降低

Cursor 推出了其最新的 AI 编程模型 Composer 2.5，该模型基于 Kimi K2.5 构建，训练时使用了前代模型 25 倍的合成任务数据。在性能基准测试中，Composer 2.5 达到了与 Opus 4.7 及 GPT-5.5 相当的水平，而其运行成本仅为后两者的一小部分，显著提升了成本效益比。

模型发布编码

5月16日

23:31

Hacker News 热门（buzzing.cc 中文翻译）

精选73

SANA-WM：一个用于生成1分钟720p视频的26亿级开源世界模型

NVIDIA研究团队发布了SANA-WM，这是一个参数规模达26亿的开源世界模型，专门用于生成长达1分钟、分辨率为720p的视频。该模型已在GitHub页面开源，旨在推动高质量长视频生成的研发。其在Hacker News社区获得了107点热度，显示出业界对该技术进展的关注。

开源生态模型发布视频

推荐理由：开源且能跑 1 分钟 720p，NVIDIA 这个 2.6B 世界模型在物理一致性上跨了一大步，做视频生成和物理仿真的同行该坐不住了。

15:42

IT之家（RSS）

66

蚂蚁集团百灵开源万亿级思考模型 Ring-2.6-1T，支持 high 与 xhigh 两种推理强度

蚂蚁集团百灵大模型开源了面向复杂任务的万亿级思考模型 Ring-2.6-1T。该模型创新性地引入了可调节推理强度机制，提供 high 和 xhigh 两种模式。high 模式适用于高频 Agent 工作流，具有低 Token 开销和快速多步执行能力，适合多轮交互与工具协作；xhigh 模式则为数学、科研及复杂逻辑分析等高难任务提供更充分的思考深度。开发者可根据任务需求灵活选择，以平衡效果、速度与成本。模型已在 Hugging Face 和 ModelScope 平台开放。

Hugging Face 开源生态推理模型发布

06:50

Google DeepMind：Blog（RSS）

精选75

Gemini 3.5：具备行动能力的前沿智能

Google发布了Gemini 3.5模型，该模型专注于提升执行复杂任务的能力。其核心特点是支持“代理式工作流”，即能够像助手一样自主规划并执行一系列多步骤、复杂的操作，旨在将先进的语言理解与实际问题解决能力相结合。

智能体 DeepMind Google 多模态

关联讨论 19 条X：Google AI (@GoogleAI)Google Blog：AI（RSS）X：Sundar Pichai (@sundarpichai)Google DeepMind：Blog（RSS）The Verge：AI（RSS）X：Google DeepMind (@GoogleDeepMind)Google Developers Blog（RSS）The Decoder：AI News（RSS）IT之家（RSS）X：Berry Xia (@berryxia)X：Jeff Dean (@JeffDean)X：Gemini (@GeminiApp)Hacker News 热门（buzzing.cc 中文翻译）X：Google AI for Developers (@googleaidevs)X：Rohan Paul (@rohanpaul_ai)X：Logan Kilpatrick (@OfficialLoganK)X：Ethan Mollick (@emollick)X：阿易 AI Notes (@AYi_AInotes)X：Kim (@kimmonismus)

推荐理由：Gemini 3.5 Flash 把前沿级智能体和编程能力塞进了极低延迟和成本，四倍于竞品速度的同时基准表现超过 3.1 Pro，这可能是今年对开发者最实用的基座模型之一。

5月15日

11:02

蚂蚁 inclusionAI：HuggingFace 新模型

精选56

蚂蚁集团提出 ARGenSeg-8B：基于自回归图像生成模型的图像分割框架

蚂蚁集团推出 ARGenSeg-8B，一种将多模态理解与像素级感知统一的自回归图像生成分割框架。它利用多模态大语言模型（MLLM）输出视觉 token，并通过通用 VQ-VAE 解码为分割掩码，使分割完全依赖 MLLM 的像素级理解。采用 next-scale-prediction 策略并行生成视觉 token，降低推理延迟。在多个分割数据集上超越此前最优方法，推理速度显著提升。论文已被 NeurIPS 2025 接收，模型已发布在 HuggingFace。

Hugging Face 多模态开源/仓库模型发布

推荐理由：蚂蚁提出用自回归生成做分割，把理解和像素级感知统一到一个框架里，多个数据集SOTA且速度更快，做CV的值得看看。

09:00

公众号：蚂蚁百灵（Ling）

51

Ring-2.6-1T 正式开源：为真实复杂任务打造的万亿级思考模型

Ring-2.6-1T 正式开源，这是为真实复杂任务打造的万亿级思考模型，Agent 执行能力全面增强，采用双档推理配置，兼顾效率、成本与能力上限。

开源生态推理模型发布

07:41

IT之家（RSS）

69

IT早报 0515：《GTA 6》游戏解锁时间公布；小米 YU7 GT 高清实车图曝光；英伟达市值超世界第三大经济体德国 GDP；微信团队投入一半人适配鸿蒙…

索尼公布《GTA 6》解锁时间，新西兰玩家可率先体验。小米YU7 GT“车厘子红”实车图曝光，将于5月底发布。英伟达市值首次突破5.5万亿美元，超越德国GDP。腾讯微信为适配鸿蒙系统成立了800多人团队，约占其客户端开发人员一半。比亚迪确认正与Stellantis等谈判收购欧洲闲置工厂，并计划未来三年推出多款欧洲专属车型。此外，小米17 Max手机将搭载徕卡2亿像素主摄及8000mAh电池，而ChatGPT网页端流量份额一年内大幅下滑。

OpenAI 模型发布行业动态

03:45

Hugging Face：Blog（RSS）

精选60

IBM 发布 Granite Embedding Multilingual R2 开源多语言嵌入模型

IBM 发布两个 Apache 2.0 开源多语言嵌入模型：97M 参数的紧凑型（granite-embedding-97m-multilingual-r2）在 MTEB Multilingual Retrieval 上得 60.3 分，超越所有开放子 1 亿参数模型；311M 全尺寸模型（granite-embedding-311m-multilingual-r2）得 65.2 分，在 500M 以下开放模型中排第二，并支持 Matryoshka 维度。两者均基于 ModernBERT 架构，支持 200+ 种语言，针对 52 种语言和 9 种编程代码检索训练，上下文窗口达 32,768 tokens。可直接替换 sentence-transformers、LangChain、LlamaIndex 等框架中的默认模型，预置 ONNX 和 OpenVINO 权重以优化 CPU 推理。

检索增强开源生态搜索模型发布

推荐理由：97M小模型在跨语言检索上打败很多300M级选手，32K上下文让长文档处理不再鸡肋，Apache 2.0开源意味着做多语言RAG的可以直接拿来当默认嵌入模型了。

5月14日

23:31

蚂蚁 inclusionAI：HuggingFace 新模型

精选59

蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T

蚂蚁 inclusionAI 发布旗舰推理模型 Ring-2.6-1T，参数规模达万亿，面向智能体工作流、工程开发、科研分析等复杂场景。模型从“能回答”升级至“能执行”，在多步任务与工具协作中表现更优；支持 high/xhigh 两档推理强度，可灵活平衡效果与成本；采用异步强化学习结合 IcePop 算法提升训练效率。基准测试中，high 模式 PinchBench 得 87.60、ClawEval 63.82、Tau2-Bench 电信场景 95.32；xhigh 模式 ARC-AGI-V2 得 66.18、AIME 26 达 95.83、GPQA Diamond 88.27。上下文长度支持 128K 扩展至 256K（YaRN），已通过 HuggingFace 和 ModelScope 开放下载。

智能体开源/仓库推理模型发布

关联讨论 4 条HuggingFace Daily Papers（社区热门论文）蚂蚁 inclusionAI：HuggingFace 新模型公众号：蚂蚁百灵（Ling）X：蚂蚁百灵 (@AntLingAGI)

推荐理由：蚂蚁放出的万亿参数推理模型，Agent执行能力在PinchBench上超GPT-5.4，异步RL训练和可调推理强度对工程落地有参考价值，开源可试。

21:45

The Decoder：AI News（RSS）

64

阿里巴巴的 Qwen-Image-2.0 将压缩率提升一倍，并将生成步骤从40步削减至4步

阿里巴巴发布图像模型 Qwen-Image-2.0，其图像压缩强度达到多数竞品的两倍。模型采用重新设计的Transformer架构以稳定训练，并配备专用模块，可将简短用户输入自动扩展为详细提示。其蒸馏版本仅需4步去噪即可完成图像生成，远少于通常的40步。在用户盲测平台LMArena上，该模型目前排名第9位。

图像生成推理模型发布

09:40

IT之家（RSS）

67

雷军谈小米自动驾驶模型 Xiaomi OneVL：业内率先通过潜空间推理将 VLA、世界模型统一到一套框架

小米技术正式发布并开源一步式潜空间语言视觉推理框架Xiaomi OneVL。该框架在业内率先通过潜空间推理，将视觉语言动作模型与世界模型统一到同一套框架中。在推理、规划等多个主流基准上，该模型全面刷新了潜在推理方法的性能上限，在精度上超越显式思维链方案，在速度上对齐“仅答案”预测的潜空间思维链方案。小米已全面开源其模型权重及训练、推理代码。

多模态开源生态推理模型发布

5月13日

17:39

IT之家（RSS）

69

小米开源 Xiaomi OneVL 自动驾驶模型，业内率先实现 VLA、世界模型等多技术路线统一

小米开源了Xiaomi OneVL一步式潜空间语言视觉推理框架。该模型在业内首次将VLA（视觉语言动作模型）与世界模型这两条技术路线统一于同一框架，通过潜空间推理同时提升推理速度与精度，在多项基准测试中达到先进水平。此外，它还能为决策提供语言和视觉双维度的可解释性。小米已全面开源其模型权重、训练及推理代码。

具身智能多模态模型发布

13:39

IT之家（RSS）

60

面壁智能 MiniCPM-V 4.6 发布开源：1.3B 参数仅需 6G 内存即可流畅运行

面壁智能联合清华大学及 OpenBMB 开源社区发布新一代端侧多模态大模型 MiniCPM-V 4.6。该模型参数为 1.3B，仅需约 6GB 内存即可在端侧设备运行。其在通用图文理解、STEM 推理等任务上超越同尺寸模型，Artificial Analysis 评测得 13 分。效率方面，Token 吞吐量为竞品的 1.5 倍，计算消耗仅为其 2.5%。模型采用 LLaVA-UHD v4 架构，图像编码计算量降低 55.8%，并支持高分辨率图像快速处理。目前已全面开源，提供完整工具链，适配主流微调与推理框架。

多模态开源/仓库模型发布端侧

11:45

公众号：面壁智能（MiniCPM）

54

新一代「小钢炮」来袭！1.3B 模型性能效率双杀，MiniCPM-V 4.6 正式开源

多模态开源/仓库模型发布端侧

04:56

Hacker News 热门（buzzing.cc 中文翻译）

65

Show HN： Needle：我们将"双子座工具召唤"浓缩为一个26M模型

研究团队发布了名为Needle的轻量级模型，它将谷歌Gemini的工具调用能力浓缩至仅2600万参数。该模型在保持核心功能的同时，体积显著缩小，旨在实现更高效的部署与应用。项目代码已在GitHub开源，并在Hacker News社区获得了超过100点的关注度。

智能体 MCP/工具开源生态模型发布

5月12日

21:40

The Decoder：AI News（RSS）

66

Thinking Machines Lab发布首款模型，主张交互性才是OpenAI语音技术的误区

由Mira Murati创立的Thinking Machines Lab发布了其首个人工智能模型，旨在突破传统语音AI的问答模式。该模型以200毫秒为数据块，并行处理音频、视频和文本信息，专注于提升实时交互的流畅性与自然度。公司宣称，这一设计在交互质量上超越了OpenAI的GPT Realtime 2和Google的Gemini Live，致力于推动语音助手向更自然、非问答式的对话体验演进，从而重新定义人机交互方式。

多模态模型发布语音

12:44

HuggingFace Daily Papers（社区热门论文）

精选76

Qwen-Image-2.0技术报告

Qwen-Image-2.0是一个统一高保真生成与精确编辑的全能图像生成基础模型。它采用Qwen3-VL作为条件编码器，结合多模态扩散变换器进行联合建模，并通过大规模数据整理与多阶段训练实现强化。该模型支持长达1K令牌的指令输入，能生成幻灯片、海报等富文本内容，显著提升多语言文本渲染与排版质量。在生成方面，它增强了细节、纹理真实感与光照一致性，并更可靠遵循复杂指令。人工评估表明，其在生成和编辑任务上均大幅超越前代模型。

arXiv 图像生成多模态模型发布

推荐理由：这是 Qwen-Image 系列第一次把多模态理解和生成真正拧到同一框架里，长文本渲染和多语言排版提升肉眼可见，做海报和幻灯片的可以重点关注。

01:39

The Decoder：AI News（RSS）

66

Baidu的Ernie 5.1在性能比肩顶尖模型的同时，将预训练成本削减94%

百度发布其对话机器人Ernie的最新版本5.1。该模型采用“Once-For-All”方法，仅使用前代模型三分之一的参数量，其预训练成本仅为同类模型的6%，实现了94%的成本削减。在Search Arena排行榜上，Ernie 5.1位列全球第四，排名仅次于两个Claude Opus变体和GPT-5.5 Search。

搜索数据/训练模型发布

5月11日

08:00

Thinking Machines Lab：官方博客（RSS）

精选59

Thinking Machines Lab发布Interaction Models研究预览

Thinking Machines Lab发布interaction models研究预览。该模型从零训练，原生处理音频、视频和文本，采用多流微回合设计实现实时响应，无需外部脚手架。研究预览展示了全新的交互能力，并在智能性与响应性上取得综合SOTA表现。

智能体多模态模型发布视频

推荐理由：Thinking Machines 把实时交互训进了模型本身，不再是外挂脚手架，微轮次架构和 benchmark 数据很硬，做语音/视频助手的可以认真看看，虽然还是研究预览，但方向值得盯着。

5月9日

11:29

IT之家（RSS）

69

百度发布文心大模型 5.1：搜索能力位居国内首位，预训练成本仅为业界 6%

百度发布新一代基础大模型文心大模型5.1，并已在千帆模型广场等平台上线。该模型采用“多维弹性预训练”技术，仅以业界同规模模型约6%的预训练成本，实现了基础效果的领先。在国际权威竞技场LMArena的搜索榜上，文心5.1位列国内第一、全球第四。其综合能力显著提升，Agent能力实现超越，创意写作与推理能力已接近或达到业界领先水平。

智能体搜索模型发布

11:29

IT之家（RSS）

68

蚂蚁集团百灵发布万亿级旗舰思考模型 Ring-2.6-1T：限时一周免费体验，引入 Reasoning Effort 机制

蚂蚁集团旗下百灵大模型发布万亿级思考模型 Ring-2.6-1T，专为处理真实复杂任务设计。该模型创新引入可调节 Reasoning Effort 机制，提供 high 和 xhigh 两种推理强度。high 模式适用于高频 Agent 工作流，注重低 Token 开销与快速多步执行；xhigh 模式则面向数学、科研等需要深度逻辑分析与多路径探索的高难任务。模型兼具快速多步执行、工具协调能力及 SOTA 稳定性。目前已在 OpenRouter 平台上线，开放限时一周免费体验。

推理模型发布

10:29

IT之家（RSS）

66

阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime，支持情绪感知与人设自定义

阶跃星辰发布新一代实时语音大模型StepAudio 2.5 Realtime，现已全量上线。该模型能感知语调、语速等“副语言”信息以识别用户情绪，动态调整回应以提升对话真实感。开发者可通过API精细定制AI角色的性格、背景等，其能力基于超万个原生人设生成的百万级特征矩阵训练，并针对角色一致性进行了强化。模型在对话能力上强调智商与情商的双重提升，可应对从闲聊到专业面试等多种场景。据2026年4月评测，其主观对话体验与语音问答基准得分均领先于同期竞品。

多模态模型发布评测/基准语音

09:00

公众号：蚂蚁百灵（Ling）

56

Ring-2.6-1T 正式发布

Ring-2.6-1T 是一款万亿级旗舰思考模型，引入可调节的 Reasoning Effort 机制，支持 high 与 xhigh 两种推理强度。high 模式面向高频 Agent 工作流，xhigh 面向数学、科研等复杂任务。评测中，high 模式 PinchBench 得分 87.60，Tau2-Bench Telecom 95.32；xhigh 模式 ARC-AGI-V2 得分 77.78，AIME 26 得分 95.83，GPQA Diamond 88.27。模型已上线 OpenRouter，近期将开源。

智能体推理模型发布

02:34

Hugging Face：Blog（RSS）

52

CyberSecQwen-4B 发布：防御性网络安全专用小模型

CyberSecQwen-4B 是基于 Qwen3-4B-Instruct-2507 微调的 4B 参数防御性网络安全模型，在 CTI-Bench 上以半参数（4B vs 8B）对标 Cisco Foundation-Sec-Instruct-8B：CTI-MCQ 得分 0.5868，领先 8.7 个百分点；CTI-RCM 得分 0.6664，保留后者 97.3% 的准确率。可运行于单张 12 GB 消费级 GPU，训练使用 AMD Instinct MI300X，LoRA 微调（r=64, lr=5e-5），数据来自 MITRE/NVD 的 2021 CVE→CWE 映射及合成分析师问答，以 Apache-2.0 许可发布。专为需本地部署的敏感安全场景设计。

Hugging Face 安全/对齐开源生态模型发布

00:34

Hugging Face：Blog（RSS）

精选72

EMO：为涌现模块化预训练的专家混合模型

EMO是一种新型专家混合模型，通过端到端预训练使模块化结构直接从数据中涌现，无需依赖人类定义的先验。该模型允许在特定任务中仅使用12.5%的专家子集（即8个活跃专家中的部分），同时保持接近全模型的性能；当所有128个专家共同使用时，它仍作为强大的通用模型。EMO具有1B活跃参数和14B总参数，训练数据达1万亿令牌。与标准MoE相比，EMO通过文档级路由约束，鼓励专家形成领域专业化组，从而支持选择性使用而不导致严重性能下降，实现了可组合架构，优化了大型稀疏MoE的内存-准确性权衡。

Hugging Face 开源生态数据/训练模型发布

推荐理由：EMO 让 MoE 专家从按词法分散进化到按语义域自然模块化，仅用 12.5% 专家就能接近全模型性能，对需要按需加载的大模型部署是真正的突破。

5月8日

20:22

IT之家（RSS）

67

消息称 DeepSeek 寻求 500 亿元融资，下月将发布 V4.1 更新

据知情人士消息，DeepSeek正寻求首轮融资，目标高达500亿元人民币，若成功将成中国AI公司迄今最大规模融资。创始人兼CEO梁文锋计划提供最大一笔资金。融资推动公司加快商业化节奏，计划提高模型发布频率以接近行业标准。同时，DeepSeek将于6月发布V4模型的更新版本V4.1。

DeepSeek 开源生态模型发布行业动态

19:18

The Decoder：AI News（RSS）

61

OpenAI 向通过审查的安全研究人员开放 GPT-5.5-Cyber

OpenAI 发布了专门用于网络安全的新模型 GPT-5.5-Cyber。该模型显著降低了安全请求的拒绝率，并能主动对测试服务器执行漏洞利用。目前访问权限仅限于经过验证的关键基础设施防御者，包括思科、CrowdStrike 和 Cloudflare 等合作伙伴。GPT-5.5-Cyber 将直接与 Anthropic 的 Mythos Preview 模型展开竞争。

OpenAI 安全/对齐模型发布

13:36

Hacker News 热门（buzzing.cc 中文翻译）

57

ZAYA1-8B 在数学计算方面与 DeepSeek-R1 表现相当，且活跃参数少于 10 亿

ZAYA1-8B 是一个新发布的开源人工智能模型，在数学计算任务中性能与 DeepSeek-R1 相当。该模型的活跃参数数量少于10亿，突显了在保持高性能的同时实现更高参数效率的突破。这一进展意味着模型在计算资源和存储需求上更为高效，可能降低部署成本并加速推理过程，为资源受限环境提供实用解决方案。ZAYA1-8B 的开发展示了在AI模型优化领域的重要进步，其开源性质有望推动进一步研究和应用。

DeepSeek 推理模型发布编码

10:16

IT之家（RSS）

57

商汤发布日日新 SenseNova 6.7 Flash-Lite 多模态模型，Token Plan 限时免费

商汤科技推出新一代轻量化多模态模型“日日新 SenseNova 6.7 Flash-Lite”。该模型采用原生多模态架构，能直接理解网页、文档和图表，提升复杂任务处理效率。它取消了视觉转文本中间层，以更小参数量实现能力跨越，在权威测试中取得多项同级别SOTA，并在信息搜索等场景中比纯文本智能体降低60%的Token消耗。同时，商汤推出限时免费的SenseNova Token Plan，为开发者提供首月无门槛调用额度，并将其全线办公技能SenseNova-Skills在GitHub开源。

多模态开源生态模型发布

09:16

IT之家（RSS）

70

OpenAI 最智能 AI 语音模型：GPT-Realtime-2 登场，GPT-5 级推理能力

OpenAI 发布三款集成于Realtime API的实时语音模型，旨在解决语音交互中的延迟、打断处理和多语言支持难题。其中，GPT-Realtime-2具备GPT-5级推理能力，可在对话中进行推理、调用工具并处理打断，音频输入输出分别按每百万Token 32美元和64美元计费。GPT-Realtime-Translate支持70种输入语言同步翻译为13种输出语言，每分钟0.034美元。GPT-Realtime-Whisper提供低延迟流式转录，每分钟0.017美元。这些模型为开发复杂语音助手、实时翻译和转录应用提供了底层技术支持。

OpenAI 推理模型发布语音

05:49

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选74

Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber

OpenAI扩展了网络安全领域的可信访问计划，推出了GPT-5.5和专门针对网络安全的GPT-5.5-Cyber模型。此举旨在帮助经过验证的网络安全防御者加速漏洞研究，并加强对关键基础设施的保护。新模型将为安全专业人员提供更强大的AI工具支持。

OpenAI 安全/对齐模型发布

推荐理由：GPT-5.5 正式登场，首秀是给安全防御者用的，Trusted Access 机制把模型和真实漏洞环境连起来，做网络安全的可以关注，其他人先看看。

03:10

The Decoder：AI News（RSS）

70

OpenAI发布新语音模型，为实时对话带来GPT-5级推理能力

OpenAI发布了三款新型语音模型：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。其中，GPT-Realtime-2具备与GPT-5相匹配的实时推理能力，旨在实现更流畅、智能的实时对话交互。GPT-Realtime-Translate支持超过70种语言的实时翻译，而GPT-Realtime-Whisper则专注于实时语音转写功能。这一系列模型标志着OpenAI在实时音频处理和交互领域的重要进展，有望显著提升跨语言沟通和语音应用的体验。

OpenAI 推理模型发布语音

01:18

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选86

通过 API 中的新模型推进语音智能

OpenAI API 推出了新的实时语音模型，能够进行推理、翻译和语音转录。这些模型显著提升了语音交互的自然度与智能水平，支持实时处理与多语言转换。新功能旨在为开发者提供更强大的工具，以构建更流畅、更智能的语音应用体验。

OpenAI 多模态模型发布语音

推荐理由：语音模型不再只是‘听写’，开始能推理和翻译了，OpenAI这次API更新的几个新模型把语音智能推向更实用的阶段，做语音产品的值得赶紧试试。

5月7日

18:16

IT之家（RSS）

69

小米开源 OmniVoice 多语言语音克隆 TTS，号称一个模型搞定 600 余种语言

小米AI实验室开源多语言语音克隆TTS模型OmniVoice，覆盖600余种语言。该模型采用极简双向Transformer架构，无需复杂结构即可实现文本到语音的直接转换。其语音合成质量超越同类主流模型，训练速度可达一天10万小时。关键设计包括全码本随机掩蔽策略和引入大语言模型预训练参数，显著提升训练效率与语音可懂度。测试显示，在多种语言中其相似度与可懂度超越多款商用系统，并对低资源小语种也能实现高质量合成。模型还支持自定义音色、带噪音频适配等实用功能。

arXiv GitHub 多模态开源生态

10:01

公众号：腾讯混元

32

腾讯混元 Hy3 preview 上线两周 Token 调用增长 10 倍

腾讯混元推出的 Hy3 preview 模型上线仅两周，Token 调用量即增长 10 倍，其中代码和智能体类场景的 Token 调用增长尤为明显。

智能体模型发布编码

1…8 91011 12…19