AIHOT

5月7日

18:16

IT之家（RSS）

小米开源 OmniVoice 多语言语音克隆 TTS，号称一个模型搞定 600 余种语言

小米AI实验室开源多语言语音克隆TTS模型OmniVoice，覆盖600余种语言。该模型采用极简双向Transformer架构，无需复杂结构即可实现文本到语音的直接转换。其语音合成质量超越同类主流模型，训练速度可达一天10万小时。关键设计包括全码本随机掩蔽策略和引入大语言模型预训练参数，显著提升训练效率与语音可懂度。测试显示，在多种语言中其相似度与可懂度超越多款商用系统，并对低资源小语种也能实现高质量合成。模型还支持自定义音色、带噪音频适配等实用功能。

arXivGitHub多模态开源生态

5月6日

22:36

SenseTime@SenseTime_AI

精选71

🚀 SenseNova-U1 更新： ⚡ 开源8步蒸馏LoRA：100 NFE降至8 NFE，H100推理时间从23秒缩短至2秒 🧩 现已支持ComfyUI，提供文生图、图像编辑和交错生成的即用工作流试用链接 👇 https：//github.com/OpenSenseNova/SenseNova-U1/

图像生成开源/仓库推理模型发布

推荐理由：从100步到8步，23秒压到2秒，商汤这个蒸馏LoRA把U1的推理成本打下来了，做实时图像应用的可以认真看看，ComfyUI一接就能跑。

22:16

IT之家（RSS）

精选71

豆包大模型家族首款全模态理解模型：字节跳动 Doubao-Seed-2.0-lite 升级

字节跳动火山引擎发布豆包大模型家族首款全模态理解模型 Doubao-Seed-2.0-lite 升级版。该模型原生统一支持视频、图像、音频和文本理解，并能进行跨模态联合推理，在物理、医疗等学科推理及细粒度感知上表现超越此前Pro版本。音频方面支持19种语种转写及多语种互译，多项基准测试优于Gemini-3.1-Pro。同时，其Agent、Coding与GUI能力升级，能更稳定处理长任务、胜任深度开发，并实现界面理解与操作执行的闭环。新版本已在火山方舟上线，旨在为企业提供高性价比的全模态任务部署方案。

智能体多模态推理模型发布

推荐理由：豆包Seed 2.0 lite把视频、音频、图片、文字原生塞进一个模型，还顺手强化了Agent和GUI操作，对需要全模态处理的企业来说，这可能是目前性价比最高的选择。

22:04

meng shao@shao__meng

Luma发布的Uni-1图像生成模型在提示词与像素生成之间引入了一个显式推理步骤，用于解读创意方向并消除歧义。这一关键推理层现已通过API对外可编程开放，使其不再是黑盒，允许开发者将Uni-1作为智能基础设施集成到生产流程中。主要应用模式包括嵌入产品作为创作引擎、构建自定义多阶段工作流或开发独立工具。API提供的核心能力涵盖基于参考图像的风格或角色约束生成、在模型层面强制保持视觉一致性，以及通过自然语言指令进行精准编辑。

图像生成推理模型发布

20:36

向阳乔木@vista8

豆包大模型Doubao-Seed-2.0-lite实现全模态理解与能力提升

Doubao-Seed-2.0-lite 0428 内测版本升级，新增音频理解功能，能同时支持图片、视频、音频和文本四种输入，成为豆包大模型家族首款全模态理解模型。该版本在 Agent、Coding 和 GUI 能力上也有明显提升。通过 API 测试，验证了其在前端动效复刻、视频Hooks建议和字幕识别等场景的应用潜力，具体案例详见后续推文线程。

多模态模型发布

18:07

Xiaomi MiMo@XiaomiMiMo

MiMo V2.5 🥰🥰 【引用 @Designarena】：突发：小米MiMo-V2.5在设计竞技场开放权重模型中综合排名第六！其Elo评分为1297，与@Kimi_Moonshot的Kimi K2.5（思考版）处于同一性能区间。祝贺@XiaomiMiMo团队发布成功！

开源/仓库模型发布评测/基准

10:20

歸藏(guizang.ai)@op7418

精选79

OpenAI 将 GPT-5.5 Instant 设为 ChatGPT 默认模型

OpenAI 已全量发布 GPT-5.5 Instant 模型，并将其设为 ChatGPT 的默认模型。此次升级显著提升了模型的实时准确性和日常任务处理能力，特别是在法律、金融和医学等领域有效降低了幻觉率。同时，模型在图片理解与文档解析方面表现更佳。其回答风格变得更加简洁、聚焦要点，并增强了清晰度、个性化以及温暖自然的语调。此外，GPT 引入了记忆来源功能，允许用户可视化查看并编辑记忆的来源。本次更新未包含 Codex 模型。

OpenAI推理模型发布

关联讨论 2 条

推荐理由：GPT-5.5 Instant 成为默认模型，解决的是日常最痛的啰嗦和幻觉，记忆来源可视化也把黑盒变透明了，对普通用户是实实在在的提升。

09:34

karminski-牙医@karminski3

精选73

Google发布Gemma 4草稿专用模型，推理速度提升三倍

Google发布了Gemma 4系列模型的专用草稿模型，用于推测性解码优化。31B Dense模型搭配草稿模型速度提升3倍，仅增加1G显存开销；Gemma4-26B和Gemma4-E4B分别提升1.5倍和3.1倍速度。新草稿模型如gemma-4-31B-it-assistant体积仅939 MB，专门优化后接受率高，相比之前使用非专用草稿模型（如gemma-4-E2B-it-UD-Q4_K_XL）提速更明显。作者呼吁Qwen尽快推出类似优化模型（如Qwen3.6-27B-assistant），以应对高性能需求。

Google推理模型发布

关联讨论 2 条

推荐理由：Google 给 Gemma 4 发了个「加速挂」，专门优化推测解码的草稿模型提速 3 倍，显存只多花 1GB，跑本地模型的人应该马上试试。Qwen 再不跟就输了。

09:34

meng shao@shao__meng

精选77

全球首个基于SSA架构的模型SubQ实现1200万token上下文窗口，效率大幅领先

前沿模型SubQ基于创新的Subquadratic Sparse Attention架构，实现了1200万token的实用上下文窗口。其核心技术SSA通过内容依赖的选择机制，让每个查询仅动态计算与相关键的注意力，使计算和内存成本随序列长度线性增长，而非传统Transformer的二次方增长。实测在100万token时比FlashAttention-2快52.2倍，成本低于Opus的5%。该模型针对需要一次性处理完整代码库、长文档等企业真实长上下文场景优化，旨在弥合“名义上下文”与“功能上下文”窗口的差距。

数据/训练模型发布编码

推荐理由：这是第一个真正把子二次方注意力用到前沿模型上的突破，12M 上下文窗口不再只是参数，而是能用起来的真窗口，长上下文场景的成本逻辑要重写了。

08:17

Berryxia.AI@berryxia

Gemma 4借助MTP草稿机实现3倍速推理

Google通过为Gemma 4引入MTP drafters（多token预测草稿机），在不增加参数、不改变架构和模型质量的前提下，实现了最高3倍的推理速度提升。该技术让模型能一次预测多个token，突破了传统自回归解码的串行瓶颈，极大提升了GPU利用率。这显著增强了本地部署的实时性，并使Agent、代码生成等场景受益，进一步放大了开源模型在性价比和本地运行方面的优势。

Google开源生态推理模型发布

08:17

Berryxia.AI@berryxia

今天这个tts有点东西啊！

Inworld AI 发布了新一代实时对话语音模型 Realtime TTS-2，突破了传统TTS仅追求拟人化的竞争框架。该模型能够实时倾听完整对话，捕捉情绪、语气与节奏，动态决定回应方式，成为一个“会倾听、会共情、会适配”的对话伙伴。其关键创新包括：支持用自然语言语音指令像指挥大语言模型一样调整声音；同一声音身份可跨100多种语言保持一致性；还能通过文字描述生成全新声音并保存复用。这标志着语音AI从机械的“语音输出”迈向更贴近真人互动的“实时对话”时代。

多模态模型发布语音

08:17

Berryxia.AI@berryxia

精选75

O社的 GPT-5.5 Instant 开始在 ChatGPT 中推出。这是一个重大升级，让你获得更智能、更清晰、更个性化的回答，语气更温暖、更自然。

OpenAI推理模型发布

关联讨论 2 条

推荐理由：GPT-5.5 Instant 终于进 ChatGPT 了，智能、语气和个性化都提了一档。真正的变化在成本与响应速度，这才是影响亿级用户产品体验的关键。

08:15

IT之家（RSS）

精选75

OpenAI ChatGPT 默认 AI 模型升至 GPT-5.5 Instant：幻觉最高减少 52.5%、回复更简洁

OpenAI于5月5日将ChatGPT默认模型升级为GPT-5.5 Instant，重点提升准确性与简洁性。新模型在医疗、法律、金融等高风险领域，幻觉声明较前代减少52.5%；在用户标记的事实错误测试中，不准确声明降低37.3%。回复内容更简洁，减少了不必要的表情符号和冗长格式。所有用户即日起开始获得更新，付费用户可继续使用GPT-5.3 Instant三个月。

OpenAI推理模型发布

关联讨论 2 条

推荐理由：GPT-5.5 Instant 不是新模型发布，而是实测提升：少说废话、少犯错。52.5% 的幻觉降幅对高风险领域用户是个实打实的增益，所有 ChatGPT 用户的对话体验今天起都会简洁一档。

06:28

Rohan Paul@rohanpaul_ai

精选76

OpenAI将GPT-5.5 Instant设为ChatGPT默认模型，减少错误、缩短回答并增强个性化

OpenAI已将GPT-5.5 Instant设置为ChatGPT的默认模型。该模型在医学、法律和金融等关键提示上的虚假陈述比前代减少52.5%，在用户标记过事实错误的困难对话中不准确陈述降低37.3%。回答更简洁，用词和行数减少约30%。同时，模型增强了图像和STEM处理能力，并能从记忆、过往对话、文件及连接的Gmail中提取上下文以实现深度个性化。OpenAI表示，此次升级旨在提供更智能、清晰、个性化且语气自然温暖的回答。

OpenAI多模态推理模型发布

关联讨论 2 条

推荐理由：OpenAI 把 GPT-5.5 Instant 设为默认，52% 的幻觉减少和 30% 的用词精简比跑分更实际，普通用户天天用的体验会明显变好。

05:59

Eric@ericmitchellai

如果是真的就厉害了（其实很小）

OpenAI模型发布

05:27

Chubby♨️@kimmonismus

主推文强调语音代理的首次音频响应时间（TTFA）低于200毫秒至关重要，超过300毫秒即可感知延迟。引用推文介绍了专为实时对话设计的Realtime TTS-2新一代语音模型，该模型能理解对话内容、接受自然语言语音指令、在超过100种语言中保持同一声音身份，并能模拟人类专注的说话方式，最终实现听觉与体验俱佳的语音AI效果。

智能体模型发布语音

04:33

ChatGPT@ChatGPTapp

精选73

向我们所有使用新即时模型的用户致以热烈的祝贺。

OpenAI模型发布

关联讨论 2 条

推荐理由：OpenAI突然发了一个「Instant模型」，推文只有一句庆祝，没给任何能力指标。如果真是主打实时响应，那对聊天体验是实打实的提升，但现在啥也看不出来。

04:31

Sam Altman@sama

特别是当速度、智能、个性以及强大的记忆/个性化功能这些改进结合在一起时，它们共同作用所产生的效果，感觉像是超越了各部分简单相加的总和【引用 @sama】：chatgpt中的新即时模型真是太棒了如果你已经有一段时间只使用思考模型，不妨试试它！

OpenAI模型发布

04:28

Greg Brockman@gdb

精选91

重大ChatGPT升级现正推出，形式为GPT-5.5 Instant：这是一次重大升级，以更温暖自然的语调提供更智能、更清晰、更个性化的答案。同时它也更简洁，这正是我们所了解到的用户需求。我们相信你会喜欢与它对话。

OpenAI模型发布

关联讨论 2 条

推荐理由：ChatGPT终于迎来一次真正的代际升级，GPT-5.5 Instant把聪明和人性化揉在一起，而且更简洁了，之前那些因为啰嗦被嫌弃的对话可以翻篇了。

03:57

Elon Musk@elonmusk

精选83

Grok 4.3 【引用 @xai】：Grok 4.3 现已在 xAI API 上线。这是我们迄今为止最快、最智能的模型。它在 @ArtificialAnlys 排行榜的智能体工具调用和指令遵循方面位居榜首，并在 @ValsAI 的企业领域（如案例法和公司金融）中排名第一。 Grok 4.3 支持 100 万 token 的上下文窗口，定价为输入每百万 token 1.25 美元，输出每百万 token 2.50 美元。创建 API 密钥并开始构建：http：//console.x.ai/team/default/api-keys

智能体xAI推理模型发布

关联讨论 2 条

推荐理由：Grok 4.3 把 agentic tool calling 和指令遵循两个榜单压在脚下，百万上下文配上亲民价格，对做自动化 agent 的团队是个够分量的信号。

03:32

TestingCatalog News 🗞@testingcatalog

精选71

Google为Gemma 4系列发布了多令牌预测（MTP）草稿模型。它在不损失性能的情况下带来了3倍的速度提升。期待在Mac Mini上测试带有MTP草稿模型的量化版Gemma 4！

Google推理模型发布

关联讨论 2 条

推荐理由：Gemma 4 的 MTP 草稿器直接把推理速度抬了 3 倍，不降质量，做端侧或低延迟场景的值得立刻换上试试。

02:31

TestingCatalog News 🗞@testingcatalog

精选77

OPENAI 🚨： GPT-5.5 Instant 正在向所有 ChatGPT 用户推出！"gpt-5.5-chat-latest" 也将进入 API。 &gt；更加简洁。更好的记忆。更个性化。即时测试时间 👀

OpenAI模型发布

关联讨论 2 条

推荐理由：GPT-5.5 Instant这版从语气到长度都在优化，免费用户终于能摸到GPT-5.5的门槛了，实际体验可能会比参数更重要。

02:30

The Decoder：AI News（RSS）

精选72

ChatGPT 更新推出 GPT-5.5 Instant 模型，幻觉减少且答案更个性化

OpenAI 将 ChatGPT 的默认模型更新为 GPT-5.5 Instant。内部测试显示，该模型在医学和法律等高风险主题上产生的幻觉声称减少了 52.5%。新功能“记忆来源”允许用户查看影响特定回答的存储上下文。该模型正立即向所有用户推出，但基于过去聊天记录、文件和 Gmail 的个性化功能将首先在网页版上向 Plus 和 Pro 用户开放。此次更新旨在提升回答的准确性和个性化体验。

OpenAI产品更新安全/对齐

关联讨论 2 条

推荐理由：GPT-5.5 Instant换到默认模型，减少一半幻觉是个硬指标进步，记忆源让用户知道ChatGPT为什么这样回答，透明度这块终于追上了。

02:00

宝玉@dotey

精选77

OpenAI 将 ChatGPT 默认模型全面升级为 GPT-5.5 Instant

OpenAI 将 ChatGPT 默认模型全面升级为 GPT-5.5 Instant，替换原有的 GPT-5.3 Instant，并向所有用户推送。新模型显著减少了事实幻觉，在医疗、法律等高风险领域的错误率大幅降低，并在多项基准测试中性能提升。回答风格更为简洁，减少冗余内容。同时增强了记忆功能，能主动利用用户历史聊天记录等数据提供个性化回答，并上线“记忆来源”功能供用户管理引用。免费用户即可使用新版模型，付费用户可保留旧版三个月。个性化记忆功能将逐步向各版本用户开放。

OpenAI产品更新推理

关联讨论 2 条

推荐理由：默认模型直接换到 GPT-5.5 Instant，幻觉砍半、回答更简洁，还开始主动用你的聊天记录，日常对话的体验会有明显提升，值得看看具体变了什么。

01:42

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选75

GPT-5.5 Instant 系统卡片

OpenAI 于2026年5月5日发布了最新即时模型 GPT-5.5 Instant。该模型在网络安全、生物与化学防范两个类别首次被定位为“高能力”级别，并为此实施了相应的安全防护措施。其整体安全缓解方案与此系列前代模型相似。官方明确，不存在名为 GPT-5.4 Instant 的模型，其主要对标基线是 GPT-5.3 Instant。为避免混淆，GPT-5.5 模型被特指为 GPT-5.5 Thinking。

OpenAI安全/对齐模型发布

关联讨论 2 条

推荐理由：GPT-5.5 Instant 是第一个被 OpenAI 标记为「高能力」的 Instant 模型，安全评估里多了些新门槛，做 AI 安全的可以翻开系统卡看看具体红线画在哪。

01:31

ChatGPT@ChatGPTapp

精选83

GPT-5.5 Instant 开始向所有 ChatGPT 用户推出。更简洁。记忆更佳。更个性化。而且对话体验顺畅得多。真的。

OpenAI模型发布

关联讨论 2 条

推荐理由：GPT-5.5 Instant 不是 GPT-5，但对每天用 ChatGPT 的人来说，更简洁、更好记忆这些改动比跑分提升更实在，值得等推送。

01:30

OpenAI@OpenAI

精选86

GPT-5.5 Instant 正在 ChatGPT 中逐步推出。这是一次重大升级，以更温暖、更自然的语调为您提供更智能、更清晰、更个性化的答案。同时它也更加简洁，这正是我们所了解到的用户需求。我们相信您会喜欢与它对话。

OpenAI模型发布

关联讨论 2 条

推荐理由：GPT-5.5 Instant 是 OpenAI 给所有人的即时升级，更聪明更自然还更简洁，这可能是 ChatGPT 推出以来最接地气的版本迭代。

01:27

Eric@ericmitchellai

精选82

OpenAI宣布将ChatGPT的默认模型更新为GPT-5.5 Instant。新版模型在智能水平、图像理解能力和事实准确性方面均有显著提升。其回应风格变得更简洁、直接和自然，同时提供更个性化和清晰的答案。此次升级基于用户反馈，旨在提供更优质的对话体验。

OpenAI模型发布

关联讨论 2 条

推荐理由：ChatGPT 默认模型这次升级把智能、图片感知和事实性都拉高了一截，更简洁的写作风格可能终于解决了啰嗦的老毛病，所有用户开机就能感受到变化，值得第一时间试。

01:26

Chubby♨️@kimmonismus

精选83

OpenAI推出GPT-5.5 Instant作为ChatGPT新默认模型，实现显著升级

OpenAI正式将GPT-5.5 Instant设置为ChatGPT的新默认模型，该模型在基准测试中表现大幅提升，变得更智能、准确和可靠。其在图像分析、STEM、写作及医学、法律等高精度领域能力增强。核心升级在于个性化功能，能有效利用用户保存的记忆、过往聊天、文件和Gmail上下文，并展示影响回复的记忆来源。该模型将在未来两天内向所有用户推出，个性化改进优先面向网页版Plus和Pro用户，移动版随后跟进；API版本为gpt-5.5-chat-latest。官方表示，升级后的模型能提供更智能、清晰、个性化的答案，语气温暖自然且更简洁。

OpenAI多模态推理模型发布

关联讨论 2 条

推荐理由：ChatGPT默认模型直接换到GPT-5.5 Instant，个性化能力是代际跃迁，明天打开就能感受到不同。

01:12

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选82

GPT-5.5 Instant：更智能、更清晰、更个性化

ChatGPT的默认模型已更新为GPT-5.5 Instant。新版模型能提供更智能、更准确的答案，并有效减少了幻觉现象。同时，用户获得了更强的个性化控制能力，使交互体验更贴合个人需求。此次升级标志着模型在理解精度与响应定制化方面取得了显著进步。

OpenAI推理模型发布

关联讨论 2 条

推荐理由：ChatGPT默认模型替换为GPT-5.5 Instant，不只是变聪明，幻觉减少和个性化控制才是真改进，每个用户都能马上感觉到不同。

01:00

TestingCatalog News 🗞@testingcatalog

Inworld AI发布了新一代实时对话语音模型Realtime TTS-2。该模型的核心突破在于，能在说话前处理完整的多轮对话音频上下文，从而像真人一样实时适应对话情境。其关键特性包括：单一音色支持超过100种语言，首次音频生成延迟低于200毫秒，并能通过自然语言指令调整语音风格，无需预设情感标签。这标志着语音AI首次具备了"聆听"对话整体氛围而不仅是字面内容的能力，其架构设计旨在实现既自然动听又富有情境感知的对话体验。

产品更新语音

00:58

xAI@xai

精选80

Grok 4.3 现已在 xAI API 上线。这是我们迄今为止最快、最智能的模型。它在 @ArtificialAnlys 排行榜上的智能体工具调用和指令遵循方面位居榜首，并在 @ValsAI 的企业领域（如判例法和公司金融）中排名第一。 Grok 4.3 支持 100 万令牌的上下文窗口，定价为输入每百万令牌 1.25 美元，输出每百万令牌 2.50 美元。创建 API 密钥并开始构建：http：//console.x.ai/team/default/api-keys

智能体xAI推理模型发布

关联讨论 2 条

推荐理由：Grok 4.3 登顶 agentic tool calling 榜，定价有竞争力，做 agent 的值得认真看。虽然不算顶级发布，但 xAI 靠性能价格组合可能抢下不少性价比敏感开发者。

00:56

Rohan Paul@rohanpaul_ai

SubQ首发：1200万token上下文窗口，成本降低95%以上

SubQ模型发布，这是首个基于完全次二次稀疏注意力架构（SSA）的前沿LLM，拥有1200万token的上下文窗口。它在处理100万token时比FlashAttention快52倍，成本低于Opus的5%。该模型突破传统Transformer注意力计算所有token关系的限制，通过稀疏注意力选择性聚焦重要关系，使长上下文处理的计算量减少近1000倍，显著改变了LLM的成本曲线和扩展方式。

推理模型发布

5月5日

23:56

Luma@LumaLabsAI

精选71

Luma Labs 推出的 UNI-1.1-Max 和 UNI-1.1 多模态模型在 Image Arena 的文本生成图像与图像编辑综合排名中位列第三，且未采用智能体搜索技术。具体来看，在文本生成图像竞技场中，两款模型分别排名第六和第七；在多图像编辑和单图像编辑竞技场中，它们均进入前十一名，其中 UNI-1.1-Max 在单图像编辑中排名第七。这一成绩标志着 Luma Labs 在多模态前沿领域取得了扎实进展。

图像生成模型发布评测/基准

关联讨论 2 条

推荐理由：Luma这次更新在图像编辑上提升明显，直接挤进竞技场前三，对做设计和视频的人来说是个信号，但文本到图像还是老几样，可以观望一下。