🚀 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭 𝘂𝗽𝗱𝗮𝘁𝗲: ⚡ 𝗢𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲𝗱 𝗮𝗻 𝟴-𝘀𝘁𝗲𝗽 𝗱𝗶𝘀𝘁𝗶𝗹𝗹𝗲𝗱 𝗟𝗼𝗥𝗔: 100 NFE → 8 NFE, cutting H100 inference from 𝟮𝟯𝘀 𝘁𝗼 𝟮𝘀 🧩 𝗖𝗼𝗺𝗳𝘆𝗨𝗜 𝗶𝘀 𝗻𝗼𝘄 𝘀𝘂𝗽𝗽𝗼𝗿𝘁𝗲𝗱, with ready-to-run workflows for t2i, image editing, and interleaved generation Try it out 👇 https://github.com/OpenSenseNova/SenseNova-U1/

译🚀 SenseNova-U1 更新： ⚡ 开源8步蒸馏LoRA：100 NFE降至8 NFE，H100推理时间从23秒缩短至2秒 🧩 现已支持ComfyUI，提供文生图、图像编辑和交错生成的即用工作流试用链接 👇 https://github.com/OpenSenseNova/SenseNova-U1/

meng shao@shao__meng · 5月6日57

Luma Uni-1 把图像生成模型，在提示词和图像之间，加入一层显式推理，而且这层推理通过 API 对外可编程，不再是黑盒

译Luma发布的Uni-1图像生成模型在提示词与像素生成之间引入了一个显式推理步骤，用于解读创意方向并消除歧义。这一关键推理层现已通过API对外可编程开放，使其不再是黑盒，允许开发者将Uni-1作为智能基础设施集成到生产流程中。主要应用模式包括嵌入产品作为创作引擎、构建自定义多阶段工作流或开发独立工具。API提供的核心能力涵盖基于参考图像的风格或角色约束生成、在模型层面强制保持视觉一致性，以及通过自然语言指令进行精准编辑。

向阳乔木@vista8 · 5月6日63

前段时间参与了 Doubao-Seed-2.0-lite 0428 内测。这个版本升级，增加了音频理解，能同时支持图片、视频、音频、文本四种输入，成为豆包大模型家族首款全模态理解模型。除了全模态理解，据说 Agent、Coding、GUI 能力这次也都有明显提升。拿 API 做了一些测试，分享几个场景：前端动效复刻、视频Hooks建议、字幕识别等案例见后续 Thread

译Doubao-Seed-2.0-lite 0428 内测版本升级，新增音频理解功能，能同时支持图片、视频、音频和文本四种输入，成为豆包大模型家族首款全模态理解模型。该版本在 Agent、Coding 和 GUI 能力上也有明显提升。通过 API 测试，验证了其在前端动效复刻、视频Hooks建议和字幕识别等场景的应用潜力，具体案例详见后续推文线程。

Xiaomi MiMo@XiaomiMiMo · 5月6日59

MiMo V2.5 🥰🥰

译MiMo V2.5 🥰🥰 [引用 @Designarena]：突发：小米MiMo-V2.5在设计竞技场开放权重模型中综合排名第六！其Elo评分为1297，与@Kimi_Moonshot的Kimi K2.5（思考版）处于同一性能区间。祝贺@XiaomiMiMo团队发布成功！

歸藏(guizang.ai)@op7418 · 5月6日79

OpenAI 更新了 GPT-5.5 Instant 模型，现在变成了 ChatGPT 默认模型。模型提升了实时准确性和日常任务的表现，主要改进：性能优化：在法律、金融、医学等领域的幻觉率明显下降。同时，在图片理解和文档解析方面表现更好。表达风格：回答更加紧凑且聚焦要点，减少了无用的铺垫和过渡排版。简单来说就是废话变少了，之前的 5.5 版本（GPT-5.5）确实废话有点多。此外，个性化能力也得到了提升。发布状态：今天已经全量发布。ChatGPT 已经将其设为默认模型，Codex 没有更新。新功能引入：在 GPT 中引入了记忆来源功能。你可以通过控件可视化地查看 memory 来自什么地方，如果发现有问题，也可以直接编辑它。

译OpenAI 已全量发布 GPT-5.5 Instant 模型，并将其设为 ChatGPT 的默认模型。此次升级显著提升了模型的实时准确性和日常任务处理能力，特别是在法律、金融和医学等领域有效降低了幻觉率。同时，模型在图片理解与文档解析方面表现更佳。其回答风格变得更加简洁、聚焦要点，并增强了清晰度、个性化以及温暖自然的语调。此外，GPT 引入了记忆来源功能，允许用户可视化查看并编辑记忆的来源。本次更新未包含 Codex 模型。

karminski-牙医@karminski3 · 5月6日73

Google 刚刚发布了 Gemma 4系列模型的草稿专用模型! 31B Dense 搭配草稿模型速度竟然能提升3倍! 付出的代价仅仅是多花 1G 显存! 另外 Gemma4-26B 也能提升1.5x 速度, Gemma4-E4B 更是能提升3.1x 速度. 我之前给大家做过 Gemma 4 推测性解码的教程, 当时官方还没有专用草稿模型, 所以我给大家演示的是 gemma-4-31B-it-UD-Q4_K_XL 作为主模型, 然后使用 gemma-4-E2B-it-UD-Q4_K_XL 作为草稿模型, 速度可以提升 1.23x, 草稿接受率在62% 左右. 这次直接翻三倍原因很简单, 因为之前用的 gemma-4-E2B-it-UD-Q4_K_XL 即使已经是量化模型了, 大小也有3GB左右, 而这次的 gemma-4-31B-it-assistant 即使是原始精度也只有 939 MB! 而且是专门为了推测性解码优化的! 接受率也会高. 所以提速自然就明显了. 而代价也仅仅是显存中再多加载这个模型就可以了(大概1GB显存开销). 现在压力来到了 Qwen 这边, 建议 Qwen 赶紧推出 Qwen3.6-27B-assistant, 再不推出我的显卡可是要红温了, 我天天cue你们嗷! #gemma4 #qwen #gemma4assistant #推测性解码 #投机解码

译Google发布了Gemma 4系列模型的专用草稿模型，用于推测性解码优化。31B Dense模型搭配草稿模型速度提升3倍，仅增加1G显存开销；Gemma4-26B和Gemma4-E4B分别提升1.5倍和3.1倍速度。新草稿模型如gemma-4-31B-it-assistant体积仅939 MB，专门优化后接受率高，相比之前使用非专用草稿模型（如gemma-4-E2B-it-UD-Q4_K_XL）提速更明显。作者呼吁Qwen尽快推出类似优化模型（如Qwen3.6-27B-assistant），以应对高性能需求。

meng shao@shao__meng · 5月6日77

全球首个基于 Subquadratic Sparse Attention (SSA) 架构的前沿 LLM ~「SubQ」，实现 12M token 的实用上下文窗口，同时在效率上大幅领先传统 Transformer，来自 @subquadratic 技术核心突破：SSA 机制传统 Transformer 的标准注意力是全对全（all-pairs），计算复杂度为 O(n²)，导致长上下文成本爆炸。大多数 token 间的交互实际无意义，却仍需全量计算。 SSA 的创新在于内容依赖的选择（content-dependent selection）： · 每个 query 只动态挑选真正相关的 key 位置进行注意力计算。 · 实现线性缩放（linear scaling）：计算与内存成本随序列长度线性增长，而非二次方。 · 同时保留内容驱动路由与任意位置精确检索能力，避免了固定模式稀疏注意力（位置无关）、RNN/SSM（状态压缩丢失细节）或 DeepSeek DSA（selector 仍为二次方）等方案的权衡。实测效果（B200 GPU + FlashAttention-2 对比）： · 128K token：7.2× 预填充加速 · 1M token：52.2× 加速 · 成本 < Opus 的 5%，支持 12M token 上下文。训练与功能定位 SubQ 采用三阶段训练（预训练 → SFT → RL），特别强化长上下文下的可靠检索与多跳推理，针对企业真实场景（如完整代码库、长合同、跨文档研究）优化，而非仅追求基准分。功能定位：解决“名义上下文窗口”（能塞多少 token） vs “功能上下文窗口”（能有效利用多少 token）的鸿沟。适用于 Coding Agent、长期 Agent 会话、企业知识库等需要“一次性看全”而非 RAG/分块的场景。 SubQ Code 也可以申请试用，我也刚刚申请，期待通过后再做具体分享。申请链接在这： https://subq.ai/request-early-access

译前沿模型SubQ基于创新的Subquadratic Sparse Attention架构，实现了1200万token的实用上下文窗口。其核心技术SSA通过内容依赖的选择机制，让每个查询仅动态计算与相关键的注意力，使计算和内存成本随序列长度线性增长，而非传统Transformer的二次方增长。实测在100万token时比FlashAttention-2快52.2倍，成本低于Opus的5%。该模型针对需要一次性处理完整代码库、长文档等企业真实长上下文场景优化，旨在弥合“名义上下文”与“功能上下文”窗口的差距。

Berryxia.AI@berryxia · 5月6日66

Gemma 4 现在最高能跑到 3倍速度，而且质量完全不变。他们没有增加参数、没有换新架构，只是推出了一套 MTP drafters（多 token 预测草稿机），让模型一次预测多个 token，彻底绕过了传统 autoregressive 一个词接一个词的串行瓶颈。 GPU 不再傻等，它开始“预判”了。这意味着：本地部署实时性大幅提升 Agent、代码生成、实时翻译这些场景直接起飞开源模型在性价比上的优势又被拉大一截 Google 这次玩的不是参数战，只是把硬件利用率直接压榨到极致。当闭源模型还在拼“谁更聪明”的时候，开源已经在拼“谁更快、更便宜、还能本地跑”了。博客在这里👉 https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

译Google通过为Gemma 4引入MTP drafters（多token预测草稿机），在不增加参数、不改变架构和模型质量的前提下，实现了最高3倍的推理速度提升。该技术让模型能一次预测多个token，突破了传统自回归解码的串行瓶颈，极大提升了GPU利用率。这显著增强了本地部署的实时性，并使Agent、代码生成等场景受益，进一步放大了开源模型在性价比和本地运行方面的优势。

Berryxia.AI@berryxia · 5月6日67

今天这个tts有点东西啊！所有TTS都在卷“声音有多像人”， Inworld AI却直接把规则改了： Realtime TTS-2 是第一个真正“会听”的实时语音模型。它不只是说，它会实时听完整段对话、捕捉情绪、语气、节奏，然后决定“该怎么说”。更狠的是： - 支持自然语言语音指令（像prompt LLM一样指挥声音） - 同一个声音身份横跨100+语言，切换不换人 - 还能用一段文字描述就生成全新声音，保存后直接复用这已经不是“语音输出”，而是“会倾听、会共情、会适配”的实时对话伙伴。过去语音AI听起来再真，也总像在背台词。现在，它终于开始“像一个真正注意你的人”那样说话了。试用链接👉 https://inworld.ai/tts

译Inworld AI 发布了新一代实时对话语音模型 Realtime TTS-2，突破了传统TTS仅追求拟人化的竞争框架。该模型能够实时倾听完整对话，捕捉情绪、语气与节奏，动态决定回应方式，成为一个“会倾听、会共情、会适配”的对话伙伴。其关键创新包括：支持用自然语言语音指令像指挥大语言模型一样调整声音；同一声音身份可跨100多种语言保持一致性；还能通过文字描述生成全新声音并保存复用。这标志着语音AI从机械的“语音输出”迈向更贴近真人互动的“实时对话”时代。

Berryxia.AI@berryxia · 5月6日75

O社的 GPT-5.5 Instant 开始在 ChatGPT 中推出。这是一个重大升级，让你获得更智能、更清晰、更个性化的回答，语气更温暖、更自然。

Rohan Paul@rohanpaul_ai · 5月6日76

OpenAI just made GPT-5.5 Instant the default ChatGPT model, with fewer false claims, shorter answers, stronger image and STEM handling, and deeper personalization from memory, files, past chats, and connected Gmail. 52.5% fewer hallucinated claims than GPT-5.3 Instant on high-stakes medicine, law, and finance prompts, plus 37.3% fewer inaccurate claims on difficult conversations users had already flagged for factual errors. The model also uses 30.2% fewer words and 29.2% fewer lines in one comparison, which means OpenAI is tuning for answers that explain enough without burying the user in structure. Also, ChatGPT can now pull useful context from saved memories, past chats, files, and Gmail when that context improves the answer.

译OpenAI已将GPT-5.5 Instant设置为ChatGPT的默认模型。该模型在医学、法律和金融等关键提示上的虚假陈述比前代减少52.5%，在用户标记过事实错误的困难对话中不准确陈述降低37.3%。回答更简洁，用词和行数减少约30%。同时，模型增强了图像和STEM处理能力，并能从记忆、过往对话、文件及连接的Gmail中提取上下文以实现深度个性化。OpenAI表示，此次升级旨在提供更智能、清晰、个性化且语气自然温暖的回答。

Eric@ericmitchellai · 5月6日43

big if true (actually small)

译如果是真的就厉害了（其实很小）

Chubby♨️@kimmonismus · 5月6日66

Really really cool: Sub-200ms TTFA is the number that matters. Anything above ~300ms in a voice agent and you can feel the lag. Everything else is downstream of that.

译主推文强调语音代理的首次音频响应时间（TTFA）低于200毫秒至关重要，超过300毫秒即可感知延迟。引用推文介绍了专为实时对话设计的Realtime TTS-2新一代语音模型，该模型能理解对话内容、接受自然语言语音指令、在超过100种语言中保持同一声音身份，并能模拟人类专注的说话方式，最终实现听觉与体验俱佳的语音AI效果。

ChatGPT@ChatGPTapp · 5月6日73

High fives to all our users on the new Instant model.

译向我们所有使用新即时模型的用户致以热烈的祝贺。

Sam Altman@sama · 5月6日49

in particular, the combination of improvements to speed, intelligence, personality, and great memory/personalization feels like a more-than-sum-of-the-parts thing when it all hits together

译特别是当速度、智能、个性以及强大的记忆/个性化功能这些改进结合在一起时，它们共同作用所产生的效果，感觉像是超越了各部分简单相加的总和 [引用 @sama]：chatgpt中的新即时模型真是太棒了如果你已经有一段时间只使用思考模型，不妨试试它！

Greg Brockman@gdb · 5月6日91

Major ChatGPT upgrade rolling out now, in the form of GPT-5.5 Instant:

译重大ChatGPT升级现正推出，形式为GPT-5.5 Instant：这是一次重大升级，以更温暖自然的语调提供更智能、更清晰、更个性化的答案。同时它也更简洁，这正是我们所了解到的用户需求。我们相信你会喜欢与它对话。

Elon Musk@elonmusk · 5月6日83

Grok 4.3

译Grok 4.3 [引用 @xai]：Grok 4.3 现已在 xAI API 上线。这是我们迄今为止最快、最智能的模型。它在 @ArtificialAnlys 排行榜的智能体工具调用和指令遵循方面位居榜首，并在 @ValsAI 的企业领域（如案例法和公司金融）中排名第一。 Grok 4.3 支持 100 万 token 的上下文窗口，定价为输入每百万 token 1.25 美元，输出每百万 token 2.50 美元。创建 API 密钥并开始构建：http://console.x.ai/team/default/api-keys

TestingCatalog News 🗞@testingcatalog · 5月6日71

Google released Multi-Token Prediction (MTP) drafters for the Gemma 4 family. It comes with a 3x speed boost without losing performance. Looking forward to testing a quantized Gemma 4 with MTP drafters on a Mac Mini!

译Google为Gemma 4系列发布了多令牌预测（MTP）草稿模型。它在不损失性能的情况下带来了3倍的速度提升。期待在Mac Mini上测试带有MTP草稿模型的量化版Gemma 4！

TestingCatalog News 🗞@testingcatalog · 5月6日77

OPENAI 🚨: GPT-5.5 Instant is rolling out to all users on ChatGPT! "gpt-5.5-chat-latest" is coming to APIs as well. > Much more concise. Better memory. More personalized. Instant testing time 👀

译OPENAI 🚨: GPT-5.5 Instant 正在向所有 ChatGPT 用户推出！"gpt-5.5-chat-latest" 也将进入 API。 > 更加简洁。更好的记忆。更个性化。即时测试时间 👀

宝玉@dotey · 5月6日77

OpenAI 把 ChatGPT 的默认模型升级成了 GPT-5.5 Instant，从今天开始替换原来的 GPT-5.3 Instant，全量推送给所有用户。 Instant 是 ChatGPT 里反应最快的日常档，几亿人每天都在用，这次升级针对的也是日常问答场景。【1】幻觉显著减少 OpenAI 内部测试的数据：在医疗、法律、金融这类答错代价很高的高风险问题上，GPT-5.5 Instant 编造事实的概率比上一代少 52.5%。在用户实际标记过"这答错了"的对话上，错误率降 37.3%。跑分跟着上来：博士级科学题 GPQA 从 78.5% 升到 85.6%，AIME 2025 数学竞赛从 65.4% 跳到 81.2%，多模态推理 MMMU-Pro 从 69.2% 提到 76%。【2】回答更短，废话更少以前 ChatGPT 经常被吐槽答得太啰嗦，问个简单问题能给你回三屏。新版明显收敛，不必要的反问、过度排版和表情符号都少了。【3】主动用你的过去聊天记录如果你连了 Gmail、上传过文件、之前和它聊过别的事，新版会更主动地把这些内容拿来用。比如问"推荐一家新茶饮店"，它会参考你之前说过常去哪、偏好哪种风格，给出更贴你的答案，而不是泛泛列几家热门店。 OpenAI 同时上线了一个叫"记忆来源"（memory sources）的功能，每条用到记忆的回答都可以点开看具体引用了什么，不想被引用的内容随时删掉。【4】发布节奏今天起向所有 ChatGPT 用户推送，免费档也能用。API 里的别名是 chat-latest。付费用户想保留旧版的，GPT-5.3 Instant 在模型设置里还会留三个月。个性化记忆功能先上 Plus 和 Pro 的网页端，移动端随后跟进，Free、Go、Business、Enterprise 之后再逐步开放。

译OpenAI 将 ChatGPT 默认模型全面升级为 GPT-5.5 Instant，替换原有的 GPT-5.3 Instant，并向所有用户推送。新模型显著减少了事实幻觉，在医疗、法律等高风险领域的错误率大幅降低，并在多项基准测试中性能提升。回答风格更为简洁，减少冗余内容。同时增强了记忆功能，能主动利用用户历史聊天记录等数据提供个性化回答，并上线“记忆来源”功能供用户管理引用。免费用户即可使用新版模型，付费用户可保留旧版三个月。个性化记忆功能将逐步向各版本用户开放。

ChatGPT@ChatGPTapp · 5月6日83

GPT-5.5 Instant is starting to roll out to everyone in ChatGPT. Much more concise. Better memory. More personalized. And it's way easier to talk to. Really.

译GPT-5.5 Instant 开始向所有 ChatGPT 用户推出。更简洁。记忆更佳。更个性化。而且对话体验顺畅得多。真的。

OpenAI@OpenAI · 5月6日86

GPT-5.5 Instant is starting to roll out in ChatGPT. It’s a big upgrade, giving you smarter, clearer, and more personalized answers in a warmer, more natural tone. And it's also more concise, which we heard you wanted. We think you'll love chatting with it.

译GPT-5.5 Instant 正在 ChatGPT 中逐步推出。这是一次重大升级，以更温暖、更自然的语调为您提供更智能、更清晰、更个性化的答案。同时它也更加简洁，这正是我们所了解到的用户需求。我们相信您会喜欢与它对话。

Eric@ericmitchellai · 5月6日82

Excited that we're updating the default model in ChatGPT today! 5.5 instant is a substantial improvement in intelligence, image perception, and factuality. It also updates the writing style to be a bit plainer and more straightforward. What was on your wishlist?

译OpenAI宣布将ChatGPT的默认模型更新为GPT-5.5 Instant。新版模型在智能水平、图像理解能力和事实准确性方面均有显著提升。其回应风格变得更简洁、直接和自然，同时提供更个性化和清晰的答案。此次升级基于用户反馈，旨在提供更优质的对话体验。

Chubby♨️@kimmonismus · 5月6日83

Nice, big update: OpenAI is rolling out GPT-5.5 Instant in ChatGPT as the new default model (very good jumps in benchmark) The upgrade makes ChatGPT smarter, more factual, more dependable, and better at everyday tasks like image analysis, STEM questions, writing, and high-accuracy domains such as medicine, law, and finance. The bigger shift is personalization: ChatGPT can now use saved memories, past chats, files, and connected Gmail context more effectively, while showing users which memory sources influenced a response. GPT-5.5 Instant will roll out to all ChatGPT users over the next two days, while personalization improvements are coming first to Plus and Pro users on web, with mobile following soon. In the API, it will be available as gpt-5.5-chat-latest.

译OpenAI正式将GPT-5.5 Instant设置为ChatGPT的新默认模型，该模型在基准测试中表现大幅提升，变得更智能、准确和可靠。其在图像分析、STEM、写作及医学、法律等高精度领域能力增强。核心升级在于个性化功能，能有效利用用户保存的记忆、过往聊天、文件和Gmail上下文，并展示影响回复的记忆来源。该模型将在未来两天内向所有用户推出，个性化改进优先面向网页版Plus和Pro用户，移动版随后跟进；API版本为gpt-5.5-chat-latest。官方表示，升级后的模型能提供更智能、清晰、个性化的答案，语气温暖自然且更简洁。

TestingCatalog News 🗞@testingcatalog · 5月6日69

Inworld AI released Realtime TTS-2, a text-to-speech model that processes the full audio context of multi-turn exchanges before it speaks, adapting to the moment the way a person would. > One voice identity across 100+ languages. > Sub-200ms time-to-first-audio. > Natural-language voice direction, no emotion tag presets. AI that hears how you sound, not only what you say, is now a real architecture decision.

译Inworld AI发布了新一代实时对话语音模型Realtime TTS-2。该模型的核心突破在于，能在说话前处理完整的多轮对话音频上下文，从而像真人一样实时适应对话情境。其关键特性包括：单一音色支持超过100种语言，首次音频生成延迟低于200毫秒，并能通过自然语言指令调整语音风格，无需预设情感标签。这标志着语音AI首次具备了“聆听”对话整体氛围而不仅是字面内容的能力，其架构设计旨在实现既自然动听又富有情境感知的对话体验。

xAI@xai · 5月6日80

Grok 4.3 is now live on the xAI API. It’s our fastest, most intelligent model to date. It tops the @ArtificialAnlys leaderboards in agentic tool calling and instruction following, and ranks #1 in @ValsAI enterprise domains like case law and corporate finance. Grok 4.3 supports a 1 million token context window and is priced at $1.25/m input and $2.50/m output. Create an API key and start building: http://console.x.ai/team/default/api-keys

译Grok 4.3 现已在 xAI API 上线。这是我们迄今为止最快、最智能的模型。它在 @ArtificialAnlys 排行榜上的智能体工具调用和指令遵循方面位居榜首，并在 @ValsAI 的企业领域（如判例法和公司金融）中排名第一。 Grok 4.3 支持 100 万令牌的上下文窗口，定价为输入每百万令牌 1.25 美元，输出每百万令牌 2.50 美元。创建 API 密钥并开始构建：http://console.x.ai/team/default/api-keys

Rohan Paul@rohanpaul_ai · 5月6日65

The first frontier model with a 12 million token context window just launched. - 52x faster than FlashAttention at 1MM tokens - Less than 5% the cost of Opus @subquadratic just announced a major breakthrough in changing the cost curve of attention in LLM. They brought a frontier-scale LLM built entirely around sub-quadratic sparse attention, where the model selectively computes only the important token relationships so very long context can scale far cheaper and faster than standard transformer attention. In normal transformers, long context is painfully expensive because as context grows, the attention work grows roughly with the square of the sequence length. A 1M-token document is not just “a long document” for a normal model; it is a massive grid of possible token relationships. SubQ’s key technique is that most of that grid is useless. A legal contract does not need every comma to compare itself with every sentence from 400 pages ago. A codebase does not need every variable name to attend equally to every unrelated file. SubQ is saying: let the model find the few relationships that probably matter, then spend compute there.

译SubQ模型发布，这是首个基于完全次二次稀疏注意力架构（SSA）的前沿LLM，拥有1200万token的上下文窗口。它在处理100万token时比FlashAttention快52倍，成本低于Opus的5%。该模型突破传统Transformer注意力计算所有token关系的限制，通过稀疏注意力选择性聚焦重要关系，使长上下文处理的计算量减少近1000倍，显著改变了LLM的成本曲线和扩展方式。

Luma@LumaLabsAI · 5月5日71

Multimodal at the frontier. Built around your business.

译Luma Labs 推出的 UNI-1.1-Max 和 UNI-1.1 多模态模型在 Image Arena 的文本生成图像与图像编辑综合排名中位列第三，且未采用智能体搜索技术。具体来看，在文本生成图像竞技场中，两款模型分别排名第六和第七；在多图像编辑和单图像编辑竞技场中，它们均进入前十一名，其中 UNI-1.1-Max 在单图像编辑中排名第七。这一成绩标志着 Luma Labs 在多模态前沿领域取得了扎实进展。

Artificial Analysis@ArtificialAnlys · 5月5日52

Who do you think created the Peanut 🥜 Image model? 👀 Join the discussion on Discord and share your take: https://discord.gg/8bhAmNw5Z2

译匿名文生图模型Peanut在Artificial Analysis文生图竞技场中首次亮相即位列第八。其模型权重预计很快发布，届时将成为领先的开源权重文生图模型。Peanut被定位为新的开源领导者，性能预计将超越Z-Image Turbo、Qwen-Image和FLUX.2 [dev]等现有模型。更多细节和权重文件即将公布。

Artificial Analysis@ArtificialAnlys · 5月5日69

A new anonymous model debuts at #8 in the Artificial Analysis Text to Image Arena! Peanut’s weights are expected to be released soon, which would make it the leading Text to Image Open Weights Model. Peanut is positioned to be the new leading open weights Text to Image model, surpassing Z-Image Turbo, Qwen-Image, and FLUX.2 [dev]. Further details (and weights) coming soon. See example generations from Peanut in the Artificial Analysis Image Arena below 🧵

译一款新的匿名模型在Artificial Analysis文本转图像竞技场中首次亮相，位列第8！Peanut的权重预计即将发布，这将使其成为领先的文本转图像开源权重模型。 Peanut定位为新的领先开源权重文本转图像模型，超越了Z-Image Turbo、Qwen-Image和FLUX.2 [dev]。更多详细信息（及权重）即将公布。查看下方🧵中Artificial Analysis图像竞技场里Peanut的生成示例。

Elon Musk@elonmusk · 5月5日41

Try Grok

译在“Vals AI”的私人基准测试中，Grok 4.3在法律和金融领域展现出领先的智能水平。它在CaseLaw (v2)测试中以79.31%的准确率排名第一，该测试基于真实加拿大法庭案例，评估深度法律推理和先例理解能力，表现优于GPT-5.1。同时，它在针对复杂长期信贷协议的CorpFin (v2)测试中以68.53%的准确率夺冠，评估了对多页金融合同条款、风险的理解。这些模拟高风险现实挑战的测试表明，Grok 4.3在最困难的任务中具备卓越的推理能力。xAI正致力于构建世界所需的推理引擎。

Chubby♨️@kimmonismus · 5月4日62

A little-known startup just landed on the @ArtificialAnlys AI Video leaderboard, now ranked among the top 6 in the world. Very cool @video_rebirth

译初创公司Video Rebirth的文本生成视频模型Bach-1.0 Preview在Artificial Analysis的全球AI视频排行榜上首次亮相即位列第六。其性能与Vidu Q3 Pro、Kling 3.0 Omni 1080p (Pro)及grok-imagine-video等知名模型相当。该模型计划于五月下旬广泛发布。

Rohan Paul@rohanpaul_ai · 5月4日64

A startup in the Top 6 on Artificial Analysis Text-to-Video Leaderboards Alongside Alibaba, ByteDance, and xAI. Video Rebirth came out of nowhere. The AI video leaderboard has been exclusively trillion-dollar companies. Today, a startup just broke in. Video Rebirth. Super realistic results. Their model BACH just hit Top 6 on @ArtificialAnlys.

译初创公司Video Rebirth凭借其模型Bach-1.0 Preview，在Artificial Analysis的文本转视频榜单中首次进入前六名，打破了该榜单长期由阿里巴巴、字节跳动、xAI等万亿美元级巨头主导的局面。其模型性能与Vidu Q3 Pro、Kling 3.0 Omni 1080p (Pro)及grok-imagine-video等顶尖模型相当，并计划于五月下旬广泛发布。这一突破标志着初创企业在高质量AI视频生成领域取得了显著进展，为该领域的竞争格局带来了新的变数。

小互@xiaohu · 5月4日56

据传Google将在本月的Google I/O 大会上发布一个全新的模型将 Gemini 从“聊天助手”推向“全模态生产力入口” 一个名为Omni 的疑似新模型泄露它可能会承担更深的视频与多模态生成能力，甚至让 Gemini 原生支持视频输出，而不只是文字、图片和调用外部视频模型。如果这个方向成立，Gemini 接下来真正要拼的就不只是模型分数，而是“一个入口完成多种内容生产”：写作、图片、视频、长上下文记忆、复杂任务流，全部都在 Gemini 里打通。同时，Gemini 3.2、3.5 也被传正在测试，重点可能会放在更快、更高效的推理体验上。 Ultra 版本则可能继续往长上下文、重记忆、多步骤工作流方向演进，服务那些需要连续执行、反复调用上下文的高价值任务。

译据传谷歌将在I/O大会发布名为“Omni”的新模型，旨在将Gemini从聊天助手升级为集成写作、图片、视频、长上下文记忆与复杂任务流的全模态生产力平台。该模型可能原生支持视频生成与输出，超越现有的Veo 3.1。同时，Gemini 3.2/3.5版本或专注于提升推理速度与效率，而Ultra版本则向长上下文、重记忆及多步骤工作流方向深化。若消息属实，Gemini将成为首个具备视频输出能力的顶级Omni模型。

Artificial Analysis@ArtificialAnlys · 5月4日56

Bach-1.0 Preview from Video Rebirth debuts at #6 on the Artificial Analysis Text to Video Leaderboard (No Audio)! Bach-1.0 Preview is the latest Text to Video model from @video_rebirth, with similar performance to Vidu Q3 Pro, Kling 3.0 Omni 1080p (Pro), and grok-imagine-video. Bach-1.0 Preview is intended for broad release later in May. See example generations from Bach-1.0 Preview in the Artificial Analysis Video Arena below 🧵

译Bach-1.0 Preview from Video Rebirth 在 Artificial Analysis 文本转视频排行榜（无音频）中首次亮相，位列第6！ Bach-1.0 Preview 是来自 @video_rebirth 的最新文本转视频模型，其性能与 Vidu Q3 Pro、Kling 3.0 Omni 1080p (Pro) 和 grok-imagine-video 相近。 Bach-1.0 Preview 计划于五月下旬广泛发布。在下方 Artificial Analysis 视频竞技场中查看 Bach-1.0 Preview 的生成示例 🧵

Chubby♨️@kimmonismus · 5月3日45

Google Omni model incoming. Probably being prepared for google i/o. However i assume they will launch a new video model with it instead of Veo 3.1 since Seedance jumped to the top a few months ago

译据泄露信息显示，谷歌可能正在为其Gemini平台测试一款全新的Omni模型，专注于视频生成功能，其界面标语为“由Omni驱动”。该模型的内部代号接近当前基于Veo的视频工具“Toucan”。分析指出，若谷歌正式发布名为Gemini Omni的视频生成模型，其性能很可能超越现有的Veo 3.1版本。此举若成真，Gemini将成为首个具备视频输出能力的顶级Omni模型，相关进展或于即将到来的Google I/O大会上正式公布。

TestingCatalog News 🗞@testingcatalog · 5月3日58

GOOGLE I/O 🚨: A NEW OMNI MODEL IS BEING TESTED ON GEMINI FOR VIDEO GENERATION! > "Start with an idea or try a template. Powered by Omni." > This is a new leaked headline from the video generation tab on Gemini. > Omni appears close to "Toucan", an internal name of the current video generation tool powered by Veo. > If Google plans to release Gemini Omni for video generation, it would likely outperform Veo 3.1. > If true (as it is still highly speculative), Gemini will be the first top-tier Omni model with video output! Google I/O 2026 will be hot 🔥

译谷歌正在其Gemini平台测试一款名为“Omni”的新模型，专注于视频生成功能。泄露信息显示，该模型的界面提示用户“从一个想法开始或尝试一个模板”，并注明“由Omni驱动”。这一模型可能与内部代号“Toucan”的视频生成工具密切相关，后者目前由Veo驱动。如果谷歌计划正式发布用于视频生成的Gemini Omni，其性能很可能超越当前的Veo 3.1版本。若消息属实，Gemini将成为首个具备视频输出能力的顶级Omni模型，这标志着谷歌在视频生成领域的重大技术进展，并可能为未来的Google I/O 2026活动预热。此举显示了谷歌在人工智能视频生成方面的持续创新和竞争态势。

Chubby♨️@kimmonismus · 5月2日51

Nice! Google is preparing for I/o. New models soon

译不错！Google 正在为 I/O 大会做准备。新模型即将推出

TestingCatalog News 🗞@testingcatalog · 5月2日66

GOOGLE 🚨: A new Gemini Flash model has been spotted on LM Arena. Besides that, Vertex AI customers who still use Gemini Flash 2 received an email that it will be distributed soon. > Transition to Gemini 3.1 Flash Lite - Generaly Available soon! Soon 🔜 h/t @hishtadlut

译谷歌新的Gemini Flash模型已在LM Arena上出现。同时，Vertex AI客户收到邮件，Gemini 3.1 Flash Lite即将正式发布。引用推文指出，虽然模型在竞技场中仍显示为“Gemini 3 Flash”，但其输出质量已跃升两个层级，性能更接近当前的Gemini 3.1 Pro，是一次重大升级，实际版本可能是3.1、3.2或3.5 Flash。

Elon Musk@elonmusk · 5月2日54

Grok #1 in law

译Grok在法律领域排名第一 [引用 @ArthurMacwaters]：Grok 4.3发布 > 判例法领域第一 > 公司金融领域第一 > 考虑到每百万tokens成本显著更低（比opus 4.7和openai 5.5低5-10倍），表现令人印象深刻看到在高度注重细节的应用领域性能大幅提升，非常令人兴奋