5月20日

00:09

歸藏(guizang.ai)@op7418

哇！谷歌新视频模型 Gemini Omni Flash 已经上线 FLow

Google 多模态模型发布视频

5月19日

23:18

Qwen：Blog Retrieval（API）

精选77

Qwen3.5-LiveTranslate：从声音到视觉，从词语到准确

Qwen3.5-LiveTranslate-Flash 是 Qwen 家族最新的同声传译模型，基于 Qwen3.5-Omni 架构，支持实时多模态翻译（音频、视频及视觉上下文）。语言覆盖大幅扩展：输入音频与输出文本从18种增至60种，输出音频从10种增至29种。采用 Readable Unit 技术，平均端到端每 token 延迟降至2.8秒，相比前代首 token 延迟降低3.45秒、每 token 延迟降低1.88秒。支持一句话启动的实时语音克隆和可动态配置的热词增强。在 FLEURS 和 CoVoST2 基准上翻译准确率超越主流商用大语音模型。

多模态模型发布语音

推荐理由：这个版本让同声传译从“能用”变成了“好用”，语言覆盖从 18 跃升 60，延迟压到 2.8 秒，加上视觉消除歧义，做国际业务和直播的人值得跟进。

23:09

歸藏(guizang.ai)@op7418

谷歌新的视频模型 Gemini Omni 已经开始放量了

Charlie L.: Gemini Omni is starting to rollout for some users!

Google 模型发布视频

23:01

Hugging Face：Blog（RSS）

精选60

引入 Ettin Reranker 系列

Hugging Face 发布六个 Ettin Reranker 重排序模型（17m、32m、68m、150m、400m、1b），基于 Ettin ModernBERT 编码器，蒸馏 self-mxbai-rerank-large-v2 分数训练，在 MTEB(eng, v2) Retrieval 达各自规模 SOTA。模型以 Sentence Transformers CrossEncoder 接口提供，三行代码可调用。同时发布 train-sentence-transformers Agent Skill（v5.5.0），允许 AI 编码智能体在用户数据上微调模型。训练配方、数据集和脚本已全部开源。

Hugging Face 检索增强开源/仓库搜索

推荐理由：从17M到1B的全尺寸reranker家族，每个量级都是SOTA，而且训练数据和代码全开放，做搜索和RAG的开发者可以无痛替换旧模型。

22:27

The Decoder：AI News（RSS）

Agora-1 将 N64 经典游戏《GoldenEye》转变为可供四人游玩的 AI 模拟

Odyssey 公司发布了世界模型 Agora-1，该模型允许最多四名玩家同时在 AI 生成的虚拟世界中进行行动。该技术已在经典游戏《GoldenEye》上得到验证，其核心是使用两个独立的模型分别实时处理游戏状态模拟与画面渲染。开发团队认为，这项技术未来在协作机器人和 AI 智能体训练领域具有应用潜力。

智能体多模态模型发布

20:52

AYi@AYi_AInotes

Damn it！SAM3绝逼要封神了！不但开源而且强的一批！最牛逼的地方是追踪能力，即使在篮球比赛这种复杂到爆炸的场景里也稳得一逼！！

Meta 开源生态模型发布视频

20:33

🚨 AI News | TestingCatalog@testingcatalog

精选76

谷歌I/O 🔥：我们今天将迎来 Gemini 3.5 Flash！ &gt； GEMINI &gt； GEMINI &gt； GEMINI &gt； GEM 👀 【引用 @AiBattle_】：Gemini 3.5 Flash 刚刚出现在 Google Cloud 控制台中它来了

AiBattle: Gemini 3.5 Flash just showed up in the Google Cloud Console It's coming

Google 推理模型发布

推荐理由：如果 Cloud Console 截图属实，今天 I/O 上 Gemini 3.5 Flash 就是板上钉钉，它能压到多低延迟比分数更重要，实时应用开发者该盯紧。

17:58

Rohan Paul@rohanpaul_ai

Gemini 3.5将在几小时后发布。🔥 【引用 @_anshulr】：Gemini Gemini Gemini Gem

Anshul Ramachandran: Gemini Gemini Gemini Gem

Google 模型发布

16:51

IT之家（RSS）

精选74

地平线开源 HoloMotion-1 4 亿参数机器人小脑大模型，可实现舞蹈、健身、搬箱子等动作

地平线机器人实验室发布了其开源的人形机器人全身控制模型 HoloMotion-1。这是一个拥有 4 亿参数的“小脑”大模型，通过 MoE 稀疏激活与 KV-cache 推理机制，在端侧实现了约 300FPS 的实时推理能力。该模型利用互联网视频、光学动捕、VR 遥操作等多种来源的动作数据进行训练，并在真实机器人上成功展示了舞蹈、爬行、健身、搬箱子等复杂动作的零样本迁移能力。相关代码与技术报告已公开。

具身智能开源生态模型发布

推荐理由：地平线开源的这个4亿参数模型，把机器人“小脑”拉到一个小模型级别，300FPS实时跑在端侧，零样本跳舞搬箱子，搞具身智能的该跟进看看了。

14:50

Hacker News 热门（buzzing.cc 中文翻译）

Agora-1：多智能体世界模型

Agora-1是一个新发布的多智能体世界模型，旨在为人工智能系统提供对复杂环境进行协同模拟与推理的能力。该模型聚焦于让多个AI智能体在共享的虚拟世界中互动、规划和协作，可能应用于机器人控制、游戏AI或复杂场景仿真等前沿领域。其发布标志着多智能体系统与环境建模技术融合的一个新进展。

智能体模型发布视频

11:10

Alibaba Cloud@alibaba_cloud

🚀🚀Qwen3.7预览版登陆竞技场！ ⚡️⚡️Qwen3.7-Plus-Preview来了。阿里巴巴现在在视觉领域排名第五。🎨 迫不及待要发布Qwen3.7系列模型了！敬请期待！@arena

Arena.ai: In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.

多模态模型发布评测/基准

11:10

Alibaba Cloud@alibaba_cloud

阿里巴巴旗下通义千问的Qwen3.7系列模型在AI评测平台Arena首次公开。其中，Qwen3.7 Max Preview在文本竞技场总排名第13，使阿里在该平台位列第六；在数学、专业知识、软件与IT、编程等多个细分领域排名进入前十。此外，Qwen3.7 Plus Preview在视觉竞技场排名第16，阿里在该领域位列第五。官方表示即将正式发布Qwen3.7系列完整模型。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态模型发布

10:02

小互@xiaohu

Cursor新编码模型性能媲美Opus，价格低数十倍

Cursor发布自研编码模型Composer 2.5，其性能与Opus 4.7相当，但在成本上具有显著优势。价格方面，Composer 2.5的输入成本比Opus 4.7低10倍，输出成本低约30倍。技术层面，该模型在智能和行为表现上较前代有明显提升，尤其擅长处理长时间、大上下文的复杂任务，指令遵循的可靠性与协作流畅度也得到增强。

模型发布编码

09:56

Berryxia.AI@berryxia

精选76

首个实时多agent世界模型发布，人类可与AI同屏互动

奥德赛实验室推出Agora-1，这是全球首个实时多agent世界模型，允许多人与AI同时在同一个模拟世界中实时互动并相互影响。该模型以经典游戏GoldenEye死亡竞赛为演示场景，提供可玩研究预览，用户现在即可体验与AI共同参与动态生成的模拟世界。这标志着从单人生成视频向多人共享“活世界”的转变，长期来看可能重塑游戏、模拟、教育、机器人及AI协作等领域，使人类从旁观者变为与AI共同生活的参与者。

Odyssey: Introducing Agora-1, a multi-agent world model. Multiple participants-human or AI-can now interact inside the same world...

智能体多模态模型发布

推荐理由：Odyssey把世界模型推进到了多人实时交互，可玩的GoldenEye死亡竞赛预览比任何PPT都有说服力，做游戏和模拟的人得上去打两把。

09:45

IT之家（RSS）

Qwen 3.7？阿里云峰会 5 月 20 日举行，千问官宣"重量级新朋友"即将亮相

阿里云峰会将于5月20日举行。千问大模型官方发布预热海报，透露将有一位“重量级新朋友”亮相，其特点是“更全能、更强大、有深度、有广度”。结合海报中的吉祥物元素，预计本次将公布Qwen系列大模型的最新重要成果。此前，Qwen 3.7-Max-Preview和Qwen 3.7-Plus-Preview版本已率先在相关平台上线，有望在峰会上正式发布。

开源生态模型发布

08:56

meng shao@shao__meng

Cursor发布最强模型Composer 2.5，与SpaceXAI合作启动Colossus 2算力训练

Cursor发布迄今最强模型Composer 2.5，仍基于Kimi K2.5。模型已与SpaceXAI合作，使用Colossus 2算力开始训练，并计划合作训练一个规模大10倍的全新模型。Composer 2.5在长任务推进、复杂指令遵循及协作自然度方面均有显著提升。关键创新包括：采用定向文本反馈强化学习解决长任务信用分配问题、使用25倍于前代的合成数据进行训练，以及通过Muon优化器与分布式正交化技术优化基础设施层。此外，模型还专门针对沟通风格和投入度校准等协作“软”维度进行了优化。

Cursor: Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...

数据/训练模型发布编码

08:56

Berryxia.AI@berryxia

Odyssey推出首个实时多模态世界模型Starchild-1

Odyssey AI实验室发布了Starchild-1，这是全球首个实时多模态世界模型。该模型不仅能生成视频画面，还能同步生成与之匹配的声音，实现了视觉与听觉的真正融合，模拟出完整、鲜活的世界动态。与以往只能“看”世界的世界模型不同，Starchild-1实现了“听”的能力。这被视为向通用世界模型迈出的关键一步，旨在重新定义AI对现实世界的认知与模拟方式。

Odyssey: Meet our new friend, Starchild-1 ❤️ Starchild-1 is the first ever real-time multimodal world model. A world model unders...

多模态模型发布语音

08:49

🚨 AI News | TestingCatalog@testingcatalog

谷歌I/O 🔥：这些传奇人物是通过即将推出的Gemini Omni模型生成的AI图像。 > 两段视频均为8秒高清样本。 > 与Sundar和Demis相关的视频很可能是使用Omni进行风格编辑的图像转视频生成。 > Logan的视频则可能是"相似度"虚拟形象与Omni视频的结合。而"GEMINI"意味着新模型的发布！🤯

Logan Kilpatrick: Gemini

Google 图像生成多模态模型发布

07:25

karminski-牙医@karminski3

字节跳动开源全模态模型Lance：轻量高效的"拼好模"

字节跳动开源了全模态模型Lance，其激活参数量仅为3B，却能同时处理文本、图片和视频的输入与输出，完成理解、生成与编辑等多种任务。该模型通过模块化拼接构建了Lance_3B与Lance_3B_Video两个版本，其创新在于采用共享交错序列统一语义空间，并引入专用专家模块协调理解与生成的互斥关系，使得小参数模型性能接近更大规模模型。训练仅需128张A100，对端侧部署和多模态Agent应用具有重要价值。

多模态开源生态模型发布

06:45

IT之家（RSS）

阿里云千问大模型 Qwen3.7-Max-Preview 首发亮相 Arena AI

阿里云通义千问最新模型 Qwen3.7-Max-Preview 与 Qwen3.7-Plus-Preview 已登陆 Qwen Chat 和 Arena AI 平台，预计于 5 月 20 日阿里云峰会正式发布。在 Arena AI 评测中，Max-Preview 在文本领域综合排名第 13，细分领域数学排名第 7，专家级应用与软件 IT 均位列第 9；Plus-Preview 在视觉领域综合排名第 16。据此，阿里通义千问在文本实验室榜单中排名第 6，视觉榜单中位列第 5。

多模态模型发布

06:06

Chubby♨️@kimmonismus

没想到这次发布这么重磅。评测结果看起来非常扎实，相比Composer 2有显著提升！但重点是：它的效率是竞争对手的10倍。看起来真的很令人兴奋。需要试用一下。

Cursor: Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...

推理模型发布编码

06:06

Chubby♨️@kimmonismus

智能成本低到难以计量。这是真正的突破。Composer 2.5是效率怪兽。

Chubby♨️: Huge, did NOT expect that release. Evals looks very solid, significant jump compared to composer 2! But: it's 10x more e...

模型发布部署/工程

05:42

Rohan Paul@rohanpaul_ai

专精小模型挑战行业巨头：PolyAI的客服AI新突破

PolyAI研究证实，专为客服设计的较小模型Raven 3.5，在性能上显著超越了规模大其100倍的通用前沿模型。该模型在所有四项客服基准测试中击败GPT-5和Claude Sonnet 4.6，并将响应延迟控制在300毫秒内。这项发布同时包括ADK代码开发工具包和PolyPhone网页语音生成工具，助力企业快速构建生产级语音代理。此举旨在将企业语音AI从大型项目转变为可快速部署的基础设施，从而有效解决客服等待时间长、成本高等问题，提升服务效率与客户体验。

智能体模型发布语音

03:42

Rohan Paul@rohanpaul_ai

多智能体世界模型Agoro-1突破共享现实一致性难题

Odyssey团队推出的Agoro-1是首个支持多智能体交互的世界模型，解决了多人共享同一虚拟环境时维持现实一致性的核心瓶颈。该模型突破了传统单玩家预测模式的限制，能够实时模拟多个参与者（人类或AI）在同一世界中的交互行为，并保持世界状态的稳定连贯。这意味着世界模型从单向预测演进为支持动态因果关系的共享实时环境，其真实性不再仅依赖视觉保真度，而取决于多方干预下世界逻辑的自洽性。

Odyssey: Introducing Agora-1, a multi-agent world model. Multiple participants-human or AI-can now interact inside the same world...

智能体模型发布

03:34

Hacker News 热门（buzzing.cc 中文翻译）

精选78

Qwen 3.7 预览版

多模态推理模型发布

推荐理由：阿里 Qwen 3.7 预览版来了，国产模型在推理和多模态上的推进速度令人侧目，虽然还是预览，但已经是一个值得开发者提前盯紧的信号。

02:12

Rohan Paul@rohanpaul_ai

HiDream开源8B参数统一架构图像模型，挑战传统扩散管线

HiDream开源了8B参数的HiDream-O1-Image模型，其核心创新在于采用像素级统一变换器，用单一架构直接处理原始图像块、文本与任务条件，将文本生成图像、编辑、个性化等任务统一为上下文生成，无需传统的VAE和文本编码器管线。该模型内置推理提示代理，能原生支持最高2048×2048的高分辨率合成。在性能上，它在参数量仅为部分同类模型三分之一的情况下，达到了可比的水平，尤其在文本渲染任务上表现出色，结果接近更大规模的模型。

图像生成开源生态推理模型发布

02:06

The Decoder：AI News（RSS）

Cursor 发布 Composer 2.5：性能比肩 Opus 4.7 与 GPT-5.5，成本大幅降低

Cursor 推出了其最新的 AI 编程模型 Composer 2.5，该模型基于 Kimi K2.5 构建，训练时使用了前代模型 25 倍的合成任务数据。在性能基准测试中，Composer 2.5 达到了与 Opus 4.7 及 GPT-5.5 相当的水平，而其运行成本仅为后两者的一小部分，显著提升了成本效益比。

模型发布编码

01:50

宝玉@dotey

Cursor 发布 Composer 2.5 编程模型

Cursor 发布了迄今最强的编程模型 Composer 2.5。该模型在长任务处理和复杂指令跟随方面更加稳定高效，官方称其效率最高可提升十倍。其技术亮点在于采用文本反馈方法，解决了超长轨迹（十万 token 级）下的学习难题，使模型能可靠执行连续数十甚至上百步的复杂编程任务。模型底座仍基于 Moonshot 的 Kimi K2.5 进行二次训练。同时，Cursor 宣布与 SpaceXAI 联合启动更大规模模型训练，将依托 Colossus 2 超算集群，这也意味着其算力基础已与马斯克旗下资源深度绑定。

Cursor: Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...

推理模型发布编码

01:13

凡人小北@frxiaobei

Qwen 3.7 有惊喜但不大，国内 top/国际第一梯队早就实锤了。期待下未来能超过 Anthropic，给国人出口恶气。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

模型发布评测/基准

00:02

Qwen@Alibaba_Qwen

阿里巴巴通义千问Qwen3.7-Max-Preview与Qwen3.7-Plus-Preview模型现已登陆AI评测平台Arena，分别参与文本与视觉评测。这一进展大幅提升了阿里巴巴在两大领域的实验室排名：在文本榜单跃升至全球第6位，在视觉榜单升至第5位。具体而言，Qwen3.7 Max Preview在文本总榜位列第13，并在数学、编程等多个子榜单中表现突出；Qwen3.7 Plus Preview在视觉总榜排名第16。官方对取得的进步表示祝贺，并透露Qwen3.7系列模型的正式版本即将发布。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态模型发布评测/基准

00:02

Qwen@Alibaba_Qwen

🚀🚀 【引用 @arena】：在视觉竞技场中，Qwen3.7 Plus Preview使@Alibaba_Qwen成为第5大实验室，总排名第16位。

Arena.ai: In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.

多模态模型发布评测/基准

5月17日

16:16

🚨 AI News | TestingCatalog@testingcatalog

基于1.5T参数V9基础模型的新版Grok已完成训练，预计将在今年夏季迎来重大升级。接下来将进入补充训练阶段，加入Cursor数据，随后进行SFT和RL优化。整个发布流程预计需要3至4周。此次升级标志着Grok从当前的0.5T V8公开版本实现显著性能提升。

Elon Musk: We are improving the 0.5T Grok foundation model V8 (public version 4.3) every few days. The 1.5T V9 just finished traini...

xAI 模型发布

06:54

Berryxia.AI@berryxia

Claude Mythos模型悄然现身Google Cloud Console，预示企业级发布

Claude Mythos模型近日悄然出现在Google Cloud Console中，其预览标签已消失，发布模式与之前Opus 4.7类似，预示可能即将正式落地。Anthropic曾称该模型“太危险”不适合公开发布，但目前迹象表明，公司可能不会推出公开版本，而是转而作为模型提供商，通过Google Cloud Platform让已接入的企业客户直接在自有环境中调用和使用。这一举动被视为Anthropic以最安静的方式将其高级思考模型推向生产环境，并逆转了此前关于该模型危险的叙事。

🚨 AI News | TestingCatalog: ANTHROPIC 🔥: Claude Mythos model has been spotted on Google Cloud Console. -claude-mythos 👀 It is hard to imagine that...

Anthropic 推理模型发布

05:43

🚨 AI News | TestingCatalog@testingcatalog

Anthropic的Claude Mythos模型已被发现在谷歌云控制台出现，且其预览标签已消失。这一迹象与之前Opus 4.7发布前的模式相似，引发了关于Anthropic可能准备公开发布该模型的猜测。尽管作者认为Anthropic改变主意直接向公众发布的可能性不大，但推测其可能作为模型提供商，为有权限的公司提供在谷歌云平台上运行该模型的服务。

AiBattle: Claude Mythos now appears in the Google Cloud console, which was not the case yesterday The preview label is also gone. ...

Anthropic 模型发布

00:51

Ant Ling@AntLingAGI

精选80

又一次Day0协作，又一次社区胜利。感谢@vllm_project团队始终可靠的支持~ 🫡🫡

vLLM: Congrats to @AntLingAGI on Ring-2.6-1T going open! 🎉 The thinking sibling of Ling-2.6-1T - trillion-scale, built for ag...

智能体开源生态推理模型发布

推荐理由：蚂蚁百灵把万亿参数的 thinking 模型开源，vLLM 第一天就能跑，想自己搭 agent 推理服务的可以直接动手了，开源生态的齿轮转得比想象中快。

00:51

Ant Ling@AntLingAGI

Ring-2.6-1T万亿参数旗舰模型正式发布，专注于处理复杂现实世界任务，并在SGLang平台获得Day-0即时支持，得益于与@lmsysorg的合作。该模型具备增强的智能体执行能力，可稳定处理多步骤、工具调用和长流程工作。用户可通过推理努力控制的高与极高模式，灵活调节推理深度、速度和成本。训练采用异步强化学习与IcePop技术，确保万亿参数强化学习训练的效率和稳定性。目前，该模型在OpenRouter平台提供限时75%折扣，供用户体验最新功能。

LMSYS Org: 🎉 Congrats on the release of Ring-2.6-1T, a trillion-parameter flagship for complex, real-world tasks. Day-0 support is...

智能体开源/仓库推理模型发布

00:51

Ant Ling@AntLingAGI

精选76

蚂蚁集团发布万亿参数推理模型Ring-2.6-1T，专为现实世界智能体工作流构建。该模型采用MIT许可，上下文长度通过YaRN技术从128K扩展至256K，并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式："high"模式用于快速智能体循环，"xhigh"模式用于深度推理，旨在实现更好的成本与性能平衡。模型已开源，欢迎社区反馈。

Adina Yakup: Ant group just dropped Ring-2.6-1T 🔥 1T reasoning model, built for real world agent workflows. ✨ MIT license ✨ 128K >> ...

智能体 Hugging Face 开源生态推理

推荐理由：蚂蚁把1T推理模型以MIT许可开源，还专门为Agent循环做了高低推理双模式，做开源Agent的团队直接多了一个强力基座可选。

00:21

Ant Ling@AntLingAGI

Ring-2.6-1T模型现已开源，并上线OpenRouter平台，5月底前享有75%折扣。该模型由AntLingAGI开发，是一个为现实世界智能体构建的万亿级推理模型，其核心设计目标不仅是回答问题，更是执行任务。它专注于规划步骤、使用工具、维持上下文和完成复杂工作流，具备强大的智能体执行能力和高推理模式，并采用了Async RL与IcePop训练方法。

Novita AI: 🚀 Ring-2.6-1T is now open source (from @AntLingAGI). Now 90% off on @OpenRouter via @novita_labs - a great time to star...

智能体开源生态推理模型发布

5月16日

23:31

Hacker News 热门（buzzing.cc 中文翻译）

精选73

SANA-WM：一个用于生成1分钟720p视频的26亿级开源世界模型

NVIDIA研究团队发布了SANA-WM，这是一个参数规模达26亿的开源世界模型，专门用于生成长达1分钟、分辨率为720p的视频。该模型已在GitHub页面开源，旨在推动高质量长视频生成的研发。其在Hacker News社区获得了107点热度，显示出业界对该技术进展的关注。

开源生态模型发布视频

推荐理由：开源且能跑 1 分钟 720p，NVIDIA 这个 2.6B 世界模型在物理一致性上跨了一大步，做视频生成和物理仿真的同行该坐不住了。

15:42

IT之家（RSS）

蚂蚁集团百灵开源万亿级思考模型 Ring-2.6-1T，支持 high 与 xhigh 两种推理强度

蚂蚁集团百灵大模型开源了面向复杂任务的万亿级思考模型 Ring-2.6-1T。该模型创新性地引入了可调节推理强度机制，提供 high 和 xhigh 两种模式。high 模式适用于高频 Agent 工作流，具有低 Token 开销和快速多步执行能力，适合多轮交互与工具协作；xhigh 模式则为数学、科研及复杂逻辑分析等高难任务提供更充分的思考深度。开发者可根据任务需求灵活选择，以平衡效果、速度与成本。模型已在 Hugging Face 和 ModelScope 平台开放。

Hugging Face 开源生态推理模型发布