5月12日

01:39

The Decoder：AI News（RSS）

百度发布其对话机器人Ernie的最新版本5.1。该模型采用“Once-For-All”方法，仅使用前代模型三分之一的参数量，其预训练成本仅为同类模型的6%，实现了94%的成本削减。在Search Arena排行榜上，Ernie 5.1位列全球第四，排名仅次于两个Claude Opus变体和GPT-5.5 Search。

搜索数据/训练模型发布

5月11日

23:33

🚨 AI News | TestingCatalog@testingcatalog

谷歌即将推出的Gemini Omni视频模型在视频编辑方面预计将显著进步，能够完成去除水印、替换视频中物体等复杂任务。该模型可能发布两个版本，包括一个Pro变体。引用推文展示了该模型的实际编辑效果，对比了原始视频与编辑后的视频，并证实其在去除水印方面表现优异。

Just a dragon: 🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new ...

Google 多模态模型发布视频

22:23

Chubby♨️@kimmonismus

天哪，谷歌正在放大招！新的视频模型/Gemini Omni 简直好得离谱且精准。 YouTube 和 TikTok 将涌现大量新的 AI 生成视频。

Chetaslua: Holllllyyyyyyyy @GeminiApp cooked 😳😳 🚨 Gemini Omni: New video model Here is the first output and see the text coheren...

Google 模型发布视频

22:00

OpenRouter@OpenRouter

精选69

AntLingAGI发布了其万亿参数旗舰"思考模型"Ring-2.6-1T，该模型在5月15日前可通过OpenRouter免费使用。其核心特性包括可调节的思考强度，能动态平衡认知深度、token成本和执行速度；专为智能体优化，适用于高频工作流，提供快速的多步执行和工具调用；并具备深度思考能力，以应对严密的数学逻辑和科学研究任务。模型旨在满足实际生产环境中复杂任务的需求。

Ant Ling: We are launching Ring-2.6-1T, a trillion-parameter flagship thinking model engineered for real-world complex tasks and p...

智能体推理模型发布

推荐理由：万亿参数的思维模型免费到5月15日，可调思考力度的设计很接地气，做agent的可以趁窗口压测一下，看看它能不能扛住真实生产环境。

18:39

SenseTime@SenseTime_AI

精选72

SenseNova U1图像生成模型登陆ComfyUI平台

SenseNova U1图像生成模型现已在ComfyUI上可运行，并获得包括REBEL AI在内的评测者高度认可。REBEL AI发布的实践教程展示了该模型的部署工作流，并对其图像生成能力进行了真实场景测试。模型支持8步快速推理，生成速度极快，应用场景涵盖人像、超现实艺术、文字标志和生物设计等。相关资源已在Hugging Face、GitHub和Discord平台开放。

GitHub Hugging Face 图像生成模型发布

推荐理由：商汤把新模型U1的ComfyUI部署流程完整放出，还有实测视频，想在自己机器上跑国产图像模型的开发者可以直接抄作业了。

17:51

Tencent Hy@TencentHunyuan

腾讯混元Hy3预览版已开放早期体验，被描述为该系列最强模型。其核心设计面向现实世界有效性，而非单纯追求基准测试分数。模型具备处理复杂智能体任务的能力，采用256K上下文长度，并融合了快慢思维机制的混合专家架构。该模型基于重建的预训练和强化学习基础设施构建，旨在实现大规模应用下的高成本效益。

Python Space: Got early access to Tencent's Hy3 preview. This is the strongest model in the Hy series. Built on rebuilt pre-training a...

智能体推理模型发布

14:32

🚨 AI News | TestingCatalog@testingcatalog

Google I/O曝光Gemini Omni视频模型新证据

在Google I/O期间，Gemini移动应用中发现了即将推出的Gemini Omni视频模型的新证据。该模型被描述为“我们的新视频模型”，功能包括混剪视频、在聊天中直接编辑以及使用模板等。分析指出，这可能是基于Gemini的真正“Omni”模型，而非Veo。早期测试显示，该模型会快速消耗使用额度，且网络和移动端应用都将新增一个“使用情况”标签页来追踪用量。

Google 多模态模型发布视频

08:00

Thinking Machines Lab：官方博客（RSS）

精选59

Thinking Machines Lab发布Interaction Models研究预览

Thinking Machines Lab发布interaction models研究预览。该模型从零训练，原生处理音频、视频和文本，采用多流微回合设计实现实时响应，无需外部脚手架。研究预览展示了全新的交互能力，并在智能性与响应性上取得综合SOTA表现。

智能体多模态模型发布视频

推荐理由：Thinking Machines 把实时交互训进了模型本身，不再是外挂脚手架，微轮次架构和 benchmark 数据很硬，做语音/视频助手的可以认真看看，虽然还是研究预览，但方向值得盯着。

5月10日

16:58

OpenCode@opencode

OpenCode x Ring 2.6 1T - 限时免费开放 256K上下文 • 推理能力 • 纯文本模型感谢 @AntLingAGI 和 @novita_labs 提供模型支持

推理模型发布

00:51

Alibaba Cloud@alibaba_cloud

基准测试排名第一。闪电速度。原生音视频同步。排队等待AI视频的时代结束了。HappyHorse现已在阿里云Model Studio上线。当别人还在渲染时，你已完成。立即构建：https://int.alibabacloud.com/m/1000412167/

多模态模型发布视频

5月9日

20:51

Chubby♨️@kimmonismus

百度ERNIE 5.1以极低预训练成本逼近SOTA

百度发布的ERNIE 5.1模型基于ERNIE 5.0预训练基础，宣称在搜索、推理、知识问答、创意写作和智能体能力方面获得提升，而其预训练成本仅为同类可比模型的约6%。该模型在Arena搜索排行榜以1223分位列第四，ERNIE 5.1 Preview在LMArena Text上取得1476分，全球排名第十三。推文作者指出目前未见技术论文，需验证其宣称的低成本高性能表现，但若属实将意义重大。

Baidu Inc.: ERNIE 5.1 just dropped. Built on ERNIE 5.0's pre-training foundation, our latest foundation model upgrades search, reaso...

推理搜索模型发布

18:43

Berryxia.AI@berryxia

百度发布ERNIE 5.1模型，实现参数与成本的极致压缩

百度推出ERNIE 5.1模型，核心突破在于参数与成本的大幅压缩。其总参数和激活参数分别压缩至原规模的约1/3和1/2，预训练成本仅为同规模模型的约6%，同时保持了领先性能。模型在Agent能力上超越DeepSeek-V4-Pro，世界知识与创意写作接近领先闭源模型及Gemini 3.1 Pro，推理能力仅次于Gemini 3.1 Pro，深度搜索位列全球第四。技术创新包括提升参数效率的弹性预训练、增强可扩展性的异步强化学习训练等。模型已上线ERNIE平台和Baidu AI Studio。

ERNIE for Developers: ERNIE 5.1 is here 🚀 ERNIE 5.1 significantly reduces pretraining cost while compressing total parameters to ~1/3 and act...

智能体推理数据/训练模型发布