AIHOT

5月15日

07:34

Artificial Analysis@ArtificialAnlys

中国移动近日发布了专有的350亿参数非推理模型JT-35B-Flash，其Artificial Analysis智能指数达到36，较前代JT-MINI大幅提升11分。该模型在面向电信客服场景的工具使用评测τ²-Bench中以99%的得分领先，并展现出较高的令牌效率，运行智能指数仅消耗约1700万输出令牌。JT-35B-Flash拥有256K上下文窗口，目前主要面向企业客户提供。作为全球主要电信运营商，此举标志着中国移动在开发更强大专有模型方面的持续投入。

MCP/工具模型发布

03:45

Hugging Face：Blog（RSS）

精选60

IBM 发布 Granite Embedding Multilingual R2 开源多语言嵌入模型

IBM 发布两个 Apache 2.0 开源多语言嵌入模型：97M 参数的紧凑型（granite-embedding-97m-multilingual-r2）在 MTEB Multilingual Retrieval 上得 60.3 分，超越所有开放子 1 亿参数模型；311M 全尺寸模型（granite-embedding-311m-multilingual-r2）得 65.2 分，在 500M 以下开放模型中排第二，并支持 Matryoshka 维度。两者均基于 ModernBERT 架构，支持 200+ 种语言，针对 52 种语言和 9 种编程代码检索训练，上下文窗口达 32,768 tokens。可直接替换 sentence-transformers、LangChain、LlamaIndex 等框架中的默认模型，预置 ONNX 和 OpenVINO 权重以优化 CPU 推理。

检索增强开源生态搜索模型发布

推荐理由：97M小模型在跨语言检索上打败很多300M级选手，32K上下文让长文档处理不再鸡肋，Apache 2.0开源意味着做多语言RAG的可以直接拿来当默认嵌入模型了。

00:06

Rohan Paul@rohanpaul_ai

Google 准备在周二的年度 I/O 大会上宣布一个新的 Gemini 模型，其性能被认为大致与 GPT-5.5 匹配。

Google模型发布

5月14日

23:45

Ant Ling@AntLingAGI

精选83

Ring-2.6-1T开源：万亿级思考模型支持复杂任务执行

Ring-2.6-1T 正式开源，这是一个专为现实世界复杂任务构建的万亿规模旗舰思考模型。其设计目标超越单纯的“回答”，转向任务执行，能够理解上下文、规划步骤、调用工具，并在长任务链中保持稳定。模型重点支持高级智能体工作流，提供不同级别的推理努力配置：常规任务采用高级别，复杂推理则启用更高强度。通过 IcePop 算法实现了可扩展的异步强化学习，从而支撑了面向长周期智能体任务的稳定万亿规模训练。

智能体开源生态推理模型发布

关联讨论 2 条

推荐理由：蚂蚁万亿参数思考模型开源，重点不是参数大，而是把长程 Agent 稳定性写进模型里，做复杂任务的开发者该认真看看。

23:31

蚂蚁 inclusionAI：HuggingFace 新模型

精选59

蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T

蚂蚁 inclusionAI 发布旗舰推理模型 Ring-2.6-1T，参数规模达万亿，面向智能体工作流、工程开发、科研分析等复杂场景。模型从“能回答”升级至“能执行”，在多步任务与工具协作中表现更优；支持 high/xhigh 两档推理强度，可灵活平衡效果与成本；采用异步强化学习结合 IcePop 算法提升训练效率。基准测试中，high 模式 PinchBench 得 87.60、ClawEval 63.82、Tau2-Bench 电信场景 95.32；xhigh 模式 ARC-AGI-V2 得 66.18、AIME 26 达 95.83、GPQA Diamond 88.27。上下文长度支持 128K 扩展至 256K（YaRN），已通过 HuggingFace 和 ModelScope 开放下载。

智能体开源/仓库推理模型发布

关联讨论 2 条

推荐理由：蚂蚁放出的万亿参数推理模型，Agent执行能力在PinchBench上超GPT-5.4，异步RL训练和可调推理强度对工程落地有参考价值，开源可试。

21:45

The Decoder：AI News（RSS）

阿里巴巴的 Qwen-Image-2.0 将压缩率提升一倍，并将生成步骤从40步削减至4步

阿里巴巴发布图像模型 Qwen-Image-2.0，其图像压缩强度达到多数竞品的两倍。模型采用重新设计的Transformer架构以稳定训练，并配备专用模块，可将简短用户输入自动扩展为详细提示。其蒸馏版本仅需4步去噪即可完成图像生成，远少于通常的40步。在用户盲测平台LMArena上，该模型目前排名第9位。

图像生成推理模型发布

20:01

Chubby♨️@kimmonismus

传闻即将发布的Gemini 3.2 Flash模型在编码和推理任务上达到了GPT-5.5约92%的性能水平，同时推理成本降低了15至20倍。其延迟表现也极为出色，多数查询响应时间低于200毫秒。这主要得益于DeepMind的蒸馏和稀疏化技术，成功将前沿模型压缩为"Flash"变体，而避免了通常伴随的质量大幅下降。

Bindu Reddy: Gemini 3.2 Flash - Capitalizing on DeepMind's clever distillation techniques... Rumors are that benchmarks show it's hit...

Google推理模型发布编码

19:15

SenseTime@SenseTime_AI

精选77

由联合创始人兼首席科学家李沐博士领导的团队发布了SenseNova U1技术报告，详细阐述了其架构、训练方案与创新突破。此次开源同步发布了基于混合专家模型（MoE）的新权重，旨在推动AI领域的透明度、可复现性与进一步创新。团队希望通过开放共享促进整个社区的技术发展。

Dahua Lin: Proud to announce the release of the SenseNova U1 Tech Report - together with the a new set of model weights based on Mo...

开源/仓库开源生态数据/训练模型发布

关联讨论 1 条

推荐理由：商汤这次把SenseNova U1的MoE权重和完整技术报告一起开源，比常规PR多了些诚意，做模型选型和微调的值得翻翻。

16:01

Chubby♨️@kimmonismus

让我们开始：Google 的下一个 Gemini 模型预计将与 GPT-5.5 竞争。据报道，Google 正准备在 I/O 上发布一个新的 Gemini 模型，将其定位接近 OpenAI 最近的 GPT-5.5，而不是更难以捉摸的 Anthropic Mythos。 Google I/O 变得更加令人兴奋了。

Google模型发布

14:14

Kimi.ai@Kimi_Moonshot

精选63

Kimi K2.6 现已成为 Finance Agent Benchmark V2 开源权重排名第一。【引用 @ValsAI】：AI 能胜任金融分析师的工作吗？

Vals AI: Can AI do the job of a financial analyst? We just released V2 of our Finance Agent Benchmark and tested the frontier mod...

智能体模型发布

推荐理由：K2.6在金融分析师基准上压过不少闭源模型拿了开源第一，做金融AI应用的该重点关注一下。

13:58

Xiaomi MiMo@XiaomiMiMo

精选60

MiMo V2.5 Pro （Thinking）模型在Design Arena的开放权重模型总排行榜中位列第三，相比前代MiMo-V2.5跃升了8个名次。其在前端编码任务上的表现已与Claude Sonnet 4.6处于同一性能区间。团队对测试者表示感谢，并承诺将持续改进模型。

Design Arena: BREAKING: MiMo V2.5 Pro (Thinking) takes 3rd overall out of open weights models on Design Arena. MiMo V2.5 Pro (Thinking...

推理编码评测/基准

关联讨论 1 条

推荐理由：小米 MiMo 推理版在 Design Arena 冲至开源第三，前端编码追上 Sonnet 4.6，这是国产模型在硬指标上少见的一步，做前端的可以看看。

13:32

Krea@krea_ai

精选73

Krea: this is Krea 2. our first foundation model, built completely from scratch for aesthetic diversity and stylistic control....

图像生成模型发布

推荐理由：Krea 推出了第一个自研基础模型 Krea 2，主打美学多样性和风格控制，这波邀请码能让 240 人先上手试试，做设计的可以抢一个看看能不能替代 Midjourney。

09:51

Berryxia.AI@berryxia

Gemini 3.2 Pro与Flash发布在即，案例重复引不满

Google Gemini 3.2 Pro 和Flash 已经蓄势待发了。每次都是这几个Case 真的烦了，能不能整点炸裂一点的Case。据说是就近期要发布，但是看着样子也是赶鸭子上架，应该放鸽子啥的也是常有的事儿。

can: 🚨 FIRST GEMINI 3.2 PRO OUTPUTS From yours truly. I'll share more today, I can test your prompts too if you guys want. I...

Google多模态模型发布

09:40

IT之家（RSS）

雷军谈小米自动驾驶模型 Xiaomi OneVL：业内率先通过潜空间推理将 VLA、世界模型统一到一套框架

小米技术正式发布并开源一步式潜空间语言视觉推理框架Xiaomi OneVL。该框架在业内率先通过潜空间推理，将视觉语言动作模型与世界模型统一到同一套框架中。在推理、规划等多个主流基准上，该模型全面刷新了潜在推理方法的性能上限，在精度上超越显式思维链方案，在速度上对齐“仅答案”预测的潜空间思维链方案。小米已全面开源其模型权重及训练、推理代码。

多模态开源生态推理模型发布

04:01

Alibaba Cloud@alibaba_cloud

精选63

如果AI角色能够记忆、共情并主动交互呢？✨ 交互式AI的未来已来。无论您是为游戏、虚拟AI伴侣还是自适应学习进行开发，Qwen-Character都能打造沉浸式角色扮演体验，推动参与度加深50%以上并提升用户终身价值 👉 观看完整视频了解运作原理：https：//int.alibabacloud.com/m/1000412854/ #AlibabaCloud #Qwen #QwenCharacter #ModelStudio #AI

智能体模型发布

推荐理由：阿里云这次发的Qwen-Character，主打长记忆和主动交互，对做游戏NPC和虚拟陪伴的产品经理是个直接可落地的信号，值得看一眼演示视频。

01:31

Krea@krea_ai

精选73

Krea 2 访问码发放！ K2-PRFUF8 / K2-NRWW9E / K2-CAP48S - 每个码可使用50次。访问链接如下 👇 【引用 @krea_ai】：this is Krea 2. our first foundation model， built completely from scratch for aesthetic diversity and stylistic control. learn more and get early access 👇

Krea: this is Krea 2. our first foundation model, built completely from scratch for aesthetic diversity and stylistic control....

图像生成模型发布

推荐理由：Krea 从套壳到自研模型这一步走得关键，专攻美学多样性和风格控制，对设计师来说是个值得立刻上手试的新选择。

00:29

Chubby♨️@kimmonismus

GPT-5.6 来得那么快，这不在我的预料之中。

leo 🐾: 🚨 SCOOP: The development cycle for GPT-5.6 is now in full swing at OpenAI. The first checkpoints of the model began tes...

OpenAI模型发布

5月13日

17:39

IT之家（RSS）

小米开源 Xiaomi OneVL 自动驾驶模型，业内率先实现 VLA、世界模型等多技术路线统一

小米开源了Xiaomi OneVL一步式潜空间语言视觉推理框架。该模型在业内首次将VLA（视觉语言动作模型）与世界模型这两条技术路线统一于同一框架，通过潜空间推理同时提升推理速度与精度，在多项基准测试中达到先进水平。此外，它还能为决策提供语言和视觉双维度的可解释性。小米已全面开源其模型权重、训练及推理代码。

具身智能多模态模型发布

14:43

SenseTime@SenseTime_AI

精选72

SenseNova-U1 技术报告深度发布：前沿原生多模态模型构建全指南

SenseNova-U1 技术报告详尽披露了构建前沿原生多模态模型的方法，核心包括原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练、以及原生混合专家骨干网络。报告提供了六阶段训练方案、强化学习后训练与蒸馏的完整实践指南。其开源版本 SenseNova-U1-A3B-MoT 基于混合专家架构，仅激活30亿参数，实现了高效快速的性能。相关资源已全面开放，涵盖技术报告、模型权重、代码和演示平台。

多模态开源/仓库模型发布

关联讨论 1 条

推荐理由：商汤把原生多模态模型的训练细节全公开了，无视觉编码器、原生MoE架构，还开源了38B-A3B权重，做多模态模型的可以直接照着技术报告复现。

13:39

IT之家（RSS）

面壁智能 MiniCPM-V 4.6 发布开源：1.3B 参数仅需 6G 内存即可流畅运行

面壁智能联合清华大学及 OpenBMB 开源社区发布新一代端侧多模态大模型 MiniCPM-V 4.6。该模型参数为 1.3B，仅需约 6GB 内存即可在端侧设备运行。其在通用图文理解、STEM 推理等任务上超越同尺寸模型，Artificial Analysis 评测得 13 分。效率方面，Token 吞吐量为竞品的 1.5 倍，计算消耗仅为其 2.5%。模型采用 LLaVA-UHD v4 架构，图像编码计算量降低 55.8%，并支持高分辨率图像快速处理。目前已全面开源，提供完整工具链，适配主流微调与推理框架。

多模态开源/仓库模型发布端侧

11:55

Tencent Hy@TencentHunyuan

精选76

Hy3 预览版现已登陆 @gmi_cloud。🙌

GMI Cloud: Hy3 preview from @TencentHunyuan is now live on GMI #1 on OpenRouter's LLM leaderboard, open-sourced, and the strongest ...

智能体开源生态推理模型发布

推荐理由：腾讯混元 Hy3 开源且登顶 OpenRouter 排行榜，295B MoE 架构在推理和代码上提升明显，不是小厂的刷榜产品，搞 agent 和 coding 的可以认真试试。

11:45

公众号：面壁智能（MiniCPM）

新一代「小钢炮」来袭！1.3B 模型性能效率双杀，MiniCPM-V 4.6 正式开源

多模态开源/仓库模型发布端侧

08:49

Berryxia.AI@berryxia

Jina发布首个统一多模态Embedding模型v5-omni

Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni，能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸，分别具有1.57B和0.95B参数，并支持Matryoshka截断技术。关键优势在于完全向后兼容：现有jina-embeddings-v5-text的索引无需重新构建，可直接替换为v5-omni，在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲，小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。

Jina AI: jina-embeddings-v5-omni is here! Our first universal embedding model for text, images, audio, and video. Available in tw...

Hugging Face检索增强多模态开源生态

05:03

DogeDesigner@cb_doge

xAI的Grok Voice Think Fast 1.0刚刚以73.7%的得分在Telecom Pass@1评测中夺得第一名🥇

xAI模型发布语音

04:56

Hacker News 热门（buzzing.cc 中文翻译）

Show HN： Needle：我们将"双子座工具召唤"浓缩为一个26M模型

研究团队发布了名为Needle的轻量级模型，它将谷歌Gemini的工具调用能力浓缩至仅2600万参数。该模型在保持核心功能的同时，体积显著缩小，旨在实现更高效的部署与应用。项目代码已在GitHub开源，并在Hacker News社区获得了超过100点的关注度。

智能体MCP/工具开源生态模型发布

03:54

StepFun@StepFun_ai

精选72

Step Image Edit 2图像模型发布，性能领先且高效

Step Image Edit 2模型正式发布。这是一个35亿参数的图像模型，在指令式图像编辑的权威基准KRIS-Bench中，于综合、事实和概念类别均排名第一，性能超越参数量为其5-6倍的模型。其核心能力包括文生图、基于指令的图像编辑、精准的中英双语文字渲染以及保持主体一致性的风格迁移。该模型生成速度快，单次编辑成本低，目前已上线Stepfun开放平台。

图像生成多模态模型发布

推荐理由：3.5B 参数在图像编辑基准上干翻 5-6 倍大的模型，性价比很诱人，而且中文文字渲染准确，做批量出图的产品可以直接试。

02:30

ClaudeDevs@ClaudeDevs

精选76

Claude Opus 4.7的快速模式现已在API和Claude Code中开放研究预览。

Anthropic推理模型发布编码

关联讨论 2 条

推荐理由：Opus 4.7 加推 Fast mode，编程场景延迟会降一大截，Claude Code 可以直接用，对天天在终端敲代码的人是个实在提升。

00:33

OpenRouter@OpenRouter

精选69

Perceptron Mk1已在OpenRouter上线，由@perceptroninc开发。前沿视频与具身推理的视觉语言模型。以动态帧率（最高2 FPS）分析视频，具备32k多模态上下文，采用混合推理和结构化空间基元（点、框、多边形、片段）作为首要输出。

多模态推理模型发布

推荐理由：将视频理解提升到结构化空间输出，动态帧率分析让模型能真正「看懂」动作，做具身智能的开发者可以关注。

5月12日

22:30

Krea@krea_ai

这是Krea 2。我们的首个基础模型，完全从零构建，旨在实现美学多样性和风格控制。了解更多并获取早期访问权限👇

图像生成模型发布

21:40

The Decoder：AI News（RSS）

Thinking Machines Lab发布首款模型，主张交互性才是OpenAI语音技术的误区

由Mira Murati创立的Thinking Machines Lab发布了其首个人工智能模型，旨在突破传统语音AI的问答模式。该模型以200毫秒为数据块，并行处理音频、视频和文本信息，专注于提升实时交互的流畅性与自然度。公司宣称，这一设计在交互质量上超越了OpenAI的GPT Realtime 2和Google的Gemini Live，致力于推动语音助手向更自然、非问答式的对话体验演进，从而重新定义人机交互方式。

多模态模型发布语音

21:31

Microsoft Research@MSFTResearch

精选62

MatterSim正在拓展AI在材料科学中的应用边界--从更快速的大规模模拟，到全新多任务模型MatterSim-MT，可模拟超越势能面的多种物性。https：//msft.it/6017vPamT

Microsoft模型发布

推荐理由：微软把材料科学AI从单任务模拟推到多任务，对计算材料领域是个值得跟进的信号，虽然离普通开发者很远。

12:44

HuggingFace Daily Papers（社区热门论文）

精选76

Qwen-Image-2.0技术报告

Qwen-Image-2.0是一个统一高保真生成与精确编辑的全能图像生成基础模型。它采用Qwen3-VL作为条件编码器，结合多模态扩散变换器进行联合建模，并通过大规模数据整理与多阶段训练实现强化。该模型支持长达1K令牌的指令输入，能生成幻灯片、海报等富文本内容，显著提升多语言文本渲染与排版质量。在生成方面，它增强了细节、纹理真实感与光照一致性，并更可靠遵循复杂指令。人工评估表明，其在生成和编辑任务上均大幅超越前代模型。

arXiv图像生成多模态模型发布

推荐理由：这是 Qwen-Image 系列第一次把多模态理解和生成真正拧到同一框架里，长文本渲染和多语言排版提升肉眼可见，做海报和幻灯片的可以重点关注。

12:42

SenseTime@SenseTime_AI

精选62

SenseNova U1是一款高效统一语言与视觉的单模型，具备语义理解、像素级生成和复杂信息图创作能力。该模型被描述为能够阅读文本、生成图像、编辑照片及处理图文交错任务的"任意到任意"Transformer，如同集成了创意工作室功能，重新定义了多模态AI。开发者社区对其反响热烈。

Hugging Models: Imagine a single AI that can read text, generate images, edit photos, and even handle interleaved text+image tasks. Sens...

多模态模型发布

关联讨论 1 条

推荐理由：一个 8B 级 any-to-any 多模态模型，想把文本、图像生成、编辑全塞进去，野心很大。轻量统一模型对端侧和快速原型是实打实的工具，但实际效果还得等开发者上手检验。

12:01

Rohan Paul@rohanpaul_ai

Thinking Machines 推出"始终在场"AI模型，革新传统轮替式交互

Thinking Machines公司发布了TML-Interaction-Small模型，旨在以“始终在场”的AI取代传统的轮替式对话AI。该模型采用混合专家架构，将音频、视频和文本流切分为200毫秒的微轮次，使其能在交互过程中并行执行聆听、观看、说话、绘图、搜索及调用工具等操作。其核心设计理念是让人工智能像人类一样实时并行处理多任务。模型在保持低延迟（0.40秒）的同时，保留了强大的推理与指令遵循能力，且交互性直接内建于模型架构，而非依赖外部组件拼凑实现。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态模型发布语音

10:49

歸藏(guizang.ai)@op7418

Thinking Machines发布原生多模态"交互模型"，实现实时人机协作

前OpenAI CTO Mira创立的Thinking Machines公司发布了一种创新的“交互模型”。该模型能原生、持续地接收音频、视频和文本等多模态输入，并实时思考与响应，而非通过Agent串联多个独立模型。其架构分为两部分：前台交互模型以200毫秒为节点处理输入并维持用户“在场感”，支持随时打断；后台推理模型则处理长程规划、工具调用等复杂任务。两者协同工作，最终呈现为一个既能实时交互又能处理重度任务的统一界面。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态推理模型发布

10:49

歸藏(guizang.ai)@op7418

谷歌或即将发布新一代视频模型Veo 4，功能全面升级

谷歌可能即将推出新一代视频生成模型，暂称Veo 4或类似名称。该模型被描述为类似Sora 2.0的全能参考模型，支持对现有视频进行修改参考和内容替换等操作。在文字生成质量上，它被认为比Sora 2.0略有优势，清晰度和细节可能也稍有提升。据透露，这款即将到来的Gemini Omni视频模型在视频编辑功能上将更为先进，能够完成去除水印、替换视频内物体等复杂任务。谷歌预计会发布该模型的两个版本，包括一个性能更强的Pro变体，而目前展示的样本可能并非Pro版本。

🚨 AI News | TestingCatalog: GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capabl...

Google模型发布视频

09:49

Berryxia.AI@berryxia

Apple押注端侧AI，开源小模型MiniCPM-V 4.6实现高效边缘部署

推文指出Apple的统一内存架构是端侧AI的理想平台。同时，OpenBMB发布了专为消费级硬件优化的1.3B多模态模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术，将视觉编码成本降低55%，实现了高效的边缘原生部署。其在多项关键基准测试中超越了更大的模型，且token消耗仅为对比模型的2.5%。在RTX 4090上处理高分辨率图像时，首token延迟仅75.7ms，速度快2.2倍。模型技术亮点包括Intra-ViT早期压缩和混合视觉压缩，有效平衡了分辨率与延迟。其部署友好，支持iOS、Android、HarmonyOS及多种主流推理框架与量化格式，相关资源已在各大平台开源。

OpenBMB: 1/5 MiniCPM-V 4.6 (1.3B) is now live 🚀🚀 High-res visual processing, optimized for consumer-grade and mobile hardware. ...

多模态开源/仓库模型发布端侧

06:58

Artificial Analysis@ArtificialAnlys

清华大学与ModelBest合作发布MiniCPM-V 4.6 1.3B Instruct多模态小模型

清华大学与ModelBest合作的OpenBMB发布了MiniCPM-V 4.6 1.3B Instruct模型。这款仅13亿参数的多模态小模型在Artificial Analysis智能指数上获得13分，成为2B参数以下开源模型中得分最高的，刷新了该规模模型的帕累托前沿。它在MMMU-Pro视觉推理基准上也达到38%，领先同类小模型。模型支持文本、图像和视频输入，并具有极高的令牌效率，运行测试仅需540万输出令牌，远低于对比模型。其权重已在Hugging Face以Apache 2.0许可证开源。知识回忆能力与其他2B以下模型相当，处于较低水平。

Hugging Face多模态模型发布端侧

06:35

swyx 🌉@swyx

我相信年轻人会这样形容："@thinkymachines 刚刚残酷碾压了gdm和oai"。基本上所有人的"实时"定义都得到了巨大升级。

swyx 🌉: lowkey the funniest videos of the batch. thinky has some comedians!! congrats to @thinkymachines on reviving the omnimod...

多模态模型发布视频语音

06:05

swyx 🌉@swyx

低调地说，这批视频中最有趣的。thinky 有一些喜剧演员！！祝贺 @thinkymachines 复活了其他人未能实现的 omnimodel 梦想。

Mira Murati: Today we're sharing our work on interaction models. A new class of model trained from scratch to handle real-time intera...

多模态模型发布