全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态X · 980 条

全部一手资讯 X 论文

标签「模型发布」清除

Rohan Paul@rohanpaul_ai · 5月19日74

Agora-1, a multi-agent world model from Odyssey just exposed the next bottleneck for world models: keeping one shared reality consistent for everyone inside it. The first serious test of whether world model can act like a game engine for multiple players at once. Agora-1 turns world models from single-player predictors into shared real-time environments. The big deal here is that several agents, human or AI, can now disturb the same simulated world at once, forcing the model to track not only scenery, but consequence. Traditional world models combine simulation dynamics and rendering within a single model. And a single-player world model can survive by predicting what should happen next from one stream of action, but a multiplayer world has collisions, timing, intent, surprise, and blame. But Agora-1 turns a world model into a learned multiplayer engine, where the AI does not just generate what one player sees, but keeps a shared world state stable while up to 4 humans or AI agents act inside it in real time. In that setting, realism is no longer just visual fidelity; it is whether the world stays coherent when two minds push on it from different directions.

译Odyssey团队推出的Agoro-1是首个支持多智能体交互的世界模型，解决了多人共享同一虚拟环境时维持现实一致性的核心瓶颈。该模型突破了传统单玩家预测模式的限制，能够实时模拟多个参与者（人类或AI）在同一世界中的交互行为，并保持世界状态的稳定连贯。这意味着世界模型从单向预测演进为支持动态因果关系的共享实时环境，其真实性不再仅依赖视觉保真度，而取决于多方干预下世界逻辑的自洽性。

Rohan Paul@rohanpaul_ai · 5月19日57

HiDream just open-sourced an 8B image model with a big message behind it: the old diffusion pipeline (VAE-plus-text-encoder) may not be the only serious path left. 8B param, HiDream-O1-Image (8B) claims parity with models over 3x its size (e.g., 27B Qwen-Image). @HiDream_AI , @vivago_ai Key Features 🧬 Pixel-Level Unified Transformer — One end-to-end model on raw pixels, no VAE, no disjoint text encoder. 🎨 One Model, Many Tasks — Text-to-image, long-text rendering, instruction editing, subject-driven personalization, and storyboard generation in a single architecture. 🧠 Reasoning-Driven Prompt Agent — Built-in "thinking" agent that resolves implicit knowledge, layout, and text rendering before generation. 🖼️ Native High Resolution — Direct synthesis up to 2,048 × 2,048 with sharp fine-grained detail. ⚡ Exceptional Efficiency and Versatility at 8B Scale — With only 8B parameters, achieves performance parity with or even surpasses larger open-source DiTs and leading closed-source models. Most image models still split the job across a text encoder, a VAE, and a diffusion model, so details can get lost when real pixels are compressed into hidden image codes. HiDream-O1-Image removes that split by using a Pixel-level Unified Transformer, where raw image patches, text tokens, and task conditions enter the same model space. That means text-to-image, image editing, and subject personalization become variants of one in-context generation task, not separate pipelines. A prompt agent first rewrites messy user requests into clearer visual instructions, reasoning through layout, subject attributes, physics, and context before generation. The strongest result is text rendering. On LongText-Bench, the 8B model scores 0.979 in English and 0.978 in Chinese, while the 200B+ model reaches 0.982 and 0.980. That is the part to watch, because clean text inside generated images is still one of the hardest problems for image models. 🧵 1.

译HiDream开源了8B参数的HiDream-O1-Image模型，其核心创新在于采用像素级统一变换器，用单一架构直接处理原始图像块、文本与任务条件，将文本生成图像、编辑、个性化等任务统一为上下文生成，无需传统的VAE和文本编码器管线。该模型内置推理提示代理，能原生支持最高2048×2048的高分辨率合成。在性能上，它在参数量仅为部分同类模型三分之一的情况下，达到了可比的水平，尤其在文本渲染任务上表现出色，结果接近更大规模的模型。

宝玉@dotey · 5月19日83

Cursor 发布 Composer 2.5 Cursor 今天上线自家编程模型 Composer 2.5。主打长任务上更顶得住、复杂指令跟得更稳，官方称效率最多能比同等水平的模型高出十倍。为了推这个新模型，Cursor 把它未来一周的默认额度直接翻倍。训练上的一个小亮点是用文本反馈做信用分配，让模型在十万 token 量级的长轨迹里也能学得动。就是让模型扛得住连续几十上百步的编程任务，中途不容易忘了自己在干什么。底座还是 Kimi Composer 2.5 仍然基于 Moonshot 的 Kimi K2.5 二次训练，跟上一代一致。两个月前 Composer 2 发布时 Cursor 没披露底座来源，被开发者从 API 请求头里挖出 kimi-k2p5-rl 的模型 ID 闹了一场，这次直接写进了博客，算是把透明度补回来。发布同时，Cursor 宣布跟 SpaceXAI 联合从零训练一个更大的模型，总算力是这次的十倍，跑在 Colossus 2 那套百万张 H100 等效的超算集群上。背景是 SpaceX 4 月跟 Cursor 签了战略合作，并拿到了今年晚些时候以 600 亿美元收购 Cursor 的选择权；xAI 此前已并入 SpaceX。Cursor 的算力命脉，事实上已经接到了马斯克这边。

译Cursor 发布了迄今最强的编程模型 Composer 2.5。该模型在长任务处理和复杂指令跟随方面更加稳定高效，官方称其效率最高可提升十倍。其技术亮点在于采用文本反馈方法，解决了超长轨迹（十万 token 级）下的学习难题，使模型能可靠执行连续数十甚至上百步的复杂编程任务。模型底座仍基于 Moonshot 的 Kimi K2.5 进行二次训练。同时，Cursor 宣布与 SpaceXAI 联合启动更大规模模型训练，将依托 Colossus 2 超算集群，这也意味着其算力基础已与马斯克旗下资源深度绑定。

凡人小北@frxiaobei · 5月19日61

Qwen 3.7 有惊喜但不大，国内 top/国际第一梯队早就实锤了。期待下未来能超过 Anthropic，给国人出口恶气。

Qwen@Alibaba_Qwen · 5月19日57

🚀🚀Qwen3.7 Preview lands on Arena ！ Here come Qwen3.7-Max-Preview & Qwen3.7-Plus-Preview. Alibaba now #6 lab in Text, #5 in Vision.⚡️⚡️ Can't wait to release Qwen3.7 series models！Stay tuned! @arena

译阿里巴巴通义千问Qwen3.7-Max-Preview与Qwen3.7-Plus-Preview模型现已登陆AI评测平台Arena，分别参与文本与视觉评测。这一进展大幅提升了阿里巴巴在两大领域的实验室排名：在文本榜单跃升至全球第6位，在视觉榜单升至第5位。具体而言，Qwen3.7 Max Preview在文本总榜位列第13，并在数学、编程等多个子榜单中表现突出；Qwen3.7 Plus Preview在视觉总榜排名第16。官方对取得的进步表示祝贺，并透露Qwen3.7系列模型的正式版本即将发布。

Qwen@Alibaba_Qwen · 5月19日47

🚀🚀

译🚀🚀 [引用 @arena]：在视觉竞技场中，Qwen3.7 Plus Preview使@Alibaba_Qwen成为第5大实验室，总排名第16位。

Chubby♨️@kimmonismus · 5月18日44

I love GPT-5.5. It's a workhorse and exactly the model I was hoping for. But the fact that rumors say version 5.6 is already in the starting blocks makes me even more excited! OpenAI is on fire.

译我爱 GPT-5.5。它是个实干家，正是我期待的模型。但传闻说 5.6 版本已蓄势待发，这让我更加兴奋！ OpenAI 势头正猛。

🚨 AI News | TestingCatalog@testingcatalog · 5月17日60

SPACEXAI 🔥: The next version of Grok, based on the 1.5T V9 base model has finished training. Looks like we will get a major upgrade this summer. > Next, we are adding the Cursor data in supplemental training. Soon 👀

译基于1.5T参数V9基础模型的新版Grok已完成训练，预计将在今年夏季迎来重大升级。接下来将进入补充训练阶段，加入Cursor数据，随后进行SFT和RL优化。整个发布流程预计需要3至4周。此次升级标志着Grok从当前的0.5T V8公开版本实现显著性能提升。

🚨 AI News | TestingCatalog@testingcatalog · 5月17日45

GOOGLE 🔥: Traces of Gemini 3.2 Flash-lite-live have been spotted on Google Cloud Console. Even cheaper real-time model? 👀

译GOOGLE 🔥：在谷歌云控制台上发现了Gemini 3.2 Flash-lite-live的踪迹。难道是更便宜的低延迟模型？👀

Berryxia.AI@berryxia · 5月17日63

我去，Claude Mythos 突然在 Google Cloud Console 现身了。昨天还没有，今天直接出现了，连 preview 标签都彻底消失。跟之前 Opus 4.7 的路子一模一样——先在云控制台露面，然后没多久就正式落地。 Anthropic 之前一直说这个模型“太危险”不适合公开发布，现在却悄无声息地出现在 GCP 里。最合理的猜测是：他们不会直接推公开版，而是作为模型提供方，让已经接入 GCP 的企业用户直接调用，在企业环境中跑。我看完截图后最大的感受是，Anthropic 正在用最安静的方式，把最强的思考模型慢慢推向生产环境。这直接把“危险模型”的叙事直接打了个反转。

译Claude Mythos模型近日悄然出现在Google Cloud Console中，其预览标签已消失，发布模式与之前Opus 4.7类似，预示可能即将正式落地。Anthropic曾称该模型“太危险”不适合公开发布，但目前迹象表明，公司可能不会推出公开版本，而是转而作为模型提供商，通过Google Cloud Platform让已接入的企业客户直接在自有环境中调用和使用。这一举动被视为Anthropic以最安静的方式将其高级思考模型推向生产环境，并逆转了此前关于该模型危险的叙事。

🚨 AI News | TestingCatalog@testingcatalog · 5月17日65

ANTHROPIC 🔥: Claude Mythos model has been spotted on Google Cloud Console. -claude-mythos 👀 It is hard to imagine that Anthropic would change its mind and release it publicly but they could act as a model provider for those companies who have access to the model and run their stuff on GCP.

译Anthropic的Claude Mythos模型已被发现在谷歌云控制台出现，且其预览标签已消失。这一迹象与之前Opus 4.7发布前的模式相似，引发了关于Anthropic可能准备公开发布该模型的猜测。尽管作者认为Anthropic改变主意直接向公众发布的可能性不大，但推测其可能作为模型提供商，为有权限的公司提供在谷歌云平台上运行该模型的服务。

Ant Ling@AntLingAGI · 5月17日80

Another day0 collaboration, another community win. Thanks @vllm_project team for the always reliable support~ 🫡🫡

译又一次Day0协作，又一次社区胜利。感谢@vllm_project团队始终可靠的支持~ 🫡🫡

Ant Ling@AntLingAGI · 5月17日74

🥳You could always experience the latest, fastest and the most easy to use open model on SGLang, this time for our latest reasoning model release of Ring-2.6-1T (limited 75% discount on OR https://openrouter.ai/inclusionai/ring-2.6-1t) Thanks to @lmsysorg for another top notch day0 collaboration! 🥳

译Ring-2.6-1T万亿参数旗舰模型正式发布，专注于处理复杂现实世界任务，并在SGLang平台获得Day-0即时支持，得益于与@lmsysorg的合作。该模型具备增强的智能体执行能力，可稳定处理多步骤、工具调用和长流程工作。用户可通过推理努力控制的高与极高模式，灵活调节推理深度、速度和成本。训练采用异步强化学习与IcePop技术，确保万亿参数强化学习训练的效率和稳定性。目前，该模型在OpenRouter平台提供限时75%折扣，供用户体验最新功能。

Ant Ling@AntLingAGI · 5月17日76

Thanks @AdinaYakup and the @huggingface community for the continued recognition! We feel happy to bring another 1T thinking model to the community! Comments and feedbacks welcome!

译蚂蚁集团发布万亿参数推理模型Ring-2.6-1T，专为现实世界智能体工作流构建。该模型采用MIT许可，上下文长度通过YaRN技术从128K扩展至256K，并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式：“high”模式用于快速智能体循环，“xhigh”模式用于深度推理，旨在实现更好的成本与性能平衡。模型已开源，欢迎社区反馈。

Ant Ling@AntLingAGI · 5月17日66

Lovely video! Glad to work with @novita_labs and @OpenRouter to bring another newly build model, Ring-2.6-1T to our beloved users. It is available on OpenRouter with 75% through May~ https://openrouter.ai/inclusionai/ring-2.6-1t

译Ring-2.6-1T模型现已开源，并上线OpenRouter平台，5月底前享有75%折扣。该模型由AntLingAGI开发，是一个为现实世界智能体构建的万亿级推理模型，其核心设计目标不仅是回答问题，更是执行任务。它专注于规划步骤、使用工具、维持上下文和完成复杂工作流，具备强大的智能体执行能力和高推理模式，并采用了Async RL与IcePop训练方法。

Chubby♨️@kimmonismus · 5月16日59

According to Elon, Grok 4.2 is based on foundation model v8: 0.5T parameters, trained on Hoppers, with major data-quality shortcomings. The new v9 model is 1.5T parameters, trained with a better recipe, better data curation, and optimized for Blackwell. Better model with heat up competition even nore

译据Elon称，Grok 4.2基于基础模型v8： 0.5T参数，在Hoppers上训练，存在主要数据质量问题。新的v9模型为1.5T参数，采用更好的训练方案和数据管理，并为Blackwell优化。更好的模型将加剧竞争。

AYi@AYi_AInotes · 5月16日70

Damn！Anthropic的神秘模型Mythos Preview简直屌炸天！ Google Project Zero平均六个月才能搞定的漏洞，Mythos五天就完成了，而且这还是它的预览版，它这个找漏洞的速度真的有点让我后背发凉🤯 这可是苹果花了五年，砸了几十亿美元打造的终极硬件安全防线MIE啊，damn！我觉得这倒不是说苹果安全防护能力不行，更像是AI正在彻底改写网络安全游戏规则的明确信号， MIE是M5和A19芯片的旗舰安全功能，基于ARM的内存标签扩展技术，直接在硬件层面给每一块内存贴标签，苹果自己说它已经阻断了所有针对现代iOS的公开漏洞利用链，其中包括近期泄露的Coruna和Darksword工具包，结果加州的研究团队用Anthropic的Mythos Preview，五天就构造出了可运行的macOS内核内存损坏漏洞利用程序，作为对比，Google Project Zero处理同级别的漏洞，平均周期是六个月，但是Mythos不是简单的代码扫描工具，它能自主读代码，提出假设，写测试用例验证，甚至自己完成从发现漏洞到编写完整利用链的全过程，它在Firefox里一次运行就发现了271个漏洞，在OpenBSD里挖出了一个存在了27年的TCP SACK漏洞，以前我们觉得漏洞挖掘是顶级安全研究员的专属技能，需要十几年的经验积累和天赋，但是现在AI已经把这个门槛降到了几乎为零，这才是真正可怕的地方，我在想未来的网络战争，可能不再是人类黑客之间的对决，很可能是AI和AI之间的军备竞赛，毕竟人类安全研究员的速度，在AI面前已经不够看了，苹果已经拿到了完整的55页技术报告，修复之后会向公众公开，但这足以说明，AI漏洞挖掘的时代，已经来了。

译Anthropic的神秘AI模型Mythos Preview在网络安全领域取得突破性进展。该模型仅用五天就成功构造出针对苹果硬件级安全防线MIE的macOS内核漏洞利用程序，而同类任务通常需要Google Project Zero团队平均六个月完成。Mythos不仅能自主阅读代码、提出假设并验证，还能独立完成从漏洞发现到编写完整利用链的全过程。这标志着AI正将漏洞挖掘的技术门槛急剧降低，预示着未来网络安全攻防可能演变为AI之间的自动化竞赛。相关技术报告已提交苹果，修复后将公开。

Rohan Paul@rohanpaul_ai · 5月16日55

"The difference between (the current) Grok foundation model 8 and 9 is gigantic." ~ Elon Musk Grok V9 is a 3x larger foundation model built to compete with top coding agents.

译Elon Musk表示，Grok基础模型V8与V9之间存在巨大差距。内部开发的V9是一个1.5万亿参数模型，在数据质量、训练方法、规模等各方面均远超V8，并针对Blackwells架构优化，旨在与顶级编码智能体竞争。而当前公开的v4.2版本基于仅0.5万亿参数、在Hoppers上训练的V8基础模型，其训练数据在质量、全面性和均衡性上存在显著不足。

MiniMax (official)@MiniMax_AI · 5月16日66

M2.7 is live on @OrcaRouter - accessible via a single OpenAI-compatible API. Try it today!🐋

译M2.7已在@OrcaRouter上线——可通过单一OpenAI兼容API访问。今天就来试试吧！🐋

SenseTime@SenseTime_AI · 5月16日62

📢📢 𝗜𝗻𝘁𝗿𝗼𝗱𝘂𝗰𝗶𝗻𝗴 𝗮𝗻 𝗲𝗻𝗵𝗮𝗻𝗰𝗲𝗱 𝗺𝗼𝗱𝗲𝗹 𝗳𝗼𝗿 𝗶𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻! 📊 Posters, charts, recipe cards, postcards — even arXiv-style pages — all from 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝟴𝗕-𝗠𝗼𝗧-𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰. 🚀 +6.8 / +18.2 on BizGenEval (hard) / IGenBench (Q-ACC) over base U1, plus 100+ diverse showcases. 🤗 http://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic 🖼️Showcases: https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/u1_infographic_showcases.md Try it out — we'd love to see what you build! @huggingface

译SenseNova近日推出专为信息图表生成设计的增强模型SenseNova-U1-8B-MoT-Infographic。该模型能够根据指令生成多种视觉格式内容，包括海报、图表、食谱卡、明信片以及学术风格的arXiv页面等。在性能方面，模型在BizGenEval（困难版）和IGenBench（Q-ACC）两项基准测试上表现突出，相比其基础U1模型分别提升了6.8分和18.2分。目前，该模型已在Hugging Face平台开源，并提供了超过100个多样化的生成示例，供开发者和研究者参考与试用。

Berryxia.AI@berryxia · 5月15日45

Qwen 3.6 Plus & OpenCode 免费开整啊！！！

向阳乔木@vista8 · 5月15日63

前几天在Huggingface看到模型论文了。面壁智能的MiniCPM-V 4.6 ，竟然只有1.3B的视觉模型。看Benchmark效果有点强，抽空测试下。

译面壁智能推出仅1.3B参数的视觉语言模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术，将视觉编码成本降低55%，专为消费级和移动硬件优化，支持高效边缘部署。其在关键多模态和Artificial Analysis基准测试中，性能超越了Gemma4-E2B-it和Qwen3.5-0.8B等更大模型，且仅消耗后者2.5%的token预算。在处理高分辨率图像时，其首token生成时间比Qwen3.5-0.8B快2.2倍，在单张RTX 4090上的token吞吐量约为后者的1.5倍。模型已在Hugging Face、ModelScope等平台开源发布。

🚨 AI News | TestingCatalog@testingcatalog · 5月15日66

GOOGLE 🔥: New Gemini Spark screenshots featuring advanced tool use and Skills creation flow. It seems like there won't be an option to import SKILL MD files besides copeing and pasting. There is also no evidence of Browser or Computer Use atm.

译GOOGLE 🔥：Gemini Spark新截图展示高级工具使用和技能创建流程。目前看来除了复制粘贴外，似乎没有导入SKILL MD文件的选项。目前也没有浏览器或计算机使用功能的迹象。

Berryxia.AI@berryxia · 5月15日70

兄弟们，国内大模型现在彻底”大乱斗“了！群雄共舞啊，用户可以有更多的选择了！来自Ant Group AGI团队直接把Ring-2.6-1T这个1万亿参数的旗舰思考模型开源了。这不是又一个聊天玩具，它专为真实世界的复杂任务而生：Agent工作流、代码工程、长时序执行、深度研究、企业自动化。它能理解上下文、规划步骤、调用工具，在漫长任务链里保持稳定。支持两种reasoning模式——high用于高效生产，xhigh用于极致思考。底层IcePop异步强化学习算法，把万亿规模的长时序训练彻底稳住了。最关键的一点，它完全开源。这意味着什么？兄弟们现在可以直接把这个顶级模型拉到本地服务器或者端侧环境跑，企业所有数据完全不出域，隐私安全和合规问题直接解决。以前很多金融、政务、医疗、大型企业，因为数据敏感性，只能眼巴巴看着云端闭源模型干瞪眼。现在Ring-2.6-1T直接把执行级思考能力放在了自己手里。本地部署门槛也已经大幅降低，结合MoE架构和优化后，很多中大型企业完全可以把最强Agent能力跑在自家机房。模型已在以下地址上线： Hugging Face：https://huggingface.co/inclusionAI/Ring-2.6-1T ModelScope：https://modelscope.ai/models/inclusionAI/Ring-2.6-1T 如果你在做企业Agent、内部自动化或者对数据安全要求极高，这波开源值得立刻去试。

译蚂蚁集团AGI团队开源了万亿参数旗舰思考模型Ring-2.6-1T。该模型专为处理Agent工作流、代码工程、长时序执行等复杂任务设计，具备上下文理解、规划与工具调用能力，并提供高效与极致两种推理模式。其采用IcePop算法稳定训练，并借助MoE架构降低部署门槛。完全开源允许企业将模型部署于本地或端侧，确保数据不出域，有效解决了金融、政务等敏感领域对数据安全与合规的迫切需求。模型已在Hugging Face和ModelScope平台发布。

Artificial Analysis@ArtificialAnlys · 5月15日62

China Mobile has just released JT-35B-Flash, a proprietary 35B non-reasoning model with relatively high token efficiency and competitive intelligence for its size (Artificial Analysis Intelligence Index of 36) This represents a significant upgrade from China Mobile's previous JT-MINI, with an Intelligence Index improvement of +11 points (25 → 36). China Mobile is one of the world's largest telecommunications companies, and JT-35B-Flash is a sign of their continued focus on AI. Key results: ➤ JT-35B-Flash scores 36 on the Intelligence Index, an +11 point improvement from JT-MINI (25). While still behind frontier models overall, the model shows China Mobile's progression in developing more capable proprietary models. The 35B parameter count represents a significant scale-up from JT-MINI. ➤ JT-35B-Flash outperforms JT-MINI with significantly in AA-Omniscience, with a +42 improvement in score. This is driven by both lower hallucination rate (63%) as well as higher accuracy (28%). ➤ JT-35B-Flash leads in τ²-Bench with 99%, ahead of GLM-4.7-Flash (Reasoning, 98%) and other top performers. τ²-Bench measures tool use in customer service scenarios, making this particularly relevant for China Mobile's telecommunications business. This represents the highest score measured on this evaluation across models we benchmark. ➤ JT-35B-Flash achieves an Agentic Index score of 52, driven primarily by its exceptional τ²-Bench performance. GDPval-AA reaches 1076, indicating competent real-world task execution capabilities for a model at this Intelligence Index level. ➤ JT-35B-Flash demonstrates high token efficiency, even compared to other non-reasoning models, using ~17M output tokens to run the Intelligence Index. This positions JT-35B-Flash as an efficient inference option compared to reasoning-enabled alternatives. Model details: ➤ Context window: 256K tokens ➤ Availability: Currently primarily available to China Mobile’s enterprise customers

译中国移动近日发布了专有的350亿参数非推理模型JT-35B-Flash，其Artificial Analysis智能指数达到36，较前代JT-MINI大幅提升11分。该模型在面向电信客服场景的工具使用评测τ²-Bench中以99%的得分领先，并展现出较高的令牌效率，运行智能指数仅消耗约1700万输出令牌。JT-35B-Flash拥有256K上下文窗口，目前主要面向企业客户提供。作为全球主要电信运营商，此举标志着中国移动在开发更强大专有模型方面的持续投入。

Rohan Paul@rohanpaul_ai · 5月15日59

Google is set to announce a new Gemini model at its annual I/O conference on Tuesday, with performance believed to be roughly matched with GPT-5.5.

译Google 准备在周二的年度 I/O 大会上宣布一个新的 Gemini 模型，其性能被认为大致与 GPT-5.5 匹配。

Ant Ling@AntLingAGI · 5月14日83

🚀 Ring-2.6-1T is now open source. A trillion-scale flagship thinking model built for real-world complex tasks: Agent workflows, coding & engineering, long-horizon tasks, complex reasoning, research, and enterprise automation. It is designed to move beyond “answering” toward execution: understanding context, planning steps, calling tools, and staying stable across long task chains. Highlights： - Advanced agentic workflow support. - Reasoning effort levels: high for agentic tasks, xhigh for complex reasoning. - Scalable asynchronous RL via the IcePop algorithm, enabling stable, trillion-scale training for long-horizon agentic RL.

译Ring-2.6-1T 正式开源，这是一个专为现实世界复杂任务构建的万亿规模旗舰思考模型。其设计目标超越单纯的“回答”，转向任务执行，能够理解上下文、规划步骤、调用工具，并在长任务链中保持稳定。模型重点支持高级智能体工作流，提供不同级别的推理努力配置：常规任务采用高级别，复杂推理则启用更高强度。通过 IcePop 算法实现了可扩展的异步强化学习，从而支撑了面向长周期智能体任务的稳定万亿规模训练。

Chubby♨️@kimmonismus · 5月14日58

Rumors about the new Gemini Flash coming in. And holy, if true then big: 92% of GPT-5.5’s coding and reasoning performance, reportedly at 15–20x lower inference cost. And the latency? Sub-200ms for most queries. That would be nuts. no joke.

译传闻即将发布的Gemini 3.2 Flash模型在编码和推理任务上达到了GPT-5.5约92%的性能水平，同时推理成本降低了15至20倍。其延迟表现也极为出色，多数查询响应时间低于200毫秒。这主要得益于DeepMind的蒸馏和稀疏化技术，成功将前沿模型压缩为“Flash”变体，而避免了通常伴随的质量大幅下降。

SenseTime@SenseTime_AI · 5月14日77

Led by our Co‑Founder and Chief Scientist Dr. @lindahua , our passionate AI pioneers have brought vision to life.🔥 Access the 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭 𝘁𝗲𝗰𝗵𝗻𝗶𝗰𝗮𝗹 𝗿𝗲𝗽𝗼𝗿𝘁 for the architecture, training recipe, and innovations behind this breakthrough.

译由联合创始人兼首席科学家李沐博士领导的团队发布了SenseNova U1技术报告，详细阐述了其架构、训练方案与创新突破。此次开源同步发布了基于混合专家模型（MoE）的新权重，旨在推动AI领域的透明度、可复现性与进一步创新。团队希望通过开放共享促进整个社区的技术发展。

Chubby♨️@kimmonismus · 5月14日48

Lets go: Google’s next Gemini model is expected to compete with GPT-5.5 Google is reportedly preparing to unveil a new Gemini model at I/O, positioning it near OpenAI’s recent GPT-5.5 rather than the more elusive Anthropic Mythos. Google i/o got even more exciting

译让我们开始：Google 的下一个 Gemini 模型预计将与 GPT-5.5 竞争。据报道，Google 正准备在 I/O 上发布一个新的 Gemini 模型，将其定位接近 OpenAI 最近的 GPT-5.5，而不是更难以捉摸的 Anthropic Mythos。 Google I/O 变得更加令人兴奋了。

Kimi.ai@Kimi_Moonshot · 5月14日63

Kimi K2.6 is now open-weight #1 on Finance Agent Benchmark V2.

译Kimi K2.6 现已成为 Finance Agent Benchmark V2 开源权重排名第一。 [引用 @ValsAI]：AI 能胜任金融分析师的工作吗？

Krea@krea_ai · 5月14日73

sharing more Krea 2 access codes! K2-NF55KA / K2 TCA7ZX / TMYVGV – each one will work for 80 users. link for redeeming them below 👇

译分享更多 Krea 2 内测码！ K2-NF55KA / K2 TCA7ZX / TMYVGV – 每个码可供80位用户使用。兑换链接如下 👇 [引用 @krea_ai]：this is Krea 2.

Yuchen Jin@Yuchenj_UW · 5月14日51

Google I/O is next week. Prediction: nobody lets Google have the stage alone. All of these models could drop next week: - GPT-5.6 - Mythos or Opus/Sonnet 4.8 - Gemini 3.5

译Google I/O 就在下周。预测：没人会让谷歌独占舞台。所有这些模型都可能在下周发布： - GPT-5.6 - Mythos 或 Opus/Sonnet 4.8 - Gemini 3.5

Berryxia.AI@berryxia · 5月14日56

Google Gemini 3.2 Pro 和Flash 已经蓄势待发了。每次都是这几个Case 真的烦了，能不能整点炸裂一点的Case。据说是就近期要发布，但是看着样子也是赶鸭子上架，应该放鸽子啥的也是常有的事儿。

Alibaba Cloud@alibaba_cloud · 5月14日63

What if AI characters could remember, empathize & proactively engage? ✨ The future of interactive AI is here. Whether you're building for games, virtual AI companions, or adaptive learning, Qwen-Character powers immersive role-play experiences that drive 50%+ deeper engagement and boost user LTV 👉 See how it works in the full video: https://int.alibabacloud.com/m/1000412854/ #AlibabaCloud #Qwen #QwenCharacter #ModelStudio #AI

译如果AI角色能够记忆、共情并主动交互呢？✨ 交互式AI的未来已来。无论您是为游戏、虚拟AI伴侣还是自适应学习进行开发，Qwen-Character都能打造沉浸式角色扮演体验，推动参与度加深50%以上并提升用户终身价值 👉 观看完整视频了解运作原理：https://int.alibabacloud.com/m/1000412854/ #AlibabaCloud #Qwen #QwenCharacter #ModelStudio #AI

Krea@krea_ai · 5月14日73

Krea 2 access code drop! K2-PRFUF8 / K2-NRWW9E / K2-CAP48S – each one has 50 uses. access link below 👇

译Krea 2 访问码发放！ K2-PRFUF8 / K2-NRWW9E / K2-CAP48S – 每个码可使用50次。访问链接如下 👇 [引用 @krea_ai]：this is Krea 2. our first foundation model, built completely from scratch for aesthetic diversity and stylistic control. learn more and get early access 👇

Chubby♨️@kimmonismus · 5月14日65

GPT-5.6 arriving *that quick* was not on my bingo card.

译GPT-5.6 来得那么快，这不在我的预料之中。

SenseTime@SenseTime_AI · 5月13日72

🔥 New week, New 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭 Drop — and this one goes Deep!🔥 📄 𝗧𝗵𝗲 𝗳𝘂𝗹𝗹 𝗧𝗲𝗰𝗵𝗻𝗶𝗰𝗮𝗹 𝗥𝗲𝗽𝗼𝗿𝘁 𝗶𝘀 𝗢𝗨𝗧 — the most detailed disclosure yet of how to build a frontier Native Multimodal Model. Inside: ✨ Near-lossless visual interface (no VEs, no VAEs) ✨ Native Multimodal Unified Modeling ✨ Joint AR + pixel-space flow matching training ✨ Native Mixture-of-Transformers backbone ✨ 6-stage training recipe + RL post-training + distillation If you work on NMM, this is the playbook. 🤗 One more thing: 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝗔𝟯𝗕-𝗠𝗼𝗧 (𝟯𝟴𝗕-𝗔𝟯𝗕 𝗠𝗼𝗘) 𝘄𝗲𝗶𝗴𝗵𝘁𝘀 𝗮𝗿𝗲 𝗻𝗼𝘄 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲𝗱 — a RARE native unified model on an MoE backbone (Only 3B active! Lightning Fast⚡) 📄 Tech Report: https://arxiv.org/abs/2605.12500 🤗 Daily Papers (Vote & Discuss): https://huggingface.co/papers/2605.12500 🤗 Models: https://huggingface.co/collections/sensenova/sensenova-u1 💻 Code: https://github.com/OpenSenseNova/SenseNova-U1 🎮 Demo: https://unify.light-ai.top 👾 Discord: https://discord.com/invite/BuTXPHmQub

译SenseNova-U1 技术报告详尽披露了构建前沿原生多模态模型的方法，核心包括原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练、以及原生混合专家骨干网络。报告提供了六阶段训练方案、强化学习后训练与蒸馏的完整实践指南。其开源版本 SenseNova-U1-A3B-MoT 基于混合专家架构，仅激活30亿参数，实现了高效快速的性能。相关资源已全面开放，涵盖技术报告、模型权重、代码和演示平台。

Tencent Hy@TencentHunyuan · 5月13日76

Hy3 preview is now on @gmi_cloud. 🙌

译Hy3 预览版现已登陆 @gmi_cloud。🙌

Berryxia.AI@berryxia · 5月13日65

兄弟们！Jina 今天直来了个大的！ Jina-embeddings-v5-omni 来了！这是他们首个真正支持 text + image + audio + video 的统一 Embedding 模型！（多模态的EMB~！）两个尺寸： Small（1.57B，1024维，32K 上下文） Nano（0.95B，768维，8K 上下文）还支持 Matryoshka 截断到 32 维，超级灵活。最爽的是完全向后兼容：你原来的 v5-text 索引不用动，直接换成 omni 就能开始搜图片、音频、视频了！同一向量空间，无需 reindexing。性能也很猛，小模型就打平甚至超越好几个参数量大几倍的开源模型。现在已经在 Hugging Face、Jina API、Elastic Inference Service 上架了。这波多模态 embedding 真的要爽了兄弟们！你们已经在做多模态 RAG 或者多媒体搜索了吗？😂

译Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni，能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸，分别具有1.57B和0.95B参数，并支持Matryoshka截断技术。关键优势在于完全向后兼容：现有jina-embeddings-v5-text的索引无需重新构建，可直接替换为v5-omni，在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲，小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月19日

03:42

Rohan Paul@rohanpaul_ai

74

多智能体世界模型Agoro-1突破共享现实一致性难题

Odyssey团队推出的Agoro-1是首个支持多智能体交互的世界模型，解决了多人共享同一虚拟环境时维持现实一致性的核心瓶颈。该模型突破了传统单玩家预测模式的限制，能够实时模拟多个参与者（人类或AI）在同一世界中的交互行为，并保持世界状态的稳定连贯。这意味着世界模型从单向预测演进为支持动态因果关系的共享实时环境，其真实性不再仅依赖视觉保真度，而取决于多方干预下世界逻辑的自洽性。

Odyssey: Introducing Agora-1, a multi-agent world model. Multiple participants-human or AI-can now interact inside the same world...

智能体模型发布

02:12

Rohan Paul@rohanpaul_ai

57

HiDream开源8B参数统一架构图像模型，挑战传统扩散管线

HiDream开源了8B参数的HiDream-O1-Image模型，其核心创新在于采用像素级统一变换器，用单一架构直接处理原始图像块、文本与任务条件，将文本生成图像、编辑、个性化等任务统一为上下文生成，无需传统的VAE和文本编码器管线。该模型内置推理提示代理，能原生支持最高2048×2048的高分辨率合成。在性能上，它在参数量仅为部分同类模型三分之一的情况下，达到了可比的水平，尤其在文本渲染任务上表现出色，结果接近更大规模的模型。

图像生成开源生态推理模型发布

01:50

宝玉@dotey

83

Cursor 发布 Composer 2.5 编程模型

Cursor 发布了迄今最强的编程模型 Composer 2.5。该模型在长任务处理和复杂指令跟随方面更加稳定高效，官方称其效率最高可提升十倍。其技术亮点在于采用文本反馈方法，解决了超长轨迹（十万 token 级）下的学习难题，使模型能可靠执行连续数十甚至上百步的复杂编程任务。模型底座仍基于 Moonshot 的 Kimi K2.5 进行二次训练。同时，Cursor 宣布与 SpaceXAI 联合启动更大规模模型训练，将依托 Colossus 2 超算集群，这也意味着其算力基础已与马斯克旗下资源深度绑定。

Cursor: Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...

推理模型发布编码

01:13

凡人小北@frxiaobei

61

Qwen 3.7 有惊喜但不大，国内 top/国际第一梯队早就实锤了。期待下未来能超过 Anthropic，给国人出口恶气。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

模型发布评测/基准

00:02

Qwen@Alibaba_Qwen

57

阿里巴巴通义千问Qwen3.7-Max-Preview与Qwen3.7-Plus-Preview模型现已登陆AI评测平台Arena，分别参与文本与视觉评测。这一进展大幅提升了阿里巴巴在两大领域的实验室排名：在文本榜单跃升至全球第6位，在视觉榜单升至第5位。具体而言，Qwen3.7 Max Preview在文本总榜位列第13，并在数学、编程等多个子榜单中表现突出；Qwen3.7 Plus Preview在视觉总榜排名第16。官方对取得的进步表示祝贺，并透露Qwen3.7系列模型的正式版本即将发布。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态模型发布评测/基准

00:02

Qwen@Alibaba_Qwen

47

🚀🚀 【引用 @arena】：在视觉竞技场中，Qwen3.7 Plus Preview使@Alibaba_Qwen成为第5大实验室，总排名第16位。

Arena.ai: In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.

多模态模型发布评测/基准

5月18日

18:35

Chubby♨️@kimmonismus

44

我爱 GPT-5.5。它是个实干家，正是我期待的模型。但传闻说 5.6 版本已蓄势待发，这让我更加兴奋！ OpenAI 势头正猛。

Chetaslua: 🚨 ChatGPT is running TWO A/B tests at once right now: → text model → image model both showed up yesterday and today. ca...

OpenAI 大佬观点模型发布

5月17日

16:16

🚨 AI News | TestingCatalog@testingcatalog

60

基于1.5T参数V9基础模型的新版Grok已完成训练，预计将在今年夏季迎来重大升级。接下来将进入补充训练阶段，加入Cursor数据，随后进行SFT和RL优化。整个发布流程预计需要3至4周。此次升级标志着Grok从当前的0.5T V8公开版本实现显著性能提升。

Elon Musk: We are improving the 0.5T Grok foundation model V8 (public version 4.3) every few days. The 1.5T V9 just finished traini...

xAI 模型发布

07:43

🚨 AI News | TestingCatalog@testingcatalog

45

GOOGLE 🔥：在谷歌云控制台上发现了Gemini 3.2 Flash-lite-live的踪迹。难道是更便宜的低延迟模型？👀

AiBattle: Gemini 3.2 Flash-lite-live has been spotted on the Google Cloud Console We might be getting the Gemini 3.2 series instea...

Google 模型发布行业动态

06:54

Berryxia.AI@berryxia

63

Claude Mythos模型悄然现身Google Cloud Console，预示企业级发布

Claude Mythos模型近日悄然出现在Google Cloud Console中，其预览标签已消失，发布模式与之前Opus 4.7类似，预示可能即将正式落地。Anthropic曾称该模型“太危险”不适合公开发布，但目前迹象表明，公司可能不会推出公开版本，而是转而作为模型提供商，通过Google Cloud Platform让已接入的企业客户直接在自有环境中调用和使用。这一举动被视为Anthropic以最安静的方式将其高级思考模型推向生产环境，并逆转了此前关于该模型危险的叙事。

🚨 AI News | TestingCatalog: ANTHROPIC 🔥: Claude Mythos model has been spotted on Google Cloud Console. -claude-mythos 👀 It is hard to imagine that...

Anthropic 推理模型发布

05:43

🚨 AI News | TestingCatalog@testingcatalog

65

Anthropic的Claude Mythos模型已被发现在谷歌云控制台出现，且其预览标签已消失。这一迹象与之前Opus 4.7发布前的模式相似，引发了关于Anthropic可能准备公开发布该模型的猜测。尽管作者认为Anthropic改变主意直接向公众发布的可能性不大，但推测其可能作为模型提供商，为有权限的公司提供在谷歌云平台上运行该模型的服务。

AiBattle: Claude Mythos now appears in the Google Cloud console, which was not the case yesterday The preview label is also gone. ...

Anthropic 模型发布

00:51

Ant Ling@AntLingAGI

精选80

又一次Day0协作，又一次社区胜利。感谢@vllm_project团队始终可靠的支持~ 🫡🫡

vLLM: Congrats to @AntLingAGI on Ring-2.6-1T going open! 🎉 The thinking sibling of Ling-2.6-1T - trillion-scale, built for ag...

智能体开源生态推理模型发布

推荐理由：蚂蚁百灵把万亿参数的 thinking 模型开源，vLLM 第一天就能跑，想自己搭 agent 推理服务的可以直接动手了，开源生态的齿轮转得比想象中快。

00:51

Ant Ling@AntLingAGI

74

Ring-2.6-1T万亿参数旗舰模型正式发布，专注于处理复杂现实世界任务，并在SGLang平台获得Day-0即时支持，得益于与@lmsysorg的合作。该模型具备增强的智能体执行能力，可稳定处理多步骤、工具调用和长流程工作。用户可通过推理努力控制的高与极高模式，灵活调节推理深度、速度和成本。训练采用异步强化学习与IcePop技术，确保万亿参数强化学习训练的效率和稳定性。目前，该模型在OpenRouter平台提供限时75%折扣，供用户体验最新功能。

LMSYS Org: 🎉 Congrats on the release of Ring-2.6-1T, a trillion-parameter flagship for complex, real-world tasks. Day-0 support is...

智能体开源/仓库推理模型发布

00:51

Ant Ling@AntLingAGI

精选76

蚂蚁集团发布万亿参数推理模型Ring-2.6-1T，专为现实世界智能体工作流构建。该模型采用MIT许可，上下文长度通过YaRN技术从128K扩展至256K，并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式："high"模式用于快速智能体循环，"xhigh"模式用于深度推理，旨在实现更好的成本与性能平衡。模型已开源，欢迎社区反馈。

Adina Yakup: Ant group just dropped Ring-2.6-1T 🔥 1T reasoning model, built for real world agent workflows. ✨ MIT license ✨ 128K >> ...

智能体 Hugging Face 开源生态推理

推荐理由：蚂蚁把1T推理模型以MIT许可开源，还专门为Agent循环做了高低推理双模式，做开源Agent的团队直接多了一个强力基座可选。

00:21

Ant Ling@AntLingAGI

66

Ring-2.6-1T模型现已开源，并上线OpenRouter平台，5月底前享有75%折扣。该模型由AntLingAGI开发，是一个为现实世界智能体构建的万亿级推理模型，其核心设计目标不仅是回答问题，更是执行任务。它专注于规划步骤、使用工具、维持上下文和完成复杂工作流，具备强大的智能体执行能力和高推理模式，并采用了Async RL与IcePop训练方法。

Novita AI: 🚀 Ring-2.6-1T is now open source (from @AntLingAGI). Now 90% off on @OpenRouter via @novita_labs - a great time to star...

智能体开源生态推理模型发布

5月16日

15:32

Chubby♨️@kimmonismus

59

据Elon称，Grok 4.2基于基础模型v8： 0.5T参数，在Hoppers上训练，存在主要数据质量问题。新的v9模型为1.5T参数，采用更好的训练方案和数据管理，并为Blackwell优化。更好的模型将加剧竞争。

数据/训练模型发布

14:42

AYi@AYi_AInotes

70

Anthropic神秘模型Mythos Preview展现颠覆性漏洞挖掘能力

Anthropic的神秘AI模型Mythos Preview在网络安全领域取得突破性进展。该模型仅用五天就成功构造出针对苹果硬件级安全防线MIE的macOS内核漏洞利用程序，而同类任务通常需要Google Project Zero团队平均六个月完成。Mythos不仅能自主阅读代码、提出假设并验证，还能独立完成从漏洞发现到编写完整利用链的全过程。这标志着AI正将漏洞挖掘的技术门槛急剧降低，预示着未来网络安全攻防可能演变为AI之间的自动化竞赛。相关技术报告已提交苹果，修复后将公开。

Anthropic 安全/对齐推理模型发布

02:37

Rohan Paul@rohanpaul_ai

55

Elon Musk表示，Grok基础模型V8与V9之间存在巨大差距。内部开发的V9是一个1.5万亿参数模型，在数据质量、训练方法、规模等各方面均远超V8，并针对Blackwells架构优化，旨在与顶级编码智能体竞争。而当前公开的v4.2版本基于仅0.5万亿参数、在Hoppers上训练的V8基础模型，其训练数据在质量、全面性和均衡性上存在显著不足。

Elon Musk: The version numbers are a little confusing and deserve some explanation. Internally, we are working on version 9 of our ...

数据/训练模型发布

01:07

MiniMax (official)@MiniMax_AI

66

M2.7已在@OrcaRouter上线--可通过单一OpenAI兼容API访问。今天就来试试吧！🐋

OrcaRouter 🐳: MiniMax M2.7 is now on OrcaRouter 🐋 One of the strongest open-source models available today - now accessible through a ...

开源生态模型发布

00:22

SenseTime@SenseTime_AI

62

SenseNova发布增强版信息图表生成模型SenseNova-U1-8B-MoT-Infographic

SenseNova近日推出专为信息图表生成设计的增强模型SenseNova-U1-8B-MoT-Infographic。该模型能够根据指令生成多种视觉格式内容，包括海报、图表、食谱卡、明信片以及学术风格的arXiv页面等。在性能方面，模型在BizGenEval（困难版）和IGenBench（Q-ACC）两项基准测试上表现突出，相比其基础U1模型分别提升了6.8分和18.2分。目前，该模型已在Hugging Face平台开源，并提供了超过100个多样化的生成示例，供开发者和研究者参考与试用。

Hugging Face 图像生成模型发布

5月15日

20:54

Berryxia.AI@berryxia

45

Qwen 3.6 Plus &amp； OpenCode 免费开整啊！！！

开源生态模型发布编码

18:27

向阳乔木@vista8

63

面壁智能推出仅1.3B参数的视觉语言模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术，将视觉编码成本降低55%，专为消费级和移动硬件优化，支持高效边缘部署。其在关键多模态和Artificial Analysis基准测试中，性能超越了Gemma4-E2B-it和Qwen3.5-0.8B等更大模型，且仅消耗后者2.5%的token预算。在处理高分辨率图像时，其首token生成时间比Qwen3.5-0.8B快2.2倍，在单张RTX 4090上的token吞吐量约为后者的1.5倍。模型已在Hugging Face、ModelScope等平台开源发布。

OpenBMB: 1/5 MiniCPM-V 4.6 (1.3B) is now live 🚀🚀 High-res visual processing, optimized for consumer-grade and mobile hardware. ...

多模态模型发布端侧

17:41

🚨 AI News | TestingCatalog@testingcatalog

66

GOOGLE 🔥：Gemini Spark新截图展示高级工具使用和技能创建流程。目前看来除了复制粘贴外，似乎没有导入SKILL MD文件的选项。目前也没有浏览器或计算机使用功能的迹象。

Just a dragon: The new Gemini Spark model will have Agent mode / Chat mode. New advanced use of tools.

智能体 Google MCP/工具模型发布

12:54

Berryxia.AI@berryxia

70

蚂蚁集团开源万亿参数思考模型Ring-2.6-1T，推动企业级AI本地部署

蚂蚁集团AGI团队开源了万亿参数旗舰思考模型Ring-2.6-1T。该模型专为处理Agent工作流、代码工程、长时序执行等复杂任务设计，具备上下文理解、规划与工具调用能力，并提供高效与极致两种推理模式。其采用IcePop算法稳定训练，并借助MoE架构降低部署门槛。完全开源允许企业将模型部署于本地或端侧，确保数据不出域，有效解决了金融、政务等敏感领域对数据安全与合规的迫切需求。模型已在Hugging Face和ModelScope平台发布。

智能体开源生态推理模型发布

07:34

Artificial Analysis@ArtificialAnlys

62

中国移动发布专有模型JT-35B-Flash，智能指数显著提升

中国移动近日发布了专有的350亿参数非推理模型JT-35B-Flash，其Artificial Analysis智能指数达到36，较前代JT-MINI大幅提升11分。该模型在面向电信客服场景的工具使用评测τ²-Bench中以99%的得分领先，并展现出较高的令牌效率，运行智能指数仅消耗约1700万输出令牌。JT-35B-Flash拥有256K上下文窗口，目前主要面向企业客户提供。作为全球主要电信运营商，此举标志着中国移动在开发更强大专有模型方面的持续投入。

MCP/工具模型发布

00:06

Rohan Paul@rohanpaul_ai

59

Google 准备在周二的年度 I/O 大会上宣布一个新的 Gemini 模型，其性能被认为大致与 GPT-5.5 匹配。

Google 模型发布

5月14日

23:45

Ant Ling@AntLingAGI

83

Ring-2.6-1T开源：万亿级思考模型支持复杂任务执行

Ring-2.6-1T 正式开源，这是一个专为现实世界复杂任务构建的万亿规模旗舰思考模型。其设计目标超越单纯的“回答”，转向任务执行，能够理解上下文、规划步骤、调用工具，并在长任务链中保持稳定。模型重点支持高级智能体工作流，提供不同级别的推理努力配置：常规任务采用高级别，复杂推理则启用更高强度。通过 IcePop 算法实现了可扩展的异步强化学习，从而支撑了面向长周期智能体任务的稳定万亿规模训练。

智能体开源生态推理模型发布

20:01

Chubby♨️@kimmonismus

58

传闻即将发布的Gemini 3.2 Flash模型在编码和推理任务上达到了GPT-5.5约92%的性能水平，同时推理成本降低了15至20倍。其延迟表现也极为出色，多数查询响应时间低于200毫秒。这主要得益于DeepMind的蒸馏和稀疏化技术，成功将前沿模型压缩为"Flash"变体，而避免了通常伴随的质量大幅下降。

Bindu Reddy: Gemini 3.2 Flash - Capitalizing on DeepMind's clever distillation techniques... Rumors are that benchmarks show it's hit...

Google 推理模型发布编码

19:15

SenseTime@SenseTime_AI

精选77

由联合创始人兼首席科学家李沐博士领导的团队发布了SenseNova U1技术报告，详细阐述了其架构、训练方案与创新突破。此次开源同步发布了基于混合专家模型（MoE）的新权重，旨在推动AI领域的透明度、可复现性与进一步创新。团队希望通过开放共享促进整个社区的技术发展。

Dahua Lin: Proud to announce the release of the SenseNova U1 Tech Report - together with the a new set of model weights based on Mo...

开源/仓库开源生态数据/训练模型发布

推荐理由：商汤这次把SenseNova U1的MoE权重和完整技术报告一起开源，比常规PR多了些诚意，做模型选型和微调的值得翻翻。

16:01

Chubby♨️@kimmonismus

48

让我们开始：Google 的下一个 Gemini 模型预计将与 GPT-5.5 竞争。据报道，Google 正准备在 I/O 上发布一个新的 Gemini 模型，将其定位接近 OpenAI 最近的 GPT-5.5，而不是更难以捉摸的 Anthropic Mythos。 Google I/O 变得更加令人兴奋了。

Google 模型发布

14:14

Kimi.ai@Kimi_Moonshot

63

Kimi K2.6 现已成为 Finance Agent Benchmark V2 开源权重排名第一。【引用 @ValsAI】：AI 能胜任金融分析师的工作吗？

Vals AI: Can AI do the job of a financial analyst? We just released V2 of our Finance Agent Benchmark and tested the frontier mod...

智能体模型发布

13:32

Krea@krea_ai

73

分享更多 Krea 2 内测码！ K2-NF55KA / K2 TCA7ZX / TMYVGV - 每个码可供80位用户使用。兑换链接如下 👇 【引用 @krea_ai】：this is Krea 2.

Krea: this is Krea 2. our first foundation model, built completely from scratch for aesthetic diversity and stylistic control....

图像生成模型发布

12:26

Yuchen Jin@Yuchenj_UW

51

Google I/O 就在下周。预测：没人会让谷歌独占舞台。所有这些模型都可能在下周发布： - GPT-5.6 - Mythos 或 Opus/Sonnet 4.8 - Gemini 3.5

Anthropic Google OpenAI 大佬观点

09:51

Berryxia.AI@berryxia

56

Gemini 3.2 Pro与Flash发布在即，案例重复引不满

Google Gemini 3.2 Pro 和Flash 已经蓄势待发了。每次都是这几个Case 真的烦了，能不能整点炸裂一点的Case。据说是就近期要发布，但是看着样子也是赶鸭子上架，应该放鸽子啥的也是常有的事儿。

can: 🚨 FIRST GEMINI 3.2 PRO OUTPUTS From yours truly. I'll share more today, I can test your prompts too if you guys want. I...

Google 多模态模型发布

04:01

Alibaba Cloud@alibaba_cloud

63

如果AI角色能够记忆、共情并主动交互呢？✨ 交互式AI的未来已来。无论您是为游戏、虚拟AI伴侣还是自适应学习进行开发，Qwen-Character都能打造沉浸式角色扮演体验，推动参与度加深50%以上并提升用户终身价值 👉 观看完整视频了解运作原理：https://int.alibabacloud.com/m/1000412854/ #AlibabaCloud #Qwen #QwenCharacter #ModelStudio #AI

智能体模型发布

01:31

Krea@krea_ai

精选73

Krea 2 访问码发放！ K2-PRFUF8 / K2-NRWW9E / K2-CAP48S - 每个码可使用50次。访问链接如下 👇 【引用 @krea_ai】：this is Krea 2. our first foundation model， built completely from scratch for aesthetic diversity and stylistic control. learn more and get early access 👇

Krea: this is Krea 2. our first foundation model, built completely from scratch for aesthetic diversity and stylistic control....

图像生成模型发布

推荐理由：Krea 从套壳到自研模型这一步走得关键，专攻美学多样性和风格控制，对设计师来说是个值得立刻上手试的新选择。

00:29

Chubby♨️@kimmonismus

65

GPT-5.6 来得那么快，这不在我的预料之中。

leo 🐾: 🚨 SCOOP: The development cycle for GPT-5.6 is now in full swing at OpenAI. The first checkpoints of the model began tes...

OpenAI 模型发布

5月13日

14:43

SenseTime@SenseTime_AI

精选72

SenseNova-U1 技术报告深度发布：前沿原生多模态模型构建全指南

SenseNova-U1 技术报告详尽披露了构建前沿原生多模态模型的方法，核心包括原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练、以及原生混合专家骨干网络。报告提供了六阶段训练方案、强化学习后训练与蒸馏的完整实践指南。其开源版本 SenseNova-U1-A3B-MoT 基于混合专家架构，仅激活30亿参数，实现了高效快速的性能。相关资源已全面开放，涵盖技术报告、模型权重、代码和演示平台。

多模态开源/仓库模型发布

推荐理由：商汤把原生多模态模型的训练细节全公开了，无视觉编码器、原生MoE架构，还开源了38B-A3B权重，做多模态模型的可以直接照着技术报告复现。

11:55

Tencent Hy@TencentHunyuan

精选76

Hy3 预览版现已登陆 @gmi_cloud。🙌

GMI Cloud: Hy3 preview from @TencentHunyuan is now live on GMI #1 on OpenRouter's LLM leaderboard, open-sourced, and the strongest ...

智能体开源生态推理模型发布

推荐理由：腾讯混元 Hy3 开源且登顶 OpenRouter 排行榜，295B MoE 架构在推理和代码上提升明显，不是小厂的刷榜产品，搞 agent 和 coding 的可以认真试试。

08:49

Berryxia.AI@berryxia

65

Jina发布首个统一多模态Embedding模型v5-omni

Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni，能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸，分别具有1.57B和0.95B参数，并支持Matryoshka截断技术。关键优势在于完全向后兼容：现有jina-embeddings-v5-text的索引无需重新构建，可直接替换为v5-omni，在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲，小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。

Jina AI: jina-embeddings-v5-omni is here! Our first universal embedding model for text, images, audio, and video. Available in tw...

Hugging Face 检索增强多模态开源生态

1…16 171819 20…25