AIHOT

精选全部 AI 动态 AI 日报 Agent 接入关于更新日志反馈信源提报

AI HOT

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月19日

11:10

Alibaba Cloud@alibaba_cloud

阿里巴巴旗下通义千问的Qwen3.7系列模型在AI评测平台Arena首次公开。其中，Qwen3.7 Max Preview在文本竞技场总排名第13，使阿里在该平台位列第六；在数学、专业知识、软件与IT、编程等多个细分领域排名进入前十。此外，Qwen3.7 Plus Preview在视觉竞技场排名第16，阿里在该领域位列第五。官方表示即将正式发布Qwen3.7系列完整模型。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态模型发布

10:02

小互@xiaohu

Cursor新编码模型性能媲美Opus，价格低数十倍

Cursor发布自研编码模型Composer 2.5，其性能与Opus 4.7相当，但在成本上具有显著优势。价格方面，Composer 2.5的输入成本比Opus 4.7低10倍，输出成本低约30倍。技术层面，该模型在智能和行为表现上较前代有明显提升，尤其擅长处理长时间、大上下文的复杂任务，指令遵循的可靠性与协作流畅度也得到增强。

模型发布编码

关联讨论 3 条X：Berry Xia (@berryxia)Cursor BlogHacker News 热门（buzzing.cc 中文翻译）

09:56

Berryxia.AI@berryxia

精选76

首个实时多agent世界模型发布，人类可与AI同屏互动

奥德赛实验室推出Agora-1，这是全球首个实时多agent世界模型，允许多人与AI同时在同一个模拟世界中实时互动并相互影响。该模型以经典游戏GoldenEye死亡竞赛为演示场景，提供可玩研究预览，用户现在即可体验与AI共同参与动态生成的模拟世界。这标志着从单人生成视频向多人共享“活世界”的转变，长期来看可能重塑游戏、模拟、教育、机器人及AI协作等领域，使人类从旁观者变为与AI共同生活的参与者。

Odyssey: Introducing Agora-1, a multi-agent world model. Multiple participants-human or AI-can now interact inside the same world...

智能体多模态模型发布

推荐理由：Odyssey把世界模型推进到了多人实时交互，可玩的GoldenEye死亡竞赛预览比任何PPT都有说服力，做游戏和模拟的人得上去打两把。

09:45

IT之家（RSS）

Qwen 3.7？阿里云峰会 5 月 20 日举行，千问官宣"重量级新朋友"即将亮相

阿里云峰会将于5月20日举行。千问大模型官方发布预热海报，透露将有一位“重量级新朋友”亮相，其特点是“更全能、更强大、有深度、有广度”。结合海报中的吉祥物元素，预计本次将公布Qwen系列大模型的最新重要成果。此前，Qwen 3.7-Max-Preview和Qwen 3.7-Plus-Preview版本已率先在相关平台上线，有望在峰会上正式发布。

开源生态模型发布

08:56

meng shao@shao__meng

Cursor发布最强模型Composer 2.5，与SpaceXAI合作启动Colossus 2算力训练

Cursor发布迄今最强模型Composer 2.5，仍基于Kimi K2.5。模型已与SpaceXAI合作，使用Colossus 2算力开始训练，并计划合作训练一个规模大10倍的全新模型。Composer 2.5在长任务推进、复杂指令遵循及协作自然度方面均有显著提升。关键创新包括：采用定向文本反馈强化学习解决长任务信用分配问题、使用25倍于前代的合成数据进行训练，以及通过Muon优化器与分布式正交化技术优化基础设施层。此外，模型还专门针对沟通风格和投入度校准等协作“软”维度进行了优化。

Cursor: Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...

数据/训练模型发布编码

08:56

Berryxia.AI@berryxia

Odyssey推出首个实时多模态世界模型Starchild-1

Odyssey AI实验室发布了Starchild-1，这是全球首个实时多模态世界模型。该模型不仅能生成视频画面，还能同步生成与之匹配的声音，实现了视觉与听觉的真正融合，模拟出完整、鲜活的世界动态。与以往只能“看”世界的世界模型不同，Starchild-1实现了“听”的能力。这被视为向通用世界模型迈出的关键一步，旨在重新定义AI对现实世界的认知与模拟方式。

Odyssey: Meet our new friend, Starchild-1 ❤️ Starchild-1 is the first ever real-time multimodal world model. A world model unders...

多模态模型发布语音

08:49

🚨 AI News | TestingCatalog@testingcatalog

谷歌I/O 🔥：这些传奇人物是通过即将推出的Gemini Omni模型生成的AI图像。 > 两段视频均为8秒高清样本。 > 与Sundar和Demis相关的视频很可能是使用Omni进行风格编辑的图像转视频生成。 > Logan的视频则可能是"相似度"虚拟形象与Omni视频的结合。而"GEMINI"意味着新模型的发布！🤯

Logan Kilpatrick: Gemini

Google图像生成多模态模型发布

07:25

karminski-牙医@karminski3

字节跳动开源全模态模型Lance：轻量高效的"拼好模"

字节跳动开源了全模态模型Lance，其激活参数量仅为3B，却能同时处理文本、图片和视频的输入与输出，完成理解、生成与编辑等多种任务。该模型通过模块化拼接构建了Lance_3B与Lance_3B_Video两个版本，其创新在于采用共享交错序列统一语义空间，并引入专用专家模块协调理解与生成的互斥关系，使得小参数模型性能接近更大规模模型。训练仅需128张A100，对端侧部署和多模态Agent应用具有重要价值。

多模态开源生态模型发布

06:45

IT之家（RSS）

阿里云千问大模型 Qwen3.7-Max-Preview 首发亮相 Arena AI

阿里云通义千问最新模型 Qwen3.7-Max-Preview 与 Qwen3.7-Plus-Preview 已登陆 Qwen Chat 和 Arena AI 平台，预计于 5 月 20 日阿里云峰会正式发布。在 Arena AI 评测中，Max-Preview 在文本领域综合排名第 13，细分领域数学排名第 7，专家级应用与软件 IT 均位列第 9；Plus-Preview 在视觉领域综合排名第 16。据此，阿里通义千问在文本实验室榜单中排名第 6，视觉榜单中位列第 5。

多模态模型发布

06:06

Chubby♨️@kimmonismus

没想到这次发布这么重磅。评测结果看起来非常扎实，相比Composer 2有显著提升！但重点是：它的效率是竞争对手的10倍。看起来真的很令人兴奋。需要试用一下。

Cursor: Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...

推理模型发布编码

06:06

Chubby♨️@kimmonismus

智能成本低到难以计量。这是真正的突破。Composer 2.5是效率怪兽。

Chubby♨️: Huge, did NOT expect that release. Evals looks very solid, significant jump compared to composer 2! But: it's 10x more e...

模型发布部署/工程

05:42

Rohan Paul@rohanpaul_ai

专精小模型挑战行业巨头：PolyAI的客服AI新突破

PolyAI研究证实，专为客服设计的较小模型Raven 3.5，在性能上显著超越了规模大其100倍的通用前沿模型。该模型在所有四项客服基准测试中击败GPT-5和Claude Sonnet 4.6，并将响应延迟控制在300毫秒内。这项发布同时包括ADK代码开发工具包和PolyPhone网页语音生成工具，助力企业快速构建生产级语音代理。此举旨在将企业语音AI从大型项目转变为可快速部署的基础设施，从而有效解决客服等待时间长、成本高等问题，提升服务效率与客户体验。

智能体模型发布语音

03:42

Rohan Paul@rohanpaul_ai

多智能体世界模型Agoro-1突破共享现实一致性难题

Odyssey团队推出的Agoro-1是首个支持多智能体交互的世界模型，解决了多人共享同一虚拟环境时维持现实一致性的核心瓶颈。该模型突破了传统单玩家预测模式的限制，能够实时模拟多个参与者（人类或AI）在同一世界中的交互行为，并保持世界状态的稳定连贯。这意味着世界模型从单向预测演进为支持动态因果关系的共享实时环境，其真实性不再仅依赖视觉保真度，而取决于多方干预下世界逻辑的自洽性。

Odyssey: Introducing Agora-1, a multi-agent world model. Multiple participants-human or AI-can now interact inside the same world...

智能体模型发布

03:34

Hacker News 热门（buzzing.cc 中文翻译）

精选78

Qwen 3.7 预览版

多模态推理模型发布

关联讨论 10 条X：OpenRouter (@OpenRouter)X：Rohan Paul (@rohanpaul_ai)X：阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen：Blog Retrieval（API）IT之家（RSS）X：通义千问 / Qwen (@Alibaba_Qwen)Hacker News 热门（buzzing.cc 中文翻译）X：X.PIN (@thexpin)X：Kim (@kimmonismus)X：opencode (@opencode)

推荐理由：阿里 Qwen 3.7 预览版来了，国产模型在推理和多模态上的推进速度令人侧目，虽然还是预览，但已经是一个值得开发者提前盯紧的信号。

02:12

Rohan Paul@rohanpaul_ai

HiDream开源8B参数统一架构图像模型，挑战传统扩散管线

HiDream开源了8B参数的HiDream-O1-Image模型，其核心创新在于采用像素级统一变换器，用单一架构直接处理原始图像块、文本与任务条件，将文本生成图像、编辑、个性化等任务统一为上下文生成，无需传统的VAE和文本编码器管线。该模型内置推理提示代理，能原生支持最高2048×2048的高分辨率合成。在性能上，它在参数量仅为部分同类模型三分之一的情况下，达到了可比的水平，尤其在文本渲染任务上表现出色，结果接近更大规模的模型。

图像生成开源生态推理模型发布

02:06

The Decoder：AI News（RSS）

Cursor 发布 Composer 2.5：性能比肩 Opus 4.7 与 GPT-5.5，成本大幅降低

Cursor 推出了其最新的 AI 编程模型 Composer 2.5，该模型基于 Kimi K2.5 构建，训练时使用了前代模型 25 倍的合成任务数据。在性能基准测试中，Composer 2.5 达到了与 Opus 4.7 及 GPT-5.5 相当的水平，而其运行成本仅为后两者的一小部分，显著提升了成本效益比。

模型发布编码

01:50

宝玉@dotey

精选83

Cursor 发布 Composer 2.5 编程模型

Cursor 发布了迄今最强的编程模型 Composer 2.5。该模型在长任务处理和复杂指令跟随方面更加稳定高效，官方称其效率最高可提升十倍。其技术亮点在于采用文本反馈方法，解决了超长轨迹（十万 token 级）下的学习难题，使模型能可靠执行连续数十甚至上百步的复杂编程任务。模型底座仍基于 Moonshot 的 Kimi K2.5 进行二次训练。同时，Cursor 宣布与 SpaceXAI 联合启动更大规模模型训练，将依托 Colossus 2 超算集群，这也意味着其算力基础已与马斯克旗下资源深度绑定。

Cursor: Introducing Composer 2.5, our most powerful model yet. It's more intelligent, better at sustained work on long-running t...

推理模型发布编码

关联讨论 3 条X：Berry Xia (@berryxia)Cursor BlogHacker News 热门（buzzing.cc 中文翻译）

推荐理由：Cursor 模型做到长任务不掉链子，Kimi K2.5 底座的澄清补上了透明度欠账，更值得看的是背后 SpaceX 的算力布局，这家公司下一步怎么走全藏在这条推文里。

01:13

凡人小北@frxiaobei

Qwen 3.7 有惊喜但不大，国内 top/国际第一梯队早就实锤了。期待下未来能超过 Anthropic，给国人出口恶气。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

模型发布评测/基准

00:02

Qwen@Alibaba_Qwen

阿里巴巴通义千问Qwen3.7-Max-Preview与Qwen3.7-Plus-Preview模型现已登陆AI评测平台Arena，分别参与文本与视觉评测。这一进展大幅提升了阿里巴巴在两大领域的实验室排名：在文本榜单跃升至全球第6位，在视觉榜单升至第5位。具体而言，Qwen3.7 Max Preview在文本总榜位列第13，并在数学、编程等多个子榜单中表现突出；Qwen3.7 Plus Preview在视觉总榜排名第16。官方对取得的进步表示祝贺，并透露Qwen3.7系列模型的正式版本即将发布。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态模型发布评测/基准

00:02

Qwen@Alibaba_Qwen

🚀🚀 【引用 @arena】：在视觉竞技场中，Qwen3.7 Plus Preview使@Alibaba_Qwen成为第5大实验室，总排名第16位。

Arena.ai: In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.

多模态模型发布评测/基准

5月17日

16:16

🚨 AI News | TestingCatalog@testingcatalog

基于1.5T参数V9基础模型的新版Grok已完成训练，预计将在今年夏季迎来重大升级。接下来将进入补充训练阶段，加入Cursor数据，随后进行SFT和RL优化。整个发布流程预计需要3至4周。此次升级标志着Grok从当前的0.5T V8公开版本实现显著性能提升。

Elon Musk: We are improving the 0.5T Grok foundation model V8 (public version 4.3) every few days. The 1.5T V9 just finished traini...

xAI模型发布

06:54

Berryxia.AI@berryxia

Claude Mythos模型悄然现身Google Cloud Console，预示企业级发布

Claude Mythos模型近日悄然出现在Google Cloud Console中，其预览标签已消失，发布模式与之前Opus 4.7类似，预示可能即将正式落地。Anthropic曾称该模型“太危险”不适合公开发布，但目前迹象表明，公司可能不会推出公开版本，而是转而作为模型提供商，通过Google Cloud Platform让已接入的企业客户直接在自有环境中调用和使用。这一举动被视为Anthropic以最安静的方式将其高级思考模型推向生产环境，并逆转了此前关于该模型危险的叙事。

🚨 AI News | TestingCatalog: ANTHROPIC 🔥: Claude Mythos model has been spotted on Google Cloud Console. -claude-mythos 👀 It is hard to imagine that...

Anthropic推理模型发布

05:43

🚨 AI News | TestingCatalog@testingcatalog

Anthropic的Claude Mythos模型已被发现在谷歌云控制台出现，且其预览标签已消失。这一迹象与之前Opus 4.7发布前的模式相似，引发了关于Anthropic可能准备公开发布该模型的猜测。尽管作者认为Anthropic改变主意直接向公众发布的可能性不大，但推测其可能作为模型提供商，为有权限的公司提供在谷歌云平台上运行该模型的服务。

AiBattle: Claude Mythos now appears in the Google Cloud console, which was not the case yesterday The preview label is also gone. ...

Anthropic模型发布

00:51

Ant Ling@AntLingAGI

精选80

又一次Day0协作，又一次社区胜利。感谢@vllm_project团队始终可靠的支持~ 🫡🫡

vLLM: Congrats to @AntLingAGI on Ring-2.6-1T going open! 🎉 The thinking sibling of Ling-2.6-1T - trillion-scale, built for ag...

智能体开源生态推理模型发布

推荐理由：蚂蚁百灵把万亿参数的 thinking 模型开源，vLLM 第一天就能跑，想自己搭 agent 推理服务的可以直接动手了，开源生态的齿轮转得比想象中快。

00:51

Ant Ling@AntLingAGI

精选74

Ring-2.6-1T万亿参数旗舰模型正式发布，专注于处理复杂现实世界任务，并在SGLang平台获得Day-0即时支持，得益于与@lmsysorg的合作。该模型具备增强的智能体执行能力，可稳定处理多步骤、工具调用和长流程工作。用户可通过推理努力控制的高与极高模式，灵活调节推理深度、速度和成本。训练采用异步强化学习与IcePop技术，确保万亿参数强化学习训练的效率和稳定性。目前，该模型在OpenRouter平台提供限时75%折扣，供用户体验最新功能。

LMSYS Org: 🎉 Congrats on the release of Ring-2.6-1T, a trillion-parameter flagship for complex, real-world tasks. Day-0 support is...

智能体开源/仓库推理模型发布

关联讨论 2 条X：蚂蚁百灵 (@AntLingAGI)蚂蚁 inclusionAI：HuggingFace 新模型

推荐理由：蚂蚁百灵发布万亿参数推理模型，强调异步RL训练的稳定性和Agent执行能力，SGLang当天就支持，想试最新开源推理模型的可以直接跑。

00:51

Ant Ling@AntLingAGI

精选76

蚂蚁集团发布万亿参数推理模型Ring-2.6-1T，专为现实世界智能体工作流构建。该模型采用MIT许可，上下文长度通过YaRN技术从128K扩展至256K，并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式："high"模式用于快速智能体循环，"xhigh"模式用于深度推理，旨在实现更好的成本与性能平衡。模型已开源，欢迎社区反馈。

Adina Yakup: Ant group just dropped Ring-2.6-1T 🔥 1T reasoning model, built for real world agent workflows. ✨ MIT license ✨ 128K >> ...

智能体Hugging Face开源生态推理

关联讨论 2 条X：蚂蚁百灵 (@AntLingAGI)蚂蚁 inclusionAI：HuggingFace 新模型

推荐理由：蚂蚁把1T推理模型以MIT许可开源，还专门为Agent循环做了高低推理双模式，做开源Agent的团队直接多了一个强力基座可选。

00:21

Ant Ling@AntLingAGI

精选66

Ring-2.6-1T模型现已开源，并上线OpenRouter平台，5月底前享有75%折扣。该模型由AntLingAGI开发，是一个为现实世界智能体构建的万亿级推理模型，其核心设计目标不仅是回答问题，更是执行任务。它专注于规划步骤、使用工具、维持上下文和完成复杂工作流，具备强大的智能体执行能力和高推理模式，并采用了Async RL与IcePop训练方法。

Novita AI: 🚀 Ring-2.6-1T is now open source (from @AntLingAGI). Now 90% off on @OpenRouter via @novita_labs - a great time to star...

智能体开源生态推理模型发布

关联讨论 2 条X：蚂蚁百灵 (@AntLingAGI)蚂蚁 inclusionAI：HuggingFace 新模型

推荐理由：蚂蚁把万亿参数推理模型 Ring-2.6-1T 开源，主打 Agent 执行和复杂工作流，OpenRouter 上还有折扣，做大规模 Agent 的团队值得试一下。

5月16日

23:31

Hacker News 热门（buzzing.cc 中文翻译）

精选73

SANA-WM：一个用于生成1分钟720p视频的26亿级开源世界模型

NVIDIA研究团队发布了SANA-WM，这是一个参数规模达26亿的开源世界模型，专门用于生成长达1分钟、分辨率为720p的视频。该模型已在GitHub页面开源，旨在推动高质量长视频生成的研发。其在Hacker News社区获得了107点热度，显示出业界对该技术进展的关注。

开源生态模型发布视频

推荐理由：开源且能跑 1 分钟 720p，NVIDIA 这个 2.6B 世界模型在物理一致性上跨了一大步，做视频生成和物理仿真的同行该坐不住了。

15:42

IT之家（RSS）

蚂蚁集团百灵开源万亿级思考模型 Ring-2.6-1T，支持 high 与 xhigh 两种推理强度

蚂蚁集团百灵大模型开源了面向复杂任务的万亿级思考模型 Ring-2.6-1T。该模型创新性地引入了可调节推理强度机制，提供 high 和 xhigh 两种模式。high 模式适用于高频 Agent 工作流，具有低 Token 开销和快速多步执行能力，适合多轮交互与工具协作；xhigh 模式则为数学、科研及复杂逻辑分析等高难任务提供更充分的思考深度。开发者可根据任务需求灵活选择，以平衡效果、速度与成本。模型已在 Hugging Face 和 ModelScope 平台开放。

Hugging Face开源生态推理模型发布

14:42

AYi@AYi_AInotes

Anthropic神秘模型Mythos Preview展现颠覆性漏洞挖掘能力

Anthropic的神秘AI模型Mythos Preview在网络安全领域取得突破性进展。该模型仅用五天就成功构造出针对苹果硬件级安全防线MIE的macOS内核漏洞利用程序，而同类任务通常需要Google Project Zero团队平均六个月完成。Mythos不仅能自主阅读代码、提出假设并验证，还能独立完成从漏洞发现到编写完整利用链的全过程。这标志着AI正将漏洞挖掘的技术门槛急剧降低，预示着未来网络安全攻防可能演变为AI之间的自动化竞赛。相关技术报告已提交苹果，修复后将公开。

Anthropic安全/对齐推理模型发布

关联讨论 1 条IT之家（RSS）

06:50

Google DeepMind：Blog（RSS）

精选69

Gemini 3.5：具备行动能力的前沿智能

Google发布了Gemini 3.5模型，该模型专注于提升执行复杂任务的能力。其核心特点是支持“代理式工作流”，即能够像助手一样自主规划并执行一系列多步骤、复杂的操作，旨在将先进的语言理解与实际问题解决能力相结合。

智能体Google模型发布

关联讨论 15 条X：Testing Catalog (@testingcatalog)Hacker News 热门（buzzing.cc 中文翻译）Google Blog：AI（RSS）X：Google DeepMind (@GoogleDeepMind)X：Gemini (@GeminiApp)X：Google AI (@GoogleAI)X：Google AI for Developers (@googleaidevs)X：OpenRouter (@OpenRouter)X：Jeff Dean (@JeffDean)X：Artificial Analysis (@ArtificialAnlys)X：Sundar Pichai (@sundarpichai)IT之家（RSS）X：Oran Ge (@oran_ge)X：Demis Hassabis (@demishassabis)X：阶跃星辰 StepFun (@StepFun_ai)

推荐理由：Google DeepMind 官宣 Gemini 3.5，明确主打复杂 Agent 任务执行，这是大厂在 Agent 方向最直白的表态之一。但除了这句宣言，目前公开细节很少，可以先标记关注，等正式发布再深挖。

02:37

Rohan Paul@rohanpaul_ai

Elon Musk表示，Grok基础模型V8与V9之间存在巨大差距。内部开发的V9是一个1.5万亿参数模型，在数据质量、训练方法、规模等各方面均远超V8，并针对Blackwells架构优化，旨在与顶级编码智能体竞争。而当前公开的v4.2版本基于仅0.5万亿参数、在Hoppers上训练的V8基础模型，其训练数据在质量、全面性和均衡性上存在显著不足。

Elon Musk: The version numbers are a little confusing and deserve some explanation. Internally, we are working on version 9 of our ...

数据/训练模型发布

01:07

MiniMax (official)@MiniMax_AI

精选66

M2.7已在@OrcaRouter上线--可通过单一OpenAI兼容API访问。今天就来试试吧！🐋

OrcaRouter 🐳: MiniMax M2.7 is now on OrcaRouter 🐋 One of the strongest open-source models available today - now accessible through a ...

开源生态模型发布

推荐理由：M2.7 是国产开源模型里的第一梯队，现在能在 OrcaRouter 用统一 API 调用，价格很透明，想试试又不想自己部署的开发者可以直接上手。

00:22

SenseTime@SenseTime_AI

精选62

SenseNova发布增强版信息图表生成模型SenseNova-U1-8B-MoT-Infographic

SenseNova近日推出专为信息图表生成设计的增强模型SenseNova-U1-8B-MoT-Infographic。该模型能够根据指令生成多种视觉格式内容，包括海报、图表、食谱卡、明信片以及学术风格的arXiv页面等。在性能方面，模型在BizGenEval（困难版）和IGenBench（Q-ACC）两项基准测试上表现突出，相比其基础U1模型分别提升了6.8分和18.2分。目前，该模型已在Hugging Face平台开源，并提供了超过100个多样化的生成示例，供开发者和研究者参考与试用。

Hugging Face图像生成模型发布

关联讨论 1 条X：商汤 SenseTime (@SenseTime_AI)

推荐理由：商汤这个 8B 模型把信息图生成能力打包得很完整，海报、食谱卡、学术风格页面都能搞，做设计的可以试试看效果。

5月15日

20:54

Berryxia.AI@berryxia

Qwen 3.6 Plus &amp； OpenCode 免费开整啊！！！

开源生态模型发布编码

18:27

向阳乔木@vista8

面壁智能推出仅1.3B参数的视觉语言模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术，将视觉编码成本降低55%，专为消费级和移动硬件优化，支持高效边缘部署。其在关键多模态和Artificial Analysis基准测试中，性能超越了Gemma4-E2B-it和Qwen3.5-0.8B等更大模型，且仅消耗后者2.5%的token预算。在处理高分辨率图像时，其首token生成时间比Qwen3.5-0.8B快2.2倍，在单张RTX 4090上的token吞吐量约为后者的1.5倍。模型已在Hugging Face、ModelScope等平台开源发布。

OpenBMB: 1/5 MiniCPM-V 4.6 (1.3B) is now live 🚀🚀 High-res visual processing, optimized for consumer-grade and mobile hardware. ...

多模态模型发布端侧

17:41

🚨 AI News | TestingCatalog@testingcatalog

GOOGLE 🔥：Gemini Spark新截图展示高级工具使用和技能创建流程。目前看来除了复制粘贴外，似乎没有导入SKILL MD文件的选项。目前也没有浏览器或计算机使用功能的迹象。

Just a dragon: The new Gemini Spark model will have Agent mode / Chat mode. New advanced use of tools.

智能体GoogleMCP/工具模型发布

12:54

Berryxia.AI@berryxia

蚂蚁集团开源万亿参数思考模型Ring-2.6-1T，推动企业级AI本地部署

蚂蚁集团AGI团队开源了万亿参数旗舰思考模型Ring-2.6-1T。该模型专为处理Agent工作流、代码工程、长时序执行等复杂任务设计，具备上下文理解、规划与工具调用能力，并提供高效与极致两种推理模式。其采用IcePop算法稳定训练，并借助MoE架构降低部署门槛。完全开源允许企业将模型部署于本地或端侧，确保数据不出域，有效解决了金融、政务等敏感领域对数据安全与合规的迫切需求。模型已在Hugging Face和ModelScope平台发布。

智能体开源生态推理模型发布

关联讨论 2 条X：蚂蚁百灵 (@AntLingAGI)蚂蚁 inclusionAI：HuggingFace 新模型

11:02

蚂蚁 inclusionAI：HuggingFace 新模型

精选56

蚂蚁集团提出 ARGenSeg-8B：基于自回归图像生成模型的图像分割框架

蚂蚁集团推出 ARGenSeg-8B，一种将多模态理解与像素级感知统一的自回归图像生成分割框架。它利用多模态大语言模型（MLLM）输出视觉 token，并通过通用 VQ-VAE 解码为分割掩码，使分割完全依赖 MLLM 的像素级理解。采用 next-scale-prediction 策略并行生成视觉 token，降低推理延迟。在多个分割数据集上超越此前最优方法，推理速度显著提升。论文已被 NeurIPS 2025 接收，模型已发布在 HuggingFace。

Hugging Face多模态开源/仓库模型发布

关联讨论 1 条蚂蚁 inclusionAI：GitHub 新仓库

推荐理由：蚂蚁提出用自回归生成做分割，把理解和像素级感知统一到一个框架里，多个数据集SOTA且速度更快，做CV的值得看看。

09:00

公众号：蚂蚁百灵（Ling）

Ring-2.6-1T 正式开源：为真实复杂任务打造的万亿级思考模型

Ring-2.6-1T 正式开源，这是为真实复杂任务打造的万亿级思考模型，Agent 执行能力全面增强，采用双档推理配置，兼顾效率、成本与能力上限。

开源生态推理模型发布

‹ 上一页

1…10 111213 14…23

下一页 ›