Ring-2.6-1T 正式开源,这是一个专为现实世界复杂任务构建的万亿规模旗舰思考模型。其设计目标超越单纯的“回答”,转向任务执行,能够理解上下文、规划步骤、调用工具,并在长任务链中保持稳定。模型重点支持高级智能体工作流,提供不同级别的推理努力配置:常规任务采用高级别,复杂推理则启用更高强度。通过 IcePop 算法实现了可扩展的异步强化学习,从而支撑了面向长周期智能体任务的稳定万亿规模训练。
Ring-2.6-1T 正式开源,这是一个专为现实世界复杂任务构建的万亿规模旗舰思考模型。其设计目标超越单纯的“回答”,转向任务执行,能够理解上下文、规划步骤、调用工具,并在长任务链中保持稳定。模型重点支持高级智能体工作流,提供不同级别的推理努力配置:常规任务采用高级别,复杂推理则启用更高强度。通过 IcePop 算法实现了可扩展的异步强化学习,从而支撑了面向长周期智能体任务的稳定万亿规模训练。
蚂蚁 inclusionAI 发布旗舰推理模型 Ring-2.6-1T,参数规模达万亿,面向智能体工作流、工程开发、科研分析等复杂场景。模型从“能回答”升级至“能执行”,在多步任务与工具协作中表现更优;支持 high/xhigh 两档推理强度,可灵活平衡效果与成本;采用异步强化学习结合 IcePop 算法提升训练效率。基准测试中,high 模式 PinchBench 得 87.60、ClawEval 63.82、Tau2-Bench 电信场景 95.32;xhigh 模式 ARC-AGI-V2 得 66.18、AIME 26 达 95.83、GPQA Diamond 88.27。上下文长度支持 128K 扩展至 256K(YaRN),已通过 HuggingFace 和 ModelScope 开放下载。
关联讨论 4 条HuggingFace Daily Papers(社区热门论文)蚂蚁 inclusionAI:HuggingFace 新模型公众号:蚂蚁百灵(Ling)X:蚂蚁百灵 (@AntLingAGI)阿里巴巴发布图像模型 Qwen-Image-2.0,其图像压缩强度达到多数竞品的两倍。模型采用重新设计的Transformer架构以稳定训练,并配备专用模块,可将简短用户输入自动扩展为详细提示。其蒸馏版本仅需4步去噪即可完成图像生成,远少于通常的40步。在用户盲测平台LMArena上,该模型目前排名第9位。
Gemini 3.2 Flash - Capitalizing on DeepMind's clever distillation techniques... Rumors are that benchmarks show it's hit...
Proud to announce the release of the SenseNova U1 Tech Report - together with the a new set of model weights based on Mo...
Can AI do the job of a financial analyst? We just released V2 of our Finance Agent Benchmark and tested the frontier mod...
this is Krea 2. our first foundation model, built completely from scratch for aesthetic diversity and stylistic control....
Google Gemini 3.2 Pro 和Flash 已经蓄势待发了。 每次都是这几个Case 真的烦了,能不能整点炸裂一点的Case。 据说是就近期要发布, 但是看着样子也是赶鸭子上架,应该放鸽子啥的也是常有的事儿。
🚨 FIRST GEMINI 3.2 PRO OUTPUTS From yours truly. I'll share more today, I can test your prompts too if you guys want. I...
小米技术正式发布并开源一步式潜空间语言视觉推理框架Xiaomi OneVL。该框架在业内率先通过潜空间推理,将视觉语言动作模型与世界模型统一到同一套框架中。在推理、规划等多个主流基准上,该模型全面刷新了潜在推理方法的性能上限,在精度上超越显式思维链方案,在速度上对齐“仅答案”预测的潜空间思维链方案。小米已全面开源其模型权重及训练、推理代码。
this is Krea 2. our first foundation model, built completely from scratch for aesthetic diversity and stylistic control....
🚨 SCOOP: The development cycle for GPT-5.6 is now in full swing at OpenAI. The first checkpoints of the model began tes...
小米开源了Xiaomi OneVL一步式潜空间语言视觉推理框架。该模型在业内首次将VLA(视觉语言动作模型)与世界模型这两条技术路线统一于同一框架,通过潜空间推理同时提升推理速度与精度,在多项基准测试中达到先进水平。此外,它还能为决策提供语言和视觉双维度的可解释性。小米已全面开源其模型权重、训练及推理代码。
SenseNova-U1 技术报告详尽披露了构建前沿原生多模态模型的方法,核心包括原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练、以及原生混合专家骨干网络。报告提供了六阶段训练方案、强化学习后训练与蒸馏的完整实践指南。其开源版本 SenseNova-U1-A3B-MoT 基于混合专家架构,仅激活30亿参数,实现了高效快速的性能。相关资源已全面开放,涵盖技术报告、模型权重、代码和演示平台。
面壁智能联合清华大学及 OpenBMB 开源社区发布新一代端侧多模态大模型 MiniCPM-V 4.6。该模型参数为 1.3B,仅需约 6GB 内存即可在端侧设备运行。其在通用图文理解、STEM 推理等任务上超越同尺寸模型,Artificial Analysis 评测得 13 分。效率方面,Token 吞吐量为竞品的 1.5 倍,计算消耗仅为其 2.5%。模型采用 LLaVA-UHD v4 架构,图像编码计算量降低 55.8%,并支持高分辨率图像快速处理。目前已全面开源,提供完整工具链,适配主流微调与推理框架。
Hy3 preview from @TencentHunyuan is now live on GMI #1 on OpenRouter's LLM leaderboard, open-sourced, and the strongest ...
Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni,能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸,分别具有1.57B和0.95B参数,并支持Matryoshka截断技术。关键优势在于完全向后兼容:现有jina-embeddings-v5-text的索引无需重新构建,可直接替换为v5-omni,在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲,小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。
jina-embeddings-v5-omni is here! Our first universal embedding model for text, images, audio, and video. Available in tw...
Jina在其新版嵌入模型发布首日,即同步提供了全套MLX格式变体,改变了以往社区缓慢移植的节奏。这表明MLX已被视为核心部署目标,背后应有自动化流程支持。这一动向反映了MLX生态的崛起:Qwen、DeepSeek等主流模型官方开始集成MLX,Hugging Face将其提升为一级框架标签。嵌入模型因其体积小、推理频繁的特性,尤其适合在Mac的M系列统一内存上运行,为本地RAG等场景提供了理想的端侧AI解决方案。
https://huggingface.co/collections/jinaai/jina-embeddings-v5-omni
研究团队发布了名为Needle的轻量级模型,它将谷歌Gemini的工具调用能力浓缩至仅2600万参数。该模型在保持核心功能的同时,体积显著缩小,旨在实现更高效的部署与应用。项目代码已在GitHub开源,并在Hacker News社区获得了超过100点的关注度。
Step Image Edit 2模型正式发布。这是一个35亿参数的图像模型,在指令式图像编辑的权威基准KRIS-Bench中,于综合、事实和概念类别均排名第一,性能超越参数量为其5-6倍的模型。其核心能力包括文生图、基于指令的图像编辑、精准的中英双语文字渲染以及保持主体一致性的风格迁移。该模型生成速度快,单次编辑成本低,目前已上线Stepfun开放平台。
由Mira Murati创立的Thinking Machines Lab发布了其首个人工智能模型,旨在突破传统语音AI的问答模式。该模型以200毫秒为数据块,并行处理音频、视频和文本信息,专注于提升实时交互的流畅性与自然度。公司宣称,这一设计在交互质量上超越了OpenAI的GPT Realtime 2和Google的Gemini Live,致力于推动语音助手向更自然、非问答式的对话体验演进,从而重新定义人机交互方式。
Qwen-Image-2.0是一个统一高保真生成与精确编辑的全能图像生成基础模型。它采用Qwen3-VL作为条件编码器,结合多模态扩散变换器进行联合建模,并通过大规模数据整理与多阶段训练实现强化。该模型支持长达1K令牌的指令输入,能生成幻灯片、海报等富文本内容,显著提升多语言文本渲染与排版质量。在生成方面,它增强了细节、纹理真实感与光照一致性,并更可靠遵循复杂指令。人工评估表明,其在生成和编辑任务上均大幅超越前代模型。
Imagine a single AI that can read text, generate images, edit photos, and even handle interleaved text+image tasks. Sens...
Thinking Machines公司发布了TML-Interaction-Small模型,旨在以“始终在场”的AI取代传统的轮替式对话AI。该模型采用混合专家架构,将音频、视频和文本流切分为200毫秒的微轮次,使其能在交互过程中并行执行聆听、观看、说话、绘图、搜索及调用工具等操作。其核心设计理念是让人工智能像人类一样实时并行处理多任务。模型在保持低延迟(0.40秒)的同时,保留了强大的推理与指令遵循能力,且交互性直接内建于模型架构,而非依赖外部组件拼凑实现。
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...
前OpenAI CTO Mira创立的Thinking Machines公司发布了一种创新的“交互模型”。该模型能原生、持续地接收音频、视频和文本等多模态输入,并实时思考与响应,而非通过Agent串联多个独立模型。其架构分为两部分:前台交互模型以200毫秒为节点处理输入并维持用户“在场感”,支持随时打断;后台推理模型则处理长程规划、工具调用等复杂任务。两者协同工作,最终呈现为一个既能实时交互又能处理重度任务的统一界面。
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...
谷歌可能即将推出新一代视频生成模型,暂称Veo 4或类似名称。该模型被描述为类似Sora 2.0的全能参考模型,支持对现有视频进行修改参考和内容替换等操作。在文字生成质量上,它被认为比Sora 2.0略有优势,清晰度和细节可能也稍有提升。据透露,这款即将到来的Gemini Omni视频模型在视频编辑功能上将更为先进,能够完成去除水印、替换视频内物体等复杂任务。谷歌预计会发布该模型的两个版本,包括一个性能更强的Pro变体,而目前展示的样本可能并非Pro版本。
GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capabl...
推文指出Apple的统一内存架构是端侧AI的理想平台。同时,OpenBMB发布了专为消费级硬件优化的1.3B多模态模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术,将视觉编码成本降低55%,实现了高效的边缘原生部署。其在多项关键基准测试中超越了更大的模型,且token消耗仅为对比模型的2.5%。在RTX 4090上处理高分辨率图像时,首token延迟仅75.7ms,速度快2.2倍。模型技术亮点包括Intra-ViT早期压缩和混合视觉压缩,有效平衡了分辨率与延迟。其部署友好,支持iOS、Android、HarmonyOS及多种主流推理框架与量化格式,相关资源已在各大平台开源。
1/5 MiniCPM-V 4.6 (1.3B) is now live 🚀🚀 High-res visual processing, optimized for consumer-grade and mobile hardware. ...
清华大学与ModelBest合作的OpenBMB发布了MiniCPM-V 4.6 1.3B Instruct模型。这款仅13亿参数的多模态小模型在Artificial Analysis智能指数上获得13分,成为2B参数以下开源模型中得分最高的,刷新了该规模模型的帕累托前沿。它在MMMU-Pro视觉推理基准上也达到38%,领先同类小模型。模型支持文本、图像和视频输入,并具有极高的令牌效率,运行测试仅需540万输出令牌,远低于对比模型。其权重已在Hugging Face以Apache 2.0许可证开源。知识回忆能力与其他2B以下模型相当,处于较低水平。
lowkey the funniest videos of the batch. thinky has some comedians!! congrats to @thinkymachines on reviving the omnimod...
Today we're sharing our work on interaction models. A new class of model trained from scratch to handle real-time intera...
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...