新研究挑战了文生图模型依赖文本编码器丰富上下文信息的普遍认知。研究者发现,基于扩散Transformer的模型主要只利用文本表示中两个简单方面:跨多个token的词汇合并,以及由位置编码印刻的词序。通过构造仅编码单个词义与顺序、但缺少完整提示上下文信息的“词义与顺序标记袋”文本嵌入,生成的图像在视觉质量与文本保真度上与使用完整文本嵌入相当。这表明,文生图模型往往不会使用文本嵌入中除词义和词序之外的丰富信息,而是由图像模型自身完成复杂语言结构的解码。
新研究挑战了文生图模型依赖文本编码器丰富上下文信息的普遍认知。研究者发现,基于扩散Transformer的模型主要只利用文本表示中两个简单方面:跨多个token的词汇合并,以及由位置编码印刻的词序。通过构造仅编码单个词义与顺序、但缺少完整提示上下文信息的“词义与顺序标记袋”文本嵌入,生成的图像在视觉质量与文本保真度上与使用完整文本嵌入相当。这表明,文生图模型往往不会使用文本嵌入中除词义和词序之外的丰富信息,而是由图像模型自身完成复杂语言结构的解码。
该论文提出了一种以数据为中心的3D视觉分类法,将几何表示(点云、网格、体素和3D高斯)、获取管道、数据集设计、基准构建和监督范式统一到单一概念图中。研究分析了2D监督3D学习、隐式神经表示和4D世界建模的最新进展,并厘清了重建、生成和视频建模等下游任务中表示、学习范式与效率-保真度平衡、多模态几何接地之间的关联。
MAOAM是一个统一图像选择框架,通过文本或点击交互精确选择对象和材质。它利用视觉语言模型(VLM)与分割头生成像素级掩码。针对缺少带文本标注的材质选择数据集,作者提出可扩展的数据生成流水线:收集真实与合成图像及材质掩码,用VLM生成富含视觉语义的描述。模型以多任务目标同时训练点击与文本选择,并引入辅助VQA任务加深材质理解。实验表明,MAOAM在多种对象、材质和交互场景下实现准确连贯的选择,且推理时结合文本与点击可产生涌现式提升。
LoRA可个性化文生图模型,但多概念组合时直接叠加会干扰概念,降低质量与保真度。本文提出免训练方法,通过W-Switch与W-Composite两种策略,根据目标提示词中触发token的语义重要性对每个LoRA模块输出加权组合,实现多概念自定义。同时提出基于真实参考图像与自动分割概念区域的图像相似度评估框架。在ComposLoRA测试集上,该方法在视觉质量、身份保持和组合性上一致超越现有方法。LLM评估与用户研究验证有效性。代码已开源。
OVO-S-Bench是一个完全人工标注的流式空间智能基准,包含1,680个问题,覆盖348个源视频。标注由12名标注员经过约804人小时的多轮质量审核完成。每个问题带有查询时间戳与证据区间,模型仅能看到查询前的视频前缀。问题分为四个抽象层级:瞬时自我中心感知、时空上下文追踪、空间模拟与推理、以及全中心映射。在38个开源与闭源MLLM上,Gemini-3.1-Pro得分59.2,落后人类专家(86.6)27个百分点,全中心映射是主要瓶颈。流式与空间微调MLLM的表现不及它们的基础模型,且链式推理会在缺乏流式依据时放大空间错误。
针对多模态大语言模型在物理环境中的空间推理缺乏系统评估与训练的问题,提出ReasonMatch-Bench基准,按视点位移和匹配粒度分层覆盖室内、室外和物体中心场景。在90样本困难子集上,人类F1达84.0,最佳基线仅37.2。构建自动数据管线从RGB-D视频和SfM重建中提取广基线视图对,产出可验证监督信号。进一步提出动态对应强化学习(DCRL),结合图像级视点递进和点级对应课程,通过可验证奖励提升广基线匹配训练。实验表明DCRL显著提升ReasonMatch-Bench得分并泛化至相关基准,维持通用视觉性能。
SynCred-Bench是一个包含600张AI生成错误信息图像的基准测试,覆盖6种可信形式类别和7种细粒度传播风格,并配有FP450真实图像负集。评估显示,在5%假阳性率约束下,现有系统表现不可靠:15个多模态大语言模型仅达10.5%真阳性率,开源AIGC检测器不足5%,商业API达57.6%,人类标注者也仅识别出63%样本。这揭示了合成可信度作为严峻且尚未充分研究的视觉错误信息挑战。
MiniMax开源发布了国内首个集成前沿Coding能力、1M超长上下文和原生多模态的模型M3。该模型能在24小时内自主完成145次CUDA算子迭代。与此同时,xAI前负责人指出,视频模型的上限将由LLM决定,下一个类似Sora的产品应是视频Agent,而非单纯的视频生成模型。
阿里云发布了 Qwen3.7-Plus,这是一款统一了视觉与语言能力的多模态代理模型。该模型旨在成为通用的代理基础,支持图形界面与命令行操作,能够处理视觉和文本任务,充当编程代理和效率助手。其能力涵盖视觉感知、推理、目标定位以及搜索增强问答,并可跨多种代理框架进行泛化。该模型现已在阿里云百炼平台提供 API 服务。
关联讨论 1 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)M3 from @MiniMax_AI is now available on Cloudflare AI Gateway: - First open model to push SOTA coding frontier - 1M cont...
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》阿里通义千问(Qwen)于6月2日发布新模型 Qwen3.7-Plus,定位为多模态交互混合智能体基座。它是 Qwen3.7 的升级版,在保留文本、编码和工具使用能力的基础上,显著强化了视觉理解与视觉推理能力,支持图像、视频、屏幕、网页和文本输入,面向复杂软件与办公流程。该模型在 Vision Arena 评测中帮助阿里进入全球前 5、中国第 1,并在 BabyVision、MathVision 等多模态测试中提升明显。模型已通过阿里云百炼和 Qwen Studio 提供服务。
关联讨论 1 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)Google I/O showed where AI is headed. Our community spent the weekend building it. Builders gathered in San Francisco al...
MiniMax 发布了新模型 MiniMax M3,引入了 MiniMax Sparse Attention (MSA) 架构。该模型支持高达 1M token 的上下文窗口,并具备原生的图像、视频和计算机使用能力,面向智能体编程场景。
NO WAY DID IT JUST DO THAT https://replicate.com/wavespeedai/wan-2.1-t2v-480p
👏👏 Introducing Qwen3.7-Plus - a multimodal agent model that unifies vision and language into one versatile agent found...
关联讨论 1 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)MiniMax M3 turned a napkin sketch into a playable game We handed MiniMax M3 a hand-drawn draft of a Doodle Jump style pl...
MiniMax M3 @MiniMax_AI is now live on Happycapy 🎉 A major upgrade for agent workflows, especially when the task is mess...
通义千问推出 Qwen3.7-Plus,这是一款统一视觉与语言能力的多模态智能体模型。它支持图形界面与命令行混合操作,可作为多功能编码智能体与生产力助手,并具备视觉感知、推理、定位与搜索增强问答能力。该模型设计为可跨多种智能体框架泛化。现在可通过阿里云百炼平台的 API 使用。
关联讨论 1 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen3.7-Plus 深度融合视觉与语言,实现“看、想、写、做、验”端到端闭环,在 12 项核心基准测试中表现提升。实测中,基于该模型的智能体连续运行超 11 小时,自动完成英语学习 APP 开发,生成代码超 10000 行、触发调用超 1000 次;复刻 macOS Stocks 应用并通过 10 项功能验证。支持图像/视频转 SVG、视觉驱动网页设计及浏览器自动化。已在阿里云百炼上线,提供 OpenAI 兼容 API 与 Anthropic 协议。
同一事件,精选展示《Qwen3.7-Plus:多模态智能体模型发布》阿里云通义千问推出 Qwen3.7-Plus,基于 Qwen3.7 文本骨干,增强视觉语言能力,保留编码、工具使用和生产工作流的智能体能力。它支持感知现实场景、读取并操作 GUI、从视觉参考编写代码、端到端导航手机应用、基于网络知识回答视觉问题,融合 GUI 与 CLI 交互,跨 Claude Code、OpenClaw、Qwen Code 等框架泛化。在 Terminal Bench 2.0-Terminus 得分 70.3,SWE-Verified 77.7,QwenWorldBench 62.1,GPQA Diamond 90.3,MMLU-Pro 88.5。通过阿里云 Model Studio API 提供。
关联讨论 1 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)本文介绍了谷歌员工使用 Gemini 模型来制作 2026 年的 Google I/O 开发者大会。
Today @MiniMax_AI ships M3 - the first frontier model purpose-built for computer-use agents. Natively multimodal. One mo...
关联讨论 8 条MiniMax:Blog(网页)X:MiniMax (@MiniMax_AI)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)MarkTechPost(RSS)IT之家(RSS)@MiniMax_AI M3 is now live on Qubrid AI. https://platform.qubrid.com/model/minimax-m3 - 1M-token context. - Native multi...
关联讨论 8 条MiniMax:Blog(网页)X:MiniMax (@MiniMax_AI)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)MarkTechPost(RSS)IT之家(RSS)NVIDIA 的 Cosmos 3 全模态世界模型在 Artificial Analysis 排行榜的开放权重类别中,同时夺得文本生成图像和图像生成视频两项第一。该模型基于 Mixture-of-Transformers 架构,结合自回归推理器与扩散生成器,提供 16B 参数的 Nano 和 64B 参数的 Super 等变体。其中,Cosmos3-Super-Text2Image 与 Cosmos3-Super-Image2Video 版本分别超越了 HiDream-O1-Image-Dev-2604、通义千问(Qwen)Image Max 2512、FLUX.2 [dev] 以及 LTX-2、万相(Wan)2.2 A14B 等模型。Cosmos 3 的生成器接受结构化 JSON 提示词,可通过外部工具或模型自身的推理器分支进行提示词上采样。该模型完全开源,采用 OpenMDW 1.1 许可,提供权重、代码、精选数据集和微调方案。
关联讨论 8 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)LMSYS:Blog(Chatbot Arena 团队)英伟达发布了 Cosmos 3,这是一个用于物理 AI 推理的世界和行动模型。该信息来源于英伟达开发者博客,发布日期为 2026 年 6 月 1 日。
同一事件,精选展示《NVIDIA 发布 RTX Spark 及本地 AI 智能体安全与性能更新》Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...
关联讨论 8 条MiniMax:Blog(网页)X:MiniMax (@MiniMax_AI)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)MarkTechPost(RSS)IT之家(RSS)MiniMax M3 turned a napkin sketch into a playable game We handed MiniMax M3 a hand-drawn draft of a Doodle Jump style pl...
中国AI公司MiniMax发布了新模型M3。它被定位为首个同时具备顶级编码性能、100万token上下文窗口以及原生多模态能力的开源权重模型。
MiniMax M3 现已在 SiliconFlow 平台上线,并提供限时7天的50%折扣。定价为:缓存 $0.06、输入 $0.30、输出 $1.20(每百万 token)。M3 是首个同时具备三大前沿能力的开源模型:一是编码与智能体能力,在 SWE-Bench Pro 评测中击败了 GPT-5.5 和 Gemini 3.1 Pro;二是支持 100万 token 上下文窗口(通过 MiniMax Sparse Attention 技术实现);三是具备原生多模态能力,支持图像、视频与计算机操作。
关联讨论 8 条MiniMax:Blog(网页)X:MiniMax (@MiniMax_AI)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)MarkTechPost(RSS)IT之家(RSS)跟祖传的 20K context 说 bye bye 了。 MiniMax M3 发布了,三个亮点: 1M context、原生多模态、Agentic。 我这次做了一次完整评测,使用CC workflow 、 @ZenMuxAI和MiniM...
OpenAI Voice Hack Night现场演示了为手机设计的“AI智能体操作系统”。其核心思路是“UI即系统”——手机没有传统App,界面由端侧本地模型实时生成,复杂推理任务由云端GPT处理。演示中开发者全程语音指挥完成订机票、删日历、查AI新闻、发邮件等操作,但中途因“登录未配置”导致发邮件失败。该演示展示了无需调用App界面的交互形式,可能颠覆传统移动应用生态和商业模式。
MiniMax M3 might be the most underrated coding model right now. I gave it nothing but a screenshot of a chaotic 90s GeoC...
🚀 We're launching MiniMax M3 from @MiniMax_AI on Novita AI as a Day-0 API launch partner. The first open-weights model ...
关联讨论 8 条MiniMax:Blog(网页)X:MiniMax (@MiniMax_AI)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)MarkTechPost(RSS)IT之家(RSS)KwaiKeye开源了多模态大模型Keye VL 2.0-30B-A3B,采用Apache 2.0许可。该模型总参数为30B,但仅激活3B参数。其核心亮点是通过DeepSeek稀疏注意力技术实现了256K的上下文长度。该模型的视频理解能力表现出一个反直觉的特性:喂入的帧数越多,其准确率反而持续上升。在基准测试中,其表现已与Qwen3 VL、Gemini 3 Flash等模型相当。
Keye VL 2.0-30B-A3B 🔥 New multimodal model from @KwaiKeye ✨ 30B/3B active - Apache 2.0 ✨ 256K context via DeepSeek Spar...
腾讯混元多模态数字人团队基于Hy3 preview模型和GameMate1.0框架,为《和平精英》推出代言人田曦薇形象的AI队友「小田」。该角色具备战局感知、独立决策能力,并实现对话情感化回应、动态策略推理与主动协同作战。基于大模型长文记忆,玩家可生成由Image3.0制作的专属图文记忆。该AI队友累计体验用户突破1.1亿,单日活跃峰值1770万,玩家麦克风开启率75%。
MiniMax 发布了其大版本号模型升级 MiniMax M3。该模型标配 1M 超长上下文,采用新的 MSA(MoE with Segment-wise Attention)稀疏注意力架构,在 100 万上下文下每 token 计算量降至约上一代的 1/20。M3 从训练起即融合了原生多模态能力。在基准测试中,其取得了 SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%、MCP Atlas 74.2% 等成绩。此外,其 API 推出小于 512k 调用的限时七天五折优惠。模型权重与技术报告预计约 10 天后发布。
Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...
关联讨论 8 条MiniMax:Blog(网页)X:MiniMax (@MiniMax_AI)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)MarkTechPost(RSS)IT之家(RSS)该推文介绍了一种新型“持久化、多人协作的世界模型”,明确强调其并非传统的视频生成模型。其核心突破在于将“世界状态”与“视觉渲染”彻底解耦。这使得世界不再是一系列连续画面,而是一个可持续运行、允许用户修改、并可从任意视角进行稳定观测的结构化环境。作者认为,这可能是目前最接近实现“可交互持久世界”的技术尝试。
英伟达推出全球首款全开源全模态物理AI大模型Cosmos 3。该模型基于混合Transformer架构,可在单一系统中融合文本、图像、视频、音效及动作内容的理解与生成,将物理AI的训练与评估周期从数月缩短至数日。Cosmos 3在Artificial Analysis、Physics-IQ等多个评测基准上排名第一,提供Super和Nano版本用于机器人与自动驾驶的训练与实时推理,Edge版本即将推出。
关联讨论 8 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)LMSYS:Blog(Chatbot Arena 团队)MiniMax发布了新开源权重模型M3,现已通过API和MiniMax Agent提供服务。该模型在SWE-Bench Pro上得分59.0%,在Terminal Bench 2.1上得分66.0%,并支持高达1M的上下文窗口。同时,MiniMax Agent更新了持久记忆与进化技能等能力。此外,MiniMax Code也已发布,模型权重与技术报告将在约10天后公开。
Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...
关联讨论 8 条MiniMax:Blog(网页)X:MiniMax (@MiniMax_AI)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)MarkTechPost(RSS)IT之家(RSS)