AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
6月14日周日
08:00HuggingFace Daily Papers(社区热门论文)51SpatialAvatar-0:多阶段重建的高质量4D头部头像
07:50MiniMax (official)45MiniMax M3 赋能 Hermes Agent 自学创作
02:31Suno70同事件精选Suno 音轨分离:从零生成更纯净同一事件,精选展示《更高水平的创意控制 · Suno团队》
02:24jason9GPT-4o麦片创意获团队称赞
01:04The Decoder:AI News(RSS)38新AI模型"Count Anything"可对任意图像中的物体进行计数
6月13日周六
22:07Rohan Paul51Higgsfield 推出 Higgsfield Games:从提示词到多人游戏
22:07Rohan Paul68Nvidia 推出 Cosmos 3:全模态世界模型,让物理AI实现理解、模拟与行动
19:36IT之家(RSS)45长安汽车发布"天枢领航"自研辅助驾驶系统:长安启源 Q06 将全系搭载、9月上市
18:36IT之家(RSS)63科大讯飞发布星火多模态大模型 X2-VL,当前唯一基于全国产算力训练的主流大模型
18:36IT之家(RSS)42京东健康与北京友谊医院共建消化系统专科大模型,应用胃肠镜早癌筛查
17:54公众号:通义实验室(千问)79精选MNN 适配 SME2 使 Qwen3-VL-4B 在端侧实时推理
17:54公众号:火山引擎47TVB×火山引擎达成深度合作,以Seedance 2.0共探华语影视AI新路径
15:36IT之家(RSS)57首尔禁止中小学生戴AI眼镜参加期末考试,违者按作弊处理
13:17蚂蚁 inclusionAI:HuggingFace 新模型62精选inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型
13:17蚂蚁 inclusionAI:HuggingFace 新模型71inclusionAI/VISTA-9B:基于VISTA训练的GUI定位视觉语言模型
10:45MiniMax (official)80MiniMax M3 开源模型发布:1M-token 上下文与 MSA 稀疏注意力
10:36IT之家(RSS)56苹果高管介绍 iOS 27 版照片 3 大 AI 功能:让 iPhone 17 等用户获得"超能力"
10:26小互72Telegram重大更新:机器人支持富文本与AI群管理
08:00HuggingFace Daily Papers(社区热门论文)44SAGA:利用冻结多模态大语言模型训练视觉编码器的语义属性梯度框架
08:00HuggingFace Daily Papers(社区热门论文)54Visual-Seeker:一种通过主动视觉推理实现的视觉原生多模态深度搜索智能体
08:00HuggingFace Daily Papers(社区热门论文)40MotionVLA:面向人形运动的视觉-语言-动作模型
05:43MiniMax (official)82同事件精选MiniMax M3 获 vLLM 日零支持,1M 上下文窗口与 MSA 稀疏注意力同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
05:13MiniMax (official)73MiniMax M3 开源:428B参数、1M上下文多模态模型
03:43MiniMax (official)56MiniMax M3免费GPU加速端点上线
03:16fofr463D运动控制AI视频编辑工具接近实现
03:13MiniMax (official)64MiniMax M3 登陆 Fireworks AI,配 512K 上下文与 MSA 稀疏注意力
00:43MiniMax (official)70MiniMax M3 开源权重上线Modular云平台
00:42🚨 AI News | TestingCatalog51NVIDIA 为 MiniMax M3 提供免费测试端点
6月12日周五
23:32Deedy72Claude 5 Fable 纯数学生成可玩山谷
22:34SenseTime61商汤SenseNova-U1-8B-MoT-Interleaved发布
22:12MiniMax (official)81同事件精选MiniMax M3 开源权重模型发布,已上架 HuggingFace同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
21:02Ethan Mollick31Fable缺乏原生图像生成能力受限
20:18HuggingFace Daily Papers(社区热门论文)56IndustryBench-MIPU:面向工业产品的多图像属性提取基准
18:00HuggingFace Daily Papers(社区热门论文)60ArogyaSutra:面向印度语言多模态医疗推理的多智能体框架
17:35IT之家(RSS)69商汤开源 SenseNova U1 图文交错生成增强版模型:支持多页连续创作,角色风格不"跑偏"
17:00HuggingFace Daily Papers(社区热门论文)73精选HYDRA-X: 原生统一多模态模型与整体视觉分词器
16:40Alibaba Cloud31阿里云展示AI短片获北影节奖项
16:35IT之家(RSS)55华为 AI 眼镜 × 小艺看世界官宣 8 月上线,辅助视障用户探索世界
16:26MarkTechPost(RSS)53Zyphra 发布 Zamba2-VL:混合 Mamba2-Transformer 视觉语言模型,首 token 延迟降低约一个数量级
15:08Alibaba Cloud26阿里云Qwen与Wan用AI创作泰国风情视频
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月14日
08:00
HuggingFace Daily Papers(社区热门论文)
51
SpatialAvatar-0:多阶段重建的高质量4D头部头像

SpatialAvatar-0 提出基于 FLAME-mesh 约束的高斯表示,结合前馈生成器与 10K 迭代布局保持的逐主体精化循环。前馈阶段采用无参数 K 源均值池化及单目-时序到多视图-空间两阶段调度;精化阶段冻结 FLAME 绑定与高斯数量,以三组件抗尖峰正则化替代密集化。在 VFHQ/HDTF 跨域零样本测试中,PSNR 超越领域内领先模型 GAGAvatar 1.5 dB;在 SplattingAvatar 单目基准上,所有指标均领先,PSNR 超越 300K 迭代的 GeoAvatar 1.3 dB,且逐主体调度周期比常见 SOTA 基线快 60 倍。

多模态视频论文/研究
07:50
MiniMax (official)@MiniMax_AI
45
我本人没有操作 TouchDesigner。Hermes Agent 从头开始学习并完成了以下工作: → 使用计算机操控功能浏览我的桌面 → 弄明白如何连接到 TouchDesigner → 读取我的参考图像 → 与我一起在自我学习循环中迭代艺术作品 → 然后将学到的内容保存为可复用的技能,用于处理下一张图像 这一切均由 @MiniMax_AI M3 × Hermes Desktop Agent @NousResearch 驱动。 完整演示 📽️

Amber Shen: I didn't touch TouchDesigner myself. Hermes agent learned it from scratch and built this: → navigated my desktop with co...

智能体多模态行业动态
02:31
Suno@suno
同事件精选70
重大更新:Suno 的音轨分离刚刚大幅升级。🚀 我们现在从零重新生成音轨,而非仅仅隔离频率。结果如何?纯净无伪影的音轨,可直接拖入你的 DAW。
产品更新多模态
同一事件,精选展示《更高水平的创意控制 · Suno团队》
推荐理由:Suno 把 stem 分离从滤波换成了重新生成,这对做音乐的人来说是个实质进步,artifacts 老问题被从根上解决,不再只是凑合能用。
02:24
jason@jxnlco
9
了不起的@heyjgold和我们的制作团队! 有人感叹GPT-4o麦片真是个绝妙的主意(之前从IG看到,无法再找到出处)。

Karine Hsu: omg gpt-4os cereal, such a good idea (saw this on IG a while ago but cannot find the credit anymore)

其他多模态
01:04
The Decoder:AI News(RSS)
38
新AI模型"Count Anything"可对任意图像中的物体进行计数

“Count Anything”是一个新AI模型,仅通过文本提示即可对任意类型图像(如人群、显微镜下细胞样本)中的物体进行计数。对比测试显示,其错误率比此前系统降低一半。但该模型在处理极密集物体和模糊术语时仍存在困难。

多模态模型发布
6月13日
22:07
Rohan Paul@rohanpaul_ai
51
Higgsfield 推出 Higgsfield Games:从提示词到多人游戏

Higgsfield 近日宣布推出 Higgsfield Games,这是一款可从一条提示词直接构建并部署任意类型 2D 或 3D 多人游戏的产品,自动生成角色、道具和场景。该产品由 Claude Fable 5 推理游戏创意,并通过 Higgsfield MCP 调用工具完成资产和物理逻辑构建,将创意转化为代码、资产、多人游戏和发布的全流程压缩为单次提示词操作。用户可通过 Claude 的 MCP 界面或 Higgsfield 超级计算机体验。

Higgsfield AI 🧩: Meet Higgsfield Games. For the first time, build and deploy multiplayer games from one prompt, in any genre, 2D or 3D, w...

AnthropicMCP/工具产品更新多模态
22:07
Rohan Paul@rohanpaul_ai
68
Nvidia 推出 Cosmos 3:全模态世界模型,让物理AI实现理解、模拟与行动

Nvidia发布Cosmos 3——一种全模态世界模型,将语言、图像、视频、音频和动作整合到同一系统,使物理AI能跨越“理解、模拟、行动”三大任务。它把动作视为世界的第一类语言,通过动作token设计,让模型可基于视频推断动作,或同时生成未来场景及对应运动。这使机器人从“识别物体”升级为预测“移动、抓取、滑动”等交互后果。相关论文《Cosmos 3: Omnimodal World Models for Physical AI》已发布于arXiv。

arXiv具身智能多模态模型发布
19:36
IT之家(RSS)
45
长安汽车发布"天枢领航"自研辅助驾驶系统:长安启源 Q06 将全系搭载、9月上市

长安汽车在重庆车展发布自研辅助驾驶系统“天枢领航”,分Pro、Max、Ultra三个版本。Pro版全系标配激光雷达,弱光场景比人眼提前2秒识别障碍物,系统响应速度提升150毫秒。Max版基于超2000万条人驾数据切片训练,高频通勤场景通行效率提升20%。Ultra版搭载VLM视觉语言大模型,实现可交互辅助驾驶,未来还将推出驾驶员失能主动守护功能。长安启源Q06将全系搭载该系统,计划今年9月上市。

产品更新多模态端侧
18:36
IT之家(RSS)
63
科大讯飞发布星火多模态大模型 X2-VL,当前唯一基于全国产算力训练的主流大模型

6月13日,科大讯飞在长三角机器人及自动化展览会上发布星火多模态大模型X2-VL。该模型基于全国产算力平台太湖星跃训练,采用专属MoE架构。面向高中各科图文结合试题,答题准确率近95%;挑战2026年高考数学全国I卷获148分,高于对比模型A-E(144、143、137、145、142分)。科大讯飞已在无锡高新区成立子公司负责日常运营。

多模态推理模型发布
18:36
IT之家(RSS)
42
京东健康与北京友谊医院共建消化系统专科大模型,应用胃肠镜早癌筛查

6月13日,京东健康与北京友谊医院宣布合作,共建消化系统专科大模型,重点应用于胃肠镜早癌筛查、疾病诊断等场景。双方将在三个层面推进:共建高质量数据集、联合研发专病大模型、推动线上线下双场景落地。线下,大模型融入消化内科诊疗全流程,开展实时智能筛查、病灶识别、风险研判,并提供诊疗参考、用药预警、病历整理等辅助工具及智能导诊等便民服务。线上,提供全天候健康咨询、症状初筛、居家指导,为慢性胃肠病患者搭建全病程管理体系,并输出权威科普内容。

多模态行业动态部署/工程
17:54
公众号:通义实验室(千问)
精选79
MNN 适配 SME2 使 Qwen3-VL-4B 在端侧实时推理

MNN 推理引擎深度适配 Arm SME2 指令集,使 Qwen3-VL-4B-Instruct 在支持 SME2 的 vivo X300 上实现实时多模态推理。Prefill 阶段性能提升 81%,Decode 阶段提升 13%。MNN 采用编译时内建 + 运行时自动检测设计,默认开启 SME2 加速。该模型为 4B 参数视觉语言模型,支持图文理解和对话,通过 MNN 官方已转换量化的模型可直接下载部署,开发者可通过编译开关一键开启硬件加速。

多模态教程/实践端侧

推荐理由:这是一份硬核的端侧部署指南,实测数据让 Qwen3-VL 在 SME2 手机上 Prefill 提速超过 80%,做移动端 AI 的团队可以直接抄作业。
17:54
公众号:火山引擎
47
TVB×火山引擎达成深度合作,以Seedance 2.0共探华语影视AI新路径

6月12日,TVB与火山引擎达成合作,围绕豆包视频生成模型Seedance 2.0,在影视内容智能化生产、短剧制作、IP商业化及云基础设施等领域展开探索。双方将协同TVB旗下FF工作室,以AI短剧为契机,利用Seedance 2.0的视频生成能力,通过输入提示词快速生成动画分镜、场景参考等素材,辅助编剧与导演在剧本开发、后期制作中验证创意。火山引擎将为TVB提供虚拟机、对象存储、视频云、CDN等云产品,支持其构建混合云架构,推动媒体内容生产、存储、分发环节的云化升级。

多模态行业动态视频
15:36
IT之家(RSS)
57
首尔禁止中小学生戴AI眼镜参加期末考试,违者按作弊处理

首尔市教育厅6月12日通知,禁止考生戴AI智能眼镜参加期末考试,携带即按作弊处理。AI眼镜集成摄像头、麦克风与生成式人工智能,可传递答案。通知列出识别特征:镜腿粗厚、末端厚重,含电池、主板、隐藏摄像头等。监考需留意反复触碰镜框的学生。今年早些,两名韩国考生在托业考试中用AI眼镜作弊,成绩作废且禁考4年。韩国教育部考虑在11月CSAT高考中将AI眼镜单独列入禁带清单。

多模态政策/监管
13:17
蚂蚁 inclusionAI:HuggingFace 新模型
精选62
inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型

VISTA-4B 是基于 Qwen3.5-4B 骨干的 GUI 定位模型,输入截图与自然语言指令,输出归一化 0-1000 坐标。训练采用视图一致 GRPO 和自验证交叉视图锚定。在 GUI 定位基准上,SSPro 得分 64.2(相比 GRPO-4B 提升 2.0),SSV2 得分 93.8(下降 0.4),OSWorld-G 得分 61.2(提升 1.3),OSWorld-G-R 得分 69.7(提升 0.5)。模型已开源在 HuggingFace,推荐使用提示词并返回 [x,y] 格式坐标。

智能体Hugging Face多模态模型发布

推荐理由:蚂蚁 inclusionAI 开源了一款 GUI 定位模型,基于 Qwen3.5 微调,在接地基准上小幅提升,关键是提供了自验证训练方法,做桌面自动化的可以直接下载用。
13:17
蚂蚁 inclusionAI:HuggingFace 新模型
71
inclusionAI/VISTA-9B:基于VISTA训练的GUI定位视觉语言模型

VISTA-9B是基于Qwen3.5 9B骨干训练的GUI定位模型,输入截图与自然语言指令,输出0-1000归一化坐标。采用VISTA(视图一致自验证)方法,含view-consistent GRPO与self-verified cross-view anchoring。在SSPro、SSV2、OSWorld-G、OSWorld-G-R上分别取得69.2、95.8、68.1、75.5分,超越Qwen3.5-9B与GRPO-9B基线。模型已开源,可通过HuggingFace加载使用。

智能体Hugging Face多模态模型发布
10:45
MiniMax (official)@MiniMax_AI
80
MiniMax 发布全新开源模型 M3,具备前沿编码、智能体能力、原生图像视频输入、Computer Use 及 1M-token 上下文窗口。核心采用 MSA 稀疏注意力架构:每个 query 仅对 128-token 的 KV 块打分,只关注 top 块,使超长上下文实际可部署。M3 在 vLLM 获 Day-0 支持,已在 NVIDIA 和 AMD 硬件验证,包括 MSA 专用 prefill/decode kernel、1M-token 上下文服务(prefix caching + chunked prefill)、BF16/MXFP8 检查点(Hopper 和 Blackwell 的 MoE 后端)、原生多模态输入,以及工具调用、推理解析和思考模式控制等功能。

vLLM: 🎉 Congrats to @MiniMax_AI on releasing MiniMax M3! Frontier coding and agentic capabilities, native image and video inp...

多模态开源生态推理模型发布
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
10:36
IT之家(RSS)
56
苹果高管介绍 iOS 27 版照片 3 大 AI 功能:让 iPhone 17 等用户获得"超能力"

iOS 27 版照片应用引入三项 AI 功能。空间重构(Spatial Reframing)支持拍摄后调整透视角度改善构图,仅在透视移动区域生成新内容。扩图(Extend)可将画面向外扩展最多 25%,且仅限执行一次。清理(Clean Up)可移除更复杂的干扰物并保持原始场景真实性。苹果高管表示这些功能让普通用户获得专业级修图能力。

产品更新多模态
10:26
小互@xiaohu
72
Telegram重大更新:机器人支持富文本与AI群管理

Telegram 发布重大更新,机器人现支持富文本消息,包括表格、清单、嵌套引用块、行内插图、图片轮播、可折叠段落、脚注、标题锚点、数学公式、上下标。单条消息最多可包含 32768 个字符,超过 8000 字时自动折叠为“显示更多”按钮。更新还引入 AI 协助管理群聊功能,适合 AI 机器人输出长答案和内容卡片场景。

智能体产品更新多模态
08:00
HuggingFace Daily Papers(社区热门论文)
44
SAGA:利用冻结多模态大语言模型训练视觉编码器的语义属性梯度框架

多模态大语言模型(MLLM)能描述图像间的属性差异用于类别预测,但现有视觉编码器仅依赖标量类标签监督。SAGA框架采用组相对策略优化(GRPO)奖励冻结MLLM对编码器token的正确预测,迫使编码器编码具体匹配或差异属性,替代均匀标量监督。结合辅助注意力蒸馏损失与度量学习损失,推理时丢弃MLLM,部署成本与基线一致。在CUB-200-2011、Cars-196、FGVC-Aircraft和iNaturalist Aves的零样本图像检索中,SAGA将Recall@1提升3到6个百分点。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
Visual-Seeker:一种通过主动视觉推理实现的视觉原生多模态深度搜索智能体

Visual-Seeker 是一种视觉原生多模态深度搜索智能体,通过主动视觉推理而非将视觉视为静态输入,动态收集细粒度视觉证据以完成多跳跨模态搜索。研究人员设计了主动视觉推理数据流水线,合成了 5K 高质量多模态轨迹用于模型训练。在五个具有挑战性的多模态搜索基准上,Visual-Seeker 达到最先进性能,甚至超越部分闭源模型。代码和数据集已开源。

智能体GitHub多模态搜索
08:00
HuggingFace Daily Papers(社区热门论文)
40
MotionVLA:面向人形运动的视觉-语言-动作模型

MotionVLA 基于 Qwen3.5,采用 DSFT 双流频率分词器将运动分解为 Base 流和 Physical 流,通过 DCT 截断和 BPE 独立压缩,并在统一序列中按 Base → Physical 顺序预测。在 HumanML3D 和 MBench 上,仅 2B 参数轻量级骨干即实现:HumanML3D 多样性差距降低超 50%,MBench 运动条件一致性提升 3.8%,证明频率感知双流解耦对自回归运动生成的有效性。

具身智能多模态论文/研究
05:43
MiniMax (official)@MiniMax_AI
同事件精选82
MiniMax M3 发布,具备前沿编码与智能体能力,原生图像视频输入和计算机使用,1M-token 上下文。核心采用 MSA 稀疏注意力:每个 query 评分 128-token KV 块,仅对 top 块做注意力。vLLM 当日即支持 M3,包括专用 MSA prefill/decode 核、前缀缓存与分块 prefill、BF16 和 MXFP8 检查点、Hopper 与 Blackwell 的 MoE 后端,并在 NVIDIA 与 AMD 硬件上验证。同时支持原生多模态输入、工具调用、推理解析和思考模式控制等智能体工作负载。

vLLM: 🎉 Congrats to @MiniMax_AI on releasing MiniMax M3! Frontier coding and agentic capabilities, native image and video inp...

多模态开源生态推理模型发布
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:M3把1M上下文从‘理论上能做’变成了‘今天就能部署’,MSA稀疏注意力是关键,开源社区和推理框架的深度合作值得关注。
05:13
MiniMax (official)@MiniMax_AI
73
MiniMax 开源 M3 模型,约 428B 总参数、23B 激活参数,支持前沿编码、长周期智能体任务及原生多模态(文本、图像、视频),上下文窗口达 1M token。开放权重,可在 Baseten 部署。在少于 500B 参数的模型中,能同时兼顾编码、智能体工作负载和 1M 上下文的模型极少,M3 全部实现。

Baseten: Congrats to the MiniMax team on the open-source launch of M3! There are very few <500bn parameter models that can tackle...

多模态模型发布编码
03:43
MiniMax (official)@MiniMax_AI
56
来自@NVIDIAAI的认可意义重大 免费GPU加速的M3端点现已上线 快来试试👇

NVIDIA AI: Congrats to the @MiniMax_AI team on the release of MiniMax M3, a long-context multimodal model for text, image, and vide...

多模态模型发布视频
03:16
fofr@fofrAI
46
@andrew_n_carr 宣布"编辑视频运动!放弃提示开始导演",并展示其"通用视频编辑器"工作流:先用 comic 4 捕捉视频,再用运动编辑器修改动作,最后用视频到视频模型(如 Runway、Gemini)重新渲染。他以时装片段为例,希望模特展现高抬腿活力,无需重拍。主推文 fofr 表示,AI视频中精细的3D运动控制已更近一步。

Andrew Carr 🤸: EDIT MOTION IN VIDEOS!!! Quit prompting and start directing I've been shouting for YEARS about 3D as the control layer. ...

多模态教程/实践视频
03:13
MiniMax (official)@MiniMax_AI
64
MiniMax M3 已在 Fireworks AI 上线,Day-0 即获最快推理端点。模型为开源权重,在 Artificial Analysis 指数排名第一。支持 512K 上下文窗口、原生图像及视频输入;采用 MSA 稀疏注意力机制,实现 9 倍更快的 prefill 与 15 倍更快的 decode。定价与 M2.7 持平。M3 将长周期智能体、全仓库理解与多模态编程集成于单一模型。

Fireworks AI: MiniMax M3 is live on Fireworks. Day-0, fastest endpoint for the MiniMax series. → Top open-weight model on the Artifici...

智能体多模态推理模型发布
00:43
MiniMax (official)@MiniMax_AI
70
MiniMax 发布 M3 模型开源权重,并宣布与 Modular 合作,在 Modular Cloud 上当天上线。M3 支持最高 1M-token 上下文长度,接受文本、图像、视频多模态输入,采用 MSA(Multi-Stream Attention)架构,专为长时间运行的智能体(Agent)与编码(Coding)工作负载优化。

Modular: M3 open weights from @MiniMax_AI just dropped, and Modular is a Day Zero launch partner. 1M-token context. Text, image, ...

智能体多模态开源/仓库模型发布
00:42
🚨 AI News | TestingCatalog@testingcatalog
51
NVIDIA ❤️ MiniMax MiniMax M3 权重现已在 @huggingface 上发布,NVIDIA 在其平台上提供免费端点用于测试。 测试时间到 👀

NVIDIA AI: Congrats to the @MiniMax_AI team on the release of MiniMax M3, a long-context multimodal model for text, image, and vide...

Hugging Face多模态开源/仓库模型发布
6月12日
23:32
Deedy@deedydas
72
Claude 5 Fable (Ultracode) "在日出时制作一个可玩的高山冰川山谷" 没有网格或模型。你所看到的一切都是数学。Fable 截取了自己作品的屏幕截图并进行了迭代。 耗时约 30 分钟,约 500k tokens,约 2500 行代码,约 25 美元。极其令人印象深刻。
Anthropic多模态模型发布编码
22:34
SenseTime@SenseTime_AI
61
商汤SenseNova-U1-8B-MoT-Interleaved发布

商汤推出SenseNova-U1-8B-MoT-Interleaved模型,专门用于交错文本与图像生成。核心升级包括:叙事连续性增强,支持多页连贯故事;角色一致性改进,人物身份与艺术风格保持稳定;视觉质量提升,文字渲染更清晰、布局更可靠、伪影减少。模型已在HuggingFace开放体验。

图像生成多模态开源/仓库模型发布
22:12
MiniMax (official)@MiniMax_AI
同事件精选81
MiniMax 发布开源权重模型 M3,约 428B 总参数、23B 激活参数,已上传 HuggingFace。该模型融合三种前沿能力:编码与智能体方面达 59.0% SWE-Bench Pro、66.0% Terminal Bench 2.1、34.8% SWE-fficiency、28.8% KernelBench Hard、74.2% MCP Atlas;采用 MiniMax 稀疏注意力将上下文窗口扩展至 1M token;原生多模态。同步上线 MiniMax Code 工具及 API 平台。权重与技术报告预计约 10 天后发布。

MiniMax (official): Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...

Hugging Face多模态推理模型发布
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:开放权重模型首次把编码 Agent 和多模态拉满,SWE-bench Pro 59% 逼近专有前沿,附带稀疏注意力 1M 上下文。做代码工具和 Agent 的团队应该都盯上它了。
21:02
Ethan Mollick@emollick
31
无法使用原生图像生成确实在一定程度上限制了Fable。它非常擅长制作PNG等,但在很多领域(包括具有商业价值的领域,如演示文稿)中,拥有多模态输出能力将是有帮助的/节省token的。
图像生成多模态大佬观点
20:18
HuggingFace Daily Papers(社区热门论文)
56
IndustryBench-MIPU:面向工业产品的多图像属性提取基准

IndustryBench-MIPU是首个大规模多图像工业产品理解基准,聚焦结构化属性提取——从产品图像中恢复属性-值对。基准涵盖18个工业类别、4,559个产品、27,652张图像和103,703条标注,通过多模型共识与三级质量审核构建。在9个多模态大语言模型上的评估显示:单图像属性提取精度达86–94%,但产品级多图像召回最高仅49.9%;从单图像转向多图像提取时,召回率下降15–34个百分点。多图像完整性是核心瓶颈,而非单图像准确率。数据集与代码已公开。

arXiv多模态论文/研究评测/基准
18:00
HuggingFace Daily Papers(社区热门论文)
60
ArogyaSutra:面向印度语言多模态医疗推理的多智能体框架

为应对印度农村患者用本土语言和医学影像表达复杂病情,研究团队构建了ArogyaBodha数据集,包含8个异构来源、31个身体系统、6种成像模态、21个临床领域,覆盖英语和7种主要印度语言。同时提出ArogyaSutra,一个基于Actor-Critic的多智能体框架,集成工具接地与双记忆机制,实现逐步推理感知决策,并利用存储的Actor-Critic仿真轨迹进行知识蒸馏。实验表明,该数据集与框架在所有印度语言上均提升了多语言医疗推理准确性。源代码与数据集已开源。

智能体多模态开源/仓库论文/研究
17:35
IT之家(RSS)
69
商汤开源 SenseNova U1 图文交错生成增强版模型:支持多页连续创作,角色风格不"跑偏"

商汤科技开源日日新 SenseNova U1 系列新成员 U1-8B-MoT-Interleaved 图文交错增强版模型。该模型面向图文交错创作与生成场景强化,支持绘本、故事书、多页 PPT 等连续内容创作,解决了多轮生成后角色形象飘移、画风断裂、图文脱节等痛点。核心升级包括叙事一致性与角色连贯性提升、图文对应关系增强、视觉质量改善,以及新增多页 PPT 自动生成能力。模型已开源。

Hugging Face图像生成多模态模型发布
17:00
HuggingFace Daily Papers(社区热门论文)
精选73
HYDRA-X: 原生统一多模态模型与整体视觉分词器

HYDRA-X 是首个在单个 Vision Transformer (ViT) 中统一图像与视频 tokenization 的统一多模态模型。通过帧级因果时间注意力实现视觉重建,并采用层级时间压缩替代单步压缩。轻量级解压器在联合图像-视频教师监督下上采样时间压缩特征。编辑管线中,源-目标交互在分词器内部潜在层面而非 LLM 语义层面进行,提升编辑一致性与收敛速度。7B 密集模型在图像与视频理解及生成任务上表现强劲。

arXiv多模态视频论文/研究

推荐理由:HYDRA-X 第一次把图像和视频标记塞进同一个 ViT,光看设计了帧级时序注意力和分层压缩这两个小 tricks 就值回票价,做多模态模型的该读读。
16:40
Alibaba Cloud@alibaba_cloud
31
阿里云展示AI短片获北影节奖项

阿里云宣传一部由多位创作者联合制作的AI音乐视频,该片荣获第16届北京国际电影节(BJIFF)[WanMuse+]主题竞赛“优秀AI主题短片”奖。视频从未来视角审视艺术史,描绘一个由权力定义的博物馆——AI吞噬过去以创造自身存在。主角LINYE既是闯入者,也是最新展品,探讨AI作为人类创造力的毁灭与延续。

其他多模态视频
16:35
IT之家(RSS)
55
华为 AI 眼镜 × 小艺看世界官宣 8 月上线,辅助视障用户探索世界

在华为开发者大会 HDC 2026 上,华为终端 BG CEO 何刚宣布,华为 AI 眼镜与小艺看世界深度联动,将于 8 月上线,辅助视障用户探索世界。小艺看世界功能此前已支持实时语音与视频对话,可调用天气、日历等系统服务,在穿搭建议、景点介绍等场景实现边看边聊边思考。

产品更新多模态端侧
16:26
MarkTechPost(RSS)
53
Zyphra 发布 Zamba2-VL:混合 Mamba2-Transformer 视觉语言模型,首 token 延迟降低约一个数量级

Zyphra 推出 Zamba2-VL 系列开源视觉语言模型,包含 1.2B、2.7B 和 7B 三种参数规模。采用混合 Mamba2 状态空间与 Transformer 骨干架构,基于 Apache 2.0 许可证开源。在保持与同类 Transformer VLM 相当性能的同时,首 token 生成时间(time-to-first-token)缩短约一个数量级。

多模态开源生态推理模型发布
15:08
Alibaba Cloud@alibaba_cloud
26
阿里云Qwen与Wan用AI创作泰国风情视频

阿里云发布由 Qwen 和 Wan 模型生成的泰国主题 AI 视频,融合娜迦蛇雕、泰拳、冬阴功、大城府朝雾等泰国文化元素。视频旨在展示模型创意能力,并推广 Model Studio 平台,鼓励用户利用该平台将创意转化为现实。推文未提供模型版本号、参数规模、benchmark分数等具体数字。

图像生成多模态行业动态
‹ 上一页
1…89101112…50
下一页 ›