AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
6月16日周二
21:46凡人小北14这种故事 AI 写不了吧? 如果可以写,我可以付费买提示词。
17:00IT之家(RSS)42全球一半高端眼镜产自深圳,形成"技术 - 制造 - 市场 - 政策"闭环
16:28HuggingFace Daily Papers(社区热门论文)45MMDiff:将冻结扩散Transformer扩展为多模态生成系统
14:35Greg Brockman40ChatGPT 照片附件体验更新:更流畅快速
14:30公众号:通义实验室(千问)73Qwen-Robot 发布:打通大模型到物理世界的最后一公里
14:27HuggingFace Daily Papers(社区热门论文)53PermaVid:通过解耦上下文记忆实现编辑间一致的视频生成
12:39Qwen:Blog Retrieval(API)72精选Qwen-RobotWorld:具身智能体的无界世界
11:27HuggingFace Daily Papers(社区热门论文)52UniDDT:解耦扩散Transformer统一多模态理解与生成
11:27HuggingFace Daily Papers(社区热门论文)40TuneJury:开放的音乐生成偏好对齐奖励模型
11:27HuggingFace Daily Papers(社区热门论文)45BRDFusion:物理与生成融合的城市场景逆渲染框架
11:27HuggingFace Daily Papers(社区热门论文)55VisualClaw:面向物理世界的实时个性化多模态智能体
09:49向阳乔木23你可能和我一样,经典古籍实在读不下去。 以《道德经》为例,拆解每句翻译成大白话 + AI生图,一下就Get了。 项目正在开发中,预计本周开源。
08:07Josh Woodward74Google麦克风图标升级,支持70+语言混输
08:00HuggingFace Daily Papers(社区热门论文)39超越NL2Code:多模态代码智能结构化综述
08:00HuggingFace Daily Papers(社区热门论文)50MaineCoon:首个实时音频-视频社交世界模型
08:00HuggingFace Daily Papers(社区热门论文)40SR-REAL:空间视觉语言模型的双路径推理增强
08:00HuggingFace Daily Papers(社区热门论文)44信任正确的教师:面向GUI Grounding的质量感知自蒸馏
05:36Google AI Developers44Gemma 4 12B无编码器音视频处理图解
01:15Ethan Mollick39模型视觉弱于其他,错误累积最多
00:59AYi68Seedance 2.0比Grok贵近4倍,视频生成质量却不输
6月15日周一
23:56OpenRouter32OpenRouter多模态排名页预览,Veo 3.1攀升
23:49IT之家(RSS)69MiniMax M3 模型正式开源:原生多模态、百万上下文
23:01公众号:MiniMax(稀宇科技)76同事件精选MiniMax 开源 M3 模型权重及 MSA 技术论文同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
21:18TechCrunch:AI(RSS)66Loft Orbital卫星首次在轨使用视觉语言模型自主识别目标
18:44小互60Perceptron发布Agentic Detection视觉检测模型
17:43IT之家(RSS)37理想:马赫 Mind-Pro 模型全面落地赋能 L9 Livis 车载智能系统
16:43IT之家(RSS)51赛力斯人形机器人"小赛"首次亮相,副总裁康波透露更多种类今年内登场
13:10公众号:昆仑万维(天工)28智源大会|Skywork首席科学家成宇:SkyReels V4与Mureka V9技术演进
08:00HuggingFace Daily Papers(社区热门论文)51反思掩码(RM)激发掩码扩散模型的推理能力
08:00HuggingFace Daily Papers(社区热门论文)46ContextRL:面向智能体与多模态大语言模型的上下文感知强化学习
08:00HuggingFace Daily Papers(社区热门论文)48视觉锚定推理(Thinking with Visual Grounding)
08:00HuggingFace Daily Papers(社区热门论文)47TV-Edit:文本-视觉联合指导的图像编辑框架
07:40IT之家(RSS)44科大讯飞AI眼镜开启预售:支持122种语言翻译,4299元
6月14日周日
22:44Ethan Mollick62Ethan Mollick 演示超光速旅行模拟器
22:14The Decoder:AI News(RSS)45微软研究院 Mirage:赋予视频生成持久空间记忆,不遗忘"转角后的场景"
22:00公众号:昆仑万维(天工)43昆仑万维公布Matrix-Game 3.5技术突破:状态与动作联合训练
16:37IT之家(RSS)36长安汽车总经理赵非:蓝鲸超擎混动量产中,天枢智能66项功能上车
15:41StepFun48Step 3.7 Flash 上线 DeepInfra
15:11StepFun43Step 3.7 Flash 上线 DeepInfra
08:00HuggingFace Daily Papers(社区热门论文)51SpatialAvatar-0:多阶段重建的高质量4D头部头像
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月16日
21:46
凡人小北@frxiaobei
14
这种故事 AI 写不了吧? 如果可以写,我可以付费买提示词。
多模态现象/趋势
17:00
IT之家(RSS)
42
全球一半高端眼镜产自深圳,形成"技术 - 制造 - 市场 - 政策"闭环

6月16日,第四届深圳国际眼镜业博览会暨2026全球人工智能眼镜展在深圳会展中心开幕。深圳市AI眼镜产业联盟表示深圳有望在全球智能穿戴领域树立新标杆。深圳已发布首个AI眼镜行业标准,联盟联合中国信通院泰尔实验室及乐奇、千问、雷鸟等20余家企业,分阶段推进标准制定,计划率先发布团体标准。深圳拥有芯片、传感器等完备产业链,全球每两副高端眼镜中一副产自深圳,龙岗区年产眼镜超1.25亿副,全球每七副高端眼镜中一副诞生于龙岗。

多模态端侧行业动态
16:28
HuggingFace Daily Papers(社区热门论文)
45
MMDiff:将冻结扩散Transformer扩展为多模态生成系统

MMDiff将冻结的扩散Transformer转化为多模态生成系统,仅用轻量解码器头部即可联合输出图像与任意组合的密集感知模态。研究发现感知信息沿去噪轨迹呈时间分布,多时间步特征融合配合空间变化聚合权重至关重要,可将语义分割结果提升28.7% mIoU(相比单时间步提取)。该方法还采用概念驱动的注意力提取实现可解释的空间引导,并证明冻结扩散特征与DINOv3等SOTA编码器互补且性能相当。仅训练轻量解码器,即在语义分割、显著目标检测和深度估计上取得强性能,并支持大规模合成数据生成。

多模态数据/训练论文/研究
14:35
Greg Brockman@gdb
40
我们刚为 ChatGPT 推送了更快、更流畅的照片附件体验!附件菜单现在可平滑过渡到相机,拍摄更迅速,选中的图片直接移入输入框,整个流程如同一个连续动作。优秀的用户体验影响巨大。

Naman Kedia: We just shipped a faster, more fluid photo attach experience in ChatGPT! The attach menu now transitions smoothly into t...

OpenAI产品更新多模态
14:30
公众号:通义实验室(千问)
73
Qwen-Robot 发布:打通大模型到物理世界的最后一公里

通义实验室推出 Qwen-Robot,包含三个基础模型:Qwen-RobotNav 以单套权重统一五类导航任务,五项基准达 SOTA,零样本部署于宇树 Go2 机器人(推理延迟 196ms);Qwen-RobotManip 基于 Qwen3.5-4B VL,采用 80 维状态-动作统一表示,利用超 38,100 小时开源数据训练,在多个操作基准超越 π0.5;Qwen-RobotWorld 以 860 万视频-文本对训练,通过自然语言动作接口统一 20 余种本体,多项世界模型评测第一。三个模型通过语言优先接口可被通用 Qwen 模型组合调用,实现物理智能体闭环。

具身智能多模态模型发布
关联讨论 4 条Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:通义千问 / Qwen (@Alibaba_Qwen)MarkTechPost(RSS)
14:27
HuggingFace Daily Papers(社区热门论文)
53
PermaVid:通过解耦上下文记忆实现编辑间一致的视频生成

PermaVid提出一种多模态上下文记忆框架,将空间上下文解耦为语义外观与几何结构,分别存储于RGB上下文记忆和深度上下文记忆。结合编辑感知的记忆更新与检索策略,使记忆演化与后续观测对齐。在编辑操作修改场景外观或布局后,该框架仍能保持生成视频在时间与视角上的长期语义与结构一致性,显著超越现有方法。

多模态论文/研究
12:39
Qwen:Blog Retrieval(API)
精选72
Qwen-RobotWorld:具身智能体的无界世界

Qwen-RobotWorld以语言为统一动作接口,采用双流Multimodal Diffusion Transformer(MMDiT)架构,将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩,统一20余种机器人形态,基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别,支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。

具身智能多模态模型发布
关联讨论 4 条Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:通义千问 / Qwen (@Alibaba_Qwen)MarkTechPost(RSS)
推荐理由:具身智能的世界模型长期受限于单一形态,Qwen-RobotWorld用语言统一动作接口,把操作、驾驶、导航合训,多视角几何一致性和人类演示迁移是过去一年最扎实的落地信号,做机器人的别错过。
11:27
HuggingFace Daily Papers(社区热门论文)
52
UniDDT:解耦扩散Transformer统一多模态理解与生成

UniDDT 利用 Noisy ViT 编码器与 LLM 统一视觉生成与理解的语义编码,并采用独立扩散解码器将扩散解码与文本解码解耦,以缓解多模态任务间的学习冲突与视觉空间不一致。它从同一图像-文本对构建双数据结构,利用生成与理解数据的相互依存关系。实验结果显示,视觉生成任务 GenEval 得分 0.87,DPG 得分 86.9;多模态理解任务 MME 得分 1699.5,SEEDbench 综合得分 76.5。

多模态数据/训练论文/研究
11:27
HuggingFace Daily Papers(社区热门论文)
40
TuneJury:开放的音乐生成偏好对齐奖励模型

TuneJury 是一个开放的实例级成对奖励模型,从文本提示和音频片段预测音乐偏好分数。其检查点基于公开的人类偏好标签训练,涵盖竞技场风格 A vs B 投票、度量对齐偏好对、众包成对比较和专家美学评级。预测分数差距在 held-out 测试集上校准良好,支持通过简单阈值过滤数据。TuneJury 可泛化到分布外基准,优于先前基线。引入 anchor calibration(事后、每系统的 Bradley-Terry 校准),以比从头再训练更高的数据效率恢复一致性。相同冻结奖励在 best-of-N 选择、DITTO 风格潜在优化和专家迭代后训练三个下游应用中驱动一致奖励轴增益。

多模态数据/训练论文/研究
11:27
HuggingFace Daily Papers(社区热门论文)
45
BRDFusion:物理与生成融合的城市场景逆渲染框架

BRDFusion是一个统一框架,结合物理建模和生成先验,用于从视频中恢复城市场景的显式、一致的场景属性,同时缓解优化歧义。在正向渲染中,物理模型提供基于场景配置的可控渲染,生成模型负责去噪和修复伪影,从而生成高质量视频并支持精确控制。该方法在真实和合成场景中均优于基线,并支持新视角重光照、夜间模拟以及动态物体插入/编辑。

图像生成多模态论文/研究
11:27
HuggingFace Daily Papers(社区热门论文)
55
VisualClaw:面向物理世界的实时个性化多模态智能体

VisualClaw是一个自进化多模态智能体,通过级联门过滤流式帧与热/冷top-k注入技能库,将单问题API成本降至全帧上传的-98%、均匀8帧基线的-25.9%。技能进化模块从失败中学习并更新技能库,在4个视频QA基准上平均准确率提升+3.85%,EgoSchema上Gemini 3 Flash达+15.80%。研究者构建了VisualClawArena(200场景多模态智能体基准),在该基准上结合计算机使用后端使Codex (GPT-5.5)宏观准确率+2.9%、Claude Code (Sonnet 4.6)+3.2%,成本降低-9.5%。级联机制将1小时流媒体从~3,600次API调用降至5-20次,适合边缘部署。

智能体多模态视频论文/研究
09:49
向阳乔木@vista8
23
你可能和我一样,经典古籍实在读不下去。 以《道德经》为例,拆解每句翻译成大白话 + AI生图,一下就Get了。 项目正在开发中,预计本周开源。
多模态开源/仓库
08:07
Josh Woodward@joshwoodward
74
我们的麦克风图标在 Android 和 iOS 上变得更好用了!这对非英语使用者来说意义重大。 + 现已支持 70+ 种语言 + 可自由混用语言 + 无需更改语言设置 + 仍然不会打断你 :)
Google产品更新多模态语音
08:00
HuggingFace Daily Papers(社区热门论文)
39
超越NL2Code:多模态代码智能结构化综述

本文系统综述了多模态代码智能,即在视觉输入输出下生成、编辑、优化或推理代码的系统。首先按代码角色将任务分为:渲染制品、可编辑符号结构、科学表示、中间推理轨迹、可执行策略/工具接口。随后将基准与方法归为四类:图形用户界面、科学可视化、结构化图形、前沿任务与框架。最后提出四个以验证为中心的未来方向:多信号验证、多状态验证、跨任务迁移测试、可验证的智能体轨迹,以期从单输出模仿转向证据驱动的可执行系统。

arXiv多模态编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
MaineCoon:首个实时音频-视频社交世界模型

MaineCoon 是一个 22B 参数的实时音频‑视频自回归模型,在单 GPU 上实现最高 47.5 FPS 的流式生成与亚秒级交互,是首个专为社交交互场景优化的实时音视频生成模型。训练中引入自重采样、跨模态表示对齐、领域偏好优化和 Reinforced Online‑Policy Distillation(ROPD)。同时设计了首个智能体流推理框架,通过智能缓存管理与提示规划支持千秒级以上的长序列生成并缓解漂移。该模型在高质量、低延迟、长时域音视频自回归建模上确立了新 SOTA 基准。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
40
SR-REAL:空间视觉语言模型的双路径推理增强

SR‑REAL 为空间 VLM 配备两条互补推理路径:纯语言推理(LOR)和检测后推理(DTR)。LOR 执行逐步语言演绎,DTR 先通过区域 token 检测 3D 几何线索(中心点或边界框),再进行几何推理。框架先经冷启动有监督微调构建两条路径的思维链监督,随后用准确率和格式奖励进行强化学习优化,DTR 额外使用基于离散中心的检测奖励。在多个空间基准上,SR‑REAL 显著优于基线:单个 RL 训练模型支持两种路径,联合训练实现互相增强,且模型无需调优即可跨数据集和领域泛化。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
信任正确的教师:面向GUI Grounding的质量感知自蒸馏

GUI grounding要求视觉语言模型在高分辨率截图中识别小目标并预测精确坐标。OPSD(在策略自蒸馏)虽能提供密集token级教师信号,但朴素OPSD中学生生成前缀偏离目标时坐标token信号质量下降。本文提出质量感知自蒸馏,通过软正确性感知门控和教师概率缩放改善信号质量:门控检查教师当前坐标预测能否在给定前缀下完成到真实框,否则降权;教师概率缩放用置信度校准监督强度。两个组件单独无效,组合持续有效。在六个GUI grounding基准上一致提升基础模型并超越强基线。

arXiv多模态数据/训练论文/研究
05:36
Google AI Developers@googleaidevs
44
Gemma 4 12B 如何处理音频和视觉而无编码器?@MaartenGr 用逐步视觉指南解析了该架构。⤵️ https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4-12b
Google多模态教程/实践
01:15
Ethan Mollick@emollick
39
非常巧妙。而且符合我的预期:模型在视觉方面弱于其他一切,因此可视化步骤是工作流中错误积累最多的地方。

Josh Tycko: Can AI find the monkey business in your dataset?

多模态大佬观点
00:59
AYi@AYi_AInotes
68
用户对比Seedance 2.0与Grok的视频生成效果,发现Seedance 2.0价格贵近4倍,质量却不相上下;仅用一句话提示词测试Grok对中国古装风格理解,结果超预期。引用推文指出,GPT Image 2加Grok的混合工作流性价比极高:SuperGrok月费30美元,目前有3个月67%优惠,单条短片几乎零边际成本。角色风格一致性由GPT Image 2把控,出图后丢进Grok做动态效果即可。

AYi: GPT Image 2 加 Grok简直是目前玩AI视频的性价比之王,而且grok还能给你加字幕,真的厉害,@grok bro你还藏了多少我不知道的? 自从Seedance一直涨价我就没续订会员了, 本来以为 Seedance 2.0 是当...

OpenAIxAI多模态视频
6月15日
23:56
OpenRouter@OpenRouter
32
新多模态排名页面的预览 👀 Google 的 Veo 3.1 正在视频排行榜上攀升
Google产品更新多模态视频
23:49
IT之家(RSS)
69
MiniMax M3 模型正式开源:原生多模态、百万上下文

MiniMax 于 6 月 12 日开源 MiniMax M3 模型权重并发布 MSA 技术论文。M3 是原生多模态旗舰模型,总参数 428B,激活参数 23B,为首个从 Step 0 开始多模态混合训练的开源模型。在 Artificial Analysis 综合智能指数上获全球开源最高排名。输出速度从约 30 TPS 提升至约 80 TPS,后续还将提速 30-40%。M3 在编码与智能体评测中达行业顶尖水平,具备自主任务拆解、工具调用与多步推理能力,上下文支持百万级别。

arXivHugging Face多模态开源生态
23:01
公众号:MiniMax(稀宇科技)
同事件精选76
MiniMax 开源 M3 模型权重及 MSA 技术论文

MiniMax 上周五开源了 428B 总参数、23B 激活参数的 M3 模型权重,同步发布 MSA(MiniMax Sparse Attention)技术论文,该架构显著降低长上下文计算成本。M3 是首个从预训练阶段就进行文本、图像等多模态交错混合训练的开源模型。发布两周后,M3 在 Artificial Analysis 综合智能指数、GDPval-AA 排行榜均获开源模型第一,Code Arena WebDev 跻身帕累托最优序列,Vals.AI 榜单居国产模型首位。输出速度已从约 30 TPS 提升至约 80 TPS,计划再提速 30–40%;Token Plan 后台新增调用量看板。

多模态数据/训练模型发布
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:M3 是第一个从预训练阶段就深度融合多模态的开源模型,MSA 架构让长上下文成本大幅降低,它的开源会给做多模态应用的团队一个高性价比的选择,国产开源又多了一个能打的基座。
21:18
TechCrunch:AI(RSS)
66
Loft Orbital卫星首次在轨使用视觉语言模型自主识别目标

今年四月,Loft Orbital的Yam-9卫星在轨首次完成自主目标识别——无需地面分析师干预。卫星搭载NASA JPL开发的NAVI-Orbital软件包和Google DeepMind的Gemma 3视觉语言模型,配合Nvidia Jetson Orin AGX GPU运行。模型可根据自然语言查询分类传感器数据,例如识别城乡交界或铁路枢纽周边基础设施。这一里程碑证明VLM可在资源受限的太空边缘设备上执行数据预处理,减少下行数据量。Loft Orbital AI负责人表示,该技术为“太空全天候巡逻”铺平道路,计划部署50–100颗类似卫星实现全球实时覆盖。

DeepMind多模态端侧行业动态
18:44
小互@xiaohu
60
Perceptron发布Agentic Detection视觉检测模型

Perceptron推出Agentic Detection视觉检测模型,用户只需提供一张图片并用自然语言描述目标,即可自动框出并分类,无需预先训练。该模型还能处理物理推理检测任务,例如定位森林火灾的起火点(“烟的来源”)、挑出变形电线杆(“需要维修的电线杆”)、标记空车位等。引用推文指出,该模型支持用自然语言或示例描述任意物体进行定位。

Perceptron AI: Today we're releasing Perceptron Agentic Detection: localize anything you can describe in natural language or show examp...

多模态模型发布
17:43
IT之家(RSS)
37
理想:马赫 Mind-Pro 模型全面落地赋能 L9 Livis 车载智能系统

理想在 Livis Day 发布会上宣布,马赫 Mind-Pro 模型已全面落地应用于 L9 Livis 车载智能系统。该模型在 IFEval、LongBench-v2 等评测中稳居行业第一梯队,并在 Token 生成速度等商业维度实现可量产。采用多模态流式时序建模,能连续理解动态物理世界,具备因果推理和自主决策能力。经大量车载行为特化训练,可直接输出动作并调用车辆硬件。Always-on 全天候主动感知等多模态问答能力均在车端本地完成,数据不上传。

产品更新多模态端侧
16:43
IT之家(RSS)
51
赛力斯人形机器人"小赛"首次亮相,副总裁康波透露更多种类今年内登场

赛力斯集团董事、副总裁康波今日通过视频展示人形机器人“小赛”,该机器人具备视觉识别、主动打招呼和语音互动能力。康波透露,更多种类具身智能机器人在筹备,今年内亮相。赛力斯超级工厂已配备地空一体物流、具身智能AI检测机器人“小赛01”“小赛02”等多款机器人,拥有1600+台智能化设备、3000+台工业机器人及完整数字生态系统。去年10月,赛力斯凤凰与字节火山引擎签署具身智能合作协议,重庆凤凰技术有限公司于去年3月成立。

产品更新具身智能多模态
13:10
公众号:昆仑万维(天工)
28
智源大会|Skywork首席科学家成宇:SkyReels V4与Mureka V9技术演进

昆仑万维Skywork首席科学家成宇在智源大会上介绍SkyReels V4与Mureka V9。SkyReels V4在Artificial Analysis全球视频生成评测中夺得Text to Video(With Audio)与Image to Video(With Audio)双赛道第一,超越Veo 3.1和Sora 2。其四大突破包括双流MMDiT架构实现毫秒级音画同步、全模态强化学习提升视频逻辑连贯性,以及1080p/32FPS/15秒电影级画质联合生成策略。Mureka V9引入MusiCoT音乐思维链技术,实现段落级文本控制与母带级混音,在旋律性(7.25)、表现力(6.89)等维度排名第一。此外,昆仑万维以“4+3”AGI战略支撑AI短剧、AI音乐、AI游戏三大AI原生娱乐经济体。

多模态大佬观点开源生态视频
08:00
HuggingFace Daily Papers(社区热门论文)
51
反思掩码(RM)激发掩码扩散模型的推理能力

自回归模型推理依赖链式思维和反思,但局部修改仍需完全顺序生成。掩码扩散模型(MDMs)的掩码机制天然支持选择性局部编辑,但现有MDMs不支持多轮掩码与去噪。本文提出反思掩码(RM),通过轻量后训练激发MDMs的多轮掩码能力,迭代修改先前输出。RM还引入免参数的历史参考机制,利用中间去噪状态提升修订效果。无需架构改动,在文本生成、数独、图像编辑等任务上一致优于标准掩码基线。

arXiv多模态推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
46
ContextRL:面向智能体与多模态大语言模型的上下文感知强化学习

ContextRL 是一种上下文感知强化学习方法,通过让模型从两个相似上下文中选出支持查询-答案对的上下文,改善长上下文和多模态细粒度理解。针对代码智能体用轨迹构建 1k 对对比数据,针对多模态推理用图像构建 7k 对。在 5 个长程推理基准上平均提升 +2.2%,在 12 个多模态视觉问答基准上平均提升 +1.8%。与使用相同数据但仅作为标准示例的基线对比,后者几乎无改进,表明增益来自上下文选择目标而非额外数据。

多模态推理编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
视觉锚定推理(Thinking with Visual Grounding)

提出视觉锚定推理,让VLM在生成自然语言推理步骤时,显式输出点或框来锚定每一步依赖的图像区域。训练管道从正确推理轨迹提取对象,用SAM3-based agent获取锚定掩码,派生点与框监督。进一步提出锚定感知强化学习,结合答案正确性奖励和密集锚定奖励。在2个计数基准和4个空间推理基准上,Gemma3-4B-IT应用后性能提升,空间推理任务上匹配或超越Gemma3-27B-IT。点锚定适用于计数,框锚定在空间任务受益于显式锚定奖励。

多模态推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
TV-Edit:文本-视觉联合指导的图像编辑框架

TV-Edit 联合文本与视觉指令,以文本作为语义意图、稀疏视觉指令(拖拽/点)作为空间指导,实现精确且忠实于意图的图像编辑。构建超23K文本-视觉指令配对数据集,将视觉指令与图像-文本语义融合为语义感知控制表征,输入预训练编辑骨干。相比纯文本或纯拖拽方法,空间控制更精确、指令歧义更少、结构一致性更强。TV-Edit-Bench 从语义忠实度、空间对齐和视觉一致性评估,TV-Edit 在多编辑骨干上一致优于 SOTA 基线。

图像生成多模态论文/研究
07:40
IT之家(RSS)
44
科大讯飞AI眼镜开启预售:支持122种语言翻译,4299元

科大讯飞AI眼镜6月15日在京东开启预售,定价4299元(部分地区国补后低至3369元),重40克。搭载讯飞端到端语音同传大模型,支持122种语言(含方言、口音)翻译,覆盖通话翻译、线上同传、同声传译(8米全向拾音)、面对面翻译(18语种离线)、视觉翻译等六大场景。内置GlassClaw AI助理,支持一句话跨端任务、会议自动生成图文纪要、实时提词、蓝牙遥控翻页,并提供多种近视镜片选配。

产品更新多模态语音
6月14日
22:44
Ethan Mollick@emollick
62
在 Fable 打断之前,我完成的最后一次一次性提示词:"做一个很酷的模拟工具,让我能演示从科幻名作和科学推测中来的各种超光速旅行形式。它应该有视觉吸引力且有趣。" https://superluminal-ftl.netlify.app/
多模态教程/实践
22:14
The Decoder:AI News(RSS)
45
微软研究院 Mirage:赋予视频生成持久空间记忆,不遗忘"转角后的场景"

微软研究院与多所高校联合开发的视频世界模型 Mirage 将场景信息直接存储在潜在空间中,而非基于像素的点云。这大幅降低了计算时间和图形显存消耗,同时能在长镜头移动中保持场景空间一致性。不过,该模型目前仍无法可靠地跨片段跟踪运动物体。

Microsoft多模态视频论文/研究
22:00
公众号:昆仑万维(天工)
43
昆仑万维公布Matrix-Game 3.5技术突破:状态与动作联合训练

昆仑万维Skywork首席科学家刘扬在智源大会上提出“状态与动作联合训练”框架,并首次公布Matrix-Game 3.5核心技术:从游戏场景向真实场景扩展,支持多风格动态切换、指令控制及NPC交互,记忆机制采用三维空间块匹配替代历史帧拼接,并用PRoPE机制替代额外参数注入。Matrix-Game 3.0已实现5B参数蒸馏模型在720P分辨率下40FPS实时生成。团队构建了包含500万+视频切片、1万+训练小时的数据引擎。3.5计划于2026年7月发布。

产品更新多模态
16:37
IT之家(RSS)
36
长安汽车总经理赵非:蓝鲸超擎混动量产中,天枢智能66项功能上车

长安汽车总经理赵非在2026中国汽车重庆论坛上透露,蓝鲸超擎混动已量产,天枢智能66项功能批量上车。蓝鲸超擎动力首发500bar超高压直喷混动发动机,热效率近45%,电机效率突破98%,最高转速20000转/分钟,电池放电功率80kW,电机最大功率180kW。自研辅助驾驶系统“天枢领航”分三版:Pro标配激光雷达,提前2秒识别障碍物,响应快150毫秒;Max基于超2000万条人驾数据训练,通勤效率提升20%;Ultra搭载VLM大模型,未来推出驾驶员失能主动守护。

产品更新多模态端侧
15:41
StepFun@StepFun_ai
48
Step 3.7 Flash 现已上线 @DeepInfra 🚀 开发者和团队现可通过 DeepInfra 的 API 试用我们的开源多模态推理模型,并可为专用工作负载部署私有端点。 专为智能体编程、工具使用、搜索和视觉工作流而构建。 感谢 DeepInfra 团队!

DeepInfra: Step 3.7 Flash is Live on DeepInfra: An Agentic, Multimodal Model Built for Production

多模态开源生态推理行业动态
15:11
StepFun@StepFun_ai
43
Step 3.7 Flash 现已在 @DeepInfra 上线 🚀 开发者现在可以通过 DeepInfra 的 API 试用我们的开源多模态推理模型,并支持为专用工作负载部署私有端点。 专为智能体编程、工具使用、搜索和视觉工作流打造。 感谢 DeepInfra 团队!

DeepInfra: Step 3.7 Flash is Live on DeepInfra: An Agentic, Multimodal Model Built for Production

多模态推理模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
51
SpatialAvatar-0:多阶段重建的高质量4D头部头像

SpatialAvatar-0 提出基于 FLAME-mesh 约束的高斯表示,结合前馈生成器与 10K 迭代布局保持的逐主体精化循环。前馈阶段采用无参数 K 源均值池化及单目-时序到多视图-空间两阶段调度;精化阶段冻结 FLAME 绑定与高斯数量,以三组件抗尖峰正则化替代密集化。在 VFHQ/HDTF 跨域零样本测试中,PSNR 超越领域内领先模型 GAGAvatar 1.5 dB;在 SplattingAvatar 单目基准上,所有指标均领先,PSNR 超越 300K 迭代的 GeoAvatar 1.3 dB,且逐主体调度周期比常见 SOTA 基线快 60 倍。

多模态视频论文/研究
‹ 上一页
1…7891011…50
下一页 ›