TV-Edit 联合文本与视觉指令,以文本作为语义意图、稀疏视觉指令(拖拽/点)作为空间指导,实现精确且忠实于意图的图像编辑。构建超23K文本-视觉指令配对数据集,将视觉指令与图像-文本语义融合为语义感知控制表征,输入预训练编辑骨干。相比纯文本或纯拖拽方法,空间控制更精确、指令歧义更少、结构一致性更强。TV-Edit-Bench 从语义忠实度、空间对齐和视觉一致性评估,TV-Edit 在多编辑骨干上一致优于 SOTA 基线。
TV-Edit 联合文本与视觉指令,以文本作为语义意图、稀疏视觉指令(拖拽/点)作为空间指导,实现精确且忠实于意图的图像编辑。构建超23K文本-视觉指令配对数据集,将视觉指令与图像-文本语义融合为语义感知控制表征,输入预训练编辑骨干。相比纯文本或纯拖拽方法,空间控制更精确、指令歧义更少、结构一致性更强。TV-Edit-Bench 从语义忠实度、空间对齐和视觉一致性评估,TV-Edit 在多编辑骨干上一致优于 SOTA 基线。
科大讯飞AI眼镜6月15日在京东开启预售,定价4299元(部分地区国补后低至3369元),重40克。搭载讯飞端到端语音同传大模型,支持122种语言(含方言、口音)翻译,覆盖通话翻译、线上同传、同声传译(8米全向拾音)、面对面翻译(18语种离线)、视觉翻译等六大场景。内置GlassClaw AI助理,支持一句话跨端任务、会议自动生成图文纪要、实时提词、蓝牙遥控翻页,并提供多种近视镜片选配。
微软研究院与多所高校联合开发的视频世界模型 Mirage 将场景信息直接存储在潜在空间中,而非基于像素的点云。这大幅降低了计算时间和图形显存消耗,同时能在长镜头移动中保持场景空间一致性。不过,该模型目前仍无法可靠地跨片段跟踪运动物体。
昆仑万维Skywork首席科学家刘扬在智源大会上提出“状态与动作联合训练”框架,并首次公布Matrix-Game 3.5核心技术:从游戏场景向真实场景扩展,支持多风格动态切换、指令控制及NPC交互,记忆机制采用三维空间块匹配替代历史帧拼接,并用PRoPE机制替代额外参数注入。Matrix-Game 3.0已实现5B参数蒸馏模型在720P分辨率下40FPS实时生成。团队构建了包含500万+视频切片、1万+训练小时的数据引擎。3.5计划于2026年7月发布。
长安汽车总经理赵非在2026中国汽车重庆论坛上透露,蓝鲸超擎混动已量产,天枢智能66项功能批量上车。蓝鲸超擎动力首发500bar超高压直喷混动发动机,热效率近45%,电机效率突破98%,最高转速20000转/分钟,电池放电功率80kW,电机最大功率180kW。自研辅助驾驶系统“天枢领航”分三版:Pro标配激光雷达,提前2秒识别障碍物,响应快150毫秒;Max基于超2000万条人驾数据训练,通勤效率提升20%;Ultra搭载VLM大模型,未来推出驾驶员失能主动守护。
SpatialAvatar-0 提出基于 FLAME-mesh 约束的高斯表示,结合前馈生成器与 10K 迭代布局保持的逐主体精化循环。前馈阶段采用无参数 K 源均值池化及单目-时序到多视图-空间两阶段调度;精化阶段冻结 FLAME 绑定与高斯数量,以三组件抗尖峰正则化替代密集化。在 VFHQ/HDTF 跨域零样本测试中,PSNR 超越领域内领先模型 GAGAvatar 1.5 dB;在 SplattingAvatar 单目基准上,所有指标均领先,PSNR 超越 300K 迭代的 GeoAvatar 1.3 dB,且逐主体调度周期比常见 SOTA 基线快 60 倍。
“Count Anything”是一个新AI模型,仅通过文本提示即可对任意类型图像(如人群、显微镜下细胞样本)中的物体进行计数。对比测试显示,其错误率比此前系统降低一半。但该模型在处理极密集物体和模糊术语时仍存在困难。
长安汽车在重庆车展发布自研辅助驾驶系统“天枢领航”,分Pro、Max、Ultra三个版本。Pro版全系标配激光雷达,弱光场景比人眼提前2秒识别障碍物,系统响应速度提升150毫秒。Max版基于超2000万条人驾数据切片训练,高频通勤场景通行效率提升20%。Ultra版搭载VLM视觉语言大模型,实现可交互辅助驾驶,未来还将推出驾驶员失能主动守护功能。长安启源Q06将全系搭载该系统,计划今年9月上市。
6月13日,科大讯飞在长三角机器人及自动化展览会上发布星火多模态大模型X2-VL。该模型基于全国产算力平台太湖星跃训练,采用专属MoE架构。面向高中各科图文结合试题,答题准确率近95%;挑战2026年高考数学全国I卷获148分,高于对比模型A-E(144、143、137、145、142分)。科大讯飞已在无锡高新区成立子公司负责日常运营。
6月13日,京东健康与北京友谊医院宣布合作,共建消化系统专科大模型,重点应用于胃肠镜早癌筛查、疾病诊断等场景。双方将在三个层面推进:共建高质量数据集、联合研发专病大模型、推动线上线下双场景落地。线下,大模型融入消化内科诊疗全流程,开展实时智能筛查、病灶识别、风险研判,并提供诊疗参考、用药预警、病历整理等辅助工具及智能导诊等便民服务。线上,提供全天候健康咨询、症状初筛、居家指导,为慢性胃肠病患者搭建全病程管理体系,并输出权威科普内容。
MNN 推理引擎深度适配 Arm SME2 指令集,使 Qwen3-VL-4B-Instruct 在支持 SME2 的 vivo X300 上实现实时多模态推理。Prefill 阶段性能提升 81%,Decode 阶段提升 13%。MNN 采用编译时内建 + 运行时自动检测设计,默认开启 SME2 加速。该模型为 4B 参数视觉语言模型,支持图文理解和对话,通过 MNN 官方已转换量化的模型可直接下载部署,开发者可通过编译开关一键开启硬件加速。
6月12日,TVB与火山引擎达成合作,围绕豆包视频生成模型Seedance 2.0,在影视内容智能化生产、短剧制作、IP商业化及云基础设施等领域展开探索。双方将协同TVB旗下FF工作室,以AI短剧为契机,利用Seedance 2.0的视频生成能力,通过输入提示词快速生成动画分镜、场景参考等素材,辅助编剧与导演在剧本开发、后期制作中验证创意。火山引擎将为TVB提供虚拟机、对象存储、视频云、CDN等云产品,支持其构建混合云架构,推动媒体内容生产、存储、分发环节的云化升级。
首尔市教育厅6月12日通知,禁止考生戴AI智能眼镜参加期末考试,携带即按作弊处理。AI眼镜集成摄像头、麦克风与生成式人工智能,可传递答案。通知列出识别特征:镜腿粗厚、末端厚重,含电池、主板、隐藏摄像头等。监考需留意反复触碰镜框的学生。今年早些,两名韩国考生在托业考试中用AI眼镜作弊,成绩作废且禁考4年。韩国教育部考虑在11月CSAT高考中将AI眼镜单独列入禁带清单。
VISTA-4B 是基于 Qwen3.5-4B 骨干的 GUI 定位模型,输入截图与自然语言指令,输出归一化 0-1000 坐标。训练采用视图一致 GRPO 和自验证交叉视图锚定。在 GUI 定位基准上,SSPro 得分 64.2(相比 GRPO-4B 提升 2.0),SSV2 得分 93.8(下降 0.4),OSWorld-G 得分 61.2(提升 1.3),OSWorld-G-R 得分 69.7(提升 0.5)。模型已开源在 HuggingFace,推荐使用提示词并返回 [x,y] 格式坐标。
VISTA-9B是基于Qwen3.5 9B骨干训练的GUI定位模型,输入截图与自然语言指令,输出0-1000归一化坐标。采用VISTA(视图一致自验证)方法,含view-consistent GRPO与self-verified cross-view anchoring。在SSPro、SSV2、OSWorld-G、OSWorld-G-R上分别取得69.2、95.8、68.1、75.5分,超越Qwen3.5-9B与GRPO-9B基线。模型已开源,可通过HuggingFace加载使用。
iOS 27 版照片应用引入三项 AI 功能。空间重构(Spatial Reframing)支持拍摄后调整透视角度改善构图,仅在透视移动区域生成新内容。扩图(Extend)可将画面向外扩展最多 25%,且仅限执行一次。清理(Clean Up)可移除更复杂的干扰物并保持原始场景真实性。苹果高管表示这些功能让普通用户获得专业级修图能力。
多模态大语言模型(MLLM)能描述图像间的属性差异用于类别预测,但现有视觉编码器仅依赖标量类标签监督。SAGA框架采用组相对策略优化(GRPO)奖励冻结MLLM对编码器token的正确预测,迫使编码器编码具体匹配或差异属性,替代均匀标量监督。结合辅助注意力蒸馏损失与度量学习损失,推理时丢弃MLLM,部署成本与基线一致。在CUB-200-2011、Cars-196、FGVC-Aircraft和iNaturalist Aves的零样本图像检索中,SAGA将Recall@1提升3到6个百分点。
Visual-Seeker 是一种视觉原生多模态深度搜索智能体,通过主动视觉推理而非将视觉视为静态输入,动态收集细粒度视觉证据以完成多跳跨模态搜索。研究人员设计了主动视觉推理数据流水线,合成了 5K 高质量多模态轨迹用于模型训练。在五个具有挑战性的多模态搜索基准上,Visual-Seeker 达到最先进性能,甚至超越部分闭源模型。代码和数据集已开源。
MotionVLA 基于 Qwen3.5,采用 DSFT 双流频率分词器将运动分解为 Base 流和 Physical 流,通过 DCT 截断和 BPE 独立压缩,并在统一序列中按 Base → Physical 顺序预测。在 HumanML3D 和 MBench 上,仅 2B 参数轻量级骨干即实现:HumanML3D 多样性差距降低超 50%,MBench 运动条件一致性提升 3.8%,证明频率感知双流解耦对自回归运动生成的有效性。
IndustryBench-MIPU是首个大规模多图像工业产品理解基准,聚焦结构化属性提取——从产品图像中恢复属性-值对。基准涵盖18个工业类别、4,559个产品、27,652张图像和103,703条标注,通过多模型共识与三级质量审核构建。在9个多模态大语言模型上的评估显示:单图像属性提取精度达86–94%,但产品级多图像召回最高仅49.9%;从单图像转向多图像提取时,召回率下降15–34个百分点。多图像完整性是核心瓶颈,而非单图像准确率。数据集与代码已公开。
为应对印度农村患者用本土语言和医学影像表达复杂病情,研究团队构建了ArogyaBodha数据集,包含8个异构来源、31个身体系统、6种成像模态、21个临床领域,覆盖英语和7种主要印度语言。同时提出ArogyaSutra,一个基于Actor-Critic的多智能体框架,集成工具接地与双记忆机制,实现逐步推理感知决策,并利用存储的Actor-Critic仿真轨迹进行知识蒸馏。实验表明,该数据集与框架在所有印度语言上均提升了多语言医疗推理准确性。源代码与数据集已开源。
商汤科技开源日日新 SenseNova U1 系列新成员 U1-8B-MoT-Interleaved 图文交错增强版模型。该模型面向图文交错创作与生成场景强化,支持绘本、故事书、多页 PPT 等连续内容创作,解决了多轮生成后角色形象飘移、画风断裂、图文脱节等痛点。核心升级包括叙事一致性与角色连贯性提升、图文对应关系增强、视觉质量改善,以及新增多页 PPT 自动生成能力。模型已开源。
HYDRA-X 是首个在单个 Vision Transformer (ViT) 中统一图像与视频 tokenization 的统一多模态模型。通过帧级因果时间注意力实现视觉重建,并采用层级时间压缩替代单步压缩。轻量级解压器在联合图像-视频教师监督下上采样时间压缩特征。编辑管线中,源-目标交互在分词器内部潜在层面而非 LLM 语义层面进行,提升编辑一致性与收敛速度。7B 密集模型在图像与视频理解及生成任务上表现强劲。
在华为开发者大会 HDC 2026 上,华为终端 BG CEO 何刚宣布,华为 AI 眼镜与小艺看世界深度联动,将于 8 月上线,辅助视障用户探索世界。小艺看世界功能此前已支持实时语音与视频对话,可调用天气、日历等系统服务,在穿搭建议、景点介绍等场景实现边看边聊边思考。
Zyphra 推出 Zamba2-VL 系列开源视觉语言模型,包含 1.2B、2.7B 和 7B 三种参数规模。采用混合 Mamba2 状态空间与 Transformer 骨干架构,基于 Apache 2.0 许可证开源。在保持与同类 Transformer VLM 相当性能的同时,首 token 生成时间(time-to-first-token)缩短约一个数量级。
2026 第八届北京智源大会上,之江实验室主任、阿里云创始人王坚指出,人工智能对科学研究的影响已发生质变。核心在于 AI 从只能理解文本发展到能理解多模态数据和代码,具备了区分语言文本与代码文本的能力。他认为,AI 改变程序员工作方式后,所有科学数据都会因 AI 被重新理解,科研人员受到冲击的逻辑与程序员一致。
SpatialClaw 是无需训练的空间推理框架,采用代码作为动作接口,维护预加载输入帧和感知几何原语的状态化 Python 内核,让 VLM 驱动的智能体逐步编写可执行代码单元,灵活组合分析感知结果。在 20 个静态和动态 3D/4D 空间推理基准上平均准确率达 59.9%,比近期空间智能体提升 11.2 个百分点,且在不做基准或模型适配的情况下,在六个 VLM 骨干上均取得一致提升。
VideoMDM是一个基于扩散的框架,从单目视频的精确2D姿态训练3D人体运动先验,无需3D真值。它利用预训练的2D-to-3D提升器提供近似3D序列作为噪声教师,经扩散和去噪后重投影到2D并与准确关键点对比以监督训练。理论证明深度加权的2D重投影损失在期望上等价于直接3D监督。在HumanML3D基准上,VideoMDM几乎缩小了与完全3D监督MDM的差距(FID 0.88 vs 0.54);在真实视频数据集Fit3D和NBA上,生成的运动获得人类一致偏好。
InterleaveThinker 提出多智能体管线,通过规划智能体组织图像-文本输入序列、批评智能体评估生成结果并修正指令,使任意现有图像生成器具备交错生成能力。构建 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 数据集进行冷启动,并利用 GRPO 在 Interleave-Critic-RL-13k 上强化批评智能体的逐步指令修正。提出 accuracy reward 和 step-wise reward,使单步强化学习有效引导整个生成轨迹。在交错生成基准上性能与 Nano Banana 和 GPT-5 相当;在 4-step FLUX.2-klein 推理基准上,WISE 和 RISE 指标显著提升。
苹果在 iOS 27 中优化健康 App,将列表改为卡片布局并增加导航栏。新增视觉智能营养识别,用户通过相机 Siri 模式拍摄食物可获取加工程度、蛋白质、含糖量等信息及营养价值评级,不提供精确卡路里,需 iPhone 15 Pro 及以上。经期追踪扩展支持围绝经期,可分析长期周期异常模式并推送提醒与指导。Fitness+ 新增围绝经期和绝经期课程。数据同步速度提升,GymKit 扩展至 iPhone,无需 Apple Watch 即可与健身设备配对同步数据。
MVEB是一个包含23项任务的视频嵌入基准,涵盖分类、零样本分类、聚类、对分类、检索及视频问答。对33个模型的评估显示无单一模型主导:基于MLLM的嵌入在分类、聚类、对分类和问答上领先;多模态绑定方法在检索和零样本分类上领先;缺乏对比适应的生成式MLLM在跨模态任务上崩溃。对比纯视频与音视频评估表明,音频的贡献取决于数据标注来源:标签来自双模态时音频有帮助,仅来自视觉时则有害,差距达6个百分点且跨模型家族一致。MVEB衍生自184项任务的MVEB+池,在降低评估成本的同时保持任务多样性,并集成到MTEB生态系统中。代码和排行榜已开源。
长视频生成中,主体在不同镜头、视角和场景切换下容易丢失。Memento 将主体保持视为身份锚定问题,联合训练自回归下一镜头生成与基于记忆的主体重建,利用历史记忆和全局描述恢复外观;双查询记忆机制分别检索长程身份记忆和短上下文关键帧。主体感知的数据流水线通过无代词描述提供重建监督。实验表明 Memento 在长期主体一致性、跨镜头连贯性和视觉质量上达到 SOTA。
RepFusion复用多模态大语言模型(MLLM)作为噪声表示编码器,将其输出作为扩散Transformer的条件信号,用于文本到图像生成的去噪过程。在类似推理预算的对比中,RepFusion优于将同等容量分配给从头初始化的去噪器的基线。实验表明,MLLM为降噪视觉表示提供强先验,通过条件于演化的噪声表示,可以在现代T2I系统中有效利用测试时的重复MLLM计算。
ClinHallu是一个面向医疗多模态大语言模型(MLLM)的阶段性幻觉诊断基准。该基准包含7031个经过验证的实例,每个实例都带有结构化的推理追踪,分解为视觉识别、知识召回和推理整合三个阶段。通过阶段替换干预,可测量修正特定阶段对最终答案的影响。实验表明,追踪监督微调能减少阶段性的模型幻觉。ClinHallu为诊断和缓解医疗MLLM中的推理故障提供了细粒度的测试平台,并已公开提供。
首次系统实证研究视觉仓库表示对基于 LLM 的编码智能体在仓库级问题解决中的作用。评估了四个近期多模态模型。纯视觉设置会降低准确性并增加 token 成本;将仓库结构视觉图作为文本界面的补充模态,可使输入 token 消耗降低最多 26%,同时保持或提升问题解决准确性。可视化在故障定位和智能体自主控制探索深度时最为有效。研究指向一种混合文本与视觉的设计思路,用于下一代编码智能体。
将GRPO直接用于GUI定位时,单视图采样会导致困难实例全失败、简单实例全成功,无法产生有效相对优势。VISTA提出GRPO训练框架,从同一GUI实例的多个目标保留视图中构建对比组——每个视图通过裁剪保持目标元素可见并精确重映射边界框。VISTA还引入自验证交叉视图锚点,使用优势加权损失优化Oracle答案,不纳入群组基线。在五个GUI定位基准和多种Qwen骨干上,VISTA一致提升精度:ScreenSpot-Pro上,Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7提升至63.4/65.8/67.0。鲁棒性分析显示更高最差视图准确率和更低预测翻转率。
针对视频-音频问答中跨模态关联薄弱、长程时序连接不足的问题,提出自动数据引擎,包含实体锚定视频脚本化(生成摘要、主实体列表和片段描述)和线索引导QA生成两个机制。基于该流程构建指令微调数据集OmniVideo-100K及人工测试集OmniVideo-Test。在VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B上微调后,OmniVideo-Test性能最高提升20.59%,在Daily-Omni、JointAVBench等基准上最多提升12.64%。
Deezer 推出了一款工具,能够扫描 Spotify、Apple Music 及其他平台的播放列表,识别其中由 AI 生成的音乐。
Deezer 推出一款免费 AI 音乐检测器,用户可在任何主流流媒体平台上检查自己的播放列表中是否混入了 AI 生成的歌曲。
视觉语言模型(VLM)将图像投影为大量视觉token,导致推理时注意力计算与KV缓存开销高昂。现有方法遵循“排序‑移除”范式,但token重要性随解码器深度变化,早期丢弃的token可能在后续层变得关键。Reroute是一种无需训练的可插拔模块,将永久移除替换为可恢复路由:被延迟的token绕过当前解码阶段,在下一路由决策时重新进入候选池。在LLaVA‑1.5与Qwen骨干上对FastV、PDrop和Nüwa变体的实验表明,Reroute在激进token压缩下提升了grounding能力,同时保持通用VQA性能。