本文提出交互式视频虚拟试穿新任务,针对现有方法仅限于非交互展示的局限。新任务要求主体在视频中主动与服装互动,面临从标准姿势解析语义模糊性,以及从稀疏互动视频中学习复杂形变两大挑战。为此,我们推出iTryOn框架,基于大规模视频扩散Transformer,设计多级交互注入机制:空间层面引入服装无关的3D手部先验,精确引导手-服装接触;语义层面通过全局描述与时间戳动作描述协同,并借助动作感知旋转位置嵌入进行时序同步。实验表明,该方法在传统基准达到最优性能,并在交互场景中取得显著优势。
本文提出交互式视频虚拟试穿新任务,针对现有方法仅限于非交互展示的局限。新任务要求主体在视频中主动与服装互动,面临从标准姿势解析语义模糊性,以及从稀疏互动视频中学习复杂形变两大挑战。为此,我们推出iTryOn框架,基于大规模视频扩散Transformer,设计多级交互注入机制:空间层面引入服装无关的3D手部先验,精确引导手-服装接触;语义层面通过全局描述与时间戳动作描述协同,并借助动作感知旋转位置嵌入进行时序同步。实验表明,该方法在传统基准达到最优性能,并在交互场景中取得显著优势。
AI电影项目RAPHAEL在戛纳亮相。该片由Mateo AI Studio与韩国MBC C&I的AI内容实验室联合开发,全程使用Kling AI视频模型进行制作,旨在实现独特的视觉效果与差异化的观影体验。项目计划于2026年登陆院线,其大规模制作旨在证明纯AI电影制作的工业可行性,标志着AI原生院线电影新趋势的开端。
当前,统一多模态模型通过混合多任务训练来提升图像理解、生成和编辑能力,但任务冲突导致需要复杂多阶段流程和大量数据平衡,仅实现性能折衷而非协同增强。为此,研究提出Uni-Edit,一种智能图像编辑任务,作为统一模型微调的首个通用任务。Uni-Edit只需单一任务、单一训练阶段和单一数据集,就能同步提升模型的三种核心能力。研究团队开发了首个自动化、可扩展的智能编辑数据合成流程,将多样化的VQA数据转化为嵌入问题与嵌套逻辑的复杂编辑指令,生成包含14.8万条数据的Uni-Edit-148k数据集。在BAGEL和Janus-Pro模型上的实验证实,仅基于Uni-Edit进行微调,即可全面增强模型的图像理解、生成和编辑能力,无需任何辅助操作。
该研究提出了DrawMotion,一个基于扩散的多条件动作生成框架,旨在解决传统文本到动作生成中用户意图表达不精确的问题。该框架支持文本与手绘两种控制条件,分别提供语义和空间引导。技术上,它通过算法自动生成手绘火柴人草图、设计多条件融合模块以降低计算复杂度,并利用无训练引导方法将生成动作与用户意图对齐。实验表明,手绘方式能将用户生成符合想象的动作所需时间缩短约46.7%。相关代码与演示已开源。
绿联今日正式发布NAS新品DXP4800 GT。该设备搭载AMD锐龙嵌入式R2514四核处理器,提供4个3.5英寸盘位(其中2个支持U.2)与2个M.2 NVMe插槽。其突出特点是配备双10GbE万兆网口,支持聚合或桥接。内存最高可选16GB DDR4(支持ECC),并集成64GB闪存。软件方面支持Docker与虚拟机,搭载相册2.0应用,并首次内嵌MiniMax大模型。产品售价2681.1元起。
商汤科技被IDC连续十年评为中国计算机视觉市场第一。其关键驱动因素包括:主导推进CV 2.0架构演进,原生嵌入生成式AI能力;海外市场扩展至12个国际区域,服务超500家企业客户并保持高留存率;以年度经常性收入增长为锚点实现盈利性增长;并从项目制交付转型为高度可扩展的AI平台。这一十年市场领导地位为其引领计算机视觉与生成式AI的融合浪潮奠定了基础。
这是基于Suno AI音乐生成工具的技能实现,可通过简单指令按用户需求生成不同风格的歌曲(例如德语空灵风格)。该技能订阅费用为每月10美元,支持高度自定义的风格生成。技术层面已优化,新增近6000个音乐风格检索以提升准确性,并可通过谷歌CDP免登录直接调用。项目已开源,提供GitHub仓库地址与安装指令,降低了创作门槛。目前AI生成音乐在艺术性上仍与人工制作存在差距,但实现了快速、灵活的创作可能。
Suno 生成 Skill 做了优化,增加了近6000个音乐风格检索,让生成的音乐更准确。 用谷歌CDP刷新获取登录Token,完全不用打开网站就能创作歌曲了。 开源地址:https://github.com/joeseesun/qiaom...
UniT是一个统一几何感知模型,旨在将在线感知、离线重建、多模态整合等分散能力整合到单一框架。其核心是群自回归Transformer,将传感器观测组作为基本单元,通过改变组大小,在同一过程中自然统一在线(多步单帧组)与离线(单步多帧组)模式。为处理长序列,模型采用队列式KV缓存机制,并利用无锚点关系建模来丢弃过时记忆。此外,模型引入尺度自适应几何损失以增强跨场景的尺度泛化能力。在多个任务的基准测试中,UniT实现了统一几何感知的最先进性能。
苹果 Apple Music 发布公开信,明确表示不会封杀 AI 生成音乐,但要求相关内容必须清晰标注,且不得误导用户或冒充真人创作者。苹果指出,AI 音乐在平台总播放量中的占比“明显低于 1%”,但已进入治理范围。为此,Apple Music 于今年 3 月上线了 AI 内容标签功能,并计划未来将其作为所有内容提供方的硬性要求。同时,苹果已开发内部工具识别 AI 内容,重点防范欺诈、垃圾信息及冒充行为,若发现播放量存在流量操纵等滥用行为,将自动下架相关歌曲。
EMMA是一个物理信息多模态框架,能从原始视频、音频和图像时间序列中直接恢复系统所有可识别的动力学参数。它利用Liquid Time-Constant网络从异质模态学习潜在动力学,并通过物理约束损失确保与微分方程一致。在超过100个场景(包括五个标准动力学基准、75段Delfys视频、真实世界轮式机器人和四旋翼系统)中,EMMA实现了稳健的多参数恢复,显著优于现有单模态和方程发现基线。代码与数据已开源。
当前视觉语言模型常出现“功能性失明”,即利用强大的语言先验绕过视觉表征瓶颈,而非真正融合多模态信息。本研究挑战了依赖数据消融的传统评估方法,提出了信息论框架下的“模态翻译协议”来量化“感知的代价”。该方法定义了三个新指标(Toll, Curse, Fallacy)与语义充分性准则。研究还假设存在多模态缩放的“分歧定律”:随着语言模型推理能力增强,视觉知识瓶颈带来的性能惩罚可能不降反升。这为构建更可信的多模态推理系统提供了新的评估工具与设计思路。
VGenST-Bench 是一个用于评估多模态大语言模型时空推理能力的新基准,采用生成模型主动合成高度可控的多样化评估场景,克服了现有基准依赖静态图像或被动视频数据的局限。该基准通过包含人类质检阶段的多智能体流水线构建,建立了涵盖空间尺度、视角和场景动态性的 3x2x2 视频分类体系。其设计的层级任务套件,解耦了低级视觉感知与高级时空推理,实现了对模型能力的细粒度诊断。
微信鸿蒙版App发布了8.0.17.39正式版更新,当前安装量已超5565万次。本次更新主要增强了视频号功能,包括资料修改、新注册支持、播放旋转及直播选项增加等。同时优化了“听一听”模块,新增AI写歌与灰度测试的会员卡、跨平台文件传输等功能,并改进了聊天界面交互与朋友圈评论体验。
腾讯于5月21日发布了操作系统层级AI助手“马维斯”,支持Windows、Mac和安卓平台同步上线。该助手具备文档归类解析、图片智能识别处理、系统维护等功能,并强调与操作系统深度集成,可调度不同模型处理任务,部分功能可在离线状态下使用。腾讯表示“马维斯”能完成市面主流Agent的大部分工作,并具备桌面操控手机应用等能力。这是继3月WorkBuddy和“龙虾”产品矩阵后,腾讯推出的又一AI助手产品。
Google推出了其AI设计伙伴Stitch的多项重要更新。新功能支持实时流式构建设计,允许用户在不中断流程的情况下直接进行编辑和互动反馈。Stitch现已能够导入现有代码库或Design.md文件,基于实际生产组件进行设计以保持品牌一致性。同时,工具新增了动态界面生成功能,并可将设计项目直接导出为可分享的线上URL,简化了从原型到生产的部署流程。该工具现已面向全球用户开放。
同一事件,精选展示《谷歌发布多款AI创意工具新功能》在 Google I/O 2026 开发者大会上,公司共发布了 100 项内容,重点介绍了 Gemini Omni、Google Antigravity 和 Universal Cart 等新产品的核心亮点。
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》Google为YouTube Shorts推出了一项基于Gemini Omni的AI混剪功能。用户可在短视频界面点击“Remix”并选择“reimagine”选项,通过输入文字提示,将原视频转换为像素艺术、动漫或恐怖片风格,还能通过AI调整内容,例如替换服装、插入背景人物甚至将自己合成进视频。该功能允许创作者自主选择开启或关闭其视频的混剪权限。
商汤科技近日开源了SenseNova U1,其核心创新在于架构设计。该模型摒弃了传统的视觉编码器与变分自编码器分离结构,采用单一共享表示空间原生处理图像与文本,极大减少了模块间转换导致的信息损耗。这一设计使模型能够连贯地同时生成图文内容,在信息图、海报、漫画等需要高一致性的密集视觉内容创作上优势显著。性能方面,其信息图生成速度在同等质量下约为Qwen-Image-2.0/Seedream-4.5的两倍。
谷歌与创作者合作推出系列AI工具更新。Google Workspace新增图像创作编辑工具Pics;Google Flow支持Gemini Omni Flash模型,并推出Flow Agent作为多步骤创作伙伴;设计工具StitchbyGoogle支持实时文字或语音编辑布局并导出代码;音乐工具Google FlowMusic增加分段编辑、风格混音及视频生成功能。
该研究提出一种无需训练的4D网格生成新方法,通过“时空注意力链”框架实现动态三维结构的快速重建。方法从锚定网格顶点出发,在潜在空间中追踪时间对应关系,避免了显式匹配的高计算成本。实验显示,新方法仅需9秒即可生成4D网格,速度比现有最优方法提升13倍且质量更优,还能处理长达16倍的视频序列而不降低质量。改进的对应关系使其在2D物体跟踪和4D跟踪任务中达到有竞争力的零样本性能,并首次在4D网格生成中实现了可靠的相机参数估计。
Stability AI 推出 Stability Audio 3.0 音频生成模型家族,包含四款不同规格模型,参数从45900万到27亿。小型模型专注设备端运行,可本地生成两分钟以内的音频;中型和大型模型支持创作超过6分20秒的完整音乐,
Stability AI正式推出Stable Audio 3.0音频生成模型套件。该系列包含三个已开放模型权重的版本,能够生成最长六分钟的连贯音乐音轨。公司强调,所有模型均完全基于授权音乐数据集进行训练,确保了生成内容的合规性。此次发布标志着在AI音乐生成领域的技术进步,为音乐创作者和开发者提供了更长时长、更开放可用的工具。
Stability AI正式推出Stability Audio 3.0 small模型,该模型可在用户设备本地运行,生成时长最高达两分钟的音乐音轨。与此前云端生成较长音频的方案不同,此次更新强调了模型的轻量化与端侧部署能力,降低了对云计算资源的依赖。
Google发布的Gemini 3.5 Flash在性能上实现飞跃,智能指数达55分,超越Grok 4.3等竞品,幻觉率大幅下降,输出速度超280 tokens/s。然而,其运行成本是前代的5.5倍,定价显著提高,引发对“Flash”是否仍代表“便宜”的讨论。该模型已在ZenMux平台开放免费体验,实际测试显示效果惊艳,在多项Agent和多模态榜单中表现顶尖,标志着顶级智能与极致速度的新结合。
兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...
全能模态大语言模型在处理交织的视频与音频token时,固定比例的剪枝方法无法适应跨模态重要性随网络深度的动态变化。为此,本文提出无需训练的阶段自适应token选择方法SEATS。该方法在模型输入前通过注意力加权进行去冗余,在模型内部逐层动态分配模态保留配额,并在跨模态融合完成后移除所有剩余非文本token。实验在Qwen2.5-Omni和Qwen3-Omni模型上验证,仅保留10%的视觉和音频token,即可实现9.3倍FLOPs削减与4.8倍预填充加速,同时保持96.3%的原始性能。
AI 3D生成模型Rodin Gen-2.5发布,号称全球首款能实现千万级面数的同类产品,材质纹理精细。该模型可从单张图片生成高质量3D资产,快速输出obj等通用格式文件供进一步编辑,极大地简化了传统建模、绑骨、贴图的复杂流程。其技术亮点包括原生3D贴图算法,旨在为游戏、动画、影视等产业提供真正的生产力工具。
Introducing #Rodin Gen-2.5🚀 🔥World's 1st 10 MILLION polygon #3D GenAI - down to skin microstructures. 1️⃣1M-poly in 4s...
Figma推出一款新的AI助手,用户可通过自然语言文本提示与之交互。该助手能够根据指令生成全新设计、编辑现有设计,并实现诸如为现有设计生成迭代版本等任务的自动化处理。
在2026年谷歌开发者大会上,谷歌发布了新一代Android XR智能眼镜。谷歌安卓生态系统总裁萨米尔·萨马特总结认为,早期Google Glass项目未能普及的最大教训是外观时尚远比技术吸引力更重要。他指出,Meta与时尚品牌合作的智能眼镜自2023年面世以来销量已突破700万台,印证了这一观点。为此,谷歌此次携手Warby Parker和Gentle Monster等知名眼镜品牌,推出注重实用与颜值的纯语音版智能眼镜,预计今年秋季上市。搭载显示屏的版本则计划于明年推出,并将借助Gemini大模型承担核心功能。
Google DeepMind 将其 Genie 3 世界模型与多年积累的街景图像数据相结合,推出了一项新功能。用户现在可以在地图上指定一个真实地点,系统便能生成一个基于该地点的、可供行走和探索的 AI 生成世界。这一整合不仅为创意演示提供了强大工具,更重要的是,海量的街景数据成为了训练 AI 代理和机器人的重要战略资源,为人工智能在模拟现实环境中的交互与导航能力开辟了新路径。
La mayoría de las herramientas de IA pueden escribir o generar imágenes. Pero esta hace AMBAS cosas a la vez. Te present...
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》英伟达发布了Nemotron-Labs-Diffusion语言模型家族,其核心创新在于将自回归、基于扩散的并行解码以及自推测解码三种解码模式统一于单一架构。该模型提供3B、8B和14B三种参数规模,并包含基础版、指令微调版和视觉语言版本。相较于Qwen3-8B,其8B参数版本在单次前向传播中能够生成多达6倍的Token数量,显著提升了吞吐效率。
Gemini 3.5 Flash现已在ZenMux平台免费开放试用。该模型在经典的递归二叉树生长测试中表现惊艳,仅用77.56秒便生成了完整的HTML动画网页,展现了顶级的响应速度与生成质量。其在MCP Atlas、Toolathlon等多项Agent榜单中位列第一,多模态理解能力(如MMMU-Pro得分83.6%)也全面超越上一代模型。模型完全兼容主流API格式,并提供按量计费和Builder套餐选择。
阿里巴巴 Qwen 团队发布了实时多模态翻译模型 Qwen3.5-LiveTranslate-Flash。该模型能同时处理音视频输入,支持60种语言的输入和29种语言的语音输出,端到端延迟低至2.8秒。相比前代,新增了实时说话人声音克隆、通过唇语和屏幕文字增强视觉理解,以及动态配置领域专业术语等能力。在 FLEURS 和 CoVoST2 基准测试中,性能超越主流商业模型。目前仅以 API 形式通过阿里云百炼平台提供服务,采用 WebSocket 协议通信。
阿里通义千问团队发布了Qwen3.5-LiveTranslate-Flash实时语音翻译模型。该模型将支持的音频输入与文字输出语种从18种大幅提升至60种,输出音频语种从10种增加至29种。通过采用新的流式翻译技术,端到端字均延迟降低至2.8秒,同时支持实时音色克隆以保留说话人原声特征,并内置动态热词引擎以提升专业术语翻译准确性。模型在多个公开基准测试中表现优于前代及主流模型。