"They See Your Photos"(theyseeyourphotos.com)项目揭示用户上传照片可能面临的隐私泄露风险,通过直观演示展示图像元数据及内容如何被第三方获取与分析。该网站在 Hacker News 平台获得 104 点热度关注,以可视化方式警示公众关于数字影像在未经授权情况下被访问与识别的安全隐患。
研究团队推出80亿参数视听语言模型OmniScript,专攻长电影视频理解与新提出的视频到剧本(V2S)任务。该模型通过思维链监督微调与分段奖励强化学习训练,可生成包含角色动作、对话及音频提示的时序化分层剧本。实验显示,尽管参数规模较小,OmniScript在时间定位与语义准确性上不仅超越更大规模开源模型,更达到与Gemini 3-Pro相当的水平。
研究团队发布 TIPSv2 图像-文本编码器模型家族,针对密集 Patch 表示与文本嵌入对齐难题提出多项改进。核心创新包括 iBOT++ 训练目标(让未掩码 token 直接参与损失计算)、Patch 级蒸馏技术(学生模型对齐能力竟超越教师模型)、优化指数移动平均机制及多粒度合成 Caption 采样策略。在涵盖 9 项任务和 20 个数据集的综合评测中,TIPSv2 性能与近期主流视觉编码器相当或更优。
研究人员提出人类中心区域适应新范式,设计GG-EZ方法优化多模态视觉语言模型的区域文化适应性。该方法通过区域数据过滤与模型合并,在三类架构(大视觉语言模型、文生图扩散模型、视觉语言嵌入模型)上验证,以东南亚为案例实现文化相关性提升5-15%,同时保持98%以上全球泛化性能甚至偶尔超越原模型。研究确立了人类中心区域对齐作为多模态模型区域应用的基础范式。
研究人员对Google Gemini 2.5 Flash和Flash Lite在视频场景理解中的内部推理轨迹(思维流)进行基准测试,基于100小时视频提出内容丰富度、思维-最终输出覆盖率和主导实体分析三项指标。实验发现,增加思考长度带来的质量提升在最初几百个token后迅速趋于平缓,Flash Lite在质量与token消耗间达到最佳平衡。研究还揭示,当推理预算受限时,模型会在最终输出中添加未经推理的内容,产生"压缩步骤幻觉";Flash倾向于讨论推理过程,而Flash Lite更专注于场景描述。
大型视觉语言模型存在"语义固着"现象:即使提示指定替代规则,仍固守默认语义解释。研究提出VLM-Fix基准(四种抽象策略游戏),评估14个模型发现准确率显著偏向标准规则。实验表明,中性别名提示可缩小逆向规则差距,语义负载别名则扩大差距;单规则训练损害相反规则迁移,联合规则训练改善广泛迁移。后期层激活干预可部分恢复性能,表明该错误可在模型后期表征中编辑。
针对触觉定位任务,本文提出通过密集跨模态特征交互学习局部视觉-触觉对齐的模型,生成触觉显著性图实现触摸条件材料分割。为克服现有数据集特写镜头单一、多样性不足的限制,研究引入野外多材料场景图像及材料多样性配对策略,将触觉样本与视觉多样但触觉一致的图像对齐以增强上下文定位能力。此外构建了两个新的触觉材料分割数据集用于定量评估,实验结果表明该方法显著优于现有视觉-触觉方法。
研究团队提出一种判别式多模态奖励模型,可在单次前向传播中同时评分多个候选回复,突破传统方法需多次推理的局限。该设计通过分隔符连接多回复实现直接比较推理,带来N倍速度提升与FLOPs降低。基于4B视觉语言架构,该模型在六个基准测试中达到SOTA,包括新构建的MR^2Bench-Image(覆盖8个模型)和MR^2Bench-Video(基于94K众包判断的19个模型视频基准)。应用于GRPO强化学习时,其在训练稳定性和开放式生成质量上显著优于单回复奖励模型基线。
研究团队发布LARY基准,统一评估潜在动作表示在高层语义动作与低层机器人控制上的性能。该基准整合100万段视频(1000小时)涵盖151个动作类别,以及62万图像对和59.5万条运动轨迹。实验表明,未经动作监督训练的通用视觉基础模型持续优于专门的具身潜在动作模型,且潜在视觉空间比像素空间更适配物理动作空间。这证实通用视觉表示已内在编码物理控制所需的行动知识,语义级抽象是比像素级重建更有效的视觉-动作映射路径。
OmniShow 是一个面向人与物体交互视频生成(HOIVG)的端到端框架,支持文本、图像、音频和姿态等多模态条件输入。该方法提出统一通道级条件注入(Unified Channel-wise Conditioning)和门控局部上下文注意力(Gated Local-Context Attention)机制,在可控性与生成质量之间取得平衡,并采用解耦后联合训练策略(Decoupled-Then-Joint Training)解决数据稀缺问题。研究团队还建立了 HOIVG-Bench 基准测试。实验表明,OmniShow 在多种多模态条件下均达到行业领先的生成效果。
一家初创公司推出AI耶稣视频通话服务,每分钟收费$1.99,模型基于King James Bible及牧师布道训练,形象参照Jonathon Roumie在The Chosen中的荧幕造型。该服务将语言模型转化为具有特定面容、语气与风格的数字演员,核心卖点并非宗教信息获取,而是实时精神陪伴带来的被关注与指引感,代表信仰科技与情感付费结合的新商业模式。
Meta推出免费视觉模型Muse Spark,擅长visual grounding、图像文字识别与网页设计,能精准计数物体并生成边界框。但Meta采用dodgy增长策略,未经用户同意向Instagram好友推送通知。其推理能力虽solid但非顶尖,不及GPT与Claude。凭借庞大分发渠道和免费策略,Muse Spark对大型AI实验室构成长期威胁,尤其在消费级市场可能重塑竞争格局。
研究团队发布 TorchUMM,首个支持统一多模态模型(UMMs)综合评估、分析与后训练的开源代码库。该框架兼容多种架构范式与规模等级的模型,覆盖理解、生成、编辑三大核心任务维度,并整合新旧数据集以系统评估感知、推理、组合性及指令遵循能力。通过提供统一接口和标准化评估协议,TorchUMM 实现了异构模型间的公平可复现比较,助力开发者深入洞察模型优劣,加速统一多模态系统的研发迭代。代码已开源至 GitHub。
研究团队推出面向饮食领域的视觉语言模型基准测试DiningBench,包含3,021道菜品、平均每道菜5.27张图像,涵盖细粒度分类、营养估算和视觉问答三个认知层级。该数据集引入来自相同菜单的"困难"负样本和经严格验证的营养数据。实验评估了29个开源及专有模型,结果显示当前VLMs虽擅长通用推理,但在细粒度视觉辨别和精确营养推理方面存在显著不足。研究还系统分析了多视角输入和思维链推理的影响,识别出五种主要失败模式。代码已开源。
研究团队提出 EditCrafter 方法,实现无需微调的高分辨率图像编辑,突破传统扩散模型仅支持 512×512 或 1024×1024 训练分辨率的限制。该方法通过分块反演技术保留原始图像特征,并引入 ND-CFG++(噪声阻尼流形约束无分类器引导)机制,有效解决分块编辑导致的结构失真与重复问题,可在任意长宽比的高分辨率图像上直接生成高质量编辑结果。
视觉语言模型虽擅长复杂推理,却在简单物体计数上频繁失败。研究发布COUNTINGTRICKS评估套件,通过注意力分析与分层探测发现,计数相关的视觉证据在模态投影阶段最强,但在后续语言层显著退化,导致模型过度依赖文本先验。基于此,团队提出轻量级干预方法Modality Attention Share (MAS),强制在答案生成阶段保持最低视觉注意力预算。研究表明,VLMs的计数失败不仅源于视觉感知局限,更因语言推理阶段对视觉证据的利用不足。
研究团队提出零样本视觉世界模型(ZWM),基于稀疏时间分解预测器、近似因果推理和推理组合三大原则,仅从单个儿童的第一人称经验中学习,即可快速掌握深度、运动、物体连贯性等多项物理理解能力。该模型在多个基准测试中展现出数据高效性,不仅重现了儿童发展的行为特征,还构建了类脑内部表征,为开发类人数据效率的AI系统提供了新路径。
Qwen3.5-Omni-Plus作为全模态大模型,支持文本、音频、图像、视频输入及文本与语音输出。实测显示其视频理解能精准捕捉画面细节,OCR能力在2000字内错误率低于0.1%,但存在幻觉问题,会虚构音乐或情节。作者通过修改openclaw框架,实现了该模型对平板屏幕和摄像头的直接控制,拓展了端侧AI交互场景。
My most popular Sora video was "an Elaborate regency romance where everyone is wearing a live duck for a hat (each duck ...
针对现有SVG生成方法采用字节级分词破坏几何结构、导致坐标幻觉和序列冗余的问题,本文提出HiVG层次化分词框架。该方法将SVG字符串分解为结构化原子token,并压缩命令-参数组为几何约束的段token,同时引入Hierarchical Mean-Noise初始化策略注入数值先验,结合课程训练逐步提升程序复杂度。实验表明,HiVG在文本到SVG和图像到SVG任务中显著提升了生成保真度、空间一致性和序列效率。
腾讯发布首个专为近距离人机交互感知的视觉语言模型TAIHRI,突破传统全身重建范式,实现任务相关身体部位的精确度量级3D空间定位。该模型通过将3D关键点量化为有限交互空间,结合2D关键点推理与下一token预测机制,在自我中心相机坐标系下精准定位关键身体部位。实验表明,TAIHRI在任务关键身体部位估计精度上显著优于传统方法,并支持自然语言控制与全局人体网格重建等下游任务,相关代码已开源。
Longer tracks are here with Lyria 3 Pro in Gemini! From experimenting with different styles to generating tracks with co...
Gemini can now transform your questions and complex concepts into customizable interactive visualizations directly in yo...
研究团队提出一种元优化的fMRI语义视觉解码方法,通过上下文学习实现免训练的跨受试者泛化。该方法仅需少量图像-脑激活样本作为条件,即可快速推断新受试者的独特神经编码模式,并采用分层反演策略完成解码。实验表明,无需重新训练、微调、解剖对齐或刺激重叠,即可在多种视觉主干网络上实现强跨受试者和跨扫描仪泛化能力,为构建非侵入式脑解码通用基础模型奠定关键基础。
Uni-ViGU框架通过扩展扩散式视频生成器统一视频生成与理解,反转了传统以理解为中心的多模态模型范式。该框架采用统一流方法,在单一过程中对视频进行连续流匹配、对文本进行离散流匹配;引入模态驱动的MoE架构,以轻量级层增强Transformer实现文本生成;并通过双向训练机制(知识召回与能力细化两阶段)将生成知识迁移至理解任务。实验表明,该模型在视频生成与理解任务上均达到竞争性性能,验证了以生成为中心的架构路径可行性。
Muse Spark是Meta继Llama 4后推出的原生多模态推理模型,支持文本与图像输入。该模型在图像理解、医疗健康及代理搜索任务上达到SOTA水平,但Agent与多任务编排等主打功能评分未达顶尖。官方强调其计算效率较Llama 4 Maverick提升一个数量级,并透露更大模型正在开发中。技术路线采用"多小模型并行推理"策略,以低延迟换取性能,而非依赖单一大模型的长时间思考。
MoZoo是一个生成式动力学求解器,能绕过传统精炼流程,从粗糙网格直接合成高保真的动物视频。其核心是角色感知旋转位置编码RAR-RoPE,通过基于角色的索引重映射同步运动对齐;同时引入非对称解耦注意力机制,强制单向信息流以防止特征干扰并提升效率。为解决训练数据稀缺问题,提出了MoZoo-Data合成到真实的流水线,并构建了包含120对网格-视频的评测基准MoZooBench。实验表明,MoZoo在多样动物骨架与布局上实现了高保真的毛发模拟,并保持了优异的时间与结构一致性。
AI Engineer Europe Build Day公布六大技术分论坛,聚焦AI工程前沿实践。议程涵盖Personal Agent(Claw)个人代理、Context Engineering长上下文管理、Harness Engineering代理性能优化、Evals & Observability评估体系、Voice & Vision语音视觉多模态,以及Gemini专场。从OpenClaw到Google DeepMind,内容涉及RAG、TTS、ASR、WebMCP等技术方向,呈现AI工程从提示词向复杂代理系统演进的最新趋势。
just went live on european TBPN! exclusive preview of the @aiDotEngineer Europe Build Day today
Ming-flash-omni 模型具备全模态创作能力,能够同时完成照片中路人干扰的识别、自动修图、修图效果自评,并最终生成一段社交媒体推文,实现从视觉理解到内容发布的完整闭环。
🇬🇧 London is the birthplace of @GoogleDeepMind, and we're so honored to have them back as: Presenting Sponsors of this...
Qwen3.6-Plus 实测显示其多模态编程能力突出。该模型支持图像输入并生成对应代码,测试中通过 three.js 成功还原手表与分体键盘的3D建模,并能依据 UI Kit 参考图生成界面组件。验证了其空间理解、建模能力及前端代码生成水平,展现了从设计图到代码的直接转换能力。