4月14日

01:16

AK@_akhaliq

FORGE 面向制造场景的细粒度多模态评估论文： https://huggingface.co/papers/2604.07413

多模态论文/研究评测/基准

4月13日

23:50

Hacker News 热门（buzzing.cc 中文翻译）

他们看到了你的照片

"They See Your Photos"（theyseeyourphotos.com）项目揭示用户上传照片可能面临的隐私泄露风险，通过直观演示展示图像元数据及内容如何被第三方获取与分析。该网站在 Hacker News 平台获得 104 点热度关注，以可视化方式警示公众关于数字影像在未经授权情况下被访问与识别的安全隐患。

多模态开源/仓库

08:00

HuggingFace Daily Papers（社区热门论文）

OmniScript：面向长电影视频的视听剧本生成

研究团队推出80亿参数视听语言模型OmniScript，专攻长电影视频理解与新提出的视频到剧本（V2S）任务。该模型通过思维链监督微调与分段奖励强化学习训练，可生成包含角色动作、对话及音频提示的时序化分层剧本。实验显示，尽管参数规模较小，OmniScript在时间定位与语义准确性上不仅超越更大规模开源模型，更达到与Gemini 3-Pro相当的水平。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TIPSv2：通过增强的 Patch-文本对齐推进视觉-语言预训练

研究团队发布 TIPSv2 图像-文本编码器模型家族，针对密集 Patch 表示与文本嵌入对齐难题提出多项改进。核心创新包括 iBOT++ 训练目标（让未掩码 token 直接参与损失计算）、Patch 级蒸馏技术（学生模型对齐能力竟超越教师模型）、优化指数移动平均机制及多粒度合成 Caption 采样策略。在涵盖 9 项任务和 20 个数据集的综合评测中，TIPSv2 性能与近期主流视觉编码器相当或更优。

多模态开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

多模态视觉语言模型的人类中心区域适应

研究人员提出人类中心区域适应新范式，设计GG-EZ方法优化多模态视觉语言模型的区域文化适应性。该方法通过区域数据过滤与模型合并，在三类架构（大视觉语言模型、文生图扩散模型、视觉语言嵌入模型）上验证，以东南亚为案例实现文化相关性提升5-15%，同时保持98%以上全球泛化性能甚至偶尔超越原模型。研究确立了人类中心区域对齐作为多模态模型区域应用的基础范式。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

思维流重要吗？评估Gemini视觉语言模型在视频场景理解中的推理

研究人员对Google Gemini 2.5 Flash和Flash Lite在视频场景理解中的内部推理轨迹（思维流）进行基准测试，基于100小时视频提出内容丰富度、思维-最终输出覆盖率和主导实体分析三项指标。实验发现，增加思考长度带来的质量提升在最初几百个token后迅速趋于平缓，Flash Lite在质量与token消耗间达到最佳平衡。研究还揭示，当推理预算受限时，模型会在最终输出中添加未经推理的内容，产生"压缩步骤幻觉"；Flash倾向于讨论推理过程，而Flash Lite更专注于场景描述。

Google 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

超越感知错误：大型视觉语言模型中的语义固着

大型视觉语言模型存在"语义固着"现象：即使提示指定替代规则，仍固守默认语义解释。研究提出VLM-Fix基准（四种抽象策略游戏），评估14个模型发现准确率显著偏向标准规则。实验表明，中性别名提示可缩小逆向规则差距，语义负载别名则扩大差距；单规则训练损害相反规则迁移，联合规则训练改善广泛迁移。后期层激活干预可部分恢复性能，表明该错误可在模型后期表征中编辑。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

触而知见：触觉驱动的材料区域视觉定位

针对触觉定位任务，本文提出通过密集跨模态特征交互学习局部视觉-触觉对齐的模型，生成触觉显著性图实现触摸条件材料分割。为克服现有数据集特写镜头单一、多样性不足的限制，研究引入野外多材料场景图像及材料多样性配对策略，将触觉样本与视觉多样但触觉一致的图像对齐以增强上下文定位能力。此外构建了两个新的触觉材料分割数据集用于定量评估，实验结果表明该方法显著优于现有视觉-触觉方法。

arXiv 具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

只需评判一次：单次前向传播多回复奖励建模

研究团队提出一种判别式多模态奖励模型，可在单次前向传播中同时评分多个候选回复，突破传统方法需多次推理的局限。该设计通过分隔符连接多回复实现直接比较推理，带来N倍速度提升与FLOPs降低。基于4B视觉语言架构，该模型在六个基准测试中达到SOTA，包括新构建的MR^2Bench-Image（覆盖8个模型）和MR^2Bench-Video（基于94K众包判断的19个模型视频基准）。应用于GRPO强化学习时，其在训练稳定性和开放式生成质量上显著优于单回复奖励模型基线。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LARY：用于可泛化视觉-动作对齐的潜在动作表示基准

研究团队发布LARY基准，统一评估潜在动作表示在高层语义动作与低层机器人控制上的性能。该基准整合100万段视频（1000小时）涵盖151个动作类别，以及62万图像对和59.5万条运动轨迹。实验表明，未经动作监督训练的通用视觉基础模型持续优于专门的具身潜在动作模型，且潜在视觉空间比像素空间更适配物理动作空间。这证实通用视觉表示已内在编码物理控制所需的行动知识，语义级抽象是比像素级重建更有效的视觉-动作映射路径。

arXiv 具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OmniShow：统一多模态条件的人与物体交互视频生成

OmniShow 是一个面向人与物体交互视频生成（HOIVG）的端到端框架，支持文本、图像、音频和姿态等多模态条件输入。该方法提出统一通道级条件注入（Unified Channel-wise Conditioning）和门控局部上下文注意力（Gated Local-Context Attention）机制，在可控性与生成质量之间取得平衡，并采用解耦后联合训练策略（Decoupled-Then-Joint Training）解决数据稀缺问题。研究团队还建立了 HOIVG-Bench 基准测试。实验表明，OmniShow 在多种多模态条件下均达到行业领先的生成效果。

arXiv 多模态视频论文/研究

04:33

Rohan Paul@rohanpaul_ai

初创公司推出付费AI耶稣视频通话服务

一家初创公司推出AI耶稣视频通话服务，每分钟收费$1.99，模型基于King James Bible及牧师布道训练，形象参照Jonathon Roumie在The Chosen中的荧幕造型。该服务将语言模型转化为具有特定面容、语气与风格的数字演员，核心卖点并非宗教信息获取，而是实时精神陪伴带来的被关注与指引感，代表信仰科技与情感付费结合的新商业模式。

产品更新多模态语音

4月12日

10:59

DogeDesigner@cb_doge

Grok 在分析图像、文档、扫描件、报告等方面极其出色！

xAI 其他多模态

08:43

Deedy@deedydas

Meta Muse Spark评测：视觉强劲但增长策略惹争议

Meta推出免费视觉模型Muse Spark，擅长visual grounding、图像文字识别与网页设计，能精准计数物体并生成边界框。但Meta采用dodgy增长策略，未经用户同意向Instagram好友推送通知。其推理能力虽solid但非顶尖，不及GPT与Claude。凭借庞大分发渠道和免费策略，Muse Spark对大型AI实验室构成长期威胁，尤其在消费级市场可能重塑竞争格局。

Meta 多模态评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

TorchUMM：面向评估、分析与后训练的统一多模态模型代码库

研究团队发布 TorchUMM，首个支持统一多模态模型（UMMs）综合评估、分析与后训练的开源代码库。该框架兼容多种架构范式与规模等级的模型，覆盖理解、生成、编辑三大核心任务维度，并整合新旧数据集以系统评估感知、推理、组合性及指令遵循能力。通过提供统一接口和标准化评估协议，TorchUMM 实现了异构模型间的公平可复现比较，助力开发者深入洞察模型优劣，加速统一多模态系统的研发迭代。代码已开源至 GitHub。

Hugging Face 多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

DiningBench：面向饮食领域感知与推理的分层多视角基准测试

研究团队推出面向饮食领域的视觉语言模型基准测试DiningBench，包含3,021道菜品、平均每道菜5.27张图像，涵盖细粒度分类、营养估算和视觉问答三个认知层级。该数据集引入来自相同菜单的"困难"负样本和经严格验证的营养数据。实验评估了29个开源及专有模型，结果显示当前VLMs虽擅长通用推理，但在细粒度视觉辨别和精确营养推理方面存在显著不足。研究还系统分析了多视角输入和思维链推理的影响，识别出五种主要失败模式。代码已开源。

多模态论文/研究

4月11日

08:00

HuggingFace Daily Papers（社区热门论文）

EditCrafter：基于预训练扩散模型的无需微调高分辨率图像编辑方法

研究团队提出 EditCrafter 方法，实现无需微调的高分辨率图像编辑，突破传统扩散模型仅支持 512×512 或 1024×1024 训练分辨率的限制。该方法通过分块反演技术保留原始图像特征，并引入 ND-CFG++（噪声阻尼流形约束无分类器引导）机制，有效解决分块编辑导致的结构失真与重复问题，可在任意长宽比的高分辨率图像上直接生成高质量编辑结果。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

视觉语言模型计数仍存挑战

视觉语言模型虽擅长复杂推理，却在简单物体计数上频繁失败。研究发布COUNTINGTRICKS评估套件，通过注意力分析与分层探测发现，计数相关的视觉证据在模态投影阶段最强，但在后续语言层显著退化，导致模型过度依赖文本先验。基于此，团队提出轻量级干预方法Modality Attention Share (MAS)，强制在答案生成阶段保持最低视觉注意力预算。研究表明，VLMs的计数失败不仅源于视觉感知局限，更因语言推理阶段对视觉证据的利用不足。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

零样本世界模型是发展高效的学习者

研究团队提出零样本视觉世界模型（ZWM），基于稀疏时间分解预测器、近似因果推理和推理组合三大原则，仅从单个儿童的第一人称经验中学习，即可快速掌握深度、运动、物体连贯性等多项物理理解能力。该模型在多个基准测试中展现出数据高效性，不仅重现了儿童发展的行为特征，还构建了类脑内部表征，为开发类人数据效率的AI系统提供了新路径。

arXiv 多模态推理论文/研究

4月10日

21:30

公众号：MiniMax（稀宇科技）

MiniMax Music 2.6：我们想讲四个人的故事

MiniMax Music 2.6 版本发布，以“四个人的故事”为主题。

多模态模型发布

14:57

karminski-牙医@karminski3

Qwen3.5-Omni-Plus实测：全模态交互、OCR精度与端侧控制

Qwen3.5-Omni-Plus作为全模态大模型，支持文本、音频、图像、视频输入及文本与语音输出。实测显示其视频理解能精准捕捉画面细节，OCR能力在2000字内错误率低于0.1%，但存在幻觉问题，会虚构音乐或情节。作者通过修改openclaw框架，实现了该模型对平板屏幕和摄像头的直接控制，拓展了端侧AI交互场景。

智能体多模态模型发布

12:12

Ethan Mollick@emollick

Seedance 2.0 可用相同提示词生成 Duckerton 视频（人人头戴活鸭的摄政风场景），证明这种怪诞创作仍有可能。作者讽刺 OpenAI 似乎已认为此类内容不配占用其算力。

Ethan Mollick: My most popular Sora video was "an Elaborate regency romance where everyone is wearing a live duck for a hat (each duck ...

产品更新多模态视频

08:00

HuggingFace Daily Papers（社区热门论文）

层次化SVG分词：面向可缩放矢量图形建模的紧凑视觉程序学习

针对现有SVG生成方法采用字节级分词破坏几何结构、导致坐标幻觉和序列冗余的问题，本文提出HiVG层次化分词框架。该方法将SVG字符串分解为结构化原子token，并压缩命令-参数组为几何约束的段token，同时引入Hierarchical Mean-Noise初始化策略注入数值先验，结合课程训练逐步提升程序复杂度。实验表明，HiVG在文本到SVG和图像到SVG任务中显著提升了生成保真度、空间一致性和序列效率。

arXiv 图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TAIHRI：面向近距离人机交互的任务感知3D人体关键点定位

腾讯发布首个专为近距离人机交互感知的视觉语言模型TAIHRI，突破传统全身重建范式，实现任务相关身体部位的精确度量级3D空间定位。该模型通过将3D关键点量化为有限交互空间，结合2D关键点推理与下一token预测机制，在自我中心相机坐标系下精准定位关键身体部位。实验表明，TAIHRI在任务关键身体部位估计精度上显著优于传统方法，并支持自然语言控制与全局人体网格重建等下游任务，相关代码已开源。

具身智能多模态论文/研究

05:15

Ethan Mollick@emollick

入手联网电子墨水屏，接入 nano banana 以轮换风格实时展示天气。AI 降低了尝试新型界面和数据可视化的门槛，无需复杂开发即可实现个性化信息展示。

多模态现象/趋势端侧

03:00

Google Gemini@GeminiApp

Gemini 今日上线 Lyria 3 Pro，支持生成更长音乐曲目及复杂过渡效果。用户可在工具菜单选择"Create music"并切换 Thinking 或 Pro 模式免费使用，该功能已向 Google AI Plus/Pro/Ultra 用户推出。

Google Gemini: Longer tracks are here with Lyria 3 Pro in Gemini! From experimenting with different styles to generating tracks with co...

Google 产品更新多模态

01:09

AK@_akhaliq

MedGemma 1.5 技术报告正式发布，详述该医疗多模态大模型的架构设计、训练方法与临床评估结果。论文已公开至 Hugging Face。

Google 多模态论文/研究

01:05

TestingCatalog News 🗞@testingcatalog

Gemini 现可在聊天中直接生成交互式可视化内容，针对特定问题显示"Show me the visualization"按钮，点击后可调整变量、旋转 3D 模型及探索数据，以更沉浸的方式理解复杂概念。

Google Gemini: Gemini can now transform your questions and complex concepts into customizable interactive visualizations directly in yo...

Google 产品更新多模态

4月9日

23:43

AK@_akhaliq

INSPATIO-WORLD 通过时空自回归建模实现实时 4D 世界模拟，可实时生成动态三维环境并支持交互。技术论文已发布于 Hugging Face。

Hugging Face 多模态视频论文/研究

17:30

公众号：通义实验室（千问）

VimRAG：图文视频全模态知识库开源框架

VimRAG 是一个开源框架，通过模态统一记忆技术，支持图文视频全模态知识库，告别分模态处理，实现一体化管理。

检索增强多模态开源/仓库

08:00

HuggingFace Daily Papers（社区热门论文）

元学习上下文学习实现免训练跨受试者脑解码

研究团队提出一种元优化的fMRI语义视觉解码方法，通过上下文学习实现免训练的跨受试者泛化。该方法仅需少量图像-脑激活样本作为条件，即可快速推断新受试者的独特神经编码模式，并采用分层反演策略完成解码。实验表明，无需重新训练、微调、解剖对齐或刺激重叠，即可在多种视觉主干网络上实现强跨受试者和跨扫描仪泛化能力，为构建非侵入式脑解码通用基础模型奠定关键基础。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Uni-ViGU：基于扩散式视频生成器统一视频生成与理解

Uni-ViGU框架通过扩展扩散式视频生成器统一视频生成与理解，反转了传统以理解为中心的多模态模型范式。该框架采用统一流方法，在单一过程中对视频进行连续流匹配、对文本进行离散流匹配；引入模态驱动的MoE架构，以轻量级层增强Transformer实现文本生成；并通过双向训练机制（知识召回与能力细化两阶段）将生成知识迁移至理解任务。实验表明，该模型在视频生成与理解任务上均达到竞争性性能，验证了以生成为中心的架构路径可行性。

多模态视频论文/研究

06:36

karminski-牙医@karminski3

Meta发布Muse Spark：高效多模态但非旗舰

Muse Spark是Meta继Llama 4后推出的原生多模态推理模型，支持文本与图像输入。该模型在图像理解、医疗健康及代理搜索任务上达到SOTA水平，但Agent与多任务编排等主打功能评分未达顶尖。官方强调其计算效率较Llama 4 Maverick提升一个数量级，并透露更大模型正在开发中。技术路线采用"多小模型并行推理"策略，以低延迟换取性能，而非依赖单一大模型的长时间思考。

智能体 Meta 多模态模型发布

02:30

AK@_akhaliq

Video-MME 基准测试发布 v2 版本，推动全面视频理解评估进入新阶段。论文已上传至 Hugging Face。

Hugging Face 多模态视频评测/基准

4月8日

08:00

HuggingFace Daily Papers（社区热门论文）

MoZoo：释放扩散模型在动物毛发与肌肉模拟中的能力

MoZoo是一个生成式动力学求解器，能绕过传统精炼流程，从粗糙网格直接合成高保真的动物视频。其核心是角色感知旋转位置编码RAR-RoPE，通过基于角色的索引重映射同步运动对齐；同时引入非对称解耦注意力机制，强制单向信息流以防止特征干扰并提升效率。为解决训练数据稀缺问题，提出了MoZoo-Data合成到真实的流水线，并构建了包含120对网格-视频的评测基准MoZooBench。实验表明，MoZoo在多样动物骨架与布局上实现了高保真的毛发模拟，并保持了优异的时间与结构一致性。

图像生成多模态数据/训练论文/研究

4月7日

22:03

swyx 🇬🇧@swyx

AI Engineer Europe Build Day公布六大技术分论坛议程

AI Engineer Europe Build Day公布六大技术分论坛，聚焦AI工程前沿实践。议程涵盖Personal Agent（Claw）个人代理、Context Engineering长上下文管理、Harness Engineering代理性能优化、Evals & Observability评估体系、Voice & Vision语音视觉多模态，以及Gemini专场。从OpenClaw到Google DeepMind，内容涉及RAG、TTS、ASR、WebMCP等技术方向，呈现AI工程从提示词向复杂代理系统演进的最新趋势。

swyx 🇬🇧: just went live on european TBPN! exclusive preview of the @aiDotEngineer Europe Build Day today