全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「多模态」清除

4月22日周三

21:00公众号：通义实验室（千问）59Qwen3.6-27B 开源发布：270亿稠密参数，编程能力超越前代MoE旗舰

16:16DogeDesignerGrok 刚刚升级了 🚀 你现在可以直接在 Grok 上传视频--移动端和网页端均可。 • 上传任意视频，获取即时摘要 • 节省时间，无需观看完整内容 • 大幅提升研究和学习效率

13:10HuggingFace Daily Papers（社区热门论文）AnyRecon：基于视频扩散模型的任意视角3D重建

12:14DeedyChatGPT 的新图像模型可以接收房屋照片并"生成完整的平面图" 它彻底击败了所有其他图像模型。我已经试了一整天，以下是它能做的 10 件令人难以置信的事情： 1/11

11:36宝玉GPT Image 2提示词：成龙与功夫手办同框生成示例

11:10HuggingFace Daily Papers（社区热门论文）CoInteract：通过空间结构化协同生成实现物理一致的人-物交互视频合成

11:08IT之家（RSS）千问推出 AI 助手数字人形象"小酒窝"，将接入阿里各生态应用中

11:06宝玉GPT Image 2 展示日本少年漫画生成能力

10:08IT之家（RSS）OPPO Find X9 Ultra 手机体验：双两亿双潜望，只是它的起手式

09:07IT之家（RSS）YouTube 向娱乐行业开放人脸声纹检测技术，打击 AI 深度伪造内容

08:00HuggingFace Daily Papers（社区热门论文）63构建精确视频语言模型：基于人机协同监督的方案

01:44AK44OneVL实现视觉语言单步潜在推理规划

00:19DogeDesigner32Grok 4.3新增表情包解读功能

4月21日周二

23:43AI Notkilleveryoneism Memes ⏸️死互联网理论更新：AI内容全面占领互联网

21:11IT之家（RSS）OPPO Pad Mini 小平板发布：8.8 英寸 2.5K 屏、279g、第五代骁龙 8，售价 3699 元起

20:49The Decoder：AI News（RSS）AI 音乐洪流正在重塑流媒体平台处理新上传内容的方式

17:11IT之家（RSS）微信鸿蒙版 App 获 8.0.17.16 邀测升级，听一听灰度 AI 写歌 / 翻唱功能

16:34HuggingFace Daily Papers（社区热门论文）通过判别性文本表征将单步图像生成从类别标签扩展到文本

12:34HuggingFace Daily Papers（社区热门论文）WebCompass：面向代码语言模型的多模态网页编程评估基准

11:34HuggingFace Daily Papers（社区热门论文）多模态大语言模型的乘法运算：基于文本、图像和音频输入的计算

09:10IT之家（RSS）8 岁男孩爬山认出"问荆草"断言山下有金矿，与 AI 结果高度吻合

08:00HuggingFace Daily Papers（社区热门论文）39EX-FIQA：利用视觉变换器的中间早期退出表示进行人脸图像质量评估

08:00HuggingFace Daily Papers（社区热门论文）39ATTN-FIQA：基于Vision Transformer注意力机制的可解释人脸图像质量评估

08:00HuggingFace Daily Papers（社区热门论文）基于工具监督强化学习的视觉推理

08:00HuggingFace Daily Papers（社区热门论文）MMCORE：基于表征对齐潜在嵌入的多模态连接

06:05AK48PersonaVLM发布长期个性化多模态大模型

4月20日周一

17:28IT之家（RSS）官网揭秘：华为 Pura 90 标准版手机搭载麒麟 9010S 处理器

08:00HuggingFace Daily Papers（社区热门论文）通过阶段性自奖励缓解多模态幻觉

08:00HuggingFace Daily Papers（社区热门论文）MM-JudgeBias：评估多模态大语言模型评判器组合偏见的基准测试

4月19日周日

17:08karminski-牙医106美元实测Claude-Opus-4.7：视觉飞跃但推理偷懒

16:37The Decoder：AI News（RSS）新基准测试发现：图表复杂度提升时，顶尖AI模型性能损失近半

15:44Rohan PaulTinder与Zoom引入虹膜验证抵御AI伪造

08:00HuggingFace Daily Papers（社区热门论文）47UniGeo：通过视频模型统一几何引导以实现相机可控图像编辑

08:00HuggingFace Daily Papers（社区热门论文）LLaTiSA：迈向从视觉感知到语义的难度分层时间序列推理

08:00HuggingFace Daily Papers（社区热门论文）UniMesh：统一三维网格理解与生成

08:00HuggingFace Daily Papers（社区热门论文）当背景关键时：利用可迁移攻击攻破医学视觉语言模型

4月18日周六

10:32宝玉77精选Anthropic发布Claude Design：AI驱动设计工具，变革工作流程

08:00HuggingFace Daily Papers（社区热门论文）超越文本主导：理解全模态大语言模型的模态偏好

08:00HuggingFace Daily Papers（社区热门论文）EasyVideoR1：面向视频理解的更简易 RL 框架

08:00HuggingFace Daily Papers（社区热门论文）MNAFT：面向图像翻译的多模态大语言模型模态神经元感知微调

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

4月22日

21:00

公众号：通义实验室（千问）

59

Qwen3.6-27B 开源发布：270亿稠密参数，编程能力超越前代MoE旗舰

Qwen3.6-27B 开源发布，采用270亿稠密参数，无需MoE路由，部署门槛更低。编程能力全面超越前代旗舰Qwen3.5-397B-A17B MoE，在SWE-bench Verified（77.2）、SWE-bench Pro（53.5）、Terminal-Bench 2.0（59.3）、SkillsBench（48.2）等基准上领先，深度思考能力媲美超大参数模型。原生支持多模态，可处理图像、视频与文本，支持视觉推理、文档理解和视觉问答，具备视觉语言思考与非思考模式。开源权重已上线Hugging Face与ModelScope，API即将在阿里云百炼上线，兼容OpenAI与Anthropic协议，即时对话可通过Qwen Studio体验。

多模态推理模型发布编码

16:16

DogeDesigner@cb_doge

Grok 刚刚升级了 🚀 你现在可以直接在 Grok 上传视频--移动端和网页端均可。 • 上传任意视频，获取即时摘要 • 节省时间，无需观看完整内容 • 大幅提升研究和学习效率

xAI 产品更新多模态

13:10

HuggingFace Daily Papers（社区热门论文）

AnyRecon：基于视频扩散模型的任意视角3D重建

AnyRecon框架通过视频扩散模型实现任意无序稀疏输入的3D重建。该方法构建持久全局场景记忆以支持长距离条件，移除时间压缩保持大视角变化下的帧级对应，并引入几何感知条件策略耦合生成与重建过程。结合4步扩散蒸馏和上下文窗口稀疏注意力降低计算复杂度，解决了传统方法仅依赖1-2帧导致的局限性，在非规则输入、大视角间隙和长轨迹场景下实现稳健可扩展的重建。

arXiv 多模态视频论文/研究

12:14

Deedy@deedydas

ChatGPT 的新图像模型可以接收房屋照片并"生成完整的平面图" 它彻底击败了所有其他图像模型。我已经试了一整天，以下是它能做的 10 件令人难以置信的事情： 1/11

OpenAI 产品更新图像生成多模态

11:36

宝玉@dotey

GPT Image 2提示词：成龙与功夫手办同框生成示例

推文展示GPT Image 2的提示词示例，呈现其生成真实人物与动漫手办同框的能力。提示词要求以手机随手拍风格，构建成龙功夫手办与真人同框场景，两者姿势呼应形成趣味对比。画面采用背景虚化突出主体，追求自然和谐的生活气息。这体现了GPT Image 2在理解复杂空间关系、人物一致性及模拟真实摄影质感方面的能力。

OpenAI 图像生成多模态教程/实践

11:10

HuggingFace Daily Papers（社区热门论文）

CoInteract：通过空间结构化协同生成实现物理一致的人-物交互视频合成

CoInteract框架基于Diffusion Transformer架构，支持以人物参考图像、产品图像、文本及语音为条件生成视频。其引入Human-Aware Mixture-of-Experts模块，通过空间监督路由将token分配至区域专家，以极小参数开销提升手部与面部的结构稳定性；并采用Spatially-Structured Co-Generation双流训练范式，联合建模RGB外观与HOI结构流以注入交互几何先验，避免手物穿透。训练时结构流正则化共享权重，推理时移除该分支实现零额外开销。实验表明，该方法在结构保真度、逻辑一致性与物理合理性上显著优于现有方案。

多模态视频论文/研究

11:08

IT之家（RSS）

千问推出 AI 助手数字人形象"小酒窝"，将接入阿里各生态应用中

阿里巴巴4月22日发布生态级AI助手数字人形象"千问小酒窝"。该数字人已接入淘宝、飞猪、高德、支付宝等阿里生态业务，支持通过对话完成外卖点单、行程规划、演出购票、打车及机酒预订等跨服务串联执行。用户现可在千问App中选择"小酒窝"音色进行对话互动并生成专属合照，未来该形象将全面接入阿里各生态应用，提供统一智能体验。

智能体产品更新多模态

11:06

宝玉@dotey

GPT Image 2 展示日本少年漫画生成能力

OpenAI 展示 GPT Image 2 生成日本少年漫画（shonen manga）的提示词案例，体现其创作复杂多格漫画的能力。提示词要求生成 1440x2560 纵向比例的彩色冒险漫画，主角发现带有 OpenAI logo 的魔法羽毛笔，需使用日语并模拟实体书页照片效果。这反映了 GPT Image 2 在特定艺术风格渲染、文字生成、品牌元素植入及物理质感模拟方面的精细控制水平。

OpenAI 图像生成多模态教程/实践

10:08

IT之家（RSS）

OPPO Find X9 Ultra 手机体验：双两亿双潜望，只是它的起手式

OPPO Find X9 Ultra搭载双两亿像素双潜望五摄系统，配备哈苏2亿超大底主摄（进光量提升10%）、2亿超大底长焦（进光量达前代136%）及首创五反射潜望棱镜的10倍光变天眼长焦（230mm/460mm）。配合第二代丹霞色彩还原镜头与LUMO超像素引擎，相较Find X8 Ultra补齐远景拍摄短板，实现全焦段高画质输出，在10倍至120倍变焦下保持画面纯净与细节清晰。

其他多模态端侧

09:07

IT之家（RSS）

YouTube 向娱乐行业开放人脸声纹检测技术，打击 AI 深度伪造内容

YouTube向娱乐行业开放人脸声纹检测工具，用于识别并下架未经授权的AI深度伪造内容。该技术类似Content ID系统，专门检测复制他人外貌或声音特征的AI生成视频及音频，标记后当事人可直接审核并要求移除，无需通过常规举报渠道。该工具于2024年启动测试，今年早些时候已覆盖政府官员及新闻记者，现进一步向演艺明星和娱乐从业者开放，无论其是否拥有YouTube频道。YouTube与CAA、UTA等经纪公司合作优化了该系统。

Google 多模态安全/对齐视频

08:00

HuggingFace Daily Papers（社区热门论文）

63

构建精确视频语言模型：基于人机协同监督的方案

研究团队发布了一套用于构建精确视频语言模型的开源数据集、基准与可扩展监督方案。其核心是提出了CHAI监督框架，由训练有素的专家对模型生成的初版描述进行批判与修订，生成高质量后版描述。这种分工提升了标注效率与准确性。基于这些修订与偏好数据，团队改进了Qwen3-VL等开源模型在描述生成、奖励建模与批判生成方面的性能。在适度专家监督下，所得模型性能超越了Gemini-3.1-Pro等闭源模型。该方法还被应用于为专业视频重新生成描述，并微调Wan等视频生成模型，使其能精细遵循长达400词的详细提示，实现对摄像机运动、构图等电影摄影元素的控制。

多模态数据/训练论文/研究

01:44

AK@_akhaliq

44

OneVL 一步到位的潜在推理与规划，附带视觉-语言解释论文： https://huggingface.co/papers/2604.18486

多模态推理论文/研究

00:19

DogeDesigner@cb_doge

32

Grok 4.3 可以解释梗图。

xAI 产品更新多模态

4月21日

23:43

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

死互联网理论更新：AI内容全面占领互联网

死互联网理论正在成为现实。数据显示，AI内容已全面渗透：Deezer上44%歌曲为AI上传，Twitch订阅第一主播也是AI；多数网络文章、四成Facebook帖子及Top 10 YouTube频道内容均由AI生成。连广告领域也充斥AI生成的虚假代言。AI正系统性替代人类创作，从音乐到视频全面入侵。

AI Notkilleveryoneism Memes ⏸️: Dead Internet Theory update: The #1 most-subscribed Twitch streamer is an AI RECAP: 1) The majority of articles on the i...

多模态现象/趋势视频

21:11

IT之家（RSS）

OPPO Pad Mini 小平板发布：8.8 英寸 2.5K 屏、279g、第五代骁龙 8，售价 3699 元起

OPPO Pad Mini 小平板发布，搭载8.8英寸2.5K OLED屏幕，支持144Hz刷新率，机身仅重279g、厚5.39mm。配备第五代骁龙8芯片与8000mAh电池，支持无感联网、双5G共享及跨生态互传，可搭配AI手写笔。售价3699元起，国补到手价3199元起，提供三种存储版本，高配可选柔光屏。

多模态端侧行业动态

20:49

The Decoder：AI News（RSS）

AI 音乐洪流正在重塑流媒体平台处理新上传内容的方式

音乐流媒体平台 Deezer 最新报告显示，其每日新上传歌曲中高达 44% 完全由 AI 生成，这一比例揭示了 AI 音乐内容的爆发式增长。为应对这一趋势，Deezer 已部署自研检测技术识别 AI 生成内容，并计划将该技术授权给更广泛的音乐行业，以帮助各大平台有效管理海量 AI 音乐上传带来的挑战。

多模态现象/趋势

17:11

IT之家（RSS）

微信鸿蒙版 App 获 8.0.17.16 邀测升级，听一听灰度 AI 写歌 / 翻唱功能

微信鸿蒙版App推送8.0.17.16邀测更新，测试期为2026年4月20日至5月19日。新版本支持视频号注册及资料修改，视频播放新增自动旋转功能，"听一听"模块可分享歌曲至状态并跳转QQ音乐，同时灰度测试AI写歌与AI翻唱功能。自去年1月登陆鸿蒙应用市场以来，该应用安装量已突破5000万次。

产品更新多模态语音

16:34

HuggingFace Daily Papers（社区热门论文）

通过判别性文本表征将单步图像生成从类别标签扩展到文本

研究人员针对MeanFlow单步生成框架难以有效整合大语言模型文本编码器的问题，提出采用高判别性文本表征的解决方案。通过适配基于LLM的文本编码器并优化生成流程，首次实现高效的文本条件单步图像合成。实验表明，该方法在主流扩散模型上显著提升了生成性能，突破了原有类别标签条件的局限。相关代码已开源。

arXiv 图像生成多模态论文/研究

12:34

HuggingFace Daily Papers（社区热门论文）

WebCompass：面向代码语言模型的多模态网页编程评估基准

研究团队发布WebCompass基准，首次对代码语言模型进行全生命周期多模态网页开发能力评估。该基准涵盖文本、图像、视频三种输入模态，设置生成、编辑、修复三类共七项任务，覆盖15个生成领域、16种编辑操作及11种缺陷类型，难度分三级。评估采用LLM-as-a-Judge与Agent-as-a-Judge（基于MCP在真实浏览器中自动测试）相结合的方法。实测显示：闭源模型综合能力显著领先；美学表现是开源模型的最大瓶颈；Vue框架难度最高，React和Vanilla/HTML表现更稳定。

MCP/工具多模态编码论文/研究

11:34

HuggingFace Daily Papers（社区热门论文）

多模态大语言模型的乘法运算：基于文本、图像和音频输入的计算

研究人员发布受控多模态乘法基准，系统评估大模型在文本、图像和音频输入下的算术极限。研究定义算术负载指标C（总位数与非零位数乘积），发现当C>100时准确率急剧下降至接近零，且该指标跨模态预测性能R²常超0.5。实验表明模型失败主要源于计算缺陷而非感知能力——匹配感知测试中各模态准确率均超99%。此外，模型倾向于采用分配式分解策略而非传统列式乘法进行计算。

多模态推理论文/研究

09:10

IT之家（RSS）

8 岁男孩爬山认出"问荆草"断言山下有金矿，与 AI 结果高度吻合

辽宁大连庄河8岁男孩孙典锋爬山时认出"问荆草"，经AI验证该植物常与金矿伴生。父子俩在约五公里范围内发现大量问荆草及含黑云母、硅化褐铁矿化的岩石。辽宁省地质勘查院专家根据多重地质特征判断该山脉"大概率含金"。目前当地自然资源部门已介入调查，最终结论待化学分析确认。该地区2026年3月刚挂牌出让9宗探矿权。

多模态现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

39

EX-FIQA：利用视觉变换器的中间早期退出表示进行人脸图像质量评估

本研究首次系统探究了视觉变换器（ViT）中间层表示在人脸图像质量评估中的作用。通过分析ViT-FIQA的全部12个变换器块，发现不同深度捕获了互补的质量信息。研究提出一种无需修改架构或额外训练的分数融合框架，采用深度加权平均策略，对深层块赋予更高权重，从而有效利用ViT的层次化特征。在八个基准数据集和四种人脸识别模型上的评估表明，该策略优于单退出方法，能在显著节省计算资源的同时保持竞争力。这项工作挑战了“仅深层特征重要”的传统观点，为实际生物识别系统提供了自适应计算方案。

多模态端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

39

ATTN-FIQA：基于Vision Transformer注意力机制的可解释人脸图像质量评估

本文提出ATTN-FIQA，一种无需训练的人脸图像质量评估方法。该方法利用预训练Vision Transformer人脸识别模型中提取的softmax前注意力分数作为质量指标，仅需单次前向传播。其核心假设是注意力幅度内在地编码了图像质量：高质量图像产生集中、高幅度的注意力模式，退化图像则生成分散、低幅度的模式。通过在八个基准数据集和四个识别模型上的评估，证明该注意力分数能有效关联人脸图像质量，并提供空间可解释性，清晰揭示对质量判定贡献最大的面部区域。

多模态端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于工具监督强化学习的视觉推理

研究团队提出ToolsRL框架，通过工具监督强化学习提升多模态大语言模型的视觉推理能力。该框架采用课程学习策略，第一阶段利用工具特定奖励训练基础工具操作（包括放大、旋转、翻转、绘制点线等），第二阶段结合准确性奖励进行端到端优化。这种分离式训练避免了异构任务间的优化冲突，使模型先掌握工具调用能力再应用于复杂视觉推理。实验表明，该方法能高效习得可解释的视觉工具使用技能，显著提升复杂视觉推理任务表现。

智能体 arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MMCORE：基于表征对齐潜在嵌入的多模态连接

MMCORE 是一个统一的多模态图像生成与编辑框架，通过预训练视觉语言模型（VLM）预测语义视觉嵌入，并将其作为条件信号引导扩散模型。该设计无需深度融合自回归与扩散模型或从头训练，显著降低计算成本的同时保持高保真合成。框架支持文本到图像生成与交错图像生成，在空间推理和视觉定位等复杂场景中展现出强大的多模态理解能力，在多项文本到图像及单/多图像编辑基准测试中均优于现有最先进基线。

arXiv 图像生成多模态论文/研究

06:05

AK@_akhaliq

48

PersonaVLM 长期个性化多模态大语言模型论文： https://huggingface.co/papers/2604.13074

智能体多模态论文/研究

4月20日

17:28

IT之家（RSS）

官网揭秘：华为 Pura 90 标准版手机搭载麒麟 9010S 处理器

华为在Pura系列发布会上推出Pura 90系列手机。其中Pro和Pro Max版本搭载全新麒麟9030S处理器，该芯片NPU图像理解能力提升200%，AI ISP色彩引擎提升43%，长焦视频清晰度提升110%，防抖精度提升30%。标准版则搭载麒麟9010S处理器，该芯片此前已用于nova 15 Ultra，相较上代产品整机性能提升18%。

多模态端侧行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

通过阶段性自奖励缓解多模态幻觉

研究团队提出PSRD（分阶段自奖励解码）框架，在推理阶段动态缓解大型视觉语言模型（LVLMs）的视觉幻觉问题，无需外部监督。研究发现幻觉在每个语义阶段开始时达到峰值，据此将LVLMs的幻觉引导信号蒸馏为轻量级奖励模型，实现解码过程中的实时干预。实验显示，该方法使LLaVA-1.5-7B的幻觉率降低50.0%，并在五个幻觉评估基准上持续优于现有事后方法，同时实现了性能与推理效率的可控平衡。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MM-JudgeBias：评估多模态大语言模型评判器组合偏见的基准测试

研究团队提出MM-JudgeBias基准，用于评估MLLM-as-a-Judge的组合偏见。该基准通过Query、Image、Response三维度受控扰动，结合Bias-Deviation与Bias-Conformity指标，对26个主流模型进行测试。数据集涵盖29个源基准的1800余个样本，可细粒度诊断9种偏见类型。实验揭示模型存在系统性模态忽视与不对称评估倾向，表明当前MLLM评判器在证据缺失或扰动下可靠性不足。

多模态论文/研究

4月19日

17:08

karminski-牙医@karminski3

106美元实测Claude-Opus-4.7：视觉飞跃但推理偷懒

花费106美元在OpenRouter上实测Claude-Opus-4.7显示，其视觉能力较4.6版本显著提升，在颜色识别、细节捕捉和空间理解方面表现突出，可替代GPT-4o Pro用于多模态前端任务。但在后端硬实力测试中表现下滑，核心问题在于即使开启xhigh reasoning effort，模型的思考预算仍显不足，导致"偷懒"现象。实际使用中需通过反复提示和跨会话思考才能发挥最佳性能。

Anthropic 多模态编码评测/基准

16:37

The Decoder：AI News（RSS）

新基准测试发现：图表复杂度提升时，顶尖AI模型性能损失近半

RealChart2Code 基准测试针对基于真实数据集构建的复杂可视化图表，对14个领先AI模型进行评估。结果显示，当图表结构趋于复杂时，即使是最顶尖的专有模型，其性能也损失近半，远低于在简单测试中的表现。这一发现揭示了当前AI模型在理解和转换复杂数据可视化内容方面存在显著局限。

多模态编码评测/基准

15:44

Rohan Paul@rohanpaul_ai

Tinder与Zoom引入虹膜验证抵御AI伪造

AI伪造技术泛滥正推动互联网平台采用生物识别"人性证明"。Tinder与Zoom宣布集成World（原Worldcoin）的虹膜扫描系统World ID，通过唯一生物凭证区分真人与深度伪造或机器人。与传统身份验证不同，该系统验证"人格"（personhood）而非法定身份，旨在应对日益严重的AI诈骗风险。此举或使生物识别成为应对合成人类泛滥的可重用互联网基础登录层。

多模态安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

47

UniGeo：通过视频模型统一几何引导以实现相机可控图像编辑

针对现有相机可控图像编辑方法因几何引导碎片化导致的几何漂移与结构退化问题，研究团队提出了UniGeo新框架。该框架利用视频模型提供连续视角先验，并首次在表征、架构和损失函数三个层级系统性地统一注入几何引导。具体创新包括：表征层的帧解耦几何参考注入、架构层的几何锚点注意力对齐多视图特征，以及损失函数层的轨迹端点几何监督策略。在多个公开基准测试中，UniGeo在广泛及有限的相机运动设置下，于视觉质量和几何一致性方面均显著优于现有方法。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LLaTiSA：迈向从视觉感知到语义的难度分层时间序列推理

研究团队提出四层认知复杂度分类法定义时间序列推理（TSR）任务，发布包含83k样本的HiTSR数据集，涵盖多样化任务组合与验证CoT轨迹。基于此开发的LLaTiSA模型整合可视化模式与精度校准数值表增强视觉语言模型（VLM）的时间感知，经多阶段课程微调策略训练，在多样TSR任务及真实场景中实现卓越性能与强分布外泛化。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

UniMesh：统一三维网格理解与生成

UniMesh是一个统一3D网格理解与生成的新型框架，通过单一架构联合学习两大任务。该框架引入Mesh Head连接扩散式图像生成与隐式形状解码器；提出Chain of Mesh (CoM)几何迭代推理机制，实现用户驱动的语义网格编辑闭环；并构建Actor-Evaluator-Self-reflection自反思机制，可诊断纠正3D字幕等高级任务错误。实验表明，UniMesh不仅性能优异，更实现了生成与理解的相互增强及迭代编辑能力。

多模态开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

当背景关键时：利用可迁移攻击攻破医学视觉语言模型

研究人员提出名为 MedFocusLeak 的高可迁移性黑盒多模态攻击方法，通过在非诊断性背景区域注入协调扰动并运用注意力分散机制，使医学视觉语言模型生成错误但临床可信的诊断。该方法在六种医学影像模态的测试中达到最先进的攻击成功率，且保持扰动不可察觉。研究同时引入统一评估框架与新指标，揭示了现代临床视觉语言模型推理能力的关键缺陷。

arXiv 多模态论文/研究

4月18日

10:32

宝玉@dotey

精选77

Anthropic发布Claude Design：AI驱动设计工具，变革工作流程

Anthropic发布由Claude Opus驱动的AI设计工具Claude Design。用户可通过自然语言描述直接生成高保真、可交互的原型，并输出React等可运行代码。该工具能理解并自动套用设计系统与代码库规范，其核心逻辑是“AI为主要生成者，人为审阅者”，显著区别于Figma等传统画布工具。这将极大提升设计生产力，改变设计师、PM等角色协作模式，并对传统设计工具市场构成冲击。

Anthropic 产品更新多模态

推荐理由：Claude Design 把设计从「人画 AI 辅助」翻转成「AI 画人审」，输出直接是可运行代码而非静态稿，PM 和创始人第一次能自己出可交付原型，Figma 股价当天跌 10% 不是巧合。

08:00

HuggingFace Daily Papers（社区热门论文）

超越文本主导：理解全模态大语言模型的模态偏好

研究团队针对原生全模态大语言模型（OLLMs）的模态偏好现象，构建了冲突基准测试并提出模态选择率指标，对10个代表性模型进行系统评估。结果发现与传统视觉语言模型的"文本主导"不同，多数OLLMs呈现显著视觉偏好，且通过逐层探测证实该偏好是在中后层逐渐涌现而非静态存在。基于这一机制，团队利用内部信号诊断跨模态幻觉，在三个多模态基准测试中取得竞争性表现，无需任务特定数据。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EasyVideoR1：面向视频理解的更简易 RL 框架

EasyVideoR1 是一款专为视频理解任务设计的强化学习框架，通过离线预处理与张量缓存技术消除冗余视频解码，将训练吞吐量提升1.47倍。该框架支持11种视频及图像任务类型的统一奖励路由，采用离线-在线混合数据训练范式，并实现双模态联合训练与独立像素预算配置。其异步评估系统覆盖22个主流视频理解基准，复现精度与官方报告高度一致，为视觉语言模型的视频推理训练提供了完整高效的基础设施。

Hugging Face 多模态数据/训练视频

08:00

HuggingFace Daily Papers（社区热门论文）

MNAFT：面向图像翻译的多模态大语言模型模态神经元感知微调

针对多模态大语言模型在图像翻译中难以捕捉细粒度文本信息的问题，本文提出模态神经元感知微调方法MNAFT。该方法通过指令驱动的激活分析，识别视觉与语言模块中的语言无关及语言特定神经元，选择性更新与目标任务相关的神经元参数，同时保留其他预训练知识。实验表明，MNAFT在多个基准测试中显著优于级联模型、标准全量微调及现有参数高效微调方法，有效缩小了视觉文本与文本间的模态差距。

arXiv 多模态数据/训练论文/研究

1…45 464748 49 50