全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 1234 条

全部一手资讯 X 论文

标签「多模态」清除

今天7月3日周五

06:08MarkTechPost（RSS）63RAG-Anything 教程：在 Colab 中构建文本、表格、公式和图像的多模态检索管道

03:06TechCrunch：AI（RSS）61Meta悄然推出vibe-coded游戏应用Pocket

01:08Apple Machine Learning Research（RSS）62精选RL微调VLM的鲁棒性与思维链一致性研究

7月2日周四

22:00公众号：可灵AI（快手·视频）49可灵AI广告斩获戛纳金狮：两部作品获1银2铜

15:28HuggingFace Daily Papers（社区热门论文）54多模态连续推理：非对称互变分学习

12:04IT之家（RSS）26极氪 OTA 7.2 更新发布：40 项新增功能，18 项体验优化

11:28HuggingFace Daily Papers（社区热门论文）51Perceive-to-Reason （P2R）：解耦感知与推理的细粒度视觉推理框架

10:28HuggingFace Daily Papers（社区热门论文）46DiscoPER：基于迭代元反思的自主科学发现框架

09:28HuggingFace Daily Papers（社区热门论文）50VideoSearch-R1：通过软查询优化实现迭代视频检索与推理

08:03IT之家（RSS）42华为联合上海电信落地 5G-A×AI 大上行样板点：实测峰值速率 1Gbps，中心城区年底实现 20Mbps 上行连续覆盖

02:32Google Blog：AI（RSS）43Google 2026年6月AI更新汇总

00:20Artificial Intelligence News（RSS）45部署零售AI以扩展个性化和客户洞察

7月1日周三

22:10Runway：News（网页）48Runway 宣布与 Bertelsmann 达成创意合作

19:03IT之家（RSS）26Rokid AR 眼镜官宣搭载恒玄 BES2810 芯片：6nm 工艺，支持全新语音交互

17:28HuggingFace Daily Papers（社区热门论文）43MuSViT：乐谱表示的基础视觉模型

17:28HuggingFace Daily Papers（社区热门论文）48DataEvolver：面向文本丰富图像生成的自进化多智能体数据构建框架

03:55The Verge：AI（RSS）50Google NotebookLM 新增 TikTok 风格竖屏视频摘要功能

01:38The Decoder：AI News（RSS）59Google 发布 Nano Banana 2 Lite 图像模型与 Gemini Omni Flash 视频模型

00:08Google DeepMind：Blog（RSS）70精选Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash

00:02IT之家（RSS）44华为"博观文旅大模型"在西安规模应用

6月30日周二

23:28TechCrunch：AI（RSS）44Riverside 推出新闻通讯功能，支持 AI 转换播客视频为内容

22:27TechCrunch：AI（RSS）40Proton 旗下隐私优先 AI 聊天机器人 Lumo 迎来升级

20:26HuggingFace Daily Papers（社区热门论文）43ILLUME-X：面向自由形式交错图文生成的统一多模态模型

15:26HuggingFace Daily Papers（社区热门论文）56视频扩散模型在手部运动重建中的惊人有效性

15:02IT之家（RSS）30维苏威挑战赛借助AI数字化复原约2000年历史古卷，读取出约1.5米希腊文文本

12:26HuggingFace Daily Papers（社区热门论文）50InnerZoom：单前向跨层证据桥接实现精准高效GUI定位

11:26HuggingFace Daily Papers（社区热门论文）54TACO：面向智能体工具使用的工具增强信用优化

11:26HuggingFace Daily Papers（社区热门论文）52Orca：一个通用世界基础模型

08:00HuggingFace Daily Papers（社区热门论文）45PixelEyes：解耦感知与推理实现精准视觉证据定位

08:00HuggingFace Daily Papers（社区热门论文）64Seed2.0 Model Card：迈向解决真实世界复杂问题的智能前沿

04:26TechCrunch：AI（RSS）63Gemini 个性化 AI 图片生成功能对美国用户免费开放

03:52The Verge：AI（RSS）53Tidal 不会支付AI生成音乐的版税，但并未完全禁止

6月29日周一

23:05Hacker News 热门（buzzing.cc 中文翻译）63Tidal AI 政策

19:01IT之家（RSS）55创作者自制 AI 动画被搬运至优酷收费观看，相关剧集已下架

19:01IT之家（RSS）55抖音反诈工具"验证助手"新增识图与语音功能，方便老年用户鉴别诈骗

17:01IT之家（RSS）62做视频不花钱、一句话搞定大纲分镜，Agnes AI推全新免费视频创作平台Pavo

08:00HuggingFace Daily Papers（社区热门论文）50MatMMExtract：面向材料科学的大规模多模态数据集MatSciFig

08:00HuggingFace Daily Papers（社区热门论文）51BrainJanus：融合脑、视觉与语言的统一模型

08:00HuggingFace Daily Papers（社区热门论文）44AVTok：面向整体音频-视频生成的一维统一分词器

04:49The Verge：AI（RSS）61Suno推出Spark孵化器项目，为AI模型喂养独立艺术家

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

7月3日

06:08

MarkTechPost（RSS）

63

RAG-Anything 教程：在 Colab 中构建文本、表格、公式和图像的多模态检索管道

本教程使用 RAG-Anything 搭建多模态检索工作流，可检索文本、表格、公式和图像。首先在 Colab 中安装依赖并修复 Pillow 版本，通过 OpenAI API key 配置对话、视觉和嵌入函数。接着生成包含图表和 PDF 的合成多模态报告，将其转为 content_list 格式并插入检索系统。最后配置并测试 naive、local、global 和 hybrid 四种检索模式。环境变量包括 CHUNK_SIZE=900、CHUNK_OVERLAP_SIZE=120，便于在笔记本中复现。

检索增强多模态教程/实践

03:06

TechCrunch：AI（RSS）

61

Meta悄然推出vibe-coded游戏应用Pocket

Meta推出新应用Pocket，用户可通过AI提示词生成小型互动游戏和应用。该应用源自Meta今年早些时候收购的vibe-coding游戏平台Gizmo团队，界面与Gizmo原有应用高度相似，并提供可浏览他人作品的发现信息流。Pocket于6月29日上线App Store和Google Play，目前处于初期实验阶段，Meta尚未正式宣布。其前身Gizmo在iOS和Google Play累计安装63.5万次，正面评价占比98%。

Meta 产品更新多模态

01:08

Apple Machine Learning Research（RSS）

精选62

RL微调VLM的鲁棒性与思维链一致性研究

强化学习（RL）微调被扩展至视觉语言模型（VLM）。研究发现，简单的文本扰动——误导性标题或错误思维链（CoT）——会显著降低模型鲁棒性和置信度，且开源模型衰退更明显。闭源模型呈现类似失败模式，但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡：微调提升基准准确率，但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性；对抗性增强可改善鲁棒性，却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐，但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。

多模态推理论文/研究

推荐理由：RL微调让VLM基准分变好看，却可能让它的推理链变得靠不住，这个反直觉的诊断对正在用RL打磨多模态模型的团队是个警醒。

7月2日

22:00

公众号：可灵AI（快手·视频）

49

可灵AI广告斩获戛纳金狮：两部作品获1银2铜

戛纳国际创意节今年首设AI Craft子赛道，两部使用可灵AI生成的广告获奖：《L'Ultimo Uomo Reale》获Classic单元Film银奖及Craft单元Film铜奖，《Lorem Ipsum》获Classic单元Film铜奖。前者为二手奢侈品平台The RealReal的愚人节广告，几乎全由AI生成，仅手提包为实拍，展现人物一致性和复杂视觉奇观；后者由Purga Films制作，全片角色用拉丁文假文对话，风格迥异但情绪推进精准。两部作品标志可灵已产出商业交付级广告，获全球最高级别广告创意殿堂认可。

多模态行业动态视频

15:28

HuggingFace Daily Papers（社区热门论文）

54

多模态连续推理：非对称互变分学习

多模态大语言模型受语言空间瓶颈限制，连续潜在推理虽能绕过离散token的感知损失，但存在训练-推理不匹配：训练时后验利用答案捷径，迫使推理时先验模仿包含不可用信息的后验，导致性能下降。提出非对称互变分学习（AMVL）框架，通过双向KL校准解决——前向KL训练先验匹配后验，反向KL正则化后验防止崩溃至推理不兼容区域，缓解“答案泄露”。理论分析将后验污染形式化为先验污染，证明双KL目标可降低污染。在latent-integrated MLLM上，AMVL在复杂BLINK基准平均提升+10.83，单项推理任务最高提升+32.00，潜在空间稳定性得到改善。

多模态推理论文/研究

12:04

IT之家（RSS）

26

极氪 OTA 7.2 更新发布：40 项新增功能，18 项体验优化

极氪向全系搭载 8295 智能座舱平台的车型推送 OTA 7.2 更新，共 40 项新增功能和 18 项体验优化。超级 Eva 语音助手升级，支持情绪识别、模糊导航规划、车外语音喊话、雨夜模式等。千里浩瀚 G-ASD 4.0 高阶智驾新增人工收费站自动通行、乡村土路稳定通行、导航终点自动靠边停靠、偏移泊车等功能，搭载世界行为模型。Zeekr AI OS 7 座舱系统采用瑞典团队全新视觉设计，支持智慧分屏、手势盲操、AI 生成式桌面与 AI Sidebar。辅助驾驶更新适用于搭载千里浩瀚 H7 及以上的车型。

产品更新多模态行业动态

11:28

HuggingFace Daily Papers（社区热门论文）

51

Perceive-to-Reason （P2R）：解耦感知与推理的细粒度视觉推理框架

Perceive-to-Reason (P2R) 提出两阶段统一框架：模型先作为感知器定位与问题相关的视觉证据，再作为推理器基于标注图像和裁剪区域回答问题。为对齐训练，引入感知-推理交替 GRPO（PRA-GRPO），一种仅用最终答案监督的、区分角色的强化学习策略。基于 Qwen3-VL-Instruct-2B/4B/8B，P2R 在各规模上持续提升性能。其中 P2R-4B 在 V-Star 达 93.2%，在 HR-Bench-4K 和 HR-Bench-8K 上分别达 81.9% 和 80.5%，显著超越对应基线。进一步实验表明，P2R 的收益可延伸至更广泛的多模态推理任务。

多模态推理论文/研究

10:28

HuggingFace Daily Papers（社区热门论文）

46

DiscoPER：基于迭代元反思的自主科学发现框架

DiscoPER 是一个大语言模型驱动的自主科学发现框架。它无需预设研究目标，动态生成代码探索数据集，且每个发现必须通过统计检验。框架引入二阶元反思机制，周期性分析自身已有发现，识别结构模式、混淆和认知空白，主动将假设探索重定向到未知区域。结合工具使用，可处理多模态来源（如图像）的信息。在 iNatDisco 生态基准上，DiscoPER 恢复 8/9 已知模式，假设支持率 72.7%，优于经典因果发现与 LLM 引导基线。消融实验证实随数据规模扩展及二阶元反思的收益。

多模态数据/训练论文/研究

09:28

HuggingFace Daily Papers（社区热门论文）

50

VideoSearch-R1：通过软查询优化实现迭代视频检索与推理

现有视频检索方法常将检索视为预处理步骤，失败后无法优化查询，且智能体框架多假设已提供相关视频。VideoSearch-R1提出一种智能体框架，通过与视频搜索引擎多轮交互实现迭代检索与推理。其核心是软查询优化（SQR），在连续潜在空间中优化搜索查询token，而非在离散文本空间重写。SQR及推理过程使用组相对策略优化（GRPO）训练，由检索和下游任务的任务级奖励信号引导。该方法在三个视频语料库时刻检索（VCMR）数据集上达到最先进性能，且生成的token远少于显式文本级查询优化。

多模态搜索论文/研究

08:03

IT之家（RSS）

42

华为联合上海电信落地 5G-A×AI 大上行样板点：实测峰值速率 1Gbps，中心城区年底实现 20Mbps 上行连续覆盖

华为与上海电信在上海西岸美术馆打造5G‑A×AI大上行样板点，依托全国首张5G‑A×AI大上行商用网络，实测上行峰值1Gbps、下行近4Gbps。当前核心城区热门商圈已实现泛在20Mbps上行连续覆盖，预计年底覆盖整个中心城区。现场以AI眼镜等终端演示多模态交互，2.1GHz 8T8R网络较1.8GHz 4T4R响应更快无卡顿，上行覆盖提升3‑5dB，容量翻倍。GSMA于2026年3月发布“大上行网络倡议”，提出泛在20Mbps、峰值1Gbps等核心指标。

多模态端侧行业动态

02:32

Google Blog：AI（RSS）

43

Google 2026年6月AI更新汇总

Google在6月发布多项AI更新：推出Gemini 3.5 Live Translate实时语音翻译；

Google 多模态模型发布端侧

00:20

Artificial Intelligence News（RSS）

45

部署零售AI以扩展个性化和客户洞察

零售AI通过生成式UI实时定制页面布局、文案和交互组件，将购买频率提升35%、平均订单价值提高21%。多模态社交倾听系统处理视频、音频和未标记图像，覆盖82%的互联网流量，全球市场本财年达28.3亿美元，76%的分析师报告可见投资回报。基于大语言模型的合成用户模拟可在沙箱环境中执行数千次自动化访谈和内容测试。边缘计算硬件支持无收银台结账、实时货架跟踪等物理自动化，该市场预计2040年超3700亿美元。Model Context Protocol（MCP）作为开放通信标准，标准化模型与零售数据库、产品目录及CRM的集成。

多模态现象/趋势端侧部署/工程

7月1日

22:10

Runway：News（网页）

48

Runway 宣布与 Bertelsmann 达成创意合作

Runway 宣布与 Bertelsmann 建立创意合作伙伴关系。双方将在创意内容领域展开合作，具体合作细节尚未披露。

多模态行业动态

19:03

IT之家（RSS）

26

Rokid AR 眼镜官宣搭载恒玄 BES2810 芯片：6nm 工艺，支持全新语音交互

Rokid AR 眼镜搭载恒玄 BES2810 芯片（6nm 工艺，超低功耗），集成 NPU 和 HiFi 5s，算力与效率大幅提升，支持全新语音交互及灵活 EQ 调音。该眼镜在 Rokid Open Day 2026 亮相，采用空间 + AI 双摄设计，支持电致变色、6DoF 自由度、58° FoV 视野。此外，它首次搭载高通骁龙至尊空间计算协处理器（3nm 制程），算力远超 Rokid AR Studio、Meta Quest Pro、Pico4 等产品。

产品更新多模态端侧

17:28

HuggingFace Daily Papers（社区热门论文）

43

MuSViT：乐谱表示的基础视觉模型

MuSViT是首个专为乐谱表示设计的基础视觉模型，采用ViT编码器并通过掩码自编码器在IMSLP的970万页乐谱上预训练，使用两阶段课程（先合成排版乐谱，再训练完整IMSLP语料库）。在四个下游任务（全页与谱行级乐谱识别、音乐符号检测、难度分类）上，线性探测（冻结编码器）中MuSViT持续优于通用视觉编码器，微调则改进多数任务的特化SOTA方法。嵌入-转录一致性分析表明，MuSViT直接在表示空间中编码符号化的音乐结构，而其他编码器的嵌入与乐谱内容不相关。

多模态论文/研究

17:28

HuggingFace Daily Papers（社区热门论文）

48

DataEvolver：面向文本丰富图像生成的自进化多智能体数据构建框架

DataEvolver提出自进化多智能体框架，将数据构建视为反馈驱动的策略进化。它包含检索器、验证器、评论家和生成器，利用被拒样本的失败信号指导下一轮构建。在PixArt-alpha上以0.75M规模测试，DataEvolver在TextScenesHQ上OCR-F1比最强基线提升85.3%，在LongTextBench上提升35.3%，且收益可迁移至Show-o2。

图像生成多模态论文/研究

03:55

The Verge：AI（RSS）

50

Google NotebookLM 新增 TikTok 风格竖屏视频摘要功能

Google NotebookLM 近日为 AI Ultra 和 Pro 订阅用户推出新功能：可基于用户上传的源文件自动生成 60 秒竖屏 AI 视频，并配上 AI 生成图像和旁白。官方示例以纸片剪贴画风格回顾澳大利亚对鸸鹋的战争。用户可在 NotebookLM 网页或 App 的 Studio 栏中选择“Video”→“Short”，指定或自定义主题后点击生成。此前 NotebookLM 已支持 AI 播客、电影风格视频和视觉解释器。该功能目前仅支持英语，免费用户将很快可用。

Google 产品更新多模态

01:38

The Decoder：AI News（RSS）

59

Google 发布 Nano Banana 2 Lite 图像模型与 Gemini Omni Flash 视频模型

Google 推出两款新生成式 AI 模型。Nano Banana 2 Lite 可在 4 秒内生成图像，每张成本 0.034 美元（1K 分辨率），API 名称为 gemini-3.1-flash-lite-image。Gemini Omni Flash 允许开发者通过文本提示在 API 中生成和编辑最长 10 秒的视频，每秒输出价格 0.10 美元。Google 推荐将两个模型链式使用：先用 Nano Banana 2 Lite 生成图像，再传递给 Gemini Omni Flash 转化为视频。两者均使用 SynthID 水印，已通过 Google AI Studio、Gemini API 和 Gemini Enterprise Agent Platform 提供。

Google 图像生成多模态模型发布

00:08

Google DeepMind：Blog（RSS）

精选70

Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash

Google DeepMind 推出 Nano Banana 2 Lite（gemini-3.1-flash-lite-image），为 Nano Banana 系列速度最快、成本最低的图像模型，文本到图像输出仅需 4 秒，每 1K 分辨率图像成本 $0.034，已上线 Google AI Studio、Gemini API 及消费者产品（AI Mode in Search、Gemini app 等）。同时推出 Gemini Omni Flash（gemini-omni-flash-preview），支持高画质视频生成与对话式编辑，视频输出定价 $0.10/秒，面向开发者开放 API。

Google 图像生成多模态模型发布

关联讨论 3 条X：Logan Kilpatrick (@OfficialLoganK)X：Google AI (@GoogleAI)X：Google DeepMind (@GoogleDeepMind)

推荐理由：Nano Banana 2 Lite 把图像生成拉到 4 秒延迟和 0.034 美元单价，很适合高频草稿流，Omni Flash 首次对开发者开放视频生成和对话编辑，两个模型串起来的快速迭代工作流是这次最实用的更新。

00:02

IT之家（RSS）

44

华为"博观文旅大模型"在西安规模应用

2026年6月29日，华为与陕文投联合开发的全球首个商用多模态文旅大模型“博观文旅大模型”在西安实现规模化应用。截至今年3月，其AI伴游智能体已覆盖超400万用户，非遗数字IP衍生产品销售额超200万元。该模型依托昇腾算力底座及超1.2PB数据集（含3100万张文旅图片等），支持高精度多模态历史内容生成，实现文物活化与非遗IP开发。同期，中国电信陕西公司与华为在大唐不夜城部署5G-A网络，上下行峰值速率分别达600Mbps和3.5Gbps，五一假期支持约2.3万用户同时接入。

产品更新多模态

6月30日

23:28

TechCrunch：AI（RSS）

44

Riverside 推出新闻通讯功能，支持 AI 转换播客视频为内容

视频与播客录制工具 Riverside 新增新闻通讯发布功能，用户可通过 AI 助手将已有视频和播客内容自动转换为新闻通讯，也可在应用内从头创建并直接发送。Riverside 同时更新录制套件，支持多机位录制和远程嘉宾添加。新版 AI 功能还包括自动生成录制初稿、为社交媒体创建钩子与内容，以及基于对话视频播客训练的 AI 视频增强功能，可改善光线、深度和锐度。Riverside 已累计融资超 6000 万美元。

产品更新多模态视频

22:27

TechCrunch：AI（RSS）

40

Proton 旗下隐私优先 AI 聊天机器人 Lumo 迎来升级

Lumo 2.0 新增图像识别和图像生成能力，用户可上传图片进行分析或编辑。Projects 功能新增用户控制的持久记忆，可跨对话保留偏好。响应速度比上一代提升 76%，并引入思考模式处理复杂问题。采用零访问加密架构，数据端到端加密，服务器不记录会话日志，不使用用户数据训练或与第三方共享。即日起可用，提供免费版及 Plus、Professional 付费方案。

产品更新图像生成多模态

20:26

HuggingFace Daily Papers（社区热门论文）

43

ILLUME-X：面向自由形式交错图文生成的统一多模态模型

ILLUME-X是一个统一多模态模型，能够自主生成高质量、自由形式的交错文本-图像序列。它通过三项核心组件实现：面向交错图文生成的扩展训练数据管道、基于自适应目标的渐进训练策略（适用于自由长度的多模态token序列），以及用于评估交错图文序列的客观综合方法ILScore。ILLUME-X在风格迁移、图像分解和故事讲述等多个交错图文生成任务上优于此前统一模型。

图像生成多模态论文/研究

15:26

HuggingFace Daily Papers（社区热门论文）

56

视频扩散模型在手部运动重建中的惊人有效性

ViDiHand 利用预训练视频扩散模型的表征重建 4D 双手姿态，通过手部叠加渲染目标适配扩散模型特征，保留世界先验的同时专门化手部特征，再由解码器恢复度量级姿态。整个管道直接处理全帧，无需检测器、填充器或测试时优化。在 ARCTIC、HOT3D 和 HOI4D 基准上，ViDiHand 显著优于现有方法，表明视频扩散模型可作为手部运动重建的新基础，并为具身智能的可扩展野外数据收集提供途径。

arXiv 具身智能多模态论文/研究

15:02

IT之家（RSS）

30

维苏威挑战赛借助AI数字化复原约2000年历史古卷，读取出约1.5米希腊文文本

维苏威挑战赛于6月25日宣布，借助AI辅助，研究人员在不展开卷轴的情况下数字化读取了两份被维苏威火山灰掩埋的古卷PHerc. 1667和PHerc. 172。其中PHerc. 1667成功读出约1.5米连续希腊文，内容横跨20栏；PHerc. 172则恢复出70多栏文本。这两份古卷距今约2000年，埋藏于公元79年维苏威火山喷发后的灰烬中。

其他多模态行业动态

12:26

HuggingFace Daily Papers（社区热门论文）

50

InnerZoom：单前向跨层证据桥接实现精准高效GUI定位

针对MLLM自回归坐标生成丢失区域级目标证据的问题，InnerZoom提出单前向跨层证据桥接框架，将原始前向中的目标线索压缩为跨层证据状态，在后序解码层保留、精炼并重新注入以指导坐标预测。InnerZoom-4B在全部六个GUI定位基准上达到最优，OSWorld-G 64.7、UI-Vision 40.2、OSWorld-GR 73.1、MMBench-GUI 87.6，分别超此前最佳4.1、3.2、2.9、2.3分。相比同基线平均提升5.3点，对比两遍ZoomIn平均提升1.3点，端到端延迟降低31.8%，TFLOPs降低约29%。代码与模型将开源。

智能体多模态论文/研究

11:26

HuggingFace Daily Papers（社区热门论文）

54

TACO：面向智能体工具使用的工具增强信用优化

TACO是一种基于GRPO的变体，专为代码工具agent设计。它通过两个耦合优势通道解决工具调用信用分配：Differential Answer-Probe Reward（DAPR）在推理中插入探针token，自监督比较有无工具时的预测差异，为每次调用赋予正/负/零价值，无需外部评判器；Outcome-Gated Advantage Routing（OGAR）根据调用结果将最终答案优势仅分配给导致正确输出的段，抑制无用调用。经两阶段SFT+RL训练后，TACO在感知、推理和通用多模态基准上取得一致准确率提升，且学会仅在必要时调用工具。

多模态论文/研究

11:26

HuggingFace Daily Papers（社区热门论文）

52

Orca：一个通用世界基础模型

Orca通过下一状态预测（Next-State-Prediction）统一建模多模态世界信号，学习统一的世界潜空间。预训练使用125K小时视频和1.6亿事件标注，包含无意识学习（连续视频中的密集自然状态转换）和有意识学习（语言描述事件和VQA监督下的稀疏状态转换）。冻结主干后，仅训练轻量级模态特定解码器，即可在文本生成、图像预测和具身动作生成三项下游任务上超越类似规模的专用基线模型。

arXiv 具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

45

PixelEyes：解耦感知与推理实现精准视觉证据定位

PixelEyes是一种多轮视觉推理智能体，通过显式解耦推理与感知解决MLLMs因定位不准导致的冗余轨迹问题。推理器决定查找目标，专用感知工具采用掩码引导视觉搜索（Mask-guided Visual Search）和语义区域广度优先搜索（Semantic-region BFS）提供精确定位，消除重复裁剪错误子区域的循环。基于PixelEyes-6K数据集训练，并引入Pinpoint-Bench零提示视觉搜索基准，用于分离定位失败与推理失败。代码和模型已开源。

智能体多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

Seed2.0 Model Card：迈向解决真实世界复杂问题的智能前沿

Seed2.0 模型系列从识别的用户真实需求出发，构建了基于复杂真实场景的评测体系，重点攻克长尾知识和复杂指令跟随两个持久挑战，显著提升了模型在长程复杂任务上的可靠性。同时，Seed2.0 在推理智能、视觉理解和搜索能力上达到世界领先水平，并通过大量真实用例展示了其初步处理复杂实际任务的能力，为数亿用户提供更大价值。

多模态推理模型发布

04:26

TechCrunch：AI（RSS）

63

Gemini 个性化 AI 图片生成功能对美国用户免费开放

Google 宣布，Gemini 应用的 Nano Banana 驱动个性化图片生成功能向所有符合条件的美国用户免费开放，此前仅限 Plus、Pro 和 Ultra 订阅用户。该功能基于 Gemini 对用户喜好的理解生成图片，无需在提示词中指定具体内容，并可从 Google Photos 提取用户照片。数据来自 Gmail、Google Photos、YouTube 和 Search 等 Google 账户连接。Personal Intelligence 为可选功能，默认用于每个提示，用户可在 Tools 菜单中关闭。上个月 Google 预告了 Gemini 应用的后续更新，包括 Daily Brief、改版界面、AI 视频模型 Gemini Omni 和个人 AI 智能体 Gemini Spark。Gemini 月活跃用户已超 7.5 亿。

Google 产品更新图像生成多模态

03:52

The Verge：AI（RSS）

53

Tidal 不会支付AI生成音乐的版税，但并未完全禁止

流媒体平台 Tidal 今日公布 AI 音乐新政策：即日起，被识别为 100% AI 生成的曲目不再获得版税收入；7 月 15 日起，这些曲目将被加上专用图标标注。Tidal 表示未来计划对“实质性 AI 生成”的上传也加注标签，并要求内容分发商自行标注 AI 音乐。同时，7 月中旬起，Tidal 将移除或阻止与欺诈活动关联的 AI 音乐，包括欺骗听众、干扰真实艺术家、高批量上传或异常流媒体行为的作品。竞争对手 Spotify 和 Deezer 此前已推出类似方案。

多模态行业动态

6月29日

23:05

Hacker News 热门（buzzing.cc 中文翻译）

63

Tidal AI 政策

Tidal 发布 AI 生成音乐政策，将完全或主要由生成式 AI 创作的音乐定义为 AI 生成音乐。Tidal 接受这类内容但要求标识，7 月中旬起听众将在 100% AI 生成内容旁看到图标；欺诈行为（欺骗听众、干扰真实艺术家、大量上传或异常流媒体）将被阻止或移除。自即日起，AI 生成音乐不可货币化，版税仅归人工创作的原作；Tidal Upload 独立艺术家上传内容同样适用。

多模态行业动态

19:01

IT之家（RSS）

55

创作者自制 AI 动画被搬运至优酷收费观看，相关剧集已下架

据《正在新闻》报道，舒先生制作的 AI 动画被搬运至优酷平台，剧集《小企鹅咕嘎冒险记》更新至29集，最新一集来自舒先生5月1日发布的作品。前4集免费，后续需VIP。舒先生称动画由AI生成并剪辑，未在任何平台备案，也不清楚备案号来源。优酷客服表示该剧是站内官方少儿节目，非私人上传，但无法查询备案号，侵权问题需通过知识产权投诉平台处理。目前该剧集已无法在优酷搜索到，从搜索引擎进入会提示“版权受限暂无可播源”。

多模态行业动态视频

19:01

IT之家（RSS）

55

抖音反诈工具"验证助手"新增识图与语音功能，方便老年用户鉴别诈骗

抖音反诈工具“验证助手”今日升级，新增语音输入和图片文本提取功能。验证框由多分类统一为单一输入框，系统通过意图识别模型自动判断信息类型并完成验证。老年人可上传可疑截图圈选文字区域，或语音描述短信、电话等内容，系统自动识别填入。截至目前，验证助手已累计服务超2800万人次，日均帮助约4万名用户鉴别风险。

产品更新多模态语音

17:01

IT之家（RSS）

62

做视频不花钱、一句话搞定大纲分镜，Agnes AI推全新免费视频创作平台Pavo

新加坡公司Sapiens AI旗下Agnes AI推出免费视频创作平台Pavo。用户提供一句话初始需求，平台自动生成需求、大纲、角色场景道具设计、分镜、关键帧及分镜视频，用户逐环节微调确认即可成片。Pavo免费使用Agnes自研模型，包括文本模型Agnes-2.0-Flash、图片模型Agnes-Image-2.1-Flash、视频模型Agnes-Video-2.0。即将上线的Agnes-Video-2.5-Preview在动作、角色、相机移动和场景连贯性上接近Veo 3。

产品更新多模态视频

08:00

HuggingFace Daily Papers（社区热门论文）

50

MatMMExtract：面向材料科学的大规模多模态数据集MatSciFig

MatMMExtract 是一个端到端开源管道，将复合图表分解为独立子面板，并利用大语言模型基于材料科学分类法生成结构化标注。应用于 14,810 篇开放获取文章，从 180,571 张图中生成 MatSciFig 数据集，包含 391,606 个面板级图像-文本对，每对配有子标题、两级可视化类别（19 个大类、100+ 子类）和科学摘要。引入 MaterialScope 检测数据集（2,811 张人工标注图），微调 YOLO12-m 检测器达到 mAP_50 0.9227。六种基准语言模型中，Gemini 3.1 Flash Lite 在标注生成上取得最佳成本-质量平衡，82% 输出良好，模型幻觉率 4.8%。基于 MatSciFig 的检索基线在 R@1 上比零样本 CLIP 提升 4.4 倍，所有资源已向社区开放。

多模态开源/仓库数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

BrainJanus：融合脑、视觉与语言的统一模型

BrainJanus是首个统一脑模型，在单一框架内融合脑、视觉与语言。它通过Unified Brain Tokenizer将连续神经动态量化为离散token，与视觉和语言表征在共享Omni空间中对齐。基于All-in-One自回归架构，利用下一token预测实现任意方向生成，包括图像/文本到脑的编码以及脑到图像/文本的解码。实验在多个基准上表现优越，具备零样本泛化能力，并保持可解释的脑拓扑结构。代码已公开。

arXiv GitHub 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

44

AVTok：面向整体音频-视频生成的一维统一分词器

AVTok 是一种新颖的统一分词器，专为整体音频-视频生成设计。它采用双流 Transformer 架构，包含共享编码器-解码器和模态特定的可学习查询，将音频-视频对高效编码为紧凑的一维潜在表示并共享同一码本。为应对异质信息不平衡，研究者设计了分层训练策略，逐步重建各模态。实验表明，AVTok 在音频-视频重建及下游任务（音频到视频、视频到音频、类别条件联合生成）中均表现优异，为构建统一音视频大语言模型提供了潜在方向。

多模态视频论文/研究

04:49

The Verge：AI（RSS）

61

Suno推出Spark孵化器项目，为AI模型喂养独立艺术家

Suno近日推出Spark孵化器项目，面向未签约的独立歌手、词曲作者和制作人，提供资助、导师指导和营销支持。参与艺术家需同意将作品在Suno上开放remix，授予Suno广泛许可（含创作衍生作品），同时放弃陪审团审判和集体诉讼权利，并给予Suno有限独家权。项目还包含“Good Vibes Only”保密及不贬损条款，要求参与者推广Suno，不得发表任何负面言论，否则将被移除资格。目前Suno正面临独立艺术家提起的集体诉讼。

多模态行业动态

‹ 上一页

12 3…31