AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
6月12日周五
12:34IT之家(RSS)66阿里云创始人王坚:AI 对科研的影响,与对程序员的冲击逻辑一致
11:00HuggingFace Daily Papers(社区热门论文)58SpatialClaw:重新思考智能体空间推理的动作接口
11:00HuggingFace Daily Papers(社区热门论文)55VideoMDM: Towards 3D Human Motion Generation From 2D Supervision
11:00HuggingFace Daily Papers(社区热门论文)63InterleaveThinker:强化智能体交错生成管线
10:34IT之家(RSS)75精选苹果 iOS 27 健康 App 大改:卡片布局、营养识别、围绝经期追踪
09:27PixVerse72PixVerse Canvas Web版上线,一站式视频制作
08:06karminski-牙医62Google 发布 Diffusion Gemma,支持多模态输入,针对 4090/5090 优化
08:00HuggingFace Daily Papers(社区热门论文)64MVEB:大规模视频嵌入基准
08:00HuggingFace Daily Papers(社区热门论文)43Memento:通过主体重建实现长视频一致性生成
08:00HuggingFace Daily Papers(社区热门论文)53RepFusion:利用多模态先验在表示空间中降噪
08:00HuggingFace Daily Papers(社区热门论文)51ClinHallu:用于诊断医疗MLLM推理中阶段性幻觉的基准测试
08:00HuggingFace Daily Papers(社区热门论文)54LLM 智能体能够查看代码仓库
08:00HuggingFace Daily Papers(社区热门论文)48VISTA:基于视图一致的自验证训练实现GUI定位
08:00HuggingFace Daily Papers(社区热门论文)43OmniVideo-100K:通过结构化脚本和证据链进行视听推理的数据集
07:38🚨 AI News | TestingCatalog58Gemini Omni Flash 即将推出视频生成 API
01:37AYi70QuantMind:量化金融知识处理框架开源(MIT协议)
01:20Logan Kilpatrick81同事件精选Gemini Omni Flash 视频任务达 SOTA同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
00:52TechCrunch:AI(RSS)67Deezer 新工具可识别来自 Spotify、Apple Music 等平台的 AI 音乐
00:26The Decoder:AI News(RSS)57Deezer 免费工具让用户在任意流媒体服务上检测播放列表中的 AI 音乐
6月11日周四
23:44Google DeepMind60DeepMind与Palmeiras合作TacticAI
22:59HuggingFace Daily Papers(社区热门论文)59Reroute:面向视觉语言模型的可恢复视觉Token路由方法
22:52TechCrunch:AI(RSS)54DoorDash 新 AI 聊天机器人 Ask DoorDash 支持通过提示词和照片下单
20:59StepFun52阶跃星辰 Step 3.7 Flash 上线 ZenMux 免费一月
18:59HuggingFace Daily Papers(社区热门论文)67ART:基于艺术强化训练的多模态大语言模型微调方法
17:31IT之家(RSS)54WPS 笔记发布:AI 原生多模态,重新定义个人知识管理
14:52宝玉77同事件精选baoyu-design skill 更新:支持导入 Figma 本地文件重建设计系统同一事件,精选展示《baoyu-design skill 支持导入 Design System 并在新建项目中使用》
14:04Alibaba Cloud26阿里云Qwen和Wan生成墨西哥文化AI视频
13:58HuggingFace Daily Papers(社区热门论文)64Reason, then Re-reason:跨视角回顾提升空间推理
12:21Elon Musk32Grok模拟AOC学经济学视频
10:58HuggingFace Daily Papers(社区热门论文)63World Pilot:用世界动作先验引导视觉-语言-动作模型
10:58HuggingFace Daily Papers(社区热门论文)61世界模型自蒸馏:训练世界模型解决通用任务
10:58HuggingFace Daily Papers(社区热门论文)59InternVideo3:多模态上下文推理增强基础模型的长时序智能体能力
10:30IT之家(RSS)41初探苹果 iOS 27 版备忘录:新增分割线、集成 Siri AI、升级图乐园等
08:00HuggingFace Daily Papers(社区热门论文)40自我进化的视觉提问者(Self-Evolving Visual Questioner)
08:00HuggingFace Daily Papers(社区热门论文)47World Tracing:超越可见面的生成式像素对齐几何表示
08:00HuggingFace Daily Papers(社区热门论文)38研究团队提出V-RAGBench基准与CARVE方法以改进长视频RAG
08:00HuggingFace Daily Papers(社区热门论文)42OmniDirector:无需交叉配对数据的通用多镜头相机克隆框架
08:00HuggingFace Daily Papers(社区热门论文)50Avatar V:扩展视频参考的虚拟人视频生成
06:41Orange AI72Google 发布 Gemini 3.5 Live Translate 实时翻译模型
04:23Simon Willison 博客68DiffusionGemma 发布:Google 开源 26B 参数扩散模型,NVIDIA 免费托管
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月12日
12:34
IT之家(RSS)
66
阿里云创始人王坚:AI 对科研的影响,与对程序员的冲击逻辑一致

2026 第八届北京智源大会上,之江实验室主任、阿里云创始人王坚指出,人工智能对科学研究的影响已发生质变。核心在于 AI 从只能理解文本发展到能理解多模态数据和代码,具备了区分语言文本与代码文本的能力。他认为,AI 改变程序员工作方式后,所有科学数据都会因 AI 被重新理解,科研人员受到冲击的逻辑与程序员一致。

多模态大佬观点
11:00
HuggingFace Daily Papers(社区热门论文)
58
SpatialClaw:重新思考智能体空间推理的动作接口

SpatialClaw 是无需训练的空间推理框架,采用代码作为动作接口,维护预加载输入帧和感知几何原语的状态化 Python 内核,让 VLM 驱动的智能体逐步编写可执行代码单元,灵活组合分析感知结果。在 20 个静态和动态 3D/4D 空间推理基准上平均准确率达 59.9%,比近期空间智能体提升 11.2 个百分点,且在不做基准或模型适配的情况下,在六个 VLM 骨干上均取得一致提升。

智能体多模态推理论文/研究
11:00
HuggingFace Daily Papers(社区热门论文)
55
VideoMDM: Towards 3D Human Motion Generation From 2D Supervision

VideoMDM是一个基于扩散的框架,从单目视频的精确2D姿态训练3D人体运动先验,无需3D真值。它利用预训练的2D-to-3D提升器提供近似3D序列作为噪声教师,经扩散和去噪后重投影到2D并与准确关键点对比以监督训练。理论证明深度加权的2D重投影损失在期望上等价于直接3D监督。在HumanML3D基准上,VideoMDM几乎缩小了与完全3D监督MDM的差距(FID 0.88 vs 0.54);在真实视频数据集Fit3D和NBA上,生成的运动获得人类一致偏好。

多模态视频论文/研究
11:00
HuggingFace Daily Papers(社区热门论文)
63
InterleaveThinker:强化智能体交错生成管线

InterleaveThinker 提出多智能体管线,通过规划智能体组织图像-文本输入序列、批评智能体评估生成结果并修正指令,使任意现有图像生成器具备交错生成能力。构建 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 数据集进行冷启动,并利用 GRPO 在 Interleave-Critic-RL-13k 上强化批评智能体的逐步指令修正。提出 accuracy reward 和 step-wise reward,使单步强化学习有效引导整个生成轨迹。在交错生成基准上性能与 Nano Banana 和 GPT-5 相当;在 4-step FLUX.2-klein 推理基准上,WISE 和 RISE 指标显著提升。

智能体图像生成多模态推理
10:34
IT之家(RSS)
精选75
苹果 iOS 27 健康 App 大改:卡片布局、营养识别、围绝经期追踪

苹果在 iOS 27 中优化健康 App,将列表改为卡片布局并增加导航栏。新增视觉智能营养识别,用户通过相机 Siri 模式拍摄食物可获取加工程度、蛋白质、含糖量等信息及营养价值评级,不提供精确卡路里,需 iPhone 15 Pro 及以上。经期追踪扩展支持围绝经期,可分析长期周期异常模式并推送提醒与指导。Fitness+ 新增围绝经期和绝经期课程。数据同步速度提升,GymKit 扩展至 iPhone,无需 Apple Watch 即可与健身设备配对同步数据。

产品更新多模态端侧

推荐理由:视觉智能营养识别不能给精确卡路里,但那个“深度加工食品”提醒对普通人很实用,健康App这次更新算得上近年最有用了。
09:27
PixVerse@PixVerse_
72
PixVerse Canvas 现已上线 Web--你的 AI 视频制作工作空间。 不再生成片段。 开始制作真正可以交付的视频。 规划、优化、交付,一站式完成。 转推+关注+回复=300积分私信发送(仅72小时)。
产品更新多模态
08:06
karminski-牙医@karminski3
62
Google 发布 Diffusion Gemma,模型大小 26B,激活参数量 4B。与 NVIDIA 合作优化 RTX 4090/5090,5090 每秒可生成 700+ token。支持文本、图片、视频多模态输入。AIME 2026 数学测试达 Gemma4-26B-A4B 的 94%,tau2 bench Agent 测试达 82%。输出质量略逊于传统大模型但速度更快。4bit 量化版本仅需 16GB 显存即可运行。

karminski-牙医: 单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了...

Google多模态推理模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
64
MVEB:大规模视频嵌入基准

MVEB是一个包含23项任务的视频嵌入基准,涵盖分类、零样本分类、聚类、对分类、检索及视频问答。对33个模型的评估显示无单一模型主导:基于MLLM的嵌入在分类、聚类、对分类和问答上领先;多模态绑定方法在检索和零样本分类上领先;缺乏对比适应的生成式MLLM在跨模态任务上崩溃。对比纯视频与音视频评估表明,音频的贡献取决于数据标注来源:标签来自双模态时音频有帮助,仅来自视觉时则有害,差距达6个百分点且跨模型家族一致。MVEB衍生自184项任务的MVEB+池,在降低评估成本的同时保持任务多样性,并集成到MTEB生态系统中。代码和排行榜已开源。

GitHub多模态视频评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
43
Memento:通过主体重建实现长视频一致性生成

长视频生成中,主体在不同镜头、视角和场景切换下容易丢失。Memento 将主体保持视为身份锚定问题,联合训练自回归下一镜头生成与基于记忆的主体重建,利用历史记忆和全局描述恢复外观;双查询记忆机制分别检索长程身份记忆和短上下文关键帧。主体感知的数据流水线通过无代词描述提供重建监督。实验表明 Memento 在长期主体一致性、跨镜头连贯性和视觉质量上达到 SOTA。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
RepFusion:利用多模态先验在表示空间中降噪

RepFusion复用多模态大语言模型(MLLM)作为噪声表示编码器,将其输出作为扩散Transformer的条件信号,用于文本到图像生成的去噪过程。在类似推理预算的对比中,RepFusion优于将同等容量分配给从头初始化的去噪器的基线。实验表明,MLLM为降噪视觉表示提供强先验,通过条件于演化的噪声表示,可以在现代T2I系统中有效利用测试时的重复MLLM计算。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
ClinHallu:用于诊断医疗MLLM推理中阶段性幻觉的基准测试

ClinHallu是一个面向医疗多模态大语言模型(MLLM)的阶段性幻觉诊断基准。该基准包含7031个经过验证的实例,每个实例都带有结构化的推理追踪,分解为视觉识别、知识召回和推理整合三个阶段。通过阶段替换干预,可测量修正特定阶段对最终答案的影响。实验表明,追踪监督微调能减少阶段性的模型幻觉。ClinHallu为诊断和缓解医疗MLLM中的推理故障提供了细粒度的测试平台,并已公开提供。

arXivGitHub多模态数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
54
LLM 智能体能够查看代码仓库

首次系统实证研究视觉仓库表示对基于 LLM 的编码智能体在仓库级问题解决中的作用。评估了四个近期多模态模型。纯视觉设置会降低准确性并增加 token 成本;将仓库结构视觉图作为文本界面的补充模态,可使输入 token 消耗降低最多 26%,同时保持或提升问题解决准确性。可视化在故障定位和智能体自主控制探索深度时最为有效。研究指向一种混合文本与视觉的设计思路,用于下一代编码智能体。

智能体arXiv多模态编码
08:00
HuggingFace Daily Papers(社区热门论文)
48
VISTA:基于视图一致的自验证训练实现GUI定位

将GRPO直接用于GUI定位时,单视图采样会导致困难实例全失败、简单实例全成功,无法产生有效相对优势。VISTA提出GRPO训练框架,从同一GUI实例的多个目标保留视图中构建对比组——每个视图通过裁剪保持目标元素可见并精确重映射边界框。VISTA还引入自验证交叉视图锚点,使用优势加权损失优化Oracle答案,不纳入群组基线。在五个GUI定位基准和多种Qwen骨干上,VISTA一致提升精度:ScreenSpot-Pro上,Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7提升至63.4/65.8/67.0。鲁棒性分析显示更高最差视图准确率和更低预测翻转率。

多模态推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
OmniVideo-100K:通过结构化脚本和证据链进行视听推理的数据集

针对视频-音频问答中跨模态关联薄弱、长程时序连接不足的问题,提出自动数据引擎,包含实体锚定视频脚本化(生成摘要、主实体列表和片段描述)和线索引导QA生成两个机制。基于该流程构建指令微调数据集OmniVideo-100K及人工测试集OmniVideo-Test。在VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B上微调后,OmniVideo-Test性能最高提升20.59%,在Daily-Omni、JointAVBench等基准上最多提升12.64%。

多模态数据/训练视频论文/研究
07:38
🚨 AI News | TestingCatalog@testingcatalog
58
GOOGLE 🔥:Gemini Omni Flash 即将通过 API 提供图像转视频、文本转视频和视频编辑功能! 发布后又更新了吗?👀

Logan Kilpatrick: Gemini Omni Flash is SOTA at image to video, text to video, and video editing : ) Excited to get this to developers in t...

Google产品更新多模态视频
01:37
AYi@AYi_AInotes
70
QuantMind:量化金融知识处理框架开源(MIT协议)

一群AI研究员开源了量化金融知识处理框架QuantMind(MIT协议)。它能将arXiv论文、SEC文件、研报等非结构化内容批量解析为可查询的语义知识图谱,支持多模态解析(表格、公式、图表)及自然语言多跳推理,可替代初级分析师读论文、整理观点等工作。但真正的alpha仍取决于提问质量与验证严谨度。

AYi: http://x.com/i/article/2064536412670562304

GitHub检索增强多模态开源/仓库
01:20
Logan Kilpatrick@OfficialLoganK
同事件精选81
Gemini Omni Flash 在图像到视频、文本到视频和视频编辑方面达到了 SATA : ) 很高兴很快能将这一能力通过 API 提供给开发者!
Google图像生成多模态模型发布
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:视频生成正式进入全模态一体时代,Gemini Omni Flash 把图生视频、文生视频和剪辑整合在一个模型里,API 很快上线,做视频工具的可以提前琢磨对手在哪了。
00:52
TechCrunch:AI(RSS)
67
Deezer 新工具可识别来自 Spotify、Apple Music 等平台的 AI 音乐

Deezer 推出了一款工具,能够扫描 Spotify、Apple Music 及其他平台的播放列表,识别其中由 AI 生成的音乐。

产品更新多模态
00:26
The Decoder:AI News(RSS)
57
Deezer 免费工具让用户在任意流媒体服务上检测播放列表中的 AI 音乐

Deezer 推出一款免费 AI 音乐检测器,用户可在任何主流流媒体平台上检查自己的播放列表中是否混入了 AI 生成的歌曲。

产品更新多模态
6月11日
23:44
Google DeepMind@GoogleDeepMind
60
我们正与@Palmeiras合作,他们是第一家有意义地基于TacticAI构建的足球俱乐部:我们的AI系统可以模拟场上情景并提前最多8秒预测开放比赛动态。⚽
Google多模态行业动态
22:59
HuggingFace Daily Papers(社区热门论文)
59
Reroute:面向视觉语言模型的可恢复视觉Token路由方法

视觉语言模型(VLM)将图像投影为大量视觉token,导致推理时注意力计算与KV缓存开销高昂。现有方法遵循“排序‑移除”范式,但token重要性随解码器深度变化,早期丢弃的token可能在后续层变得关键。Reroute是一种无需训练的可插拔模块,将永久移除替换为可恢复路由:被延迟的token绕过当前解码阶段,在下一路由决策时重新进入候选池。在LLaVA‑1.5与Qwen骨干上对FastV、PDrop和Nüwa变体的实验表明,Reroute在激进token压缩下提升了grounding能力,同时保持通用VQA性能。

多模态推理论文/研究
22:52
TechCrunch:AI(RSS)
54
DoorDash 新 AI 聊天机器人 Ask DoorDash 支持通过提示词和照片下单

DoorDash 推出名为 Ask DoorDash 的 AI 聊天机器人,用户可以用自己的话搜索应用,或通过提示词和照片直接下单,无需逐页浏览餐厅和商店来构建购物车。

产品更新多模态搜索
20:59
StepFun@StepFun_ai
52
阶跃星辰旗下多模态模型 Step 3.7 Flash 现已登陆 AI 平台 ZenMux,提供一个月免费试用。该模型专为快速迭代、编码、文档分析和多语言任务打造,面向开发者开放体验。

ZenMux: Curious how StepFun 3.7 Flash stacks up against the models in your daily workflow? Now's a good time to find out 👀 We'r...

多模态行业动态
18:59
HuggingFace Daily Papers(社区热门论文)
67
ART:基于艺术强化训练的多模态大语言模型微调方法

ART(Art-based Reinforcement Training)是一种参数高效微调方法,通过仅优化冻结多模态大语言模型的原始视觉输入(像素阵列)来注入信息,无需修改预编译计算图,从而可在 vLLM 等高性能推理引擎上以软提示方式运行。ART 支持任意微调目标,优化后的视觉输入可被风格化为计算艺术作品。在开源 Qwen 架构的不同规模模型上,ART 在数学和结构化工具使用基准测试中达到了与 LoRA 相当的准确率。

多模态数据/训练论文/研究
17:31
IT之家(RSS)
54
WPS 笔记发布:AI 原生多模态,重新定义个人知识管理

6月5日,金山办公发布AI原生多模态笔记产品WPS笔记,摒弃传统文件夹,采用多级AI自动标签组织内容。支持语音、图片、文字、网页等录入;语音转写具备AI实时纠正和声纹区分发言人功能,图片可提取公式并支持LaTeX编辑及梯形校正。全域多模态检索可同时搜索文字、图片、音频。内置WPS灵犀助手,能完成整理、摘要、润色、创建任务清单等操作,支持自定义Skill和记忆设置。开放外部MCP接入,允许Cursor、Claude等第三方AI应用直接读取笔记。

MCP/工具多模态教程/实践
14:52
宝玉@dotey
同事件精选77
baoyu-design skill 更新:支持导入 Figma 本地文件重建设计系统

baoyu-design skill 更新,现已支持导入 Figma 本地文件(.fig),可在本地重建设计系统,效果与 Claude Design 在线版一致。该功能依赖 Claude Fable 5 辅助(Token 不够用)。安装后提供 Figma 文件路径即可导入为 Design System,后续新建设计项目可复用。同时支持在新建项目时添加已导入的 Design System,保留了 Claude Design 原始的导入和编译方式,用户可通过提问选择设计系统。安装命令:npx skills add JimLiu/baoyu-design。项目地址:https://github.com/jimliu/baoyu-design。

宝玉: baoyu-design skill 现在支持导入 Design System,以及在新建项目时添加导入的 Design System 比我想的要麻烦的多:https://github.com/JimLiu/baoyu-design/pul...

GitHub多模态开源/仓库
同一事件,精选展示《baoyu-design skill 支持导入 Design System 并在新建项目中使用》
推荐理由:宝玉把 baoyu-design 调教得越来越像 Claude Design 在线版,现在能直接吃 Figma 文件生成设计系统,前端和设计同学可以省掉大量重复劳动。
14:04
Alibaba Cloud@alibaba_cloud
26
阿里云Qwen和Wan生成墨西哥文化AI视频

阿里云发布一段由Qwen和Wan模型生成的AI视频,以墨西哥文化为主题,融合祖先智慧、传统工艺、Mariachi音乐和Zapotec编织艺术,从古老圣地到现代创新枢纽,展现AI如何连接过去与未来。视频旨在展示模型的创意能力,并引导用户通过Model Studio平台使用相关模型进行创作。

多模态行业动态视频
13:58
HuggingFace Daily Papers(社区热门论文)
64
Reason, then Re-reason:跨视角回顾提升空间推理

针对第一人称视频空间推理中观测证据受限的问题,现有单次推理方法依赖语义先验无法解决几何歧义。论文提出无训练推理时框架ReRe:推理阶段MLLM从原始视频形成空间假设;重推理阶段通过观察合成的新视角视频验证或修正假设。采用Geometry-to-Video流水线,从预测3D几何渲染抬高斜视的全景新视角,保留MLLM原生视频接口。在VSI-Bench和STI-Bench上,ReRe显著提升开源MLLM性能,匹敌专有模型最优水平。

多模态推理论文/研究
12:21
Elon Musk@elonmusk
32
《巴比伦蜜蜂》用AI模拟了AOC被迫学习经济学的情景,该视频由Grok制作。

The Babylon Bee: We Asked AI To Simulate What Would Happen If AOC Was Forced To Learn Economics Made with @grok.

xAI产品更新多模态视频
10:58
HuggingFace Daily Papers(社区热门论文)
63
World Pilot:用世界动作先验引导视觉-语言-动作模型

World Pilot 是一种视觉-语言-动作(VLA)框架,通过世界动作模型(WAM)提供场景演进隐变量与预期轨迹两种先验,分别经 Latent Steering 和 Action Steering 注入决策链。在 LIBERO-Plus 零样本 OOD 基准上,总成功率达 84.7%,并在四个真实机器人操作任务中取得最高成功率,在视角、几何、变形状态和位姿变化场景下优势最显著。

具身智能多模态论文/研究
10:58
HuggingFace Daily Papers(社区热门论文)
61
世界模型自蒸馏:训练世界模型解决通用任务

提出结合自蒸馏与强化学习的可扩展框架,激发预训练视频扩散模型(Demonstrator)的任务解决能力。给定未标注场景图像,视觉语言模型(VLM)生成候选任务及详细步骤,条件化Demonstrator生成视频;通过蒸馏将执行知识迁移至仅以图像和简短任务提示为条件的Executor,无需配对任务-视频数据。进一步利用VLM反馈的强化学习优化Executor。在WorldTasks-Benchmark和DreamGen机器人基准上,Executor在VLM评估协议下超越Demonstrator,并有效迁移至机器人任务。

具身智能多模态论文/研究
10:58
HuggingFace Daily Papers(社区热门论文)
59
InternVideo3:多模态上下文推理增强基础模型的长时序智能体能力

InternVideo3框架通过多模态上下文推理(MCR)提升基础模型的长时序多模态任务能力。MCR将理解视为包含观察、指令、推理、工具行动和记忆的闭环过程,将长视频理解为证据积累与验证。为提升效率,引入多模态多头潜在注意力(M²LA),一种保留完整token流同时压缩KV-cache状态的token保持重参数化。训练阶段包括继续预训练、短到长监督微调、基于规则的强化学习和在线蒸馏。InternVideo3在Video-MME、MLVU、EgoSchema等基准上取得强性能,并实例化为带有检索工具的视频智能体,展现基于证据的鲁棒行为。

智能体多模态推理视频
10:30
IT之家(RSS)
41
初探苹果 iOS 27 版备忘录:新增分割线、集成 Siri AI、升级图乐园等

苹果 iOS 27 版备忘录新增分割线格式工具,用户可在编辑菜单中插入。深度整合 Siri AI,支持将回答保存为新笔记或添加到已有笔记,并可整理格式混乱的列表。Markdown 粘贴后自动转换为富文本显示,编辑菜单新增“复制为 Markdown”选项。图乐园底层 AI 模型升级,支持照片级真实风格,生成图像自动嵌入 SynthID 水印;Beta 版尚未完全开放新版能力。应用图标采用 Liquid Glass 设计,共享文件夹列表新增蓝色图标标识。

产品更新多模态
08:00
HuggingFace Daily Papers(社区热门论文)
40
自我进化的视觉提问者(Self-Evolving Visual Questioner)

视觉语言模型通常训练为被动回答者,主动提出多样化、视觉中心问题的能力未被充分探索。本文提出无需外部监督的自我进化框架:VLM自身作为提议者和过滤器,生成更难、信息更丰富、更视觉中心的问题,同时维持探索多样性防止训练崩溃。自产问题用于同时训练VLM的提问者与回答者模式。引入智能体评估协议,从感知、推理与多样性三维度衡量提问质量。实验表明该方法显著提升自主问题生成的质量与难度边界,且自我进化的提问者仍保持甚至增强回答性能。

多模态开源/仓库论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
World Tracing:超越可见面的生成式像素对齐几何表示

World Tracing 是一种生成式像素对齐几何表示,为每个输入像素预测有序的相机空间3D点栈,第一层对应可见表面,后续层表示从前到后的遮挡表面交点。该表示通过世界追踪扩散Transformer(WT-DiT)实例化,将多个几何层视为独立去噪token,经分解注意力和全局注意力耦合。采用像素空间流匹配和混合噪声调度训练,平衡可见表面重建与遮挡几何生成。在目标、场景和动态基准上,World Tracing在可见表面重建和完整几何生成方面均优于深度预测器和图像转3D生成器,并保持2D-3D对应,支持文本驱动的3D场景编辑、几何条件新视角视频合成及与纹理网格生成器的无缝集成。

多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
38
研究团队提出V-RAGBench基准与CARVE方法以改进长视频RAG

针对现有视频RAG基准中查询无需视频即可回答、且采用单一模态-粒度配置的局限,研究者提出V-RAGBench基准,包含(query, evidence chunk, answer)三元组,支持检索与生成的解耦评估;同时提出CARVE方法,通过并行运行多配置检索器并对每个chunk进行自适应重排序,为每个chunk选择最优配置,使生成阶段交织不同配置的证据块。在长视频场景下,CARVE在八个近期VideoRAG基线方法中取得最优结果。

检索增强多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
OmniDirector:无需交叉配对数据的通用多镜头相机克隆框架

从参考视频克隆相机运动是视频生成的重要任务。现有方法依赖参数化表示或合成交叉配对数据,难以处理多镜头生成且数据稀缺。OmniDirector将相机参数编码为网格运动视频作为通用表示,支持多镜头轨迹整合。框架在百万级相机网格-视频对上训练,采用多模态扩散Transformer,协调角色、动作和相机。同时设计层级提示扩展智能体,通过理解信号关系系统描述相机运动和视觉内容,集成不同控制信号。实验证明其在复杂相机运动克隆上性能优越、可控性强。

arXiv多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
Avatar V:扩展视频参考的虚拟人视频生成

Avatar V 是一个生产级框架,通过视频参考条件建模替代静态图像驱动。模型直接对参考视频的完整 token 序列进行注意力计算,同时重现静态身份和动态行为(如说话节奏、微表情)。核心技术包括线性复杂度的稀疏参考注意力、支持闭环风格迁移的运动表示流、继承全参考条件的身份感知超分精炼器。数据引擎从 5000 万原始视频中筛选出 1 亿以上训练片段,经 flow matching 预训练、个性微调、两阶段蒸馏(>10 倍加速)和 RLHF 对齐等五阶段训练,部署于数千 GPU。可生成无限时长 1080p 视频,在跨场景基准上保持最优的身份保留、唇同步和生成质量,全面超越 Seedance 2.0、Kling O3 Pro、Veo 3.1 和 OmniHuman 1.5。

多模态视频论文/研究
06:41
Orange AI@oran_ge
72
Google 推出 Gemini 3.5 Live Translate,支持 70 多种语言边听边译,保留说话人语调、节奏和音高,延迟仅几秒,自动降噪。Google Translate App 新增听筒模式,开发者可通过 API 调用,支持自动语言检测。

小互: 今天被很多人忽略的大新闻 Google 发布实时翻译模型 :Gemini 3.5 Live Translate - 能在70多种语言之间做到边听边译 - 同时保留说话人的语调、节奏和音高 - 不用等说完才翻,全程只比说话人慢几秒 - 自动滤...

Google产品更新多模态语音
04:23
Simon Willison 博客
68
DiffusionGemma 发布:Google 开源 26B 参数扩散模型,NVIDIA 免费托管

Google 将去年 5 月短暂发布的 Gemini Diffusion 研究成果转化为开放权重的 Gemma 模型,模型名为 google/diffusiongemma-26B-A4B-it,采用 Apache 2 许可证开源。NVIDIA 正通过其 NIM 云 API 免费托管该模型。实测生成 2,409 个模型 token 仅需 4.4 秒,速度至少达到 500 token/s。

Google多模态开源生态模型发布
‹ 上一页
1…910111213…50
下一页 ›