AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1237 条
全部一手资讯X论文
标签「多模态」清除
6月11日周四
22:52TechCrunch:AI(RSS)54DoorDash 新 AI 聊天机器人 Ask DoorDash 支持通过提示词和照片下单
18:59HuggingFace Daily Papers(社区热门论文)67ART:基于艺术强化训练的多模态大语言模型微调方法
17:31IT之家(RSS)54WPS 笔记发布:AI 原生多模态,重新定义个人知识管理
13:58HuggingFace Daily Papers(社区热门论文)64Reason, then Re-reason:跨视角回顾提升空间推理
10:58HuggingFace Daily Papers(社区热门论文)63World Pilot:用世界动作先验引导视觉-语言-动作模型
10:58HuggingFace Daily Papers(社区热门论文)61世界模型自蒸馏:训练世界模型解决通用任务
10:58HuggingFace Daily Papers(社区热门论文)59InternVideo3:多模态上下文推理增强基础模型的长时序智能体能力
10:30IT之家(RSS)41初探苹果 iOS 27 版备忘录:新增分割线、集成 Siri AI、升级图乐园等
08:00HuggingFace Daily Papers(社区热门论文)40自我进化的视觉提问者(Self-Evolving Visual Questioner)
08:00HuggingFace Daily Papers(社区热门论文)47World Tracing:超越可见面的生成式像素对齐几何表示
08:00HuggingFace Daily Papers(社区热门论文)38研究团队提出V-RAGBench基准与CARVE方法以改进长视频RAG
08:00HuggingFace Daily Papers(社区热门论文)42OmniDirector:无需交叉配对数据的通用多镜头相机克隆框架
08:00HuggingFace Daily Papers(社区热门论文)50Avatar V:扩展视频参考的虚拟人视频生成
04:23Simon Willison 博客68DiffusionGemma 发布:Google 开源 26B 参数扩散模型,NVIDIA 免费托管
03:22The Decoder:AI News(RSS)56Google 新开源模型 DiffusionGemma:从噪声生成文本,而非逐字逐词
00:00Suno:Blog(网页)68精选Suno 重构音轨分离功能,推出三种拆分方式
6月10日周三
19:24Artificial Intelligence News(RSS)61Siri AI 带着 Google inside 来了,大部分世界被锁定
16:56HuggingFace Daily Papers(社区热门论文)70精选快手开源 Kwai Keye-VL-2.0-30B-A3B:面向长视频理解与智能体智能的 MoE 多模态模型
13:56HuggingFace Daily Papers(社区热门论文)64Lip Forcing:用于实时唇同步的少步自回归扩散方法
12:56HuggingFace Daily Papers(社区热门论文)67WorldOlympiad:视频世界模型三项全能评测基准
12:56HuggingFace Daily Papers(社区热门论文)62Data2Story:将数据转化为可验证多模态故事的数据记者智能体
11:56HuggingFace Daily Papers(社区热门论文)61每项多模态证据仅用一个token:面向资源受限问答的Latent Memory
10:56HuggingFace Daily Papers(社区热门论文)63ARM:统一离散表示的自回归大型多模态模型
09:28IT之家(RSS)50初探苹果 iOS 27 相机应用:打磨界面,整合 Siri AI 技能
09:28IT之家(RSS)42苹果升级 iOS 27 版地图:AI 优化飞行俯瞰植被显示效果、引入本地榜单
08:00HuggingFace Daily Papers(社区热门论文)78同事件精选JoyAI-VL-Interaction:实时视觉-语言交互智能同一事件,精选展示《京东全栈开源JoyAI-VL-Interaction,从“一问一答”走向“边看边说”》
08:00HuggingFace Daily Papers(社区热门论文)37APT:通过动作专家预训练提升视觉-语言-动作策略的语言指令泛化能力
08:00HuggingFace Daily Papers(社区热门论文)61Orchestra-o1:全模态智能体编排框架
08:00HuggingFace Daily Papers(社区热门论文)59从2D网格到1D token:改革多模态图像融合的共享表示
08:00HuggingFace Daily Papers(社区热门论文)56PianoKontext:从平淡上下文中生成富有表现力的演奏
07:27IT之家(RSS)72Anthropic 发布 Claude Fable 5 与 Mythos 5
03:20Ars Technica:AI(RSS)63Google 发布 Gemini 3.5 Live Translate,实现即时语音到语音翻译
02:13TechCrunch:AI(RSS)61WWDC 2026:Siri AI、iOS 27 与 Apple Intelligence 等全揭晓
01:44MarkTechPost(RSS)60Google 发布 Gemini 3.5 Live Translate:覆盖 70+ 语言的流式语音到语音翻译模型
01:38Hacker News 热门(buzzing.cc 中文翻译)81同事件精选Claude Fable 5同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
01:13The Verge:AI(RSS)77Anthropic 发布首个 Mythos 系列模型 Claude Fable 5
01:04xAI:News(网页)65精选Gopuff与SpaceXAI推出Go AI购物助手
01:04Anthropic:Newsroom(网页)90精选Claude Fable 5 和 Claude Mythos 5
00:26IT之家(RSS)81谷歌发布实时语音互译模型 Gemini 3.5 Live Translate,谷歌翻译 App 即用
6月9日周二
22:34Google DeepMind:Blog(RSS)80同事件精选Google DeepMind 发布 Gemma 4 12B:统一的无编码器多模态模型同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月11日
22:52
TechCrunch:AI(RSS)
54
DoorDash 新 AI 聊天机器人 Ask DoorDash 支持通过提示词和照片下单

DoorDash 推出名为 Ask DoorDash 的 AI 聊天机器人,用户可以用自己的话搜索应用,或通过提示词和照片直接下单,无需逐页浏览餐厅和商店来构建购物车。

产品更新多模态搜索
18:59
HuggingFace Daily Papers(社区热门论文)
67
ART:基于艺术强化训练的多模态大语言模型微调方法

ART(Art-based Reinforcement Training)是一种参数高效微调方法,通过仅优化冻结多模态大语言模型的原始视觉输入(像素阵列)来注入信息,无需修改预编译计算图,从而可在 vLLM 等高性能推理引擎上以软提示方式运行。ART 支持任意微调目标,优化后的视觉输入可被风格化为计算艺术作品。在开源 Qwen 架构的不同规模模型上,ART 在数学和结构化工具使用基准测试中达到了与 LoRA 相当的准确率。

多模态数据/训练论文/研究
17:31
IT之家(RSS)
54
WPS 笔记发布:AI 原生多模态,重新定义个人知识管理

6月5日,金山办公发布AI原生多模态笔记产品WPS笔记,摒弃传统文件夹,采用多级AI自动标签组织内容。支持语音、图片、文字、网页等录入;语音转写具备AI实时纠正和声纹区分发言人功能,图片可提取公式并支持LaTeX编辑及梯形校正。全域多模态检索可同时搜索文字、图片、音频。内置WPS灵犀助手,能完成整理、摘要、润色、创建任务清单等操作,支持自定义Skill和记忆设置。开放外部MCP接入,允许Cursor、Claude等第三方AI应用直接读取笔记。

MCP/工具多模态教程/实践
13:58
HuggingFace Daily Papers(社区热门论文)
64
Reason, then Re-reason:跨视角回顾提升空间推理

针对第一人称视频空间推理中观测证据受限的问题,现有单次推理方法依赖语义先验无法解决几何歧义。论文提出无训练推理时框架ReRe:推理阶段MLLM从原始视频形成空间假设;重推理阶段通过观察合成的新视角视频验证或修正假设。采用Geometry-to-Video流水线,从预测3D几何渲染抬高斜视的全景新视角,保留MLLM原生视频接口。在VSI-Bench和STI-Bench上,ReRe显著提升开源MLLM性能,匹敌专有模型最优水平。

多模态推理论文/研究
10:58
HuggingFace Daily Papers(社区热门论文)
63
World Pilot:用世界动作先验引导视觉-语言-动作模型

World Pilot 是一种视觉-语言-动作(VLA)框架,通过世界动作模型(WAM)提供场景演进隐变量与预期轨迹两种先验,分别经 Latent Steering 和 Action Steering 注入决策链。在 LIBERO-Plus 零样本 OOD 基准上,总成功率达 84.7%,并在四个真实机器人操作任务中取得最高成功率,在视角、几何、变形状态和位姿变化场景下优势最显著。

具身智能多模态论文/研究
10:58
HuggingFace Daily Papers(社区热门论文)
61
世界模型自蒸馏:训练世界模型解决通用任务

提出结合自蒸馏与强化学习的可扩展框架,激发预训练视频扩散模型(Demonstrator)的任务解决能力。给定未标注场景图像,视觉语言模型(VLM)生成候选任务及详细步骤,条件化Demonstrator生成视频;通过蒸馏将执行知识迁移至仅以图像和简短任务提示为条件的Executor,无需配对任务-视频数据。进一步利用VLM反馈的强化学习优化Executor。在WorldTasks-Benchmark和DreamGen机器人基准上,Executor在VLM评估协议下超越Demonstrator,并有效迁移至机器人任务。

具身智能多模态论文/研究
10:58
HuggingFace Daily Papers(社区热门论文)
59
InternVideo3:多模态上下文推理增强基础模型的长时序智能体能力

InternVideo3框架通过多模态上下文推理(MCR)提升基础模型的长时序多模态任务能力。MCR将理解视为包含观察、指令、推理、工具行动和记忆的闭环过程,将长视频理解为证据积累与验证。为提升效率,引入多模态多头潜在注意力(M²LA),一种保留完整token流同时压缩KV-cache状态的token保持重参数化。训练阶段包括继续预训练、短到长监督微调、基于规则的强化学习和在线蒸馏。InternVideo3在Video-MME、MLVU、EgoSchema等基准上取得强性能,并实例化为带有检索工具的视频智能体,展现基于证据的鲁棒行为。

智能体多模态推理视频
10:30
IT之家(RSS)
41
初探苹果 iOS 27 版备忘录:新增分割线、集成 Siri AI、升级图乐园等

苹果 iOS 27 版备忘录新增分割线格式工具,用户可在编辑菜单中插入。深度整合 Siri AI,支持将回答保存为新笔记或添加到已有笔记,并可整理格式混乱的列表。Markdown 粘贴后自动转换为富文本显示,编辑菜单新增“复制为 Markdown”选项。图乐园底层 AI 模型升级,支持照片级真实风格,生成图像自动嵌入 SynthID 水印;Beta 版尚未完全开放新版能力。应用图标采用 Liquid Glass 设计,共享文件夹列表新增蓝色图标标识。

产品更新多模态
08:00
HuggingFace Daily Papers(社区热门论文)
40
自我进化的视觉提问者(Self-Evolving Visual Questioner)

视觉语言模型通常训练为被动回答者,主动提出多样化、视觉中心问题的能力未被充分探索。本文提出无需外部监督的自我进化框架:VLM自身作为提议者和过滤器,生成更难、信息更丰富、更视觉中心的问题,同时维持探索多样性防止训练崩溃。自产问题用于同时训练VLM的提问者与回答者模式。引入智能体评估协议,从感知、推理与多样性三维度衡量提问质量。实验表明该方法显著提升自主问题生成的质量与难度边界,且自我进化的提问者仍保持甚至增强回答性能。

多模态开源/仓库论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
World Tracing:超越可见面的生成式像素对齐几何表示

World Tracing 是一种生成式像素对齐几何表示,为每个输入像素预测有序的相机空间3D点栈,第一层对应可见表面,后续层表示从前到后的遮挡表面交点。该表示通过世界追踪扩散Transformer(WT-DiT)实例化,将多个几何层视为独立去噪token,经分解注意力和全局注意力耦合。采用像素空间流匹配和混合噪声调度训练,平衡可见表面重建与遮挡几何生成。在目标、场景和动态基准上,World Tracing在可见表面重建和完整几何生成方面均优于深度预测器和图像转3D生成器,并保持2D-3D对应,支持文本驱动的3D场景编辑、几何条件新视角视频合成及与纹理网格生成器的无缝集成。

多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
38
研究团队提出V-RAGBench基准与CARVE方法以改进长视频RAG

针对现有视频RAG基准中查询无需视频即可回答、且采用单一模态-粒度配置的局限,研究者提出V-RAGBench基准,包含(query, evidence chunk, answer)三元组,支持检索与生成的解耦评估;同时提出CARVE方法,通过并行运行多配置检索器并对每个chunk进行自适应重排序,为每个chunk选择最优配置,使生成阶段交织不同配置的证据块。在长视频场景下,CARVE在八个近期VideoRAG基线方法中取得最优结果。

检索增强多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
42
OmniDirector:无需交叉配对数据的通用多镜头相机克隆框架

从参考视频克隆相机运动是视频生成的重要任务。现有方法依赖参数化表示或合成交叉配对数据,难以处理多镜头生成且数据稀缺。OmniDirector将相机参数编码为网格运动视频作为通用表示,支持多镜头轨迹整合。框架在百万级相机网格-视频对上训练,采用多模态扩散Transformer,协调角色、动作和相机。同时设计层级提示扩展智能体,通过理解信号关系系统描述相机运动和视觉内容,集成不同控制信号。实验证明其在复杂相机运动克隆上性能优越、可控性强。

arXiv多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
Avatar V:扩展视频参考的虚拟人视频生成

Avatar V 是一个生产级框架,通过视频参考条件建模替代静态图像驱动。模型直接对参考视频的完整 token 序列进行注意力计算,同时重现静态身份和动态行为(如说话节奏、微表情)。核心技术包括线性复杂度的稀疏参考注意力、支持闭环风格迁移的运动表示流、继承全参考条件的身份感知超分精炼器。数据引擎从 5000 万原始视频中筛选出 1 亿以上训练片段,经 flow matching 预训练、个性微调、两阶段蒸馏(>10 倍加速)和 RLHF 对齐等五阶段训练,部署于数千 GPU。可生成无限时长 1080p 视频,在跨场景基准上保持最优的身份保留、唇同步和生成质量,全面超越 Seedance 2.0、Kling O3 Pro、Veo 3.1 和 OmniHuman 1.5。

多模态视频论文/研究
04:23
Simon Willison 博客
68
DiffusionGemma 发布:Google 开源 26B 参数扩散模型,NVIDIA 免费托管

Google 将去年 5 月短暂发布的 Gemini Diffusion 研究成果转化为开放权重的 Gemma 模型,模型名为 google/diffusiongemma-26B-A4B-it,采用 Apache 2 许可证开源。NVIDIA 正通过其 NIM 云 API 免费托管该模型。实测生成 2,409 个模型 token 仅需 4.4 秒,速度至少达到 500 token/s。

Google多模态开源生态模型发布
03:22
The Decoder:AI News(RSS)
56
Google 新开源模型 DiffusionGemma:从噪声生成文本,而非逐字逐词

Google 发布 260 亿参数的 DiffusionGemma 模型,文本生成方式不再逐 token 预测,而是通过扩散过程从噪声直接生成,类似图像 AI 将噪声转化为图片。Nvidia 测试显示,该模型在单块 H100 GPU 上可达约每秒 1,000 tokens,速度约为可比自回归模型的四倍。代价是输出质量较低,因此 Google 目前将其定位为面向开发者的实验性工具。模型已开源。

Google多模态开源生态模型发布
00:00
Suno:Blog(网页)
精选68
Suno 重构音轨分离功能,推出三种拆分方式

Suno 对音轨分离功能进行重构,推出三种拆分方式:Auto Split 将歌曲自动拆分为最多 12 个音轨(鼓、贝斯、吉他等);Split from Mix 可隔离或移除特定乐器/人声并生成伴奏轨道;Advanced Split(仅 Premier 订阅)支持从近 100 种乐器中精确提取目标音轨。与常规切割算法不同,Suno 使用最新模型从零重新生成每个音轨,而非从混音中切割,以消除串音和音质损失。该功能适用于 Pro 和 Premier 订阅用户,可用于 Suno 创作或上传的音乐。

产品更新多模态

推荐理由:Suno 重写了 stem separation,不再是旧路子切音频,而是用模型重新生成干净的干声,鼓点有劲、人声没杂音,还能拆上百种乐器,做混音的人可以试试。
6月10日
19:24
Artificial Intelligence News(RSS)
61
Siri AI 带着 Google inside 来了,大部分世界被锁定

Apple 在 WWDC 2026 上正式推出 Siri AI,其内部集成了 Google 技术。然而,该 AI 服务的可用性受到严格限制,大部分地区的用户无法使用。Apple 操作系统项目管理副总裁 Stacey Ford 在介绍 Spotlight 时提及了搜索体验的痛点,这一发布标志着 Apple 在 AI 领域的重要进展,但全球覆盖的缺失成为显著争议点。

Google产品更新多模态
16:56
HuggingFace Daily Papers(社区热门论文)
精选70
快手开源 Kwai Keye-VL-2.0-30B-A3B:面向长视频理解与智能体智能的 MoE 多模态模型

快手开源 Kwai Keye-VL-2.0-30B-A3B,一个 MoE 多模态基础模型,激活仅 3B 参数,专为长视频理解和智能体智能设计。模型首次将 DeepSeek Sparse Attention (DSA) 适配到 GQA 多模态架构,实现无损 256K 上下文处理,并通过可扩展视频 I/O、异构 ViT-LM 并行及自定义 DSA 内核优化吞吐与计算开销。引入跨模态多教师在策略蒸馏(MOPD)结合 Context-RL 和 Video-RL,缓解多任务对齐中的灾难性遗忘,原生支持代码、工具、搜索场景下的多智能体协作与多模态自纠正。在 TimeLens、Video-MME-v2、LongVideoBench 等多个基准上达到同类规模 SOTA,模型权重已开源。

智能体多模态视频论文/研究

推荐理由:Keye-VL-2.0 把长视频理解推到 256K 上下文,还用了 DeepSeek 的稀疏注意力,这是目前我能找到的对长短视频最兼顾的多模态模型,做视频 agent 的该看看。
13:56
HuggingFace Daily Papers(社区热门论文)
64
Lip Forcing:用于实时唇同步的少步自回归扩散方法

Lip Forcing提出了自回归扩散方法用于视频到视频唇同步,从14B参数的音频条件双向视频扩散教师模型蒸馏出因果学生模型。推理时每个块仅需两步去噪,无需CFG,实现实时流式处理。技术分析揭示CFG的保真度-同步权衡,进而衍生出Sync-Window DMD、两步推理调度和基于SyncNet的奖励三项组件。1.3B学生模型在31 FPS下实时输出,比同规模双向模型快17.6倍;14B学生模型是目前最大的V2V唇同步扩散模型,比教师快39.8倍,保真度接近。首帧时延均小于1毫秒。

多模态视频论文/研究
12:56
HuggingFace Daily Papers(社区热门论文)
67
WorldOlympiad:视频世界模型三项全能评测基准

WorldOlympiad 将视频世界模型评估分解为物理、几何和交互三个维度。物理轨道用物体分割和 MLLM-as-judge 检验视频对力学、热现象、材料属性等规则的遵循;几何轨道以高斯泼溅重建评估结构一致性、跨视角连贯性与相机轨迹对齐;交互轨道评测模型能否按复杂动作提示生成连贯长程视频。基准覆盖游戏、机器人和通用真实视频三大场景。实验表明,当前最先进模型在物理推理、3D 一致性和长程交互上存在显著差距。

arXiv具身智能多模态视频
12:56
HuggingFace Daily Papers(社区热门论文)
62
Data2Story:将数据转化为可验证多模态故事的数据记者智能体

Data2Story是一个多智能体框架,将数据记者工作流中的多种专业角色编排成虚拟新闻编辑室。其两项创新是:每个声明通过Inspector链接到数据、代码或外部参考,实现基于证据的归因;文章可多模态生成,如为地理内容生成交互式地图、为音乐生成音频。在18篇文章上的评估从四个维度进行:人与智能体的角度覆盖、53名参与者的评分、计算机使用智能体作为读者导航代理、以及可验证性(代码验证器重新执行语句并与参考对照)。Data2Story产出有竞争力且证据可追溯的多媒体故事,在透明度和可审计性上表现突出,但人类文章在编辑角度、创意设计和呈现上仍具优势。框架定位为记者协作者,代码和演示已公开。

智能体多模态论文/研究
11:56
HuggingFace Daily Papers(社区热门论文)
61
每项多模态证据仅用一个token:面向资源受限问答的Latent Memory

Latent Memory提出一种潜在空间记忆范式,由小型压缩器LLM/VLM将每个原始文本或图像证据压缩为单个高维潜在token。查询时,将查询嵌入同一空间检索相关token并直接输入预训练LLM/VLM生成答案。通过统一端到端训练,结合重建、对比和蒸馏目标,使单个token同时携带重建、检索和生成信息。在HotpotQA等七个纯文本QA基准和多项多模态QA基准上,Latent Memory取得与先进RAG基线相当的问答性能,同时生成器token消耗减少3至10倍,并在WebQA上达到图像问答最强性能。代码已公开。

arXiv检索增强多模态论文/研究
10:56
HuggingFace Daily Papers(社区热门论文)
63
ARM:统一离散表示的自回归大型多模态模型

ARM是一种基于离散表示的自回归模型,将图像理解、生成与编辑统一在下一个token预测框架中。首先训练离散语义视觉tokenizer,通过多目标监督实现语义判别、语言对齐与忠实重建;然后在文本与图像token序列上训练7B自回归模型,自然融合视觉语言感知与生成能力;最后用强化学习优化文本到图像生成与指令引导编辑的偏好对齐,使WISE整体得分从0.50提升至0.56,GEdit-Bench-EN的G_O评分从5.75提升至6.68,并观察到跨任务协同效果。

arXiv图像生成多模态论文/研究
09:28
IT之家(RSS)
50
初探苹果 iOS 27 相机应用:打磨界面,整合 Siri AI 技能

iOS 27 相机应用更新幅度不大,主要对 iOS 26 重构后的界面进行补充修饰。核心元素位置不变,当前模式居中,默认突出“照片”,左右提示“视频”和“人像”。设置抽屉移至右下角,面板统一从底部弹出;视频设置从顶部移到底部;照片模式新增景深、格式、水平仪、网格线等入口。真正新功能是相机内整合 Siri Mode,基于 Visual Intelligence,用户拍下目标后直接提问,Siri 按画面内容回答,官方用例包括分摊账单和记录饮食摄入。

产品更新多模态端侧
09:28
IT之家(RSS)
42
苹果升级 iOS 27 版地图:AI 优化飞行俯瞰植被显示效果、引入本地榜单

iOS 27 版 Apple 地图升级“飞行俯瞰”功能,结合 AI 与航拍图像优化植被 3D 显示效果,树木枝干层次更丰富,目前仅纽约、伦敦等部分城市可用。同时引入“本地榜单”(Local Lists)功能,基于地图交互数据统计区域内最受欢迎餐厅,展示列表、营业时间、价格区间和菜品图片,用户可添加标记,基于隐私数据不关联个人,功能先在美国落地。

产品更新多模态
08:00
HuggingFace Daily Papers(社区热门论文)
同事件精选78
JoyAI-VL-Interaction:实时视觉-语言交互智能

JoyAI-VL-Interaction是一个8B参数的视觉优先交互模型,能像人一样持续观察实时画面,自主决定每秒钟保持沉默、回应或将复杂问题委托给后台模型。模型擅长视觉触发响应和时间感知,并涌现出引导用户切换屏幕、根据幻灯片即兴讲解等未专门训练的能力。配合完整可部署系统,支持实时视频流输入、可插拔ASR/TTS模块、记忆、可视化UI及可连接任意API或智能体的后台大脑。在六个真实场景中,人类评估者更偏好该模型而非豆包和Gemini的应用内视频通话助手。这是首个开源且附带训练配方、数据和完整部署系统的视觉驱动交互模型。

智能体多模态模型发布
同一事件,精选展示《京东全栈开源JoyAI-VL-Interaction,从"一问一答"走向"边看边说"》
推荐理由:这是首次把视觉主动交互能力做成开源模型和完整系统,模型不再等问题才回答,而是自己决定何时开口或保持沉默,对做实时助手和直播产品的团队有直接参考价值。
08:00
HuggingFace Daily Papers(社区热门论文)
37
APT:通过动作专家预训练提升视觉-语言-动作策略的语言指令泛化能力

视觉-语言-动作(VLA)模型将预训练VLM与连续动作专家结合,但在分布外语言指令上泛化差——原因是数据中语言多样性低且动作专家随机初始化导致梯度噪声削弱VLM。APT从贝叶斯视角将策略分解为语言无关的视觉-动作(VA)先验和语言条件VLA似然,采用两阶段训练:阶段1冻结VLM,在视觉-动作对上预训练动作专家作为VA先验;阶段2通过门控融合注入语言token,保留已学习的视觉运动先验。APT适用于π和GR00T风格架构,在未见指令和组合任务上实现一致提升。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
Orchestra-o1:全模态智能体编排框架

Orchestra-o1是一种全模态智能体编排框架,支持文本、图像、音频和视频等多模态输入的统一理解与协调。其引入统一编排机制,实现模态感知的任务分解、在线子智能体专化及并行子任务执行。在OmniGAIA基准上,Orchestra-o1超越第二名10.3%的准确率。研究还提出决策对齐的组相对策略优化(DA-GRPO),一种高效智能体强化学习方法,用于训练Orchestra-o1-8B,该模型在所有现有开源全模态智能体中达到最优性能。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
从2D网格到1D token:改革多模态图像融合的共享表示

多模态图像融合现有方法基于2D特征网格,局部建模强但全局外观控制有限。本文引入紧凑1D token接口,基于冻结预训练图像tokenizer作为全局载体,同时保留2D空间路径恢复局部结构。提出选择性token编辑(STE),稀疏更新或替换关键token,在不改变融合主干、不引入额外损失下引导全局一致性。在四个基准上取得最佳整体性能,全局一致性和局部保真度均提升。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
PianoKontext:从平淡上下文中生成富有表现力的演奏

PianoKontext 是一种流匹配渲染模型,专为古典钢琴音乐设计,在预训练 Music2Latent 模型的潜在空间中生成可变长度的富有表现力演奏。该方法将 MIDI 乐谱合成为平淡音频,利用动态时间规整(DTW)在潜在空间中对齐乐谱与演奏数据,并将对齐的嵌入拼接至 DiT 块中,以简单有效的方式学习乐谱与演奏之间的依赖关系。演示音频见项目页面。

多模态论文/研究
07:27
IT之家(RSS)
72
Anthropic 发布 Claude Fable 5 与 Mythos 5

Anthropic 于 6 月 9 日推出 Claude Fable 5 和 Mythos 5。Fable 5 面向普通用户,是目前公开最强的 Claude 模型,在软件工程、知识工作、视觉、科学研究等领域优于 Opus,自主运行时间更长。Mythos 5 通过 Project Glasswing 向网络安全防御方和基础设施提供商开放,具备全球最强网络安全能力,并在药物设计、分子生物学和基因组学中表现突出。两款模型本质相同,仅安全护栏不同。Fable 5 采用新分类器拦截网络安全、生物化学和蒸馏请求,命中后转由 Claude Opus 4.8 响应。定价均为每百万输入 10 美元、每百万输出 50 美元。Fable 5 已全面上线,Mythos 5 暂限 Glasswing 合作伙伴及少量生物研究者。

Anthropic多模态推理模型发布
关联讨论 30 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)公众号:卡尔的AI沃茨X:歸藏 (@op7418)X:Berry Xia (@berryxia)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
03:20
Ars Technica:AI(RSS)
63
Google 发布 Gemini 3.5 Live Translate,实现即时语音到语音翻译

Gemini 3.5 Live Translate 提供即时语音到语音翻译,能够保留说话者的语调、节奏和音高,并通过 SynthID 水印确保安全性。

Google多模态模型发布语音
02:13
TechCrunch:AI(RSS)
61
WWDC 2026:Siri AI、iOS 27 与 Apple Intelligence 等全揭晓

苹果在 WWDC 2026 上重点展示了其长期以来的 Siri 助手改进体验,并宣布了 iOS 27 和 Apple Intelligence 等多项更新,所有 announcement 均大量融入 AI 技术。

产品更新多模态语音
01:44
MarkTechPost(RSS)
60
Google 发布 Gemini 3.5 Live Translate:覆盖 70+ 语言的流式语音到语音翻译模型

Gemini 3.5 Live Translate 是一款流式语音到语音翻译模型,支持 70 多种语言。它会持续生成音频,仅落后说话人几秒。该模型通过 Gemini Live API、Google Meet 和翻译应用向开发者开放。

Google多模态模型发布语音
01:38
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选81
Claude Fable 5

Claude Fable 5 登上 Hacker News 热门,获得 158 个赞同,源页面为 Anthropic 官网。

Anthropic多模态安全/对齐推理
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
推荐理由:Anthropic 的 Mythos 系列首款公开发行模型,编码和科学推理能力在多个基准上超越 GPT-5.5,虽然安全分类器导致 5% 会话降级到 Opus 4.8,但价格大幅降低,是当前最强的可用模型之一。
01:13
The Verge:AI(RSS)
77
Anthropic 发布首个 Mythos 系列模型 Claude Fable 5

Anthropic 发布 Claude Fable 5,称其为迄今广泛可用的最强模型。该模型在软件工程、知识工作与视觉任务中表现突出,且随着任务变长、变复杂,领先优势进一步扩大。Fable 5 是 Anthropic 首次大规模发布的 Mythos 类 AI 模型,此前该公司因该类模型在网络安全任务中能力过强、风险过高而未公开。此次发布得益于新增的安全措施,可在特定高风险领域阻止模型生成响应。

Anthropic多模态推理模型发布
关联讨论 30 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)公众号:卡尔的AI沃茨X:歸藏 (@op7418)X:Berry Xia (@berryxia)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
01:04
xAI:News(网页)
精选65
Gopuff与SpaceXAI推出Go AI购物助手

Gopuff与SpaceXAI合作推出Go智能购物助手,内置于Gopuff应用,由Grok文本、音频和图像模型驱动。Go结合Grok的推理、语音和图像生成能力与Gopuff的13年需求智能,利用X和网络实时信号。它可在用户打开应用前根据历史偏好和天气等信号构建个性化购物车,并包含基于Grok Imagine的超逼真视觉购物信息流。Go目前在美国iOS和Android端可用,随后在英国推出。

智能体xAI产品更新多模态

推荐理由:Gopuff加SpaceXAI的组合给即时零售塞了个挺实在的AI购物助手,预判需求比我自己翻分类流畅,本地生活类工具团队该把它当个落地样本。
01:04
Anthropic:Newsroom(网页)
精选90
Claude Fable 5 和 Claude Mythos 5

Anthropic 今日推出 Claude Fable 5(通用安全版)和 Claude Mythos 5(受限安全版)。Fable 5 在软件工程、知识工作、视觉、科研等几乎所有测试基准上达到 SOTA,Stripe 称其将数月工程压缩至数天,FrontierCode 评分居前沿模型之首,可仅凭截图重建网页应用源码。Mythos 5 在药物设计中实现约 10 倍加速,其分子生物学假说盲测获科学家偏好的概率约 80%。两模型售价均为 $10/百万输入 tokens、$50/百万输出 tokens,较 Claude Mythos Preview 降价过半。Fable 5 在部分敏感主题上回退至 Claude Opus 4.8,安全触发率低于 5% 的会话。Mythos 5 通过 Project Glasswing 向网络安全防御者开放。

Anthropic多模态安全/对齐模型发布
关联讨论 30 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)公众号:卡尔的AI沃茨X:歸藏 (@op7418)X:Berry Xia (@berryxia)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
推荐理由:Anthropic把最危险的模型安全地放出来了,Fable 5在编码、科研上不是小数点级别的提升,价格还砍半,95%的请求直接跑满血版,必读。
00:26
IT之家(RSS)
81
谷歌发布实时语音互译模型 Gemini 3.5 Live Translate,谷歌翻译 App 即用

谷歌发布实时语音互译音频模型 Gemini 3.5 Live Translate,可自动识别 70 多种语言并保留说话者的语调、语速和音高。该模型连续生成语音,在提升翻译质量与跟上说话者节奏间取得平衡,全程仅慢几秒。开发者即日起可通过 Gemini Live API 和 Google AI Studio 使用公开预览版;企业客户本月起可在 Google Meet 中使用私有预览版;普通用户通过 Android 和 iOS 版谷歌翻译即可使用。Android 用户还将获得“聆听模式”,可将手机贴耳通过听筒收听翻译音频。

Google多模态模型发布语音
关联讨论 18 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)X:Berry Xia (@berryxia)X:Jeff Dean (@JeffDean)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Rohan Paul (@rohanpaul_ai)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
6月9日
22:34
Google DeepMind:Blog(RSS)
同事件精选80
Google DeepMind 发布 Gemma 4 12B:统一的无编码器多模态模型

Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型,采用无编码器统一架构,原生支持音频输入。其基准测试性能接近 26B MoE 模型,但内存占用不到一半,仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测(MTP)drafter 以降低延迟,基于 Apache 2.0 开源许可发布,已累计超过 1.5 亿次下载。

Google多模态开源/仓库推理
同一事件,精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》
推荐理由:统一无编码器架构让 12B 模型在消费级笔记本上跑出接近 26B 的多模态 Agent 体验,开源 + Apache 2.0,本地部署门槛又压低了。
‹ 上一页
1…56789…31
下一页 ›