AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
5月15日周五
06:32Chubby♨️58Tavus推出Image-to-Replica:单图像生成AI虚拟人
02:31Chubby♨️63实测Higgsfield Supercomputer:用自然语言驱动多模型并行的AI生产力平台
01:39🚨 AI News | TestingCatalog62谷歌I/O前悄然更新Gemini移动端体验
5月14日周四
23:58Suno61Suno应用更新亮点
21:33AK57MulTaBench:多模态表格学习基准
19:02Alibaba Cloud36HappyHorse限时促销开启 享AI影音创作八折
17:40IT之家(RSS)41不联网也能 AI 调色照片,OPPO 发布行业首个端侧 AIGC 光影处理引擎
16:45The Decoder:AI News(RSS)64Microsoft 的 Edge Copilot 现可一次性读取所有打开的标签页,并为你撰写 LinkedIn 内容
15:40IT之家(RSS)25看到科技推出 Meeting Pro 2 视频会议一体机:支持 360 度实时采集人像,9899 元
14:58PixVerse52PixVerse V6 革新AI生成,模糊电影摄影边界
13:44SenseTime40SenseNova U1 在ComfyUI测试中获Bijan Bowany高度认可
11:56向阳乔木64Get笔记会员超值,支持多平台链接解读与集成
11:53CMU:Machine Learning Blog63精选教视觉-语言模型说"电影语言"
11:45HuggingFace Daily Papers(社区热门论文)53高效训练长上下文视觉语言模型及其超越128K的泛化能力
11:26向阳乔木49第三方AI客户端暂缺音视频解析功能与豆包全模态模型升级
10:45HuggingFace Daily Papers(社区热门论文)62Edit-Compass与EditReward-Compass:图像编辑与奖励建模的统一评估基准
10:45HuggingFace Daily Papers(社区热门论文)62AnyFlow:基于在线策略流图蒸馏的任意步数视频扩散模型
09:51Berryxia.AI56Gemini 3.2 Pro与Flash发布在即,案例重复引不满
09:40IT之家(RSS)67雷军谈小米自动驾驶模型 Xiaomi OneVL:业内率先通过潜空间推理将 VLA、世界模型统一到一套框架
08:51ginobefun72使用Claude进行计算机和浏览器操作的最佳实践
08:00HuggingFace Daily Papers(社区热门论文)48Video2GUI:为通用GUI智能体预训练合成大规模交互轨迹
08:00HuggingFace Daily Papers(社区热门论文)48通过原子实体分析评估图像编辑中的抽象意图
08:00HuggingFace Daily Papers(社区热门论文)50AuralSAM2:通过金字塔音视频特征提示赋能SAM2倾听
08:00HuggingFace Daily Papers(社区热门论文)55PhysBrain 1.0 技术报告
08:00HuggingFace Daily Papers(社区热门论文)49从计划到像素:学习规划与协调的开放式图像编辑
08:00HuggingFace Daily Papers(社区热门论文)50InsightTok:提升自回归图像生成中文本与人脸保真度的离散标记化框架
08:00HuggingFace Daily Papers(社区热门论文)57MMSkills:面向通用视觉智能体的多模态技能框架
02:34MiniMax (official)48MiniMax亮相新加坡AI工程师大会
01:02Runway:News(网页)76精选Introducing Runway Agent
00:25Runway65Runway Agent上线:对话生成完整视频
00:25向阳乔木64Knowly解读视频与论文效果惊艳,实力获谷歌认可
00:13The Decoder:AI News(RSS)62Luma 开放 Uni-1.1 图像模型 API,价格与质量对标 OpenAI 和 Google
5月13日周三
23:39IT之家(RSS)50谷歌 Gboard 输入法新增 Gemini 驱动听写功能,可识别一句话中的多种语言
21:44HuggingFace Daily Papers(社区热门论文)53UniPath:面向统一多模态推理的理解与生成自适应协调框架
20:39IT之家(RSS)61大版本来袭:第一代小米 SU7 汽车 OTA 1.16 开推,新增语音控车、疲劳分心下应急停车辅助功能等
17:39IT之家(RSS)69小米开源 Xiaomi OneVL 自动驾驶模型,业内率先实现 VLA、世界模型等多技术路线统一
16:39IT之家(RSS)41搭载 Android XR 系统,消息称三星 Galaxy 智能眼镜将于 7 月发布
15:39IT之家(RSS)61谷歌安卓桌面版重构鼠标光标交互,让 AI 听懂"这个 / 那个"比划
14:43SenseTime72精选SenseNova-U1 技术报告深度发布:前沿原生多模态模型构建全指南
14:39IT之家(RSS)33抢跑苹果 iPhone Ultra,消息称三星 7 月 22 日发布宽折叠 Galaxy Z Fold8 Wide 手机
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月15日
06:32
Chubby♨️@kimmonismus
58
Tavus的Image-to-Replica技术突破了创建逼真AI虚拟人需依赖视频素材的限制。该技术仅需单张图像,如logo吉祥物、AI生成角色或草图,即可通过Phoenix-4管道处理,生成能进行真实对话的AI虚拟人。这意味着任何以单图像形式存在的面孔,包括品牌吉祥物、历史人物或AI设计角色,现在都能以虚拟形象实现互动,推动了AI虚拟人技术的实用化发展。

Tavus: Introducing Image-to-Replica. Any face that can exist as a single image, whether it's a brand mascot that has lived in a...

产品更新图像生成多模态
02:31
Chubby♨️@kimmonismus
63
实测Higgsfield Supercomputer:用自然语言驱动多模型并行的AI生产力平台

Higgsfield的Supercomputer平台允许用户以自然语言描述任务,系统从61种生产技能中自动选取,并将子任务路由至GPT-4o、Claude Opus、Gemini及多种图像视频模型并行处理。它能生成长达60分钟的视频,原生集成Obsidian构建持久化知识库,并通过27个平台连接器连接各类工具。平台运行于云端GPU基础设施,支持品牌标识锁定和后台任务调度。其技能在使用中通过版本追踪和评估测试不断自我改进,用户可通过浏览器或Telegram直接访问,无需本地设置。

Higgsfield AI 🧩: How Supercomputer works: 1. Access via browser or Telegram. No local setup 2. Describe your task 3. Orchestrates LLMs an...

智能体多模态视频评测/基准
01:39
🚨 AI News | TestingCatalog@testingcatalog
62
Google在Google I/O大会前正悄然为其移动应用推出更新的Gemini体验。 其Gemini Live更新后的用户界面采用交互式"栏"或动态岛设计,可响应点击并回波动画。 预计很快将获得大量超级功能 👀
Google产品更新多模态
5月14日
23:58
Suno@suno
61
Suno应用刚刚焕然一新。 过去几周我们进行了一些更新。 以下是我们喜爱的部分亮点 🧵
产品更新多模态
21:33
AK@_akhaliq
57
MulTaBench 基于文本和图像的多模态表格学习基准测试
多模态论文/研究
19:02
Alibaba Cloud@alibaba_cloud
36
HappyHorse 促销活动现已上线!🐎✨ 我们的官方促销页面已正式开放。 限时享受八折优惠! 创建带同步音频的电影级AI视觉效果--专为广告、电商和社交媒体优化。 🚀 加入促销活动:https://int.alibabacloud.com/m/1000412936/
产品更新图像生成多模态
17:40
IT之家(RSS)
41
不联网也能 AI 调色照片,OPPO 发布行业首个端侧 AIGC 光影处理引擎

在联发科天玑开发者大会 MDDC 2026 上,OPPO 发布了行业首个端侧 AIGC 光影处理引擎。该引擎基于自研 DiT 架构生成式大模型,用户无需联网即可在手机本地优化暗光、逆光等复杂光线下的照片,还原自然光影,效果接近云端模型水平。大会同期还展示了多项端侧 AI 技术:AI 翻译出词速率达每秒 300 个词元;端侧全模态 Omni 模型支持视频、语音、文本多模态输入与实时交互;手机超级助手“小布 Claw”能基于本地数据提供个性化 AI 内容生成与建议,确保数据隐私安全。

产品更新多模态端侧
16:45
The Decoder:AI News(RSS)
64
Microsoft 的 Edge Copilot 现可一次性读取所有打开的标签页,并为你撰写 LinkedIn 内容

微软升级了 Edge 浏览器的 Copilot AI 助手,新增多项功能。Copilot 现在能一次性读取所有已打开的浏览器标签页内容,并基于这些信息进行产品比较或文章总结。此次更新还引入了长期记忆能力、将标签页内容转换为 AI 播客的工具,以及问答测验模式。这些增强功能旨在提升用户在多任务浏览和信息处理时的效率,并拓展了在 LinkedIn 等平台的内容创作辅助场景。

Microsoft产品更新多模态
15:40
IT之家(RSS)
25
看到科技推出 Meeting Pro 2 视频会议一体机:支持 360 度实时采集人像,9899 元

看到科技发布Meeting Pro 2视频会议一体机,定价9899元。该设备支持4K分辨率与HDR影像,具备360度实时人像采集功能,并利用AI人脸与语音算法追踪发言者。其内置智能导播可根据参会人数自动切换视窗,最多支持8人同屏显示。设备集成8麦克风阵列与AI降噪技术,能生成20多种语言的实时字幕、会议纪要和内容回溯。产品兼容全球主流会议平台。

产品更新多模态端侧
14:58
PixVerse@PixVerse_
52
PixVerse V6 的发布旨在让AI生成视频中的动态、音效、镜头行为与物理冲击感高度统一,使其如同存在于同一个真实的物理世界。该版本引入了原生音频、定向电影摄影技术和逼真的物理模拟,显著提升了动作、冲击、镜头行为与环境反应的拟真度与沉浸感。这一进展正开始模糊AI生成内容与真实电影摄影之间的界限,将AI动作场景的生成质量推向了全新的层级。

Gilbert Odera | Your AI Plug🇰🇪: PixVerse V6 is starting to blur the line between AI generation and real cinematography. Native Audio. Directional Cinema...

产品更新多模态视频
13:44
SenseTime@SenseTime_AI
40
SenseNova U1 在ComfyUI测试中获Bijan Bowany高度认可

SenseNova U1 在 ComfyUI 上的实际测试获得了 Bijan Bowany 的强烈认可,证明了其处理复杂任务的能力。测试显示,模型能清晰呈现复杂概念的视觉内容,在交织文本图像中保持逻辑连贯和自我反思,并能轻松应对如人类变直升机等疯狂提示。视频演示和试用资源可通过 Hugging Face 和 GitHub 获取。

图像生成多模态行业动态
11:56
向阳乔木@vista8
64
Get笔记会员超值,支持多平台链接解读与集成

Get笔记的价值被严重低估,其会员年费仅99元,性价比极高。核心功能在于用户只需提供链接,即可解读来自小宇宙、B站、抖音、YouTube、TikTok等多个平台的内容,并能获取原始转写文本。此外,它还通过提供Skill和Cli工具,允许用户将Codex分析功能接入自己的网站,实现了服务的深度集成与扩展。

MCP/工具多模态评测/基准
11:53
CMU:Machine Learning Blog
精选63
教视觉-语言模型说"电影语言"

研究团队与百余名专业创作者历时一年,构建了一个视频描述生成流程,其核心在于扩展精细化的人类-AI协同监督,而非单纯扩大模型规模。该研究(入选CVPR 2026亮点论文)指出,当前主流视频生成模型在理解和生成具有电影感的专业运镜(如希区柯克式滑动变焦、精确的焦点转移或荷兰角镜头)时存在明显不足,常产出通用或焦点错误的画面。这项工作揭示了一条通过提升监督质量来增强模型“电影语言”表达能力的新路径。

多模态视频论文/研究

推荐理由:这篇CVPR 2026 Highlight的博客版很有意思,它用100多个专业电影人来标注视频,教VLM学会推拉摇移的镜头语言,不是又多一个数据集,而是提醒我们:高质量的人工标注可能比堆模型更重要。
11:45
HuggingFace Daily Papers(社区热门论文)
53
高效训练长上下文视觉语言模型及其超越128K的泛化能力

本研究系统性地探索了长上下文视觉语言模型的持续预训练方法,成功将7B参数模型的上下文长度从32K扩展至128K。关键发现包括:长文档视觉问答数据优于OCR转录;均衡的序列长度分布数据比仅聚焦目标长度的数据更有效;检索能力是主要瓶颈,需搭配检索密集型数据。基于此,团队以仅50亿token的预算,从Qwen2.5-VL-7B训练出MMProLong模型。该模型将长文档视觉问答得分提升7.1%,并在未经额外训练的情况下,在256K和512K的上下文长度上保持强劲性能,同时能泛化应用于网页检索、长文本压缩及长视频理解等任务。

多模态开源生态数据/训练论文/研究
11:26
向阳乔木@vista8
49
用户认为某模型表现不错,但指出当前多数第三方AI Chat客户端(如CherryStuido、Chatwise)尚不支持音视频上传解析功能。同时,豆包大模型的Doubao-Seed-2.0-lite 0428版本已完成重要升级,新增音频理解能力,成为其家族首款支持图片、视频、音频、文本四种输入的全模态理解模型,且Agent、Coding和GUI能力据称也有显著提升。

向阳乔木: 前段时间参与了 Doubao-Seed-2.0-lite 0428 内测。 这个版本升级,增加了音频理解,能同时支持图片、视频、音频、文本四种输入,成为豆包大模型家族首款全模态理解模型。 除了全模态理解,据说 Agent、Coding、GU...

多模态视频评测/基准语音
10:45
HuggingFace Daily Papers(社区热门论文)
62
Edit-Compass与EditReward-Compass:图像编辑与奖励建模的统一评估基准

针对现有图像编辑模型评估基准任务难度有限、评价方法粗糙,以及奖励模型基准脱离实际强化学习场景的问题,研究团队推出了统一评估套件Edit-Compass与EditReward-Compass。Edit-Compass包含2,388个精细标注实例,涵盖世界知识推理、视觉推理等六大渐进式挑战性任务,并采用基于结构化推理的细粒度多维评估框架。EditReward-Compass则提供2,251个偏好对,以模拟强化学习优化中的真实奖励建模场景。该套件旨在为两类模型提供更可靠、贴近实用的评估标准。

图像生成多模态论文/研究
10:45
HuggingFace Daily Papers(社区热门论文)
62
AnyFlow:基于在线策略流图蒸馏的任意步数视频扩散模型

针对一致性蒸馏模型在测试时增加采样步数性能下降的问题,研究团队提出首个基于流图的任意步数视频扩散蒸馏框架AnyFlow。该框架将蒸馏目标从端点一致性映射转向任意时间间隔的流图转换学习,从而优化整个ODE采样轨迹。其核心创新“流图反向模拟”技术,通过将完整的欧拉展开分解为捷径流图转换,实现了高效的在线策略蒸馏,有效减少了测试时的离散化误差和因果生成中的曝光偏差。实验表明,在13亿至140亿参数规模的双向与因果架构上,AnyFlow在少步采样中性能匹配或超越基于一致性的模型,并能随采样步数增加持续提升效果。

多模态视频论文/研究
09:51
Berryxia.AI@berryxia
56
Gemini 3.2 Pro与Flash发布在即,案例重复引不满

Google Gemini 3.2 Pro 和Flash 已经蓄势待发了。 每次都是这几个Case 真的烦了,能不能整点炸裂一点的Case。 据说是就近期要发布, 但是看着样子也是赶鸭子上架,应该放鸽子啥的也是常有的事儿。

can: 🚨 FIRST GEMINI 3.2 PRO OUTPUTS From yours truly. I'll share more today, I can test your prompts too if you guys want. I...

Google多模态模型发布
09:40
IT之家(RSS)
67
雷军谈小米自动驾驶模型 Xiaomi OneVL:业内率先通过潜空间推理将 VLA、世界模型统一到一套框架

小米技术正式发布并开源一步式潜空间语言视觉推理框架Xiaomi OneVL。该框架在业内率先通过潜空间推理,将视觉语言动作模型与世界模型统一到同一套框架中。在推理、规划等多个主流基准上,该模型全面刷新了潜在推理方法的性能上限,在精度上超越显式思维链方案,在速度上对齐“仅答案”预测的潜空间思维链方案。小米已全面开源其模型权重及训练、推理代码。

多模态开源生态推理模型发布
08:51
ginobefun@hongming731
72
使用Claude进行计算机和浏览器操作的最佳实践

Anthropic发布了Claude计算机操作官方指南,核心解决了截图发送至API时因静默压缩导致的点击坐标偏移问题。关键在于客户端预先将截图缩放至1280x720等标准分辨率,并将指令置于截图前发送以提高精度。模型方面,Sonnet 4.6机械点击精度更高,Opus 4.7则支持更高分辨率。安全上必须在隔离环境中运行并设置高风险操作人工确认。Browser Use适合结构化Web任务,Computer Use则适用于桌面应用等非结构化场景。

智能体Anthropic多模态教程/实践
08:00
HuggingFace Daily Papers(社区热门论文)
48
Video2GUI:为通用GUI智能体预训练合成大规模交互轨迹

Video2GUI框架能从5亿互联网视频元数据中自动提取GUI交互轨迹,构建了包含1200万条轨迹的WildGUI数据集,覆盖1500多个应用和网站。在Qwen2.5-VL和Mimo-VL上预训练后,GUI定位和行动基准测试性能提升5-20%,达到或超越现有最优水平。该数据集与框架将开源以支持GUI智能体研究。

多模态开源生态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
通过原子实体分析评估图像编辑中的抽象意图

本研究针对图像编辑中抽象指令(如情绪)评估的空白,首次系统定义了抽象图像编辑的分类体系,并提出Entity-Rubrics评估框架。该框架将抽象编辑拆解为独立的实体级评估,其结果与人类判断高度一致。同时,发布了首个跨场景的抽象图像编辑基准AbstractEdit。对11个模型的测试显示,现有架构难以平衡编辑意图与原图保持,常出现编辑不足或过度编辑。研究表明,结合先进LLM文本编码器与迭代思考机制是提升性能的关键。该范式未来可拓展为奖励模型,助力模型理解抽象指令,推动更自然的多模态交互。

图像生成多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
50
AuralSAM2:通过金字塔音视频特征提示赋能SAM2倾听

针对SAM2在音频模态整合上的不足,本文提出AuralSAM2。其核心模块AuralFuser融合音频与视觉特征,生成稀疏和密集提示,并基于SAM2的特征金字塔在视觉层间传播音频线索,以强化跨模态影响。同时,引入音频引导对比损失函数,进一步对齐音频与视觉特征。实验表明,该方法在公开基准上显著提升了准确率,同时将对SAM2可提示分割交互效率的影响降至最低。

arXivGitHub多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
PhysBrain 1.0 技术报告

针对机器人轨迹数据在构建物理常识上的局限性,PhysBrain 1.0 提出了一种互补方案。该研究构建了一个数据引擎,从大规模人类第一视角视频中提取结构化的物理常识,用于训练视觉语言模型。随后,通过一种保持能力且语言敏感的适配设计,将这些物理先验知识迁移到视觉语言-动作策略中。实验表明,在多项具身控制基准测试上,PhysBrain 1.0 均达到当前最优水平,尤其在跨域任务中展现出强大性能。

具身智能多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
从计划到像素:学习规划与协调的开放式图像编辑

现有图像编辑模型在处理抽象、多步骤指令时存在不足。本研究提出一种长周期编辑框架,包含生成原子分解的规划器与选择工具、区域执行步骤的调度器。视觉语言评判器根据指令遵循度与视觉质量提供奖励信号,调度器通过最大化奖励进行训练,成功轨迹则用于优化规划器。该方法通过紧密耦合规划与奖励驱动执行,生成了比单步或规则基线更连贯可靠的编辑结果。

智能体图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
InsightTok:提升自回归图像生成中文本与人脸保真度的离散标记化框架

针对自回归图像生成中文本与人脸保真度不足的核心瓶颈,InsightTok提出了一种改进的离散视觉标记化框架。该框架通过引入局部化、内容感知的感知损失,专门强化文本可读性与面部特征保真度。在保持16k小型码本和16倍下采样率的紧凑设计下,InsightTok在文本和面部重建质量上显著超越先前方法,且未损害通用图像重建性能。其优势在自回归模型InsightAR中得到延续,生成的图像文本更清晰、面部细节更精准。这项工作凸显了在标记化训练中引入针对性监督对推进离散图像生成的重要性。

arXiv图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
MMSkills:面向通用视觉智能体的多模态技能框架

MMSkills框架旨在为视觉智能体提供可复用的多模态程序性知识。它将每个技能封装为包含文本程序、运行时状态卡片和多视角关键帧的紧凑技能包。该框架通过轨迹到技能的生成器,将公开交互轨迹转化为技能,过程包括工作流分组、程序归纳与视觉定位。使用时,采用分支加载架构:在临时分支中检视选定的状态卡片与关键帧,将其与实时环境对齐并提炼为结构化指导,供主智能体决策。在GUI和游戏基准测试中,该框架能持续提升不同规模多模态智能体的性能,证明外部多模态知识能有效补充模型内部先验。

智能体多模态论文/研究
02:34
MiniMax (official)@MiniMax_AI
48
本周末我们将前往新加坡AI工程师大会(5月15-17日)!🇸🇬 两个重要信息: 1️⃣ 我们的解决方案工程师Vincent Wu将发表演讲,主题为《使用MiniMax构建智能体多模态系统》。 2️⃣ 5月15日晚我们将与@zocomputer联合举办周边活动,欢迎来共同创作 → https://luma.com/qatufzkn 感谢@aiDotEngineer @swyx @SherryYanJiang促成此次活动!
智能体多模态行业动态
01:02
Runway:News(网页)
精选76
Introducing Runway Agent

Runway正式发布Runway Agent,这是一个能够通过单次对话将创意想法转化为完整、可发布视频的智能创作伙伴。用户只需用自然语言描述需求,Agent便能根据上下文和目标,自主完成概念提案、故事节奏设计、视觉方向规划,并最终生成包含多场景、旁白、对话和音乐的成片。它旨在为品牌团队、营销人员、创意机构和电影制作人快速生产各类视频内容,如品牌宣传、社交媒体素材和短片,将传统需要数天或数周的审核制作周期压缩至几分钟。该产品现已上线,新免费计划用户可获得1500积分用于制作首个视频。

智能体产品更新多模态

推荐理由:Runway Agent 把视频生产从“一个团队干一周”变成“一个人聊十分钟”,品牌和内容团队的视频成本结构可能就此改写。
00:25
Runway@runwayml
65
认识Runway Agent。 您的新AI创意伙伴,帮助您构思并制作完整的、经过音效设计和剪辑的视频。 一切只需简单的对话。 从广告到短片再到社交媒体内容,Runway Agent让您轻松制作更多所需内容。 点击下方链接在网页版开始体验。
智能体产品更新多模态视频
00:25
向阳乔木@vista8
64
Knowly解读视频与论文效果惊艳,实力获谷歌认可

测试Ethan_Yang_AI团队开发的Knowly,其解读YouTube视频和arXiv论文的效果令人惊艳。尽管存在免费额度略少、向量处理稍慢的不足,但其产品交互和解读效果均不逊色于NotebookLM。其配套的Chrome插件在用户数尚少时即被谷歌列入精选,彰显了产品实力。

多模态评测/基准
00:13
The Decoder:AI News(RSS)
62
Luma 开放 Uni-1.1 图像模型 API,价格与质量对标 OpenAI 和 Google

Luma 正式开放其 Uni-1.1 图像模型的 API 服务。该模型在 Arena 排行榜上位列第三,紧随 Google 和 OpenAI 之后。API 定价为每张 2048 像素分辨率图像 0.04 美元起,与行业领先者价格相当。其功能包括网络搜索、内置推理能力,并支持最多 9 张参考图像输入。

产品更新图像生成多模态
5月13日
23:39
IT之家(RSS)
50
谷歌 Gboard 输入法新增 Gemini 驱动听写功能,可识别一句话中的多种语言

谷歌在Android活动中为Gboard输入法推出由Gemini驱动的AI语音听写功能Rambler。它能自动删除“呃”“啊”等填充词,并理解即时修正。其核心亮点是支持“代码切换”,可在同一句话中无缝识别多种语言且保持上下文连贯。谷歌强调,该功能不存储语音录音,结合设备端与云端处理以保障隐私。Rambler初期将于夏季在三星Galaxy和谷歌Pixel手机上推出,未来将扩展至更多Android设备。

Google产品更新多模态语音
21:44
HuggingFace Daily Papers(社区热门论文)
53
UniPath:面向统一多模态推理的理解与生成自适应协调框架

针对统一多模态模型中理解与生成能力的协调问题,研究团队提出UniPath框架。该框架的核心是识别并利用“协调路径多样性”,即针对不同输入动态选择最优推理路径,而非采用固定模式。路径选项包括直接回答、文本推理、视觉思维构建及假设探索。UniPath通过角色对齐轨迹训练路径条件执行器,并引入轻量级规划器实现输入依赖的路径选择。实验表明,该方法在性能上超越了固定协调策略,同时提供了可解释的中间行为。代码已开源。

多模态推理论文/研究
20:39
IT之家(RSS)
61
大版本来袭:第一代小米 SU7 汽车 OTA 1.16 开推,新增语音控车、疲劳分心下应急停车辅助功能等

小米汽车开始向第一代SU7推送OTA 1.16大版本更新,旨在对齐新款车型的功能体验。本次更新重点升级了辅助驾驶与智能座舱:辅助驾驶新增语音控车、收费站通行辅助、侧向避让辅助及针对异形障碍物的前向防碰撞辅助等功能;特别增加了疲劳分心下的应急停车辅助,触发后将自动减速停车并禁用辅助驾驶30分钟。智能座舱方面,超级小爱新增“小爱陪伴”和“AI智控”功能。此外,还引入了车主管理模式。多数新功能仅支持SU7 Pro和Max车型。

智能体产品更新多模态语音
17:39
IT之家(RSS)
69
小米开源 Xiaomi OneVL 自动驾驶模型,业内率先实现 VLA、世界模型等多技术路线统一

小米开源了Xiaomi OneVL一步式潜空间语言视觉推理框架。该模型在业内首次将VLA(视觉语言动作模型)与世界模型这两条技术路线统一于同一框架,通过潜空间推理同时提升推理速度与精度,在多项基准测试中达到先进水平。此外,它还能为决策提供语言和视觉双维度的可解释性。小米已全面开源其模型权重、训练及推理代码。

具身智能多模态模型发布
16:39
IT之家(RSS)
41
搭载 Android XR 系统,消息称三星 Galaxy 智能眼镜将于 7 月发布

据韩媒报道,三星或将于2026年7月22日在伦敦的Galaxy Unpacked发布会上推出其首款智能眼镜。该产品旨在对标Meta Ray-Ban,研发已超一年,将推出两个版本:一款配备类似XREAL的内置显示屏,另一款则无AR显示屏。两者均采用墨镜式设计,集成摄像头、扬声器和麦克风,并有望成为首款出厂预装Android XR系统的智能眼镜。更多细节与售价预计在临近发布时公布。

产品更新多模态端侧
15:39
IT之家(RSS)
61
谷歌安卓桌面版重构鼠标光标交互,让 AI 听懂"这个 / 那个"比划

谷歌DeepMind发布了名为Magic Pointer的AI光标交互功能,旨在重构桌面端安卓系统的鼠标使用体验。其核心理念是让AI无缝融入用户当前工作流,通过识别光标位置和语音指令理解上下文,无需复制内容或输入完整提示词。该功能遵循四项原则:保持工作连续性、支持“边指边说”交互、理解“这个/那个”等自然指代、将屏幕像素转化为可操作实体。目前,谷歌已在AI Studio上线演示,并正将相关能力逐步集成至Chrome浏览器的Gemini中。

Google产品更新多模态语音
14:43
SenseTime@SenseTime_AI
精选72
SenseNova-U1 技术报告深度发布:前沿原生多模态模型构建全指南

SenseNova-U1 技术报告详尽披露了构建前沿原生多模态模型的方法,核心包括原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练、以及原生混合专家骨干网络。报告提供了六阶段训练方案、强化学习后训练与蒸馏的完整实践指南。其开源版本 SenseNova-U1-A3B-MoT 基于混合专家架构,仅激活30亿参数,实现了高效快速的性能。相关资源已全面开放,涵盖技术报告、模型权重、代码和演示平台。

多模态开源/仓库模型发布

推荐理由:商汤把原生多模态模型的训练细节全公开了,无视觉编码器、原生MoE架构,还开源了38B-A3B权重,做多模态模型的可以直接照着技术报告复现。
14:39
IT之家(RSS)
33
抢跑苹果 iPhone Ultra,消息称三星 7 月 22 日发布宽折叠 Galaxy Z Fold8 Wide 手机

据韩媒报道,三星计划于7月22日在伦敦举办Galaxy Unpacked活动。届时除了发布Galaxy Z Fold8和Galaxy Z Flip8,还将推出新款宽折叠手机Galaxy Z Fold8 Wide,旨在细分市场并对标预计九月发布的苹果iPhone Ultra。同时,三星可能推出其首款智能眼镜Galaxy Glasses。该产品与Gentle Monster合作设计,搭载Android XR系统并集成Gemini AI,强调通过摄像头和语音进行实时交互。三星希望将其打造为AI生态核心设备,并与SmartThings智能家居平台及汽车服务联动,拓展连接场景。

产品更新多模态端侧
‹ 上一页
1…3334353637…50
下一页 ›