AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
5月20日周三
13:53公众号:通义实验室(千问)55Qwen3.5-LiveTranslate 发布:开口即同传
13:40Kling AI50Kling AI落地好莱坞,工业化应用案例引关注
13:05Berryxia.AI57Gemini 3.5 Flash 发布,已可在 ZenMux 免费体验
12:55IT之家(RSS)50XREAL 确认 Project Aura 智能眼镜年内出货,搭载安卓 XR 与 Gemini AI
12:36Kling AI72Kling AI推出全球首个原生4K视频生成模型
11:55IT之家(RSS)56国外红绿灯也能预测:高德红绿灯倒计时宣布出海,将逐步覆盖全球
11:34Rohan Paul73SenseNova U1开源发布,革新原生多模态生成
11:11歸藏(guizang.ai)55谷歌 Genie 3 实现街景交互生成与风格化
11:05Berryxia.AI73Google DeepMind 发布 Gemini 3.5 Flash:性能大幅提升,但成本显著增加
11:05HuggingFace Daily Papers(社区热门论文)55SceneCode:面向可编辑带关节物体室内场景的可执行世界程序
11:05HuggingFace Daily Papers(社区热门论文)55MSAVBench:迈向全面可靠的多镜头音视频生成评估
09:55IT之家(RSS)62微信AI团队模式识别中心论文首获ICASSP最佳工业论文奖
09:19StepFun68Gemini 3.5 Flash发布:性能与速度双突破
09:14meng shao64Gemini Omni 来了!Google 的优势,果然还是在多模态模型吧?!
09:04Rohan Paul69Gemini 3.5 Flash发布,性能强劲且免费
08:38Google Gemini52Gemini 3.5 Flash实现电路设计与交互模拟
08:37🚨 AI News | TestingCatalog60AI/ML API平台支持Gemini 3.5 Flash并提供免费测试
08:19小互61Google I/O 2026发布三款Gemini新模型
08:19小互60Google 智能眼镜 展示 让你"不用掏手机"就能完成日常的事情 让 Gemini 帮你 点咖啡,手机放兜里,眼镜只在最后一步确认时提示即可
08:05Berryxia.AI63Gemini Omni:不止于真实,更懂推理
08:05Berryxia.AI71Google DeepMind发布Gemini Omni,迈向"生成万物"愿景
08:05Berryxia.AI63Google I/O 2026大会总结:迈向Agentic Gemini时代
08:02Ethan Mollick62AI视频生成能力回溯:2025年7月的"最先进"水平
08:00HuggingFace Daily Papers(社区热门论文)49Flat-Pack Bench:通过家具组装任务评估大型视觉语言模型的时空理解
08:00HuggingFace Daily Papers(社区热门论文)62AutoRubric-T2I:用于文本-图像对齐的基于规则的鲁棒奖励模型
08:00HuggingFace Daily Papers(社区热门论文)62PhysX-Omni:面向刚体、可变形体与关节化体的统一模拟就绪物理3D生成框架
07:55IT之家(RSS)45谷歌酝酿 Gboard 输入法升级,能根据上下文提供高情商回复
07:49小互55Gemini Omni:视频版香蕉与世界模型雏形
07:08Google Gemini61Gemini Omni支持用个人形象和声音创建视频
06:36Orange AI77Gemini Flash 3.5发布,性能价格双优势
06:29Hacker News 热门(buzzing.cc 中文翻译)72同事件精选OpenAI 采用谷歌的 SynthID 水印技术,并为 AI 生成的图像配备了验证工具同一事件,精选展示《SynthID水印技术扩展合作,覆盖超千亿内容》
06:02Ethan Mollick67奥德赛与伊利亚特常被改编,罗马史诗却鲜少问津
05:40Google AI83精选谷歌推出全新AI智能搜索框,支持多模态交互
04:38Demis Hassabis79Gemini Omni实现多模态编辑与场景生成
04:38Google Gemini72精选Gemini 3.5 Flash快速构建互动游戏
04:29Hacker News 热门(buzzing.cc 中文翻译)80同事件精选Gemini Omni同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
04:25Google Developers Blog(RSS)70使用LiteRT-LM在设备上实现闪电般的快速生成式AI
04:11Josh Woodward32Gemini Omni视频编辑能力惊艳亮相
04:10Google AI48社区分享的Gemini Omni趣味用例
04:04HuggingFace Daily Papers(社区热门论文)67WavFlow: 波形空间中的音频生成
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月20日
13:53
公众号:通义实验室(千问)
55
Qwen3.5-LiveTranslate 发布:开口即同传

通义实验室(千问)发布 Qwen3.5-LiveTranslate,实现“开口即同传”——用户说话的同时即可获得翻译结果,支持实时语音同声传译。目前尚未公布模型参数规模、benchmark 分数、上下文长度等具体技术细节。

多模态模型发布语音
13:40
Kling AI@Kling_ai
50
Kling AI落地好莱坞,工业化应用案例引关注

在戛纳展示的Kling AI视频生成技术已深度融入好莱坞工业级制作流程。其首个公开应用于剧集《David之家》的项目,吸引了超过4400万全球观众,位列美国新剧前十并登顶Prime Video。该技术能够无缝对接实拍制作,以高标准交付大量高质量镜头,证明了AI作为全球电影制作可靠、高效新基础的潜力。

多模态行业动态视频
13:05
Berryxia.AI@berryxia
57
Gemini 3.5 Flash 发布,已可在 ZenMux 免费体验

Google I/O 2026 发布了新一代模型 Gemini 3.5 Flash,ZenMux 平台已第一时间提供 API 接入并开放免费试用。实测中,该模型仅用时 77.56 秒即完成一段复杂 HTML 递归二叉树生长动画,生成效果流畅自然。其性能全面升级,在多项 Agent 专属评测榜单中位列第一,多模态理解能力(MMMU-Pro 达 83.6%)也显著超越前代。模型完全兼容主流 API 格式,支持按量计费与套餐方案,便于开发者快速接入。

Google多模态评测/基准
12:55
IT之家(RSS)
50
XREAL 确认 Project Aura 智能眼镜年内出货,搭载安卓 XR 与 Gemini AI

在2026年谷歌I/O开发者大会上,XREAL展示了基于安卓XR系统的Project Aura智能眼镜,并确认产品将于2026年底前出货。眼镜采用分离式设计,配备外接计算模块兼触控板,整机重量低于90克。硬件搭载自研X1S芯片和高通骁龙XR平台,通过三个摄像头实现手势控制。系统原生运行谷歌空间应用,支持Google Maps 3D导航和YouTube沉浸式视频播放,并集成Gemini AI以将2D应用自动转换为3D窗口。当前版本续航约4小时,但软件功能尚未完全就绪,最终规格可能调整。

产品更新多模态端侧
12:36
Kling AI@Kling_ai
72
Kling AI推出全球首个原生4K视频生成模型

4月23日,Kling AI正式推出全球首个原生4K视频生成模型,专为专业内容创作设计。该功能支持一键生成真4K画质视频,显著提升画面细节与制作效率。模型已获得好莱坞团队、动画工作室等多方采用。好莱坞制片人指出,这是其工作流中首个使用的原生4K基础模型;Wonder Studios强调,原生4K从底层生成避免了传统放大技术的角色变形问题,保持了画面一致性;动画导演则认为,该模型在保留艺术色调与复杂特效纹理方面优于同类产品。

多模态模型发布视频
11:55
IT之家(RSS)
56
国外红绿灯也能预测:高德红绿灯倒计时宣布出海,将逐步覆盖全球
产品更新多模态推理
11:34
Rohan Paul@rohanpaul_ai
73
SenseNova U1开源发布,革新原生多模态生成

商汤科技SenseNova U1已开源发布。其核心创新在于原生多模态统一建模,将视觉、语言与图像生成视为一个统一问题,而非分立模块的链式处理,从而减少了信息损失。该模型采用MoT架构(38B-Active 3B MoE),在生成信息图、海报、漫画等结构复杂的密集图文内容时能保持高度一致性。详细的技术报告披露了其包括近无损视觉接口、联合训练策略在内的完整构建方案,为行业提供了前沿参考。

SenseTime: 🔥 New week, New SenseNova-U1 Drop - and this one goes Deep!🔥 📄 The full Technical Report is OUT - the most detailed d...

图像生成多模态开源生态模型发布
11:11
歸藏(guizang.ai)@op7418
55
谷歌 Genie 3 实现街景交互生成与风格化

谷歌 Genie 3 新增了基于 Google 街景生成可交互虚拟世界的功能。用户可以选择美国任意街景地点作为首帧图像,生成对应的可探索环境,带来强烈的代入感。该功能还支持风格化处理,能将现实场景转化为海底世界、末日废土等不同风格的虚拟场景。

Google产品更新多模态视频
11:05
Berryxia.AI@berryxia
73
Google DeepMind 发布 Gemini 3.5 Flash:性能大幅提升,但成本显著增加

Google DeepMind 最新发布的 Gemini 3.5 Flash 模型在性能与速度的平衡上取得突破。其智能指数得分为 55,较上一代大幅提升,超越了 Grok 4.3 和 Claude Sonnet 4.6。模型在智能体任务和降低幻觉率方面进步显著,输出速度超过 280 tokens/s。然而,其 API 定价相比前代模型上涨约 3 倍,运行基准测试的成本更是达到 5.5 倍。这意味着 Gemini 3.5 Flash 在实现“更快更智能”的同时,也显著改变了 Flash 系列以往低成本的市场定位。

Artificial Analysis: Google's new Gemini 3.5 Flash is the clear leader on the Intelligence vs Speed Pareto frontier and makes large gains on ...

智能体DeepMind多模态模型发布
11:05
HuggingFace Daily Papers(社区热门论文)
55
SceneCode:面向可编辑带关节物体室内场景的可执行世界程序

现有室内场景合成方法常生成静态网格,难以按需创建新的可交互物体。SceneCode框架提出将自然语言提示词“编译”为可执行的程序化世界。其核心流程包括:通过规划-设计-批评循环生成对象资产请求,经五种代码生成策略转化为分部件的Blender Python程序,并通过修复-优化循环进行验证。生成的程序可编译为仿真就绪资产,并导出SDF格式。该框架通过场景状态注册表实现可追溯的本地化编辑。实验表明,SceneCode提升了场景生成与提示词的一致性,产生了网格结构更清晰、包含可加载关节元数据的资产。

具身智能多模态论文/研究
11:05
HuggingFace Daily Papers(社区热门论文)
55
MSAVBench:迈向全面可靠的多镜头音视频生成评估

本文提出MSAVBench,首个面向多镜头音视频生成的综合评估基准及自适应混合评估框架。该基准覆盖视频、音频、镜头和参考四个维度,支持最多15个镜头的多样化任务设置。评估框架通过镜头分割自适应校正、主观指标实例化评分等机制提升鲁棒性,并与人类判断达到91.5%的高相关性。对19个先进模型的系统评估表明,当前模型在导演级控制和精细音视频同步上仍存在瓶颈,而模块化或智能体生成流程为缩小开源与闭源模型差距提供了可行路径。

多模态视频论文/研究评测/基准
09:55
IT之家(RSS)
62
微信AI团队模式识别中心论文首获ICASSP最佳工业论文奖

2026年5月,微信AI团队模式识别中心的论文《Less Redundancy: Boosting Practicality of Vision Language Model in Walking Assistants》在西班牙巴塞罗那举办的ICASSP 2026上荣获最佳工业论文奖。这是该奖项自2016年设立以来首次颁给中国企业团队。论文提出的WalkVLM-LR模型专为视障人士行走辅助设计,其核心创新在于减少输出与时间冗余,优化了视觉语言模型的提醒时机。目前模型延迟控制在百毫秒量级,实时性较为可用,但距离实际落地应用仍需进一步优化。

多模态端侧论文/研究
09:19
StepFun@StepFun_ai
68
Google推出Gemini 3.5 Flash模型,现已向所有用户开放,并集成到其产品与API中。相比Gemini 3.1 Pro,3.5 Flash在几乎所有基准测试中均有提升,编程能力进步尤为显著。该模型性能媲美顶尖模型,但生成速度极快(比其他前沿模型快4倍),在"智能与输出速度"的评估维度中位于顶尖象限,实现了效率与效果的卓越平衡。

Sundar Pichai: Just off stage at #GoogleIO, some highlights from this morning 🧵 Gemini 3.5 Flash is available today for everyone in @a...

Google多模态编码行业动态
09:14
meng shao@shao__meng
64
Gemini Omni 来了!Google 的优势,果然还是在多模态模型吧?!

Google发布了原生多模态模型Gemini Omni。与传统模型需逐帧描述不同,它采用底层原生设计,支持以意图驱动生成视频,并能通过多轮对话进行编辑,每一步都基于上一结果,确保一致性。该模型融合了Gemini的世界知识与物理直觉,并能将图、文、音视频等任意参考物组合,实现跨模态叙事生成。其目标是“从任何东西创造任何东西”,并从视频生成起步。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

DeepMindGoogle多模态模型发布
09:04
Rohan Paul@rohanpaul_ai
69
Google Gemini 3.5 Flash 是其类别中非常强大的模型。在众多基准测试中超越了 Gemini 3.1 Pro。 这是一个代理模型,每秒处理的令牌速度快4倍。 @aimlapi 刚刚将 Gemini 3.5 Flash 添加到其 API 中,并且在24小时内免费提供。 设置说明见评论。

AI/ML API: .@Google : "We're releasing Gemini 3.5 Flash" Us: *We're offering it for free* free for 24hrs via our API find instructi...

Google多模态模型发布
08:38
Google Gemini@GeminiApp
52
Gemini 3.5 Flash可以将复杂的电气工程约束转化为交互式界面。 它能够构建一个交互式电路助手,用于设计和模拟电子元件,同时提供物理构建指南,并生成电路的交互式模拟。
Google产品更新多模态
08:37
🚨 AI News | TestingCatalog@testingcatalog
60
AI/ML API平台现已支持Gemini 3.5 Flash,并提供24小时免费token使用以供模型测试! > AI/ML API是一个面向开发者和SaaS创业者的AI平台,旨在帮助他们将前沿AI能力集成到产品中。 详情请查看下方 👇

AI/ML API: .@Google : "We're releasing Gemini 3.5 Flash" Us: *We're offering it for free* free for 24hrs via our API find instructi...

Google产品更新多模态
08:19
小互@xiaohu
61
Google I/O 2026 开发者大会 完整中英文双语视频 Google I/O 2026:Gemini 3.5 Flash、Spark、Omni 三剑齐发 Gemini 3.5 Flash升级为:行动大脑 Gemini Spark:远端个人 AIAgent 入口 Gemini Omni:多模态世界模型雏形
智能体Google多模态教程/实践
08:19
小互@xiaohu
60
Google 智能眼镜 展示 让你"不用掏手机"就能完成日常的事情 让 Gemini 帮你 点咖啡,手机放兜里,眼镜只在最后一步确认时提示即可
Google产品更新多模态端侧
08:05
Berryxia.AI@berryxia
63
Gemini Omni:不止于真实,更懂推理

Google 发布的 Gemini Omni 模型核心能力升级,它不仅能生成高度真实的场景,更关键的是具备了对物理世界后续发展的推理能力。这一能力源于其对物理学的直观理解与广泛的背景知识结合。该模型现已向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出,初期将优先支持视频内容的生成与输出。

Google产品更新多模态视频
08:05
Berryxia.AI@berryxia
71
Google DeepMind发布Gemini Omni,迈向"生成万物"愿景

Google DeepMind在I/O大会上发布了Gemini Omni模型,旨在迈出“从任何东西生成任何东西”的第一步。该模型将Gemini的智能与生成媒体系统深度融合,在世界理解、多模态和编辑能力上实现飞跃。其核心特点在于生成的视频能保持角色、光影等逻辑一致性,并支持通过自然语言进行实时编辑和风格调整,将视频转变为可动态演进的“世界素材”。该模型目前已在部分应用上线并即将开放API,不过其实际效果,尤其是在中文生成方面,仍存在一些讨论。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

Google多模态模型发布视频
08:05
Berryxia.AI@berryxia
63
Google I/O 2026大会总结:迈向Agentic Gemini时代

2026年Google I/O大会的主题为“Agentic Gemini时代”,旨在将AI从聊天工具进化为能自主思考、执行任务的“世界模型”。本次大会未发布Gemini 4.0,而是推出了更务实的Gemini 3.5系列,核心包括:速度极快且为智能体优化的Gemini 3.5 Flash;能理解物理世界、实现任意模态生成的全新“世界模型”Gemini Omni;以及可24/7自主工作的智能体Gemini Spark。同时,Android XR智能眼镜和AI集成的Googlebook笔记本等硬件亮相。整体上,Google正将Gemini深度整合至其全生态,巩固其在自主AI赛道上的领先地位。

智能体Google多模态现象/趋势
08:02
Ethan Mollick@emollick
62
该推文展示了2025年7月(两年前)AI视频生成模型所能达到的"最先进"技术水平,并以此作为当前讨论的参照。引用部分提供了关键上下文:早期Gemini Omni模型能根据包含多个角色、复杂场景与叙事逻辑的超现实文本提示(如飞行员海獭解释航空公司破产、莎士比亚与披萨机器人战斗等),生成相应的视频内容。推文作者通过展示这一历史技术状态,回应了关于生成内容细节真实性的讨论。

Ethan Mollick: I had early Gemini Omni access: "sea otter in a pilot's uniform explains why Spirit Airlines went bankrupt to a river ot...

Google多模态大佬观点视频
08:00
HuggingFace Daily Papers(社区热门论文)
49
Flat-Pack Bench:通过家具组装任务评估大型视觉语言模型的时空理解

现有大型视觉语言模型基准测试主要关注粗粒度任务,且依赖易于语言描述的实体。为此,研究者提出了Flat-Pack Bench,这是一个专注于家具组装任务的新基准,旨在评估模型的细粒度时空理解能力。该基准采用选择题与视觉提示的形式,考察模型在组装动作排序、状态定位、部件匹配理解与追踪等方面的表现。实验表明,最先进的模型在此类细粒度推理任务上表现欠佳,暴露出其在利用视频时序信息、进行目标追踪以及理解物理空间交互方面的不足。

多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
AutoRubric-T2I:用于文本-图像对齐的基于规则的鲁棒奖励模型

本研究针对现有文本-图像生成模型奖励模型训练成本高、评估标准不透明的问题,提出了首个自动评规学习框架AutoRubric-T2I。该框架能够自动合成并筛选明确的评分规则,以指导视觉语言模型评判者。其核心方法在于从偏好对中合成为候选规则,并通过带L1正则化的精炼器筛选出最具区分性的规则。实验表明,该框架仅需不到0.01%的标注数据即可生成高质量且可解释的奖励信号,在多个基准测试中性能优于强基线,并能有效提升下游生成任务的质量。

图像生成多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
PhysX-Omni:面向刚体、可变形体与关节化体的统一模拟就绪物理3D生成框架

针对现有3D生成方法在物理属性与对象类别上的局限,本文提出PhysX-Omni,一个统一的模拟就绪物理3D生成框架,可支持刚体、可变形体和关节化体等多种资产类型。框架核心是设计了一种专为视觉语言模型优化的高效几何表示方法,能够无压缩地直接编码高分辨率3D结构,从而显著提升生成质量。同时,研究构建了首个大规模通用模拟就绪3D数据集PhysXVerse,并提出了一个涵盖几何、尺度、材质、可供性、运动学与功能描述六大属性的综合评估基准PhysX-Bench。大量实验表明,PhysX-Omni在3D生成与理解任务上均取得了优异性能,并验证了其在模拟场景生成和机器人策略学习等下游任务中的应用潜力。

具身智能多模态论文/研究
07:55
IT之家(RSS)
45
谷歌酝酿 Gboard 输入法升级,能根据上下文提供高情商回复

谷歌正在测试 Gboard 输入法的三项新 AI 功能,包括自定义提示词输入框、根据描述起草完整内容以及支持读取屏幕上下文或对话内容以提供更贴合语境的回复建议。此次升级标志着 Gboard 的 AI 能力从固定的润色、改写预设,转向更灵活的个性化写作辅助。新功能将允许用户以自然语言指令(如“让语气更幽默”)直接定制文本风格,并可能结合图库截图等屏幕信息自动组织回复。

Google产品更新多模态
07:49
小互@xiaohu
55
看看 Gemini Omni的实力 一句话就是:视频版的香蕉🍌 当然远不至于视频的编辑能力,它应该是世界模型的雏形… 通用AGI的初始形态…
Google多模态现象/趋势视频
07:08
Google Gemini@GeminiApp
61
使用Gemini Omni,你可以用自己的声音和形象创建数字分身视频。 当你创建一个数字分身后,你就拥有了自己的AI数字版本,可以轻松生成外观和声音都像你的视频,无需每次都上传你的图像。
Google产品更新多模态视频
06:36
Orange AI@oran_ge
77
Gemini flash 3.5 昨晚发布,现已可用。 - 模型效果大幅超越 3.1 Pro,指标和 gpt 5.5 接近,比 gpt5.5 好的是 Agentic 和 多模态。 - 价格只要 gpt5.5 的三分之一,缓存价格只要六分之一。 - API 定价 $1.50 / $9.00 per 1M token(输入/输出),缓存 输入 $0.15。上下文窗口 1M token。 - 速度极快,是其他旗舰模型的4倍,非常适合 Agent 使用。 官方介绍地址: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/
智能体Google多模态模型发布
06:29
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选72
OpenAI 采用谷歌的 SynthID 水印技术,并为 AI 生成的图像配备了验证工具

OpenAI宣布在其AI生成的图像中集成谷歌的SynthID水印技术,并推出配套的验证工具。这一举措旨在增强AI生成内容的可追溯性,使用户能够识别图像是否由AI生成。该更新已于2026年5月19日生效。SynthID水印技术此前由谷歌开发,可嵌入难以察觉的数字标识,而新验证工具则允许用户检测这些标识。OpenAI表示这将帮助打击虚假信息传播。

GoogleOpenAI产品更新多模态
同一事件,精选展示《SynthID水印技术扩展合作,覆盖超千亿内容》
推荐理由:OpenAI与谷歌联手把内容溯源从单薄的水印升级为多层信号,还放了公开验证工具,记者和平台审核员现在有了更实在的抓手。
06:02
Ethan Mollick@emollick
67
《奥德赛》和《伊利亚特》被多次改编成电影,但其续作罗马史诗《埃涅阿斯纪》却完全被忽视。 这是用一段提示词为Gemini Omni制作的预告片。第一版把所有旗帜都做成了丹麦的(?),但Omni能够编辑视频,所以我要求移除了它们。
Google多模态教程/实践视频
05:40
Google AI@GoogleAI
精选83
谷歌推出全新AI智能搜索框,支持多模态交互

谷歌宣布推出基于Gemini 3.5模型的全新智能搜索框。该更新将AI Overviews与AI Mode整合为统一的AI搜索体验,支持对文本、图像、文件及视频进行跨模态推理查询。用户可进行多轮对话,搜索将结合上下文提供更个性化、定制化的回答。该新功能已在全球桌面和移动设备端同步上线。

Google产品更新多模态推理

推荐理由:Google搜索史上最大一次交互变革,Gemini 3.5加持的搜索框能理解文本、图片、视频,AI Overviews和对话模式彻底融合,搜索终于变成真正的对话助手。
04:38
Demis Hassabis@demishassabis
79
Gemini Omni在世界理解与多模态编辑方面实现了重大飞跃!它能处理照片、视频和音频,并构建全新的场景。随着时间的推移,它将能够处理任何输入和任何输出--从视频开始。 你甚至可以提供自己的视频,并在此基础上迭代你的想法:
Google多模态模型发布视频
04:38
Google Gemini@GeminiApp
精选72
使用 Gemini 3.5 Flash 构建你的第一款游戏。 无需复杂的3D建模,即可将日常物品直接转化为互动的数字体验。从一个 Nano Banana 提示开始,在 Canvas 中将你的图像变成游戏,并优化你的愿景以获得最佳游戏体验。
Google多模态教程/实践

推荐理由:Google Gemini 官方教你把日常物品照片变成互动游戏,Nano Banana 到 Canvas 的链路很直接,想试 Gemini 多模态能力的人可以当入门案例跑一遍。
04:29
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选80
Gemini Omni

Google DeepMind 于 2026 年 5 月 19 日发布了新一代多模态大模型 Gemini Omni。该模型整合了文本、图像、音频与视频的理解与生成能力,旨在实现更自然的人机交互。在同期 Hacker News 讨论中获得 112 点赞,显示出技术社区对多模态融合趋势的持续关注。这标志着大模型从单模态向全模态感知与响应能力的进一步演进。

多模态模型发布视频
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Gemini Omni 把视频编辑变成自然语言对话,多轮编辑和物理理解让它从玩具变成创作工具,做视频的值得一试。
04:25
Google Developers Blog(RSS)
70
使用LiteRT-LM在设备上实现闪电般的快速生成式AI

Google AI Edge推出LiteRT-LM引擎,为跨平台移动和边缘设备提供高度优化的基础设施,支持Gemma 4模型在设备端运行。通过内存高效动态加载和多令牌预测技术,实现高达2.2倍的速度提升,并集成思维模式、约束解码等高级工具。同时,该引擎正扩展至Apple生态,新增原生Swift API和WebGPU加速的JavaScript API,支持高性能浏览器端推理。

Google产品更新多模态端侧
04:11
Josh Woodward@joshwoodward
32
Gemini Omni太有趣了--视频编辑能力简直逆天!
Google多模态大佬观点视频
04:10
Google AI@GoogleAI
48
一些来自社区的有趣Gemini Omni用例👇🧵 (我们将在全天持续更新此推文串)
Google多模态教程/实践
04:04
HuggingFace Daily Papers(社区热门论文)
67
WavFlow: 波形空间中的音频生成

WavFlow挑战了音频生成依赖潜空间压缩的范式,提出了一种直接在原始波形空间生成高保真音频的框架。为解决高维信号建模难题,方法将音频重塑为二维令牌网格并引入幅度提升,结合流匹配的直接预测实现稳定优化。通过自动化管线构建500万高质量三元组数据集,模型从零学习细粒度声学特征。实验显示,WavFlow在视频到音频(VGGSound)和文本到音频(AudioCaps)基准上达到与主流潜空间方法相当甚至更优的性能,证明了中间压缩并非必要,为多模态音频生成提供了更简洁可扩展的路径。

arXiv多模态论文/研究语音
‹ 上一页
1…2829303132…50
下一页 ›