AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
5月20日周三
03:40Google AI74Gemini Omni:从任意输入创造内容的新模型
03:29Sundar Pichai79Gemini Omni发布:物理推理与多模态生成新突破
03:11Google DeepMind61Gemini for Science:AI助力科学突破
03:08Google Gemini81谷歌发布Gemini Omni多模态生成模型
03:03OpenRouter82Gemini 3.5 Flash上线OpenRouter,性能价格双优
03:01François Chollet62Gemini 3.5 Flash在ARC-AGI测试中表现亮眼
02:59Hacker News 热门(buzzing.cc 中文翻译)84Gemini 3.5 Flash:前沿智能,即刻行动
02:55AYi80Google Gemini Omni重新定义视频生成
02:55IT之家(RSS)73谷歌搜索迎 25 年来最大改版,AI 重塑搜索体验与交互方式
02:55IT之家(RSS)64谷歌升级 Workspace:语音对话协作 AI 检索邮件、起草文档、整理笔记
02:55IT之家(RSS)54谷歌携手三星展示 2 款智能眼镜:整合 Gemini AI,支持语音导航、实时翻译
02:55IT之家(RSS)54谷歌展示街景版 Genie 世界 AI 模型,用真实街景创建想象世界
02:55IT之家(RSS)54谷歌升级 AI 创意平台 Flow:增强视频编辑,Agent 辅助头脑风暴等
02:55IT之家(RSS)56谷歌推出科研版 Gemini,能追踪论文、写实验代码
02:38Google Gemini57Gemini Omni今日登陆付费版应用
02:38Google Gemini68精选GoogleIO发布多项Gemini更新
02:30Chubby♨️81Gemini Omni:迈向AGI的世界模型
02:18Google Blog:AI(RSS)83精选Gemini 3.5:前沿智能与行动能力相结合
02:18Google Blog:AI(RSS)75精选Google Workspace 推出全新创建方式与高效工作功能
02:11VentureBeat:AI(RSS)69Google 25年来首次重塑搜索框:AI驱动对话时代来临
02:06🚨 AI News | TestingCatalog75谷歌发布Gemini 3.5 Flash模型
02:03Artificial Analysis78速度智能兼得的新一代AI:谷歌Gemini 3.5 Flash发布
02:00Chubby♨️68Gemini 3.5 Flash评测表现惊人
01:59The Decoder:AI News(RSS)63谷歌I/O开发者大会公告:新模型、永不休眠的云端代理与重新设计的Gemini应用
01:59Ethan Mollick74Gemini Omni生成荒诞派诗歌朗读场景
01:55IT之家(RSS)77谷歌 Gemini Omni 全能模型发布:可从任意输入生成任意输出,一句话让 AI 修改视频
01:48Google DeepMind:Blog(RSS)83同事件精选推出Gemini Omni多模态AI模型同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
01:41Google DeepMind78Gemini Omni发布:多模态生成新突破
01:36🚨 AI News | TestingCatalog74谷歌I/O大会:Gemini 3.5 Flash已上线
01:36🚨 AI News | TestingCatalog75精选谷歌发布Gemini Omni Flash,Pro版即将推出
01:30Chubby♨️77精选Gemini Omni发布,迈向AGI新进展
01:30Chubby♨️54Gemini 3.5 Flash发布,速度与能力惊人
01:28Ethan Mollick44Gemini Omni早期体验:创意指令生成能力展示
00:36DogeDesigner58马斯克《福布斯》访谈:科技愿景与争议观点
00:26向阳乔木41Gemini Omni Flash效果不佳,未理解提示词
00:18小互48Google发布全新Omni模型
00:09歸藏(guizang.ai)67谷歌Gemini Omni Flash上线FLow平台
00:02Luma66Luma Agents现已支持Seedance 2.0生成
5月19日周二
23:34🚨 AI News | TestingCatalog59Google Flow AI驱动全面升级,创作更智能易用
23:18Qwen:Blog Retrieval(API)77精选Qwen3.5-LiveTranslate:从声音到视觉,从词语到准确
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月20日
03:40
Google AI@GoogleAI
74
到现在,你可能已经听说了 Gemini Omni,这是我们新推出的模型,旨在从任意输入(从视频开始)创造任何内容。 但……这有什么大不了的? 让我们来分解一下 🧵👇
Google多模态模型发布视频
03:29
Sundar Pichai@sundarpichai
79
Gemini Omni不仅能构建逼真的场景,还能推理接下来应该发生什么。它结合了对物理的直观理解与Gemini在历史、科学和文化背景方面的知识。 今日起,通过@Geminiapp + Google Flow和@YouTube Shorts,向全球Google AI Plus、Pro和Ultra订阅用户推出视频生成功能。
Google多模态模型发布视频
03:11
Google DeepMind@GoogleDeepMind
61
我们希望借助AI帮助科学家发现下一个重大突破。 Gemini for Science是我们全新的实验性工具套件,旨在帮助他们探索更多假设、大规模验证工作、轻松解析文献等。🧵
DeepMindGoogle产品更新多模态
03:08
Google Gemini@GeminiApp
81
介绍Gemini Omni,我们的新模型,可以从任何输入创建任何内容,首先从视频开始。 借助Gemini Omni,您可以将图像、视频和文本作为输入组合,并生成基于Gemini现实世界知识的高质量视频。#GoogleIO
Google多模态模型发布视频
03:03
OpenRouter@OpenRouter
82
来自@GoogleDeepMind的Gemini 3.5 Flash现已登陆OpenRouter! 在编码、智能体任务和工具使用方面超越Gemini 3.1 Pro,同时保持Flash级别的价格和速度。 支持100万上下文、6.5万最大输出、多模态。输入$1.50/百万token,输出$9/百万token。
Google多模态模型发布
03:01
François Chollet@fchollet
62
Gemini 【引用 @arcprize】:Gemini 3.5 Flash ARC-AGI(已验证) ARC-AGI-2: - 高配:72.1%,$0.85 - 最低配:8.9%,$0.11 ARC-AGI-1: - 高配:92.5%,$0.42 - 最低配:48.8%,$0.06 Gemini 3.5 Flash在ARC-AGI测试中与GPT-5.5(中配)表现相当

ARC Prize: Gemini 3.5 Flash ARC-AGI (Verified) ARC-AGI-2: - High: 72.1%, $0.85 - Minimal: 8.9%, $0.11 ARC-AGI-1: - High: 92.5%, $0....

Google多模态推理评测/基准
02:59
Hacker News 热门(buzzing.cc 中文翻译)
84
Gemini 3.5 Flash:前沿智能,即刻行动

谷歌于2026年5月19日发布了Gemini 3.5 Flash模型,这是Gemini系列的最新版本,主打“前沿智能,即刻行动”。该模型强调高效的实时响应与处理能力,适用于需要快速决策的场景。该发布在技术社区Hacker News上获得了116分的关注度,显示出开发者对其性能与应用潜力的浓厚兴趣。不过,目前关于该模型在速度、准确率等具体性能指标上的提升幅度,官方尚未提供详细数据。

Google多模态推理模型发布
02:55
AYi@AYi_AInotes
80
Google Gemini Omni重新定义视频生成

Google推出Gemini Omni,首个面向消费者的世界模型。它通过自然语言交互,将Gemini的智能与生成媒体系统结合,实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频,实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素,而是模拟连贯的物理与语义世界,标志着AI视频生成从拼接工具向智能创作系统的飞跃。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

DeepMindGoogle图像生成多模态
02:55
IT之家(RSS)
73
谷歌搜索迎 25 年来最大改版,AI 重塑搜索体验与交互方式

谷歌在2026年I/O开发者大会上宣布,旗下搜索业务迎来25年来最大改版,核心是用AI重塑搜索入口与交互方式,由最新Gemini 3.5 Flash模型提供支撑。主要变化包括:用户交互从输入关键词转向描述完整需求,搜索框将动态扩展并支持文本、图片、视频等多模态输入。用户可从AI概览中连续追问,形成聊天式对话。新版引入搜索智能体,可在后台24小时运行并追踪用户设定的目标。此外,谷歌将生成式界面功能引入搜索,并将个人智能扩展至98种语言、近200个国家。据悉,AI Mode月活用户已突破10亿,查询量每季度翻倍。

智能体Google产品更新多模态
02:55
IT之家(RSS)
64
谷歌升级 Workspace:语音对话协作 AI 检索邮件、起草文档、整理笔记

谷歌在2026年I/O开发者大会上宣布升级Google Workspace,将Gmail、Docs、Keep等工具整合为支持自然语音交互的协作助手。核心新功能包括:可通过语音直接检索邮件内容的Gmail Live、支持口述起草与格式整理的Docs Live,以及能自动将零散想法整理成清单的Keep更新,旨在将办公流程从点击输入转向更自然的语音交互。此外,谷歌还推出了基于Nano Banana模型的独立图像编辑应用Google Pics,支持对图像进行精确的局部对象分割与修改。

Google产品更新多模态语音
02:55
IT之家(RSS)
54
谷歌携手三星展示 2 款智能眼镜:整合 Gemini AI,支持语音导航、实时翻译

谷歌在2026年I/O开发者大会上携手三星发布了2款智能眼镜,由Gentle Monster与Warby Parker参与设计。眼镜定位为手机伴侣设备,深度整合Gemini AI模型,核心功能包括语音导航、实时翻译(音频及视觉文字翻译)、基于路线的个性化推荐与订单下达,并能将通知压缩为摘要。外观提供时尚与经典两种风格。产品售价尚未公布,传闻无显示版本价格区间为379至499美元,预计今年秋季上市。

Google产品更新多模态端侧
02:55
IT之家(RSS)
54
谷歌展示街景版 Genie 世界 AI 模型,用真实街景创建想象世界

谷歌在2026年I/O开发者大会上宣布,将街景服务与Project Genie世界模型结合。Genie原本能生成可互动的虚拟环境,此次更新后可直接基于真实街景图像构建可探索的3D世界,用于AI智能体或机器人训练。用户可通过Google Maps选择美国地点并指定风格(如“石器时代”),生成定制化想象世界。该能力目前为实验性原型,仅支持美国地点,未来计划逐步扩展。

Google产品更新具身智能多模态
02:55
IT之家(RSS)
54
谷歌升级 AI 创意平台 Flow:增强视频编辑,Agent 辅助头脑风暴等

谷歌在2026年I/O大会上宣布升级AI创意平台Flow,重点整合Gemini Omni Flash模型,显著提升视频编辑精度和多镜头角色一致性。同时推出Flow Agent,能辅助头脑风暴、内容生成与批量编辑。此外还新增了自然语言定制工具的Flow Tools和支持分段编辑的Flow Music功能。目前Flow已覆盖全球140多个国家和地区。

Google产品更新多模态视频
02:55
IT之家(RSS)
56
谷歌推出科研版 Gemini,能追踪论文、写实验代码

在2026年谷歌I/O开发者大会上,谷歌宣布推出专用于科研领域的Gemini for Science模型。该模型能够实时追踪前沿论文、将研究目标转化为可执行的实验代码,并生成新的科学假设。谷歌同时透露,未来该技术有望模拟更复杂的生物系统,甚至包括虚拟细胞。目前,谷歌已有多个基于该技术的项目进入临床前阶段,聚焦免疫疾病与癌症等领域,旨在重新构想药物发现的流程。

Google产品更新多模态
02:38
Google Gemini@GeminiApp
57
Gemini Omni今日登陆Gemini应用,面向付费订阅用户开放。 它让你能通过文本、图像和视频的任意组合来实现创意。只需打开Gemini,从相册中附加一段视频,然后进行编辑。就这么简单。#GoogleIO
Google产品更新多模态
02:38
Google Gemini@GeminiApp
精选68
我们在#GoogleIO上宣布了多项Gemini更新,包括: - 采用神经表达技术的全新Gemini体验设计 - 即将推出的Gemini智能体功能,含每日简报与Gemini Spark - Gemini Omni与3.5 Flash模型 - 以及更多内容! 详情请见此线程🧵
智能体Google产品更新多模态

推荐理由:Google IO上Gemini这波更新,从Neural Expressive到代理体验,是在把AI助手往主动帮你做事的方向推,产品人和开发者该认真看看。
02:30
Chubby♨️@kimmonismus
81
真正的"哇"时刻是 Gemini Omni。一个迈向 AGI 的世界模型。 它可以从任何输入创建任何内容。这太疯狂了。

Logan Kilpatrick: Introducing Gemini Omni 🔮........ Omni is our new model that can create anything from any input - starting with video (...

Google多模态模型发布视频
02:18
Google Blog:AI(RSS)
精选83
Gemini 3.5:前沿智能与行动能力相结合

Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合,旨在提供更强的综合性能。作为 Google 最新推出的模型,它代表了其在大模型技术上的最新进展。

智能体Google多模态推理

推荐理由:Google 在 I/O 上甩出 Gemini 3.5,这次不只拼多模态,更强调‘行动’,是所有做 Agent 的团队必须对标的新基座。
02:18
Google Blog:AI(RSS)
精选75
Google Workspace 推出全新创建方式与高效工作功能

Google 在最新更新中为 Gmail、Docs 和 Keep 增添了新的语音功能,并推出了一款名为 Google Pics 的全新设计工具。同时,其 AI Inbox 功能也得到了升级与优化。这些更新旨在进一步提升用户在工作场景中的协作效率与创作体验,通过集成更智能的工具和交互方式,帮助用户更便捷地完成多项任务。

Google产品更新多模态语音

推荐理由:Google Workspace 直接植入了语音操作和设计工具 Pics,这波更新对办公效率很实在,做产品和运营的可以关注一下实际落地效果。
02:11
VentureBeat:AI(RSS)
69
Google 25年来首次重塑搜索框:AI驱动对话时代来临

在2026年I/O大会上,Google宣布对其标志性搜索框进行25年来最大升级。搜索框从简单的关键词输入,演变为支持文本、图像、PDF、视频及网页标签等多模态输入的AI对话起点。同时,AI概览与AI模式合并为统一体验,用户无需在传统结果与AI生成答案间切换。此次升级标志着Google核心产品正从关键词检索工具,彻底转向以AI和全网知识为基础的开放式对话界面。

智能体Google产品更新多模态
02:06
🚨 AI News | TestingCatalog@testingcatalog
75
谷歌I/O大会🔥:Gemini 3.5 Flash已发布! Gemini 3.5在人工智能分析智能基准测试中表现与Gemini 3.1 Pro相当,但速度更快。 【引用 @GeminiApp】:Gemini 3.5 Flash来了,这是我们迄今为止在快速高效完成任务方面最好的模型。 无论您需要日常任务帮助还是多步骤创意项目,Gemini 3.5 Flash都能应对现实世界的复杂性,助您采取行动。#GoogleIO

Google Gemini: Gemini 3.5 Flash is here and it's our best model yet for getting things done quickly and efficiently. Whether you need h...

Google多模态模型发布
02:03
Artificial Analysis@ArtificialAnlys
78
速度智能兼得的新一代AI:谷歌Gemini 3.5 Flash发布

谷歌发布新模型Gemini 3.5 Flash,其在智能指数上提升9分至55分,超越Grok 4.3和Claude Sonnet 4.6,尤其在代理任务和知识真实性(大幅减少幻觉)方面进步显著。输出速度超280 tokens/s,使其位于速度与智能的领先前沿。然而,模型运行成本相比前代增加5.5倍,主要由于输入令牌用量及定价上涨。此外,它在多模态评估MMMU-Pro中取得最高分,支持多模态输入,展现了谷歌的综合优势。

智能体DeepMindGoogle多模态
02:00
Chubby♨️@kimmonismus
68
一个Flash模型的评测结果太疯狂了!Gemini 3.5 Flash对于其尺寸来说真的非常出色!

Chubby♨️: Gemini 3.5 Flash official! Insanely fast an capable model

Google多模态模型发布
01:59
The Decoder:AI News(RSS)
63
谷歌I/O开发者大会公告:新模型、永不休眠的云端代理与重新设计的Gemini应用

谷歌在I/O开发者大会上发布了一系列新AI产品,包括轻量级模型Gemini 3.5 Flash和多模态模型Gemini Omni。同时推出名为Gemini Spark的个人代理,该代理可在云端24/7全天候运行。此外,Gemini应用程序也进行了重大重新设计。

智能体Google产品更新多模态
01:59
Ethan Mollick@emollick
74
Gemini Omni:"一个男人一边吃着蒜香面包,一边在独轮车上保持平衡,站在翻滚的番茄酱海洋上方的小平台上,朗读《荒原》中的《溺水之死》。在酱海中央,漂浮着一颗戴着高顶礼帽、长着亮蓝色眼睛的肉丸。"
Google其他多模态视频
01:55
IT之家(RSS)
77
谷歌 Gemini Omni 全能模型发布:可从任意输入生成任意输出,一句话让 AI 修改视频

在2026年谷歌I/O开发者大会上,谷歌正式推出Gemini Omni模型。该模型代表了Gemini家族迄今最全面的能力,“Omni”意为全能,能够无缝处理文本、图像、音频和视频等多种信息模态,实现“从任何输入生成任何输出”。其核心亮点在于支持对话式编辑,用户可通过自然语言指令轻松修改视频元素。同时,谷歌发布了首款衍生模型Gemini Omni Flash,现已在Gemini App、Google Flow和YouTube Shorts中可用,后续将提供API服务。

Google多模态模型发布视频
01:48
Google DeepMind:Blog(RSS)
同事件精选83
推出Gemini Omni多模态AI模型

谷歌推出原生多模态AI模型Gemini Omni,能够整合视频、图像、音频和文本等多种输入,生成高质量视频内容。其核心能力是通过自然语言对话进行视频编辑,并能保持角色一致性、物理规律与场景连贯性。首个模型Gemini Omni Flash已上线,未来将支持图像和音频输出。Gemini Omni结合了对物理世界的直觉理解与丰富的知识库,支持从写实到叙事的创意生成,并可通过多轮对话持续编辑视频,而不丢失原始场景上下文。

DeepMindGoogle多模态模型发布
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Gemini Omni 把视频生成从画面堆砌推到了物理世界叙事,多轮自然语言编辑和世界知识融合是真正的代际升级,做视频内容的该重新理解工具的定义了。
01:41
Google DeepMind@GoogleDeepMind
78
我们推出Gemini Omni:这是迈向一个能从任何内容生成任何内容的模型的第一步--从视频开始。 它结合了Gemini的智能与我们的生成式媒体系统--代表了在世界理解、多模态和编辑方面的飞跃🧵
DeepMindGoogle多模态模型发布
01:36
🚨 AI News | TestingCatalog@testingcatalog
74
谷歌I/O 🔥:Gemini 3.5 Flash 已开始在 Gemini 和 API 上推出! 即将开始测试 👀
Google多模态模型发布
01:36
🚨 AI News | TestingCatalog@testingcatalog
精选75
谷歌 I/O 🔥:GEMINI OMNI FLASH 已发布,现已在 GEMINI 和 GOOGLE FLOW 上可用。 GEMINI OMNI PRO 即将推出 🤩

Google DeepMind: Omni brings together an improved understanding of physics with Gemini's knowledge of history, biology, and culture, brid...

Google多模态模型发布

推荐理由:Gemini Omni Flash 是 Google 对多模态生成的新尝试,把物理模拟和历史叙事揉在一起,做视频内容的人可以盯着看。
01:30
Chubby♨️@kimmonismus
精选77
"迈向AGI的进展":Gemini Omni - 世界模型 -Gemini Omni官方发布!! 它可以从任何输入创建任何内容!!!

Chubby♨️: Cap-ex at google is increasing at roughly 6x per year!

Google多模态模型发布

推荐理由:Google 放出 Gemini Omni,从任何输入生成任何内容,这个能力宣言直接把生成式 AI 的边界推到极限。虽然细节还不明朗,但看这架势,模型竞赛又要烧一把火。
01:30
Chubby♨️@kimmonismus
54
Gemini 3.5 Flash官方发布!速度极快且能力强大的模型

Chubby♨️: "Progress towards AGI": Gemini Omni - world models -Gemini Omni official!! It can create anything from any input!!!

Google多模态模型发布
01:28
Ethan Mollick@emollick
44
我早期获得了Gemini Omni的访问权限:"一只穿着飞行员制服的海獭在纽约上空的热气球里,向一只被笔记本电脑分心的河獭解释为什么精神航空破产了。在旁边的另一个热气球里,威廉·莎士比亚正在与一个由披萨制成的机器人搏斗"
Google其他多模态视频
00:36
DogeDesigner@cb_doge
58
马斯克《福布斯》访谈:科技愿景与争议观点

在《福布斯》访谈中,埃隆·马斯克就多个领域阐述了激进观点。他批评针对OpenAI的诉讼败诉开创了“危险先例”,并计划上诉。其核心预测包括:AI发展呈指数级,5年内数字智能或超全人类智能总和;全球经济规模有望数年内翻倍;人形机器人将达数亿台。SpaceX致力于开发全复用火箭,以实现大规模太空运输并建立地外城市。他将Neuralink脑机接口技术视为“耶稣级”创新,能恢复残障人士机能。此外,他还提及了隧道交通、合成医学等机遇,整体展现出以技术加速人类文明进程的强烈紧迫感与乐观构想。

OpenAI具身智能多模态大佬观点
00:26
向阳乔木@vista8
41
Gemini Omni Flash 效果很拉胯啊! 提示词:生成墨比斯风格的科幻动画短片,银河系搭车客指南 好像根本没理解第二句话…
Google多模态评测/基准
00:18
小互@xiaohu
48
Google 全新Omni 模型 🫡
Google多模态模型发布
00:09
歸藏(guizang.ai)@op7418
67
哇! 谷歌新视频模型 Gemini Omni Flash 已经上线 FLow
Google多模态模型发布视频
00:02
Luma@LumaLabsAI
66
Luma Agents现在可以使用Seedance 2.0进行生成了。 将你的下一个项目指向它,看看它能产出什么,然后继续前进。同样的工作流程,但有了更多可用内容。 打开Luma Agents → http://lumalabs.ai/app
产品更新多模态
5月19日
23:34
🚨 AI News | TestingCatalog@testingcatalog
59
Google Flow在I/O期间发布了一系列重要更新。核心功能包括新增角色与场景创建,用户可生成并复用角色形象与语音,用于视频创作。应用已正式登陆Google Play,覆盖Android平台。通过集成Gemini Omni,Flow获得了新的AI助手体验,用户可通过聊天模式与Gemini协作,进行概念构思、图像变体生成等智能操作,并新增了可定制的风格工具。

🚨 AI News | TestingCatalog: GOOGLE I/O 🔥: Google Flow is getting Gemini Omni and a new Flow Agent experience! > Your Agent is active! Ask Gemini to...

Google产品更新多模态视频
23:18
Qwen:Blog Retrieval(API)
精选77
Qwen3.5-LiveTranslate:从声音到视觉,从词语到准确

Qwen3.5-LiveTranslate-Flash 是 Qwen 家族最新的同声传译模型,基于 Qwen3.5-Omni 架构,支持实时多模态翻译(音频、视频及视觉上下文)。语言覆盖大幅扩展:输入音频与输出文本从18种增至60种,输出音频从10种增至29种。采用 Readable Unit 技术,平均端到端每 token 延迟降至2.8秒,相比前代首 token 延迟降低3.45秒、每 token 延迟降低1.88秒。支持一句话启动的实时语音克隆和可动态配置的热词增强。在 FLEURS 和 CoVoST2 基准上翻译准确率超越主流商用大语音模型。

多模态模型发布语音

推荐理由:这个版本让同声传译从“能用”变成了“好用”,语言覆盖从 18 跃升 60,延迟压到 2.8 秒,加上视觉消除歧义,做国际业务和直播的人值得跟进。
‹ 上一页
1…2930313233…50
下一页 ›