Google AI@GoogleAI

精选69

2026-05-01 01:28·63天前

精选理由

Google 第一个原生多模态嵌入模型，把文本、图像、视频拉到同一个向量空间，做跨模态搜索的开发者可以不用再手动打标签了，但离「无感理解」还有距离。

AI 摘要

谷歌上周正式向公众发布了其首个原生多模态嵌入模型Gemini Embedding 2。该模型如同“通用翻译器”，能将文本、图像、视频和音频数据转化为独特的数字向量。其核心突破在于不再依赖关键词匹配，而是基于语义将不同模态的数据映射到同一空间，从而理解内容间的深层联系。开发者已利用该模型构建视频分析工具、视觉购物助手等应用，实现通过拍照或描述场景进行智能搜索的功能。模型现可通过Gemini API或Gemini Enterprise Agent平台使用。

AI 翻译 · 中文

上周，我们将 Gemini Embedding 2——我们首款原生多模态嵌入模型——正式向公众开放。自那以后，开发者已经用它构建了视频分析工具、视觉购物助手等各种应用。

但你可能会好奇……到底什么是嵌入模型？🤔 我们来拆解一下！

它是什么？可以把嵌入模型理解为一个“万能翻译器”。它接收文本、图像、视频和音频数据，然后将它们转换成一长串数字，就像一串独一无二的数字指纹。

它是如何工作的？以往，搜索仅限于文本。现在，Gemini Embedding 2 不再仅仅通过关键词匹配数据，而是将多种模态的内容基于语义映射到同一空间中。它能“感知”一段足球进球视频与“制胜一击”这些文字之间的关联，无需任何标签。

例如，“海洋”和“波浪”会被放置得很近，而“海洋”和“烤面包机”则相距甚远。

你可以怎么用它？开发者们一直在用它为自己的应用集成更智能的搜索功能。这意味着你可以打造这样的工具：拍一张产品照片，然后输入“找黄色的同款”；或者通过描述某个场景中发生的事情，在数千小时的视频中进行搜索。

准备好亲自尝试了吗？你现在就可以通过 Gemini API 或 Gemini Enterprise Agent Platform 开始使用它。

Google AI@GoogleAI · X

精选69导出 Markdown