# 谷歌发布首个原生多模态嵌入模型Gemini Embedding 2

- 来源：Google AI (@GoogleAI)
- 发布时间：2026-05-01 01:28
- AIHOT 分数：69
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmolryh3501wosll966mttaas
- 原文链接：https://x.com/GoogleAI/status/2049903687016063456

## 精选理由

Google 第一个原生多模态嵌入模型，把文本、图像、视频拉到同一个向量空间，做跨模态搜索的开发者可以不用再手动打标签了，但离「无感理解」还有距离。

## AI 摘要

谷歌上周正式向公众发布了其首个原生多模态嵌入模型Gemini Embedding 2。该模型如同“通用翻译器”，能将文本、图像、视频和音频数据转化为独特的数字向量。其核心突破在于不再依赖关键词匹配，而是基于语义将不同模态的数据映射到同一空间，从而理解内容间的深层联系。开发者已利用该模型构建视频分析工具、视觉购物助手等应用，实现通过拍照或描述场景进行智能搜索的功能。模型现可通过Gemini API或Gemini Enterprise Agent平台使用。

## 正文

上周，我们将 Gemini Embedding 2——我们首款原生多模态嵌入模型——正式向公众开放。自那以后，开发者已经用它构建了视频分析工具、视觉购物助手等各种应用。

但你可能会好奇……到底什么是嵌入模型？🤔 我们来拆解一下！

1. 它是什么？ 可以把嵌入模型理解为一个“万能翻译器”。它接收文本、图像、视频和音频数据，然后将它们转换成一长串数字，就像一串独一无二的数字指纹。

2. 它是如何工作的？ 以往，搜索仅限于文本。现在，Gemini Embedding 2 不再仅仅通过关键词匹配数据，而是将多种模态的内容基于语义映射到同一空间中。它能“感知”一段足球进球视频与“制胜一击”这些文字之间的关联，无需任何标签。

例如，“海洋”和“波浪”会被放置得很近，而“海洋”和“烤面包机”则相距甚远。

3. 你可以怎么用它？ 开发者们一直在用它为自己的应用集成更智能的搜索功能。这意味着你可以打造这样的工具：拍一张产品照片，然后输入“找黄色的同款”；或者通过描述某个场景中发生的事情，在数千小时的视频中进行搜索。

4. 准备好亲自尝试了吗？ 你现在就可以通过 Gemini API 或 Gemini Enterprise Agent Platform 开始使用它。
