# Gemini Embedding 2：来自Gemini的原生多模态嵌入模型

- 来源：HuggingFace Daily Papers（社区热门论文）
- 发布时间：2026-05-26 08:00
- AIHOT 分数：72
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmpnwyk2c0104slv4ynvin2w3
- 原文链接：https://arxiv.org/abs/2605.27295

## 精选理由

Google 把多模态嵌入统一到一个模型里了，文本、代码、跨模态检索全面刷榜，做 RAG 和搜索的该认真看看了。

## AI 摘要

Google DeepMind推出Gemini Embedding 2，这是一款原生多模态嵌入模型，支持在统一表示空间中嵌入视频、音频、图像和文本。该模型利用Gemini的多模态能力，通过大规模对比学习实现SOTA性能。在关键基准上表现优异：MSCOCO取得62.9 R@1，Vatex取得68.8 NDCG@10，MTEB multilingual达到69.9，MTEB Code达到84.0，超越了专用模型。其统一能力使其适用于RAG、推荐与搜索等下游任务，并在天文学、生物科学、艺术和烹饪等专业领域展现出强大的零样本性能。

## 正文

我们推出 Gemini Embedding 2，这是一个原生多模态嵌入模型，能够将视频、音频、图像和文本模态嵌入到一个统一的表示空间中。

我们利用 Gemini 的多模态能力，为所有这些模态的任意交互相嵌输入生成嵌入，这些嵌入在各种任务中都能很好地泛化。

通过在多任务、多阶段的训练设置中应用大规模对比学习，我们在关键嵌入基准测试上取得了最先进的性能，涵盖单模态、跨模态和多模态检索等多种任务。

我们展示了该嵌入模型在多种任务上的强劲表现（在 MSCOCO 上得分为 62.9 R@1，在 Vatex 上得分为 68.8 NDCG@10，在 MTEB 多语言任务上得分为 69.9，在 MTEB 代码任务上得分为 84.0），超越了专门的模型。

这些统一的能力使 Gemini Embedding 2 成为 RAG、推荐和搜索等下游应用场景的有力候选方案。

此外，它在从天文学、生物科学到美术和烹饪艺术等不同领域的强大零样本性能，使其即使对于专业领域，也成为高度可靠的开箱即用的表示模型。