Gemini Embedding 2:来自Gemini的原生多模态嵌入模型
阅读原文· arxiv.orgGoogle 把多模态嵌入统一到一个模型里了,文本、代码、跨模态检索全面刷榜,做 RAG 和搜索的该认真看看了。
Google DeepMind推出Gemini Embedding 2,这是一款原生多模态嵌入模型,支持在统一表示空间中嵌入视频、音频、图像和文本。该模型利用Gemini的多模态能力,通过大规模对比学习实现SOTA性能。在关键基准上表现优异:MSCOCO取得62.9 R@1,Vatex取得68.8 NDCG@10,MTEB multilingual达到69.9,MTEB Code达到84.0,超越了专用模型。其统一能力使其适用于RAG、推荐与搜索等下游任务,并在天文学、生物科学、艺术和烹饪等专业领域展现出强大的零样本性能。
我们推出 Gemini Embedding 2,这是一个原生多模态嵌入模型,能够将视频、音频、图像和文本模态嵌入到一个统一的表示空间中。
我们利用 Gemini 的多模态能力,为所有这些模态的任意交互相嵌输入生成嵌入,这些嵌入在各种任务中都能很好地泛化。
通过在多任务、多阶段的训练设置中应用大规模对比学习,我们在关键嵌入基准测试上取得了最先进的性能,涵盖单模态、跨模态和多模态检索等多种任务。
我们展示了该嵌入模型在多种任务上的强劲表现(在 MSCOCO 上得分为 62.9 R@1,在 Vatex 上得分为 68.8 NDCG@10,在 MTEB 多语言任务上得分为 69.9,在 MTEB 代码任务上得分为 84.0),超越了专门的模型。
这些统一的能力使 Gemini Embedding 2 成为 RAG、推荐和搜索等下游应用场景的有力候选方案。
此外,它在从天文学、生物科学到美术和烹饪艺术等不同领域的强大零样本性能,使其即使对于专业领域,也成为高度可靠的开箱即用的表示模型。