Google 第一个原生多模态嵌入模型,把文本、图像、视频拉到同一个向量空间,做跨模态搜索的开发者可以不用再手动打标签了,但离「无感理解」还有距离。
谷歌上周正式向公众发布了其首个原生多模态嵌入模型Gemini Embedding 2。该模型如同“通用翻译器”,能将文本、图像、视频和音频数据转化为独特的数字向量。其核心突破在于不再依赖关键词匹配,而是基于语义将不同模态的数据映射到同一空间,从而理解内容间的深层联系。开发者已利用该模型构建视频分析工具、视觉购物助手等应用,实现通过拍照或描述场景进行智能搜索的功能。模型现可通过Gemini API或Gemini Enterprise Agent平台使用。
上周,我们将 Gemini Embedding 2——我们首款原生多模态嵌入模型——正式向公众开放。自那以后,开发者已经用它构建了视频分析工具、视觉购物助手等各种应用。
但你可能会好奇……到底什么是嵌入模型?🤔 我们来拆解一下!
- 它是什么? 可以把嵌入模型理解为一个“万能翻译器”。它接收文本、图像、视频和音频数据,然后将它们转换成一长串数字,就像一串独一无二的数字指纹。
- 它是如何工作的? 以往,搜索仅限于文本。现在,Gemini Embedding 2 不再仅仅通过关键词匹配数据,而是将多种模态的内容基于语义映射到同一空间中。它能“感知”一段足球进球视频与“制胜一击”这些文字之间的关联,无需任何标签。
例如,“海洋”和“波浪”会被放置得很近,而“海洋”和“烤面包机”则相距甚远。
- 你可以怎么用它? 开发者们一直在用它为自己的应用集成更智能的搜索功能。这意味着你可以打造这样的工具:拍一张产品照片,然后输入“找黄色的同款”;或者通过描述某个场景中发生的事情,在数千小时的视频中进行搜索。
- 准备好亲自尝试了吗? 你现在就可以通过 Gemini API 或 Gemini Enterprise Agent Platform 开始使用它。