Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni,能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸,分别具有1.57B和0.95B参数,并支持Matryoshka截断技术。关键优势在于完全向后兼容:现有jina-embeddings-v5-text的索引无需重新构建,可直接替换为v5-omni,在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲,小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。
兄弟们!Jina 今天直来了个大 的! Jina-embeddings-v5-omni 来了! 这是他们首个真正支持 text + image + audio + video 的统一 Embedding 模型!(多模态的EMB~!)
两个尺寸:
Small(1.57B,1024维,32K 上下文) Nano(0.95B,768维,8K 上下文)
还支持 Matryoshka 截断到 32 维,超级灵活。
最爽的是完全向后兼容:你原来的 v5-text 索引不用动,直接换成 omni 就能开始搜图片、音频、视频了!同一向量空间,无需 reindexing。
性能也很猛,小模型就打平甚至超越好几个参数量大几倍的开源模型。
现在已经在 Hugging Face、Jina API、Elastic Inference Service 上架了。
这波多模态 embedding 真的要爽了兄弟们!
你们已经在做多模态 RAG 或者多媒体搜索了吗?😂