Berryxia.AI@berryxia

2026-05-13 08:11·51天前

AI 摘要

Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni，能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸，分别具有1.57B和0.95B参数，并支持Matryoshka截断技术。关键优势在于完全向后兼容：现有jina-embeddings-v5-text的索引无需重新构建，可直接替换为v5-omni，在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲，小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。

兄弟们！Jina 今天直来了个大的！ Jina-embeddings-v5-omni 来了！这是他们首个真正支持 text + image + audio + video 的统一 Embedding 模型！（多模态的EMB~！）

两个尺寸：

Small（1.57B，1024维，32K 上下文） Nano（0.95B，768维，8K 上下文）

还支持 Matryoshka 截断到 32 维，超级灵活。

最爽的是完全向后兼容：你原来的 v5-text 索引不用动，直接换成 omni 就能开始搜图片、音频、视频了！同一向量空间，无需 reindexing。

性能也很猛，小模型就打平甚至超越好几个参数量大几倍的开源模型。

现在已经在 Hugging Face、Jina API、Elastic Inference Service 上架了。

这波多模态 embedding 真的要爽了兄弟们！

你们已经在做多模态 RAG 或者多媒体搜索了吗？😂

Jina AIjina-embeddings-v5-omni is here! Our first universal embedding model for text, images, audio, and video. Available in two sizes: small (1.57B, 1024-dim, 32K con...

Hugging Face检索增强多模态开源生态

在 X 查看原推导出 Markdown

Berryxia.AI@berryxia · X

65导出 Markdown