HAKARI-Bench:统一条件下比较检索架构与效率设置的轻量级基准
有了这个轻量级基准,做检索的开发者不用再跑整套 MTEB 就能快速筛选嵌入模型和效率配置,而且排名与完整评测高度一致,是工程选型的高性价比工具。
HAKARI-Bench 是一个轻量级检索基准,将现有检索套件重建为小型数据集(Nano-sets),涵盖 35 个基准、551 个任务和 43 种语言,采用统一格式实现模型无关比较。它支持 BM25、稠密、稀疏、晚交互和重排序五种检索家族及其效率变体(降维、量化等)在同一条件下对比。在 55 个模型上,整体排名与 MTEB retrieval v2、MMTEB v2 retrieval 及 English BEIR(完整版)的 Spearman 相关系数均高于 0.97。HAKARI-Bench 不取代全面评测,而是用于快速模型选择、回归检测和探索质量-效率帕累托前沿。代码、数据和排行榜以 MIT 许可证开源。
随着检索增强生成和语义搜索的迅速普及,选择合适的嵌入向量与检索配置正变得越来越困难。大型检索基准虽然全面,但在开发过程中重新运行过于繁重,而且目前几乎没有基础设施能够在相同条件下跨多个模型比较生产环境下的配置——如降维、量化、重排序等。我们提出了 HAKARI-Bench,一个轻量级基准测试,它将现有检索测试集重构为小型数据集(Nano-sets):涵盖 43 种语言的 35 个基准和 551 个任务,采用统一格式,支持在相同条件下进行模型无关的比较,覆盖五类检索方法(BM25、密集检索、稀疏检索、延迟交互模型、重排序器)及其效率变体。在 55 个模型上,其整体排名与官方 MTEB retrieval v2、MMTEB v2 retrieval 以及英文 BEIR(完整版)的斯皮尔曼相关系数均超过 0.97。HAKARI-Bench 并非要取代完整评估,而是用于快速模型选择、回归检测以及读取质量-效率帕累托前沿。代码、数据和排行榜均以 MIT 许可证发布。