Hugging Face:Blog(RSS)
处理中
QIMMA:一个质量优先的阿拉伯语大语言模型排行榜
AI 摘要
QIMMA 是一个首创质量验证流程的阿拉伯语大语言模型评估平台。它整合了14个基准测试的109个子集、超5.2万个样本,覆盖文化、STEM等7大领域,其中99%为原生阿拉伯语内容。平台采用双阶段质量验证:先由两个大模型自动评估,再经人工审核,发现并剔除了现有基准中存在的系统性质量问题。此外,QIMMA首次集成了阿拉伯语问题描述的代码评估任务,并公开逐样本推理结果,确保了评估的可靠性与透明度。
这是一则列表来源,站内未收录完整正文。
阅读完整原文huggingface.co