QIMMA：一个质量优先的阿拉伯语大语言模型排行榜

2026-04-21 18:09·60天前

AI 摘要

QIMMA 是一个首创质量验证流程的阿拉伯语大语言模型评估平台。它整合了14个基准测试的109个子集、超5.2万个样本，覆盖文化、STEM等7大领域，其中99%为原生阿拉伯语内容。平台采用双阶段质量验证：先由两个大模型自动评估，再经人工审核，发现并剔除了现有基准中存在的系统性质量问题。此外，QIMMA首次集成了阿拉伯语问题描述的代码评估任务，并公开逐样本推理结果，确保了评估的可靠性与透明度。

这是一则列表来源，站内未收录完整正文。

Hugging Face开源生态数据/训练评测/基准

阅读完整原文

Hugging Face：Blog（RSS）

处理中

QIMMA：一个质量优先的阿拉伯语大语言模型排行榜

2026-04-21 18:09·60天前

AI 摘要

这是一则列表来源，站内未收录完整正文。

阅读完整原文huggingface.co

Hugging Face开源生态数据/训练评测/基准