Mistral AI团队开源了其7.3B参数模型Mistral 7B。该模型在所有基准测试中超越Llama 2 13B,在许多测试中超越Llama 1 34B,并在代码任务上接近CodeLlama 7B的性能。它采用Grouped-query attention (GQA)以加速推理,并使用Sliding Window Attention (SWA)以更低的成本处理长序列。在推理、理解和STEM推理(MMLU)上,其性能相当于超过3倍大小的Llama 2模型。模型以Apache 2.0许可证开源,并提供了一个针对对话微调的Mistral 7B Instruct版本,其在MT-Bench上表现优于所有7B模型。