7月20日

00:00

LMSYS：Blog（Chatbot Arena 团队）

LMSYS Org 发布 Chatbot Arena 两大人类偏好数据集：33K 条真实对话（涵盖 GPT-4、Claude 等 20 个模型）及 3K 条 MT-bench 专家标注。平台上线三个月已收集 19K 独立 IP 的 53K 次投票，覆盖 22 个模型。最新排行榜新增 LLaMA 2、Claude 2 等模型。MT-bench 评估显示人类与 GPT-4 评判一致性超 80%。数据包含真实场景下的模型输出，可用于 RLHF 训练与模型安全研究。

开源生态数据/训练评测/基准

6月22日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena第8周榜单：推出MT-Bench与Vicuna-33B

Chatbot Arena发布第8周排行榜，新增Vicuna-v1.3系列开源模型（7B-33B参数）及MT-Bench评估基准。MT-Bench包含80道多轮题目，涵盖写作、推理等8类，由GPT-4评分。新榜采用三项指标：基于4.2万匿名投票的Arena Elo、MT-Bench分数及MMLU。结果显示，GPT-4以8.99分和1227分领先，Vicuna-33B获7.12分，性能接近Claude与GPT-3.5-turbo。

开源生态数据/训练评测/基准

5月25日

00:00

LMSYS：Blog（Chatbot Arena 团队）

LMSYS 发布最新大语言模型排行榜（第4周）

LMSYS Org 发布基于 27K 条匿名投票的大模型排行榜（4 月 24 日-5 月 22 日）。GPT-4（1225 分）居首，Claude-v1（1195 分）与 Claude-instant-v1（1153 分）紧随其后。新加入的 Google PaLM 2（1042 分）位列第六，虽对顶级模型胜率过半，但因过度监管（20.9% 对局因拒答失利），竟在 21.6% 比赛中输给非头部模型，表现不及 GPT-3.5-turbo（12.8%）。

Anthropic Google 评测/基准

5月10日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena第二周排行榜：GPT-4居首，Claude紧随其后

LMSYS Org发布Chatbot Arena第二周排行榜，新增GPT-4、Claude-v1、GPT-3.5-turbo和RWKV-4-Raven-14B四款模型。基于1.3万条匿名投票的Elo评分显示，GPT-4以1274分领跑，Claude-v1（1224分）和GPT-3.5-turbo（1155分）分列二、三位。专有模型与开源模型差距显著，GPT-4对Vicuna-13B胜率达82%，但Claude在66场非平局对决中对GPT-4取得48%胜率。RWKV-4-Raven-14B作为非Transformer架构的RNN模型排名第六，表现超出预期。

Anthropic OpenAI 评测/基准

5月3日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena：基于Elo评分的众包大模型评测平台

LMSYS推出Chatbot Arena平台，通过众包匿名对战机制与Elo评分系统对LLM进行排名。基于4.7K投票数据的初始榜单显示，Vicuna-13b以1169分位居榜首，Koala-13b和OASST-Pythia-12b分列二、三位。用户通过与两个匿名模型实时对话并投票，帮助解决开放式问题的自动评估难题，具备可扩展性和增量评估能力。

评测/基准

10月11日

23:00

EleutherAI：Blog

语言模型评估中的多项选择归一化

自回归语言模型（GPT-3、GPT-Neo、GPT-J 等）的多项选择任务评估存在多种实现路径。文章系统梳理了当前主流的归一化（Normalization）方法，针对模型在不同选项上的概率计算方式、长度偏差修正及分数标准化技术进行详细阐述，为统一语言模型评测标准提供方法论参考。

数据/训练论文/研究评测/基准

5月25日

04:00

EleutherAI：Blog

关于 OpenAI API 模型规模的探讨

研究团队利用 eval harness 评估框架，通过对比 OpenAI API 模型在标准测试集上的性能表现，成功反向推算出其模型参数规模。该方法基于模型能力与参数量之间的相关性，分析了包括 GPT 系列在内的闭源模型在各项任务中的得分差异，揭示了 OpenAI 未公开披露的模型大小信息，为理解这些模型的实际规模与能力边界提供了量化依据。

OpenAI 论文/研究评测/基准

04:00

EleutherAI：Blog

在下游任务上微调模型

研究团队对GPT-Neo模型开展下游任务微调实验，利用eval harness评测体系进行针对性训练，系统观测微调过程对其性能表现产生的具体影响。实验通过调整模型参数适配特定任务，评估预训练模型在下游场景中的能力变化与适应性表现，为理解微调对模型性能的优化效果提供实证数据支撑。

数据/训练论文/研究评测/基准