AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 88 条
全部一手资讯X论文
标签「评测/基准」清除
7月20日周四
00:00LMSYS:Blog(Chatbot Arena 团队)LMSYS Org 发布 Chatbot Arena 人类偏好数据集
6月22日周四
00:00LMSYS:Blog(Chatbot Arena 团队)Chatbot Arena第8周榜单:推出MT-Bench与Vicuna-33B
5月25日周四
00:00LMSYS:Blog(Chatbot Arena 团队)LMSYS 发布最新大语言模型排行榜(第4周)
5月10日周三
00:00LMSYS:Blog(Chatbot Arena 团队)Chatbot Arena第二周排行榜:GPT-4居首,Claude紧随其后
5月3日周三
00:00LMSYS:Blog(Chatbot Arena 团队)Chatbot Arena:基于Elo评分的众包大模型评测平台
10月11日周一
23:00EleutherAI:Blog语言模型评估中的多项选择归一化
5月25日周二
04:00EleutherAI:Blog关于 OpenAI API 模型规模的探讨
04:00EleutherAI:Blog在下游任务上微调模型
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月20日
00:00
LMSYS:Blog(Chatbot Arena 团队)
LMSYS Org 发布 Chatbot Arena 人类偏好数据集

LMSYS Org 发布 Chatbot Arena 两大人类偏好数据集:33K 条真实对话(涵盖 GPT-4、Claude 等 20 个模型)及 3K 条 MT-bench 专家标注。平台上线三个月已收集 19K 独立 IP 的 53K 次投票,覆盖 22 个模型。最新排行榜新增 LLaMA 2、Claude 2 等模型。MT-bench 评估显示人类与 GPT-4 评判一致性超 80%。数据包含真实场景下的模型输出,可用于 RLHF 训练与模型安全研究。

开源生态数据/训练评测/基准
6月22日
00:00
LMSYS:Blog(Chatbot Arena 团队)
Chatbot Arena第8周榜单:推出MT-Bench与Vicuna-33B

Chatbot Arena发布第8周排行榜,新增Vicuna-v1.3系列开源模型(7B-33B参数)及MT-Bench评估基准。MT-Bench包含80道多轮题目,涵盖写作、推理等8类,由GPT-4评分。新榜采用三项指标:基于4.2万匿名投票的Arena Elo、MT-Bench分数及MMLU。结果显示,GPT-4以8.99分和1227分领先,Vicuna-33B获7.12分,性能接近Claude与GPT-3.5-turbo。

开源生态数据/训练评测/基准
5月25日
00:00
LMSYS:Blog(Chatbot Arena 团队)
LMSYS 发布最新大语言模型排行榜(第4周)

LMSYS Org 发布基于 27K 条匿名投票的大模型排行榜(4 月 24 日-5 月 22 日)。GPT-4(1225 分)居首,Claude-v1(1195 分)与 Claude-instant-v1(1153 分)紧随其后。新加入的 Google PaLM 2(1042 分)位列第六,虽对顶级模型胜率过半,但因过度监管(20.9% 对局因拒答失利),竟在 21.6% 比赛中输给非头部模型,表现不及 GPT-3.5-turbo(12.8%)。

AnthropicGoogle评测/基准
5月10日
00:00
LMSYS:Blog(Chatbot Arena 团队)
Chatbot Arena第二周排行榜:GPT-4居首,Claude紧随其后

LMSYS Org发布Chatbot Arena第二周排行榜,新增GPT-4、Claude-v1、GPT-3.5-turbo和RWKV-4-Raven-14B四款模型。基于1.3万条匿名投票的Elo评分显示,GPT-4以1274分领跑,Claude-v1(1224分)和GPT-3.5-turbo(1155分)分列二、三位。专有模型与开源模型差距显著,GPT-4对Vicuna-13B胜率达82%,但Claude在66场非平局对决中对GPT-4取得48%胜率。RWKV-4-Raven-14B作为非Transformer架构的RNN模型排名第六,表现超出预期。

AnthropicOpenAI评测/基准
5月3日
00:00
LMSYS:Blog(Chatbot Arena 团队)
Chatbot Arena:基于Elo评分的众包大模型评测平台

LMSYS推出Chatbot Arena平台,通过众包匿名对战机制与Elo评分系统对LLM进行排名。基于4.7K投票数据的初始榜单显示,Vicuna-13b以1169分位居榜首,Koala-13b和OASST-Pythia-12b分列二、三位。用户通过与两个匿名模型实时对话并投票,帮助解决开放式问题的自动评估难题,具备可扩展性和增量评估能力。

评测/基准
10月11日
23:00
EleutherAI:Blog
语言模型评估中的多项选择归一化

自回归语言模型(GPT-3、GPT-Neo、GPT-J 等)的多项选择任务评估存在多种实现路径。文章系统梳理了当前主流的归一化(Normalization)方法,针对模型在不同选项上的概率计算方式、长度偏差修正及分数标准化技术进行详细阐述,为统一语言模型评测标准提供方法论参考。

数据/训练论文/研究评测/基准
5月25日
04:00
EleutherAI:Blog
关于 OpenAI API 模型规模的探讨

研究团队利用 eval harness 评估框架,通过对比 OpenAI API 模型在标准测试集上的性能表现,成功反向推算出其模型参数规模。该方法基于模型能力与参数量之间的相关性,分析了包括 GPT 系列在内的闭源模型在各项任务中的得分差异,揭示了 OpenAI 未公开披露的模型大小信息,为理解这些模型的实际规模与能力边界提供了量化依据。

OpenAI论文/研究评测/基准
04:00
EleutherAI:Blog
在下游任务上微调模型

研究团队对GPT-Neo模型开展下游任务微调实验,利用eval harness评测体系进行针对性训练,系统观测微调过程对其性能表现产生的具体影响。实验通过调整模型参数适配特定任务,评估预训练模型在下游场景中的能力变化与适应性表现,为理解微调对模型性能的优化效果提供实证数据支撑。

数据/训练论文/研究评测/基准
‹ 上一页
123
下一页 ›