AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「评测/基准」清除
10月8日周三
00:00Berkeley RDI:Blog(AI 安全与评测)CyberGym:大规模评估AI Agent真实网络安全能力
9月18日周四
01:38Noam Brown精选12/12 题目全部解决,相当于第一名成绩,GPT-5 解决了其中 11 道
01:35OpenAI精选OpenAI 通用推理模型在 2025 ICPC 世界总决赛获满分,排名人类第一
01:09Google DeepMind精选Gemini 2.5 Deep Think 进阶版在 ICPC 2025 中斩获金牌水平成绩
9月13日周六
22:51Jim FanBEHAVIOR挑战启动:机器人学迎来ImageNet时刻
8月22日周五
03:16Hao AI Lab35Lmgame Bench评估指南与功能详解
8月13日周三
06:31Hao AI Lab【Lmgame Bench】 🔥 我们在 Lmgame Bench 中测试了 Openai 的 GPT-5-thinking-high 和两个最新的开源模型!
8月8日周五
06:26Hao AI Lab【Lmgame Bench】 🏆祝贺 o3 强势夺得首届 AI 国际象棋锦标赛冠军!同时祝贺 grok-4 和 gemini-2.5-pro 分获亚军和季军!
7月25日周五
03:11Hao AI Lab【Lmgame Bench】 🧐 Kimi-k2-0711-preview 在数学、编程和工具使用智能体基准测试中表现出色。但我们发现,对于像 Kimi-k2 这样的非推理模型,游戏环境仍然是一个挑战,在 Lmgame Bench 上,它在我们排行榜评估的所有19个模型中仅排名第18。
7月19日周六
16:20Noam BrownOpenAI 在 IMO 夺金的结果出乎众人意料
6月17日周二
09:33Saining Xie精选所以这不是一个针对软件工程智能体的基准测试。它旨在通过编程测试核心推理与智能--由一些顶尖竞技程序员撰写的 71 页深度分析作为支撑。
11月18日周一
00:00Mistral AI:News(网页)60Mistral AI 开源多模态模型 Pixtral Large 发布
9月20日周五
00:00LMSYS:Blog(Chatbot Arena 团队)Chatbot Arena 正式启用独立网站 lmarena.ai
9月18日周三
20:06公众号:DeepSeek(深度求索)56DeepSeek-V2.5 登上 LMSYS ChatBotArena,创国产模型历史最高分
8月29日周四
00:00LMSYS:Blog(Chatbot Arena 团队)风格是否重要?在 Chatbot Arena 中解耦风格与实质
6月27日周四
00:00LMSYS:Blog(Chatbot Arena 团队)Chatbot Arena 推出多模态排行榜
5月20日周一
00:00LMSYS:Blog(Chatbot Arena 团队)Chatbot Arena新增Hard Prompts高难度评测类别
5月8日周三
00:00LMSYS:Blog(Chatbot Arena 团队)技术博客:Llama 3 表现如何?Arena 数据分析
5月2日周四
00:00LMSYS:Blog(Chatbot Arena 团队)LMSYS 与 Kaggle 联合举办人类偏好预测竞赛,奖金 10 万美元
4月19日周五
00:00LMSYS:Blog(Chatbot Arena 团队)从实时数据到高质量基准:Arena-Hard Pipeline
3月1日周五
00:00LMSYS:Blog(Chatbot Arena 团队)LMSYS Chatbot Arena:实时社区驱动的大模型评估平台
12月7日周四
00:00LMSYS:Blog(Chatbot Arena 团队)Chatbot Arena更新:新开源模型领先,评分系统升级
11月14日周二
00:00LMSYS:Blog(Chatbot Arena 团队)Catch me if you can!13B模型如何击败GPT-4:Llama-rephraser在MMLU、GSM-8K、HumanEval基准测试中达到GPT-4性能
7月20日周四
00:00LMSYS:Blog(Chatbot Arena 团队)LMSYS Org 发布 Chatbot Arena 人类偏好数据集
6月22日周四
00:00LMSYS:Blog(Chatbot Arena 团队)Chatbot Arena第8周榜单:推出MT-Bench与Vicuna-33B
5月25日周四
00:00LMSYS:Blog(Chatbot Arena 团队)LMSYS 发布最新大语言模型排行榜(第4周)
5月10日周三
00:00LMSYS:Blog(Chatbot Arena 团队)Chatbot Arena第二周排行榜:GPT-4居首,Claude紧随其后
5月3日周三
00:00LMSYS:Blog(Chatbot Arena 团队)Chatbot Arena:基于Elo评分的众包大模型评测平台
10月11日周一
23:00EleutherAI:Blog语言模型评估中的多项选择归一化
5月25日周二
04:00EleutherAI:Blog关于 OpenAI API 模型规模的探讨
04:00EleutherAI:Blog在下游任务上微调模型
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
10月8日
00:00
Berkeley RDI:Blog(AI 安全与评测)
CyberGym:大规模评估AI Agent真实网络安全能力

研究团队发布网络安全基准测试CyberGym,涵盖1,507个真实漏洞,规模达现有基准7.5倍。测试显示顶级AI Agent单次攻击成功率约30%,30次尝试可达67%,且已自主发现35个零日漏洞及17个补丁缺陷。Claude-Sonnet-4.5单次成功率28.9%,Claude-Sonnet-4达17.9%。测试时扩展策略可将GPT-5成功率从7.7%提升至22%,不同Agent能力互补,联合成功率近翻倍。

智能体Anthropic安全/对齐评测/基准
9月18日
01:38
Noam Brown@polynoamial
精选
OpenAI 推理系统在 2025 ICPC 世界总决赛中获得 12/12 满分,成绩相当于人类参赛者第一名。其中 11 道题目由 GPT-5 解决。

Mostafa Rohaninejad: 1/n I'm really excited to share that our @OpenAI reasoning system got a perfect score of 12/12 during the 2025 ICPC Worl...

OpenAI推理编码评测/基准

推荐理由:GPT-5在ICPC世界总决赛获满分,编程推理能力达人类冠军水平
01:35
OpenAI@OpenAI
精选
OpenAI 推理系统在 2025 ICPC 世界总决赛中解出全部 12 道算法题,获得 12/12 满分。该成绩在所有人类参赛队伍中排名第一,足以夺得冠军。

Mostafa Rohaninejad: 1/n I'm really excited to share that our @OpenAI reasoning system got a perfect score of 12/12 during the 2025 ICPC Worl...

OpenAI推理编码评测/基准
关联讨论 1 条Google DeepMind:Blog(RSS)
推荐理由:通用推理模型首次在顶级编程竞赛击败人类冠军,算法岗竞争格局或将重塑
01:09
Google DeepMind@GoogleDeepMind
精选
Gemini 2.5 Deep Think 进阶版在 ICPC 2025 世界编程大赛中取得金牌水平成绩。继 IMO 数学竞赛后,这是该模型在竞技领域取得的又一历史性突破。
Google推理编码评测/基准

推荐理由:Gemini 2.5 Deep Think 在 ICPC 编程竞赛中达到金牌水平,AI 推理能力再获突破
9月13日
22:51
Jim Fan@DrJimFan
BEHAVIOR挑战启动:机器人学迎来ImageNet时刻

推文指出计算机视觉(ImageNet)和自然语言处理(MMLU、HLE、SWEBench)已建立标准化基准体系,而机器人学仍缺乏统一评估标准,存在硬件、任务定义、评分体系混乱的问题。由ImageNet创造者开发的BEHAVIOR项目基于Isaac Sim物理引擎,旨在建立可复现的机器人学统一基准。该项目已启动首届NeurIPS 2025挑战赛,期望成为推动领域进步的标志性信号。

Fei-Fei Li: (1/N) How close are we to enabling robots to solve the long-horizon, complex tasks that matter in everyday life? 🚨 We a...

具身智能评测/基准
8月22日
03:16
Hao AI Lab@haoailab
35
【Lmgame Bench】 🤔 是否曾想过如何在 Lmgame-Bench 中评估不同游戏,甚至添加自己的游戏,却不知从何入手? 我们已让运行评估和集成新游戏变得极其简单。我们最新的博客将引导您了解 Lmgame Bench 的几个关键功能,包括: - 智能体与环境设置。 - 单命令单智能体与多智能体评估。 - 模型与游戏框架支持。 您可以通过我们的博客了解更多 👉https://lmgame.org/#/blog/lmgame_use
智能体论文/研究评测/基准
8月13日
06:31
Hao AI Lab@haoailab
【Lmgame Bench】 🔥 我们在 Lmgame Bench 中测试了 Openai 的 GPT-5-thinking-high 和两个最新的开源模型!
智能体OpenAI推理评测/基准
8月8日
06:26
Hao AI Lab@haoailab
【Lmgame Bench】 🏆祝贺 o3 强势夺得首届 AI 国际象棋锦标赛冠军!同时祝贺 grok-4 和 gemini-2.5-pro 分获亚军和季军!

Kaggle: What a show! The Kaggle Game Arena AI Chess Exhibition Tournament is complete, and the winner is O3 🏆! A huge thank you...

GoogleOpenAI推理评测/基准
7月25日
03:11
Hao AI Lab@haoailab
【Lmgame Bench】 🧐 Kimi-k2-0711-preview 在数学、编程和工具使用智能体基准测试中表现出色。但我们发现,对于像 Kimi-k2 这样的非推理模型,游戏环境仍然是一个挑战,在 Lmgame Bench 上,它在我们排行榜评估的所有19个模型中仅排名第18。
智能体推理评测/基准
7月19日
16:20
Noam Brown@polynoamial
OpenAI 在 IMO 竞赛中斩获金牌,这一结果出乎众人意料。推文以轻松的语气指出,该成绩让许多人感到惊讶。
MetaOpenAI推理评测/基准
6月17日
09:33
Saining Xie@sainingxie
精选
所以这不是一个针对软件工程智能体的基准测试。它旨在通过编程测试核心推理与智能--由一些顶尖竞技程序员撰写的 71 页深度分析作为支撑。

Zihan Zheng: We introduce LiveCodeBench Pro, a live, exceptionally challenging benchmark comprising competitive programming problems ...

推理编码评测/基准

推荐理由:o3与Gemini 2.5在IOI级竞赛题上零分,LLM推理天花板显现
11月18日
00:00
Mistral AI:News(网页)
60
Mistral AI 开源多模态模型 Pixtral Large 发布

Mistral AI 基于 Mistral Large 2 发布了开源多模态模型 Pixtral Large。该模型包含 123B 多模态解码器和 1B 视觉编码器,支持 128K 上下文窗口。性能方面,它在 MathVista、DocVQA、ChartQA 和 MM-MT-Bench 等基准测试中超越 GPT-4o 与 Gemini-1.5 Pro,并在 LMSYS Vision Leaderboard 上成为得分最高的开源模型。需要注意的是,该模型已停止维护,并被更新的视觉模型所取代。

多模态开源/仓库模型发布评测/基准
9月20日
00:00
LMSYS:Blog(Chatbot Arena 团队)
Chatbot Arena 正式启用独立网站 lmarena.ai

Chatbot Arena 正式启用独立网站 lmarena.ai 及博客,从 LMSys 研究集体中独立运营以确保长期发展。该平台过去一年已发展为成熟的生态系统,未来将与 LMSys 保持紧密合作,并扩展评估范围至编程、复杂任务和红队测试等前沿模型领域。LMSys 将继续作为 Vicuna、SGLang 等项目的孵化器,专注于开放研究与开发。

行业动态评测/基准
9月18日
20:06
公众号:DeepSeek(深度求索)
56
DeepSeek-V2.5 登上 LMSYS ChatBotArena,创国产模型历史最高分

DeepSeek-V2.5 在 LMSYS ChatBotArena(全球大模型竞技场)榜单中上榜,创下国产大模型在该竞技场的最高得分记录。

DeepSeek开源生态模型发布评测/基准
8月29日
00:00
LMSYS:Blog(Chatbot Arena 团队)
风格是否重要?在 Chatbot Arena 中解耦风格与实质

Chatbot Arena 团队发布经风格控制调整后的新排行榜,通过 Bradley-Terry 回归控制回答长度及 markdown 格式(标题、加粗、列表)的影响,将模型实质能力与表达风格解耦。调整后排名出现显著变化:GPT-4o-mini 和 Grok-2-mini 排名降至多数前沿模型之下,而 Claude 3.5 Sonnet、Opus 和 Llama-3.1-405B 显著上升。在 Hard Prompt 子榜中,Claude 3.5 Sonnet 与 chatgpt-4o-latest 并列第一,Llama-3.1-405B 升至第三。

数据/训练评测/基准
6月27日
00:00
LMSYS:Blog(Chatbot Arena 团队)
Chatbot Arena 推出多模态排行榜

Chatbot Arena 新增图像对战功能并发布多模态排行榜。基于两周内17,429份跨60余种语言的投票,GPT-4o以1226分领跑,Claude 3.5 Sonnet以1209分紧随其后,两者视觉优势较纯语言模型更明显。Gemini 1.5 Pro与GPT-4 Turbo并列第三,开源模型Llava 1.6 34B位列第八。平台同步将"Elo评分"更名为"Arena Score",并计划扩展至PDF、视频及音频等模态支持。

AnthropicOpenAI多模态评测/基准
5月20日
00:00
LMSYS:Blog(Chatbot Arena 团队)
Chatbot Arena新增Hard Prompts高难度评测类别

Chatbot Arena推出Hard Prompts新评测类别,基于特定性、领域知识、复杂度等7项标准对100万条提示词评分,筛选得分≥6的高难度提示(约占20%)构建榜单。新榜单显示,Llama-3-8B-Instruct排名较英语总榜显著下滑,Claude-3-Opus超越Llama-3-70B-Instruct,GPT-4o等模型表现提升。平台同步实施去重机制减少高频问候干扰。

推理数据/训练评测/基准
5月8日
00:00
LMSYS:Blog(Chatbot Arena 团队)
技术博客:Llama 3 表现如何?Arena 数据分析

Meta 于 4 月 18 日发布的开源模型 Llama 3-70B 在 Chatbot Arena 排行榜迅速登顶,参与超 5 万次对战。该模型在开放式写作和创意任务上表现突出,胜率达 60%,但在数学、编码等封闭式技术任务上逊于 GPT-4-Turbo 和 Claude 3 Opus。随着提示难度增加,其胜率从 50% 显著下降至 40%。分析显示,Llama 3 的输出风格更友好且具对话性,这成为其获得用户偏好的关键因素。

Meta开源生态推理评测/基准
5月2日
00:00
LMSYS:Blog(Chatbot Arena 团队)
LMSYS 与 Kaggle 联合举办人类偏好预测竞赛,奖金 10 万美元

LMSYS 与 Kaggle 联合发起一项人类偏好预测竞赛,总奖金池达 10 万美元。参赛者需构建预测模型,判断用户在大型语言模型(LLM)两两对决中更偏好哪个回答。竞赛基于 LMSYS Arena 的真实对战数据,旨在通过众包方式探索更准确的 LLM 评估方法,推动模型与人类偏好对齐。比赛面向全球开发者开放,获胜方案有望改进现有大模型排名机制。

数据/训练评测/基准
4月19日
00:00
LMSYS:Blog(Chatbot Arena 团队)
从实时数据到高质量基准:Arena-Hard Pipeline

研究团队推出 Arena-Hard 数据流程及 Arena Hard Auto v0.1 基准测试,用于从 Chatbot Arena 实时用户数据中自动构建高质量 LLM 评估集。该基准在模型区分度上显著优于 MT Bench,与 Chatbot Arena 人类偏好排序的一致性达 89.1%,可分离性达 87.4%,单次评估成本仅需 25 美元。流程通过主题建模从 20 万条用户查询中筛选多样化、高质量提示词,并采用 GPT-4-Turbo 作为评判,解决了传统静态基准测试集泄露和区分度不足的问题。

数据/训练论文/研究评测/基准
3月1日
00:00
LMSYS:Blog(Chatbot Arena 团队)
LMSYS Chatbot Arena:实时社区驱动的大模型评估平台

LMSYS Chatbot Arena是由LMSYS和UC Berkeley SkyLab于2023年5月推出的开源评估平台,基于FastChat框架构建。平台通过实时两两对比已收集超80万张社区投票,评估了GPT-4、Gemini、Llama、Mistral等90余个模型。坚持透明原则,仅收录API或开源权重可访问的公开模型,同时支持未发布模型匿名测试。团队定期开放20%投票数据(含提示词、回答及用户偏好),致力于通过社区驱动的实时评估推进大语言模型研究。

开源生态数据/训练评测/基准
12月7日
00:00
LMSYS:Blog(Chatbot Arena 团队)
Chatbot Arena更新:新开源模型领先,评分系统升级

Chatbot Arena平台已收集超13万张投票,对40余个模型进行排名。新加入的Tulu-2-DPO-70B和Yi-34B-Chat在开源模型中领先,性能接近GPT-3.5;基于Mistral的7B模型也展现强劲实力。平台正从Elo评分系统转向Bradley-Terry模型以提升稳定性。数据还显示GPT-4-0314与GPT-4-0613存在显著性能差异,而GPT-3.5-turbo-1106版本出现意外性能下滑。

开源生态数据/训练评测/基准
11月14日
00:00
LMSYS:Blog(Chatbot Arena 团队)
Catch me if you can!13B模型如何击败GPT-4:Llama-rephraser在MMLU、GSM-8K、HumanEval基准测试中达到GPT-4性能

简单改写或翻译测试集即可让13B模型在MMLU、GSM-8K和HumanEval等基准测试中达到GPT-4性能(MMLU 85.9分),而现有n-gram和嵌入相似度去污染方法完全无法检测此类样本。研究团队推出LLM Decontaminator工具,利用大模型评估潜在改写对,在The Stack、RedPajama等真实数据集中发现显著污染,甚至检测到MATH基准训练-测试集之间的数据重叠。

数据/训练论文/研究评测/基准
7月20日
00:00
LMSYS:Blog(Chatbot Arena 团队)
LMSYS Org 发布 Chatbot Arena 人类偏好数据集

LMSYS Org 发布 Chatbot Arena 两大人类偏好数据集:33K 条真实对话(涵盖 GPT-4、Claude 等 20 个模型)及 3K 条 MT-bench 专家标注。平台上线三个月已收集 19K 独立 IP 的 53K 次投票,覆盖 22 个模型。最新排行榜新增 LLaMA 2、Claude 2 等模型。MT-bench 评估显示人类与 GPT-4 评判一致性超 80%。数据包含真实场景下的模型输出,可用于 RLHF 训练与模型安全研究。

开源生态数据/训练评测/基准
6月22日
00:00
LMSYS:Blog(Chatbot Arena 团队)
Chatbot Arena第8周榜单:推出MT-Bench与Vicuna-33B

Chatbot Arena发布第8周排行榜,新增Vicuna-v1.3系列开源模型(7B-33B参数)及MT-Bench评估基准。MT-Bench包含80道多轮题目,涵盖写作、推理等8类,由GPT-4评分。新榜采用三项指标:基于4.2万匿名投票的Arena Elo、MT-Bench分数及MMLU。结果显示,GPT-4以8.99分和1227分领先,Vicuna-33B获7.12分,性能接近Claude与GPT-3.5-turbo。

开源生态数据/训练评测/基准
5月25日
00:00
LMSYS:Blog(Chatbot Arena 团队)
LMSYS 发布最新大语言模型排行榜(第4周)

LMSYS Org 发布基于 27K 条匿名投票的大模型排行榜(4 月 24 日-5 月 22 日)。GPT-4(1225 分)居首,Claude-v1(1195 分)与 Claude-instant-v1(1153 分)紧随其后。新加入的 Google PaLM 2(1042 分)位列第六,虽对顶级模型胜率过半,但因过度监管(20.9% 对局因拒答失利),竟在 21.6% 比赛中输给非头部模型,表现不及 GPT-3.5-turbo(12.8%)。

AnthropicGoogle评测/基准
5月10日
00:00
LMSYS:Blog(Chatbot Arena 团队)
Chatbot Arena第二周排行榜:GPT-4居首,Claude紧随其后

LMSYS Org发布Chatbot Arena第二周排行榜,新增GPT-4、Claude-v1、GPT-3.5-turbo和RWKV-4-Raven-14B四款模型。基于1.3万条匿名投票的Elo评分显示,GPT-4以1274分领跑,Claude-v1(1224分)和GPT-3.5-turbo(1155分)分列二、三位。专有模型与开源模型差距显著,GPT-4对Vicuna-13B胜率达82%,但Claude在66场非平局对决中对GPT-4取得48%胜率。RWKV-4-Raven-14B作为非Transformer架构的RNN模型排名第六,表现超出预期。

AnthropicOpenAI评测/基准
5月3日
00:00
LMSYS:Blog(Chatbot Arena 团队)
Chatbot Arena:基于Elo评分的众包大模型评测平台

LMSYS推出Chatbot Arena平台,通过众包匿名对战机制与Elo评分系统对LLM进行排名。基于4.7K投票数据的初始榜单显示,Vicuna-13b以1169分位居榜首,Koala-13b和OASST-Pythia-12b分列二、三位。用户通过与两个匿名模型实时对话并投票,帮助解决开放式问题的自动评估难题,具备可扩展性和增量评估能力。

评测/基准
10月11日
23:00
EleutherAI:Blog
语言模型评估中的多项选择归一化

自回归语言模型(GPT-3、GPT-Neo、GPT-J 等)的多项选择任务评估存在多种实现路径。文章系统梳理了当前主流的归一化(Normalization)方法,针对模型在不同选项上的概率计算方式、长度偏差修正及分数标准化技术进行详细阐述,为统一语言模型评测标准提供方法论参考。

数据/训练论文/研究评测/基准
5月25日
04:00
EleutherAI:Blog
关于 OpenAI API 模型规模的探讨

研究团队利用 eval harness 评估框架,通过对比 OpenAI API 模型在标准测试集上的性能表现,成功反向推算出其模型参数规模。该方法基于模型能力与参数量之间的相关性,分析了包括 GPT 系列在内的闭源模型在各项任务中的得分差异,揭示了 OpenAI 未公开披露的模型大小信息,为理解这些模型的实际规模与能力边界提供了量化依据。

OpenAI论文/研究评测/基准
04:00
EleutherAI:Blog
在下游任务上微调模型

研究团队对GPT-Neo模型开展下游任务微调实验,利用eval harness评测体系进行针对性训练,系统观测微调过程对其性能表现产生的具体影响。实验通过调整模型参数适配特定任务,评估预训练模型在下游场景中的能力变化与适应性表现,为理解微调对模型性能的优化效果提供实证数据支撑。

数据/训练论文/研究评测/基准
‹ 上一页
1…202122
下一页 ›