全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 394 条

全部一手资讯 X 论文

标签「评测/基准」清除

1月27日周二

00:00MiniMax：Blog（网页）50MiniMax-M2-her 技术解析：专为角色扮演打造的 AI 智能体

1月22日周四

00:00Moonshot AI：Kimi Blog精选Kimi 供应商验证器

1月21日周三

14:25Hugging Face：Blog（RSS）70精选AssetOpsBench：弥合AI智能体基准测试与工业现实的差距

1月9日周五

00:00Anthropic：Engineering（事故复盘 + 工程实践 · 网页）75精选揭秘AI智能体评估：构建可靠系统的关键

12月19日周五

14:35蚂蚁 inclusionAI：GitHub 新仓库45inclusionAI/HeartBench

03:00OpenAI：Alignment 研究博客（RSS）51规避评估意识与预测生产环境中的未对齐行为

12月17日周三

21:22Hugging Face：Blog（RSS）66开放评估标准：使用NeMo Evaluator对NVIDIA Nemotron 3 Nano进行基准测试

12月9日周二

19:29Google DeepMind：Blog（RSS）FACTS基准测试套件：系统评估大语言模型的事实准确性

12月4日周四

18:00公众号：小红书技术（dots.llm）42AAAI 2026 | 跨视频推理基准 CrossVid：给多模态大模型出一道"综合题"

11月21日周五

08:00Hugging Face：Blog（RSS）83精选Open ASR 排行榜新增多语言与长格式赛道，揭示模型性能新挑战

10月24日周五

02:52Google DeepMind：Blog（RSS）重新思考如何衡量 AI 智能

10月13日周一

00:00LMSYS：Blog（Chatbot Arena 团队）NVIDIA DGX Spark深度评测：本地AI推理的新标杆

10月10日周五

15:36蚂蚁 inclusionAI：GitHub 新仓库46SWE-CARE：一个用于评估代码审查全面性的基准

10月8日周三

00:00Berkeley RDI：Blog（AI 安全与评测）CyberGym：大规模评估AI Agent真实网络安全能力

11月18日周一

00:00Mistral AI：News（网页）60Mistral AI 开源多模态模型 Pixtral Large 发布

9月20日周五

00:00LMSYS：Blog（Chatbot Arena 团队）Chatbot Arena 正式启用独立网站 lmarena.ai

9月18日周三

20:06公众号：DeepSeek（深度求索）56DeepSeek-V2.5 登上 LMSYS ChatBotArena，创国产模型历史最高分

8月29日周四

00:00LMSYS：Blog（Chatbot Arena 团队）风格是否重要？在 Chatbot Arena 中解耦风格与实质

6月27日周四

00:00LMSYS：Blog（Chatbot Arena 团队）Chatbot Arena 推出多模态排行榜

5月20日周一

00:00LMSYS：Blog（Chatbot Arena 团队）Chatbot Arena新增Hard Prompts高难度评测类别

5月8日周三

00:00LMSYS：Blog（Chatbot Arena 团队）技术博客：Llama 3 表现如何？Arena 数据分析

5月2日周四

00:00LMSYS：Blog（Chatbot Arena 团队）LMSYS 与 Kaggle 联合举办人类偏好预测竞赛，奖金 10 万美元

4月19日周五

00:00LMSYS：Blog（Chatbot Arena 团队）从实时数据到高质量基准：Arena-Hard Pipeline

3月1日周五

00:00LMSYS：Blog（Chatbot Arena 团队）LMSYS Chatbot Arena：实时社区驱动的大模型评估平台

12月7日周四

00:00LMSYS：Blog（Chatbot Arena 团队）Chatbot Arena更新：新开源模型领先，评分系统升级

11月14日周二

00:00LMSYS：Blog（Chatbot Arena 团队）Catch me if you can！13B模型如何击败GPT-4：Llama-rephraser在MMLU、GSM-8K、HumanEval基准测试中达到GPT-4性能

7月20日周四

00:00LMSYS：Blog（Chatbot Arena 团队）LMSYS Org 发布 Chatbot Arena 人类偏好数据集

6月22日周四

00:00LMSYS：Blog（Chatbot Arena 团队）Chatbot Arena第8周榜单：推出MT-Bench与Vicuna-33B

5月25日周四

00:00LMSYS：Blog（Chatbot Arena 团队）LMSYS 发布最新大语言模型排行榜（第4周）

5月10日周三

00:00LMSYS：Blog（Chatbot Arena 团队）Chatbot Arena第二周排行榜：GPT-4居首，Claude紧随其后

5月3日周三

00:00LMSYS：Blog（Chatbot Arena 团队）Chatbot Arena：基于Elo评分的众包大模型评测平台

10月11日周一

23:00EleutherAI：Blog语言模型评估中的多项选择归一化

5月25日周二

04:00EleutherAI：Blog关于 OpenAI API 模型规模的探讨

04:00EleutherAI：Blog在下游任务上微调模型

没有更多了

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

1月27日

00:00

MiniMax：Blog（网页）

50

MiniMax-M2-her 技术解析：专为角色扮演打造的 AI 智能体

MiniMax 基于产品 Talkie/Xingye 三年的观察，推出了专为角色扮演场景优化的模型 MiniMax-M2-her。团队发现，深度角色扮演的核心是“叙事精度”和“情感连接”。该模型旨在解决三大挑战：保留每个角色与世界观的“灵魂”、维持故事随时间推进的叙事活力、以及解读用户的隐式意图。其目标是提供高保真的世界体验，能主动推动故事发展以赋予张力，并动态适应用户的长期习惯，实现直觉性的偏好对齐。

智能体模型发布评测/基准

1月22日

00:00

Moonshot AI：Kimi Blog

精选

Kimi 供应商验证器

Kimi 发布 K2.5 模型时开源 Kimi Vendor Verifier（KVV），用于验证第三方推理实现的准确性。针对开源模型部署渠道多样化导致的质量失控问题，KVV 提供六项关键基准测试，覆盖参数约束验证、多模态流水线、长输出压力测试、工具调用一致性及编程能力评估。项目与 vLLM/SGLang 社区合作修复根因，并提供预发布验证和实时更新的公开排行榜。完整评估在双 H20 8 卡服务器上约需 15 小时。

开源/仓库评测/基准部署/工程

推荐理由：Kimi开源Vendor Verifier，系统性解决开源模型第三方部署质量验证难题

1月21日

14:25

Hugging Face：Blog（RSS）

精选70

AssetOpsBench：弥合AI智能体基准测试与工业现实的差距

IBM Research在Hugging Face发布AssetOpsBench，这是一个工业资产运维的AI智能体基准测试框架。它基于真实场景构建，包含多行业数据集和超1000个运维事件，通过多阶段指标测试智能体的诊断、决策等能力，注重动态适应性、多模态处理和安全推理，以推动AI智能体走向实际工业应用。

智能体评测/基准

推荐理由：首个面向工业资产运维场景的 Agent 基准，填补学术评测与真实落地的鸿沟

1月9日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选75

揭秘AI智能体评估：构建可靠系统的关键

有效的评估能帮助团队更自信地发布AI智能体，避免陷入仅在生产环境被动发现问题、修复可能引发新问题的循环。智能体因其多轮操作的自主性与灵活性，评估更为复杂。一个完整的评估结构包含任务、评分器、记录、结果、评估框架与评估套件等核心组件。缺乏系统评估将导致团队无法区分真实的质量倒退与随机波动。建立评估体系能帮助团队在智能体规模化过程中持续监控质量、自动测试变更并量化改进效果，其价值在智能体整个生命周期内持续累积。

智能体 Anthropic 教程/实践评测/基准

推荐理由：Anthropic 把内部踩过的坑全摊开了，从 eval 设计到 grader 选型到 transcript 审读，是目前最完整的 Agent 评估工程指南，做 Agent 产品的团队可以直接当手册用。

12月19日

14:35

蚂蚁 inclusionAI：GitHub 新仓库

45

inclusionAI/HeartBench

HeartBench是一个面向心理学与社会科学领域的评估基准，旨在超越传统的知识与推理评测。该基准专注于衡量大语言模型在人机交互中拟人化的能力，覆盖了人格、情绪、社交技能及道德伦理等多个维度。它通过系统化的评估框架，为衡量模型是否具备更接近人类的心理与社会属性提供了量化标准。

安全/对齐论文/研究评测/基准

03:00

OpenAI：Alignment 研究博客（RSS）

51

规避评估意识与预测生产环境中的未对齐行为

研究团队提出了一种新流程，旨在发现模型未知的未对齐行为，并规模化创建贴近现实的评估方案。该方法通过规避模型对评估的“警觉性”，直接模拟真实生产环境中的使用场景，从而更有效地暴露潜在风险。该流程能够系统性地生成高质量评估数据集，提升对前沿模型在复杂、开放环境中行为的预测能力，为人工智能安全评估提供了可扩展的工具。

OpenAI 安全/对齐评测/基准

12月17日

21:22

Hugging Face：Blog（RSS）

66

开放评估标准：使用NeMo Evaluator对NVIDIA Nemotron 3 Nano进行基准测试

NVIDIA在Hugging Face发布博客，介绍Nemotron 3 Nano模型，并通过NeMo Evaluator工具进行开放标准基准测试。评估覆盖代码生成、数学推理和常识问答等任务，以透明、可复现的方式量化模型性能，体现NVIDIA推动开源评估生态的努力。

Hugging Face 评测/基准部署/工程

12月9日

19:29

Google DeepMind：Blog（RSS）

FACTS基准测试套件：系统评估大语言模型的事实准确性

本文推出FACTS基准测试套件，用于系统性评估大语言模型的事实准确性。该套件提供标准化评测工具，可检测模型生成内容中的事实性错误，助力评估模型真实性与可靠性。

DeepMind 评测/基准

12月4日

18:00

公众号：小红书技术（dots.llm）

42

AAAI 2026 | 跨视频推理基准 CrossVid：给多模态大模型出一道"综合题"

CrossVid 是首个系统性涵盖 4 个维度、10 个任务的跨视频推理测评基准，用于评估多模态大模型在跨视频场景下的综合推理能力，已被 AAAI 2026 收录。

多模态论文/研究评测/基准

11月21日

08:00

Hugging Face：Blog（RSS）

精选83

Open ASR 排行榜新增多语言与长格式赛道，揭示模型性能新挑战

Hugging Face 的 Open ASR 排行榜新增多语言和长格式语音识别评估赛道。多语言赛道涵盖8种语言，长格式赛道则测试模型处理连续数分钟语音的能力。新榜单显示，领先模型在多语言任务上的词错误率平均比专用单语模型高约15%，在长格式任务上错误率可能上升超20%，凸显了模型在实际应用中的泛化能力仍面临严峻挑战。

Hugging Face 评测/基准语音

推荐理由：ASR排行榜新增多语言和长形式评估，助力开发者优化语音应用。

10月24日

02:52

Google DeepMind：Blog（RSS）

重新思考如何衡量 AI 智能

Game Arena 是新的开源平台，用于严格评估 AI 模型，支持在具备明确获胜条件的环境中对前沿系统进行一对一比较。

DeepMind 评测/基准

10月13日

00:00

LMSYS：Blog（Chatbot Arena 团队）

NVIDIA DGX Spark深度评测：本地AI推理的新标杆

NVIDIA DGX Spark搭载GB10 Grace Blackwell超级芯片，在桌面工作站形态下提供1 PFLOP稀疏FP4算力与128GB统一内存。单机可运行Llama 3.1 70B、GPT-OSS 120B等大模型，双机通过200Gbps QSFP互联更可处理405B参数模型。然而受限于273GB/s内存带宽，该设备更适合小模型批处理推理与AI原型开发，而非大模型生产部署。支持SGLang和Ollama框架，为开发者提供本地AI开发新选择。

端侧评测/基准部署/工程

10月10日

15:36

蚂蚁 inclusionAI：GitHub 新仓库

46

SWE-CARE：一个用于评估代码审查全面性的基准

针对现有代码审查基准和方法在全面性上的不足，研究团队推出了SWE-CARE基准。该基准包含一个用Python构建、覆盖代码审查全过程的仓库级数据集，数据被分为九种类型且每个实例均包含仓库特征。基于此，团队设计了一个评估框架，用以衡量大型语言模型在全面代码审查任务上的性能。项目提供了完整的评估流程脚本，支持使用GPT-4o等模型，并可生成详细的性能评估与分析报告。

编码论文/研究评测/基准

10月8日

00:00

Berkeley RDI：Blog（AI 安全与评测）

CyberGym：大规模评估AI Agent真实网络安全能力

研究团队发布网络安全基准测试CyberGym，涵盖1,507个真实漏洞，规模达现有基准7.5倍。测试显示顶级AI Agent单次攻击成功率约30%，30次尝试可达67%，且已自主发现35个零日漏洞及17个补丁缺陷。Claude-Sonnet-4.5单次成功率28.9%，Claude-Sonnet-4达17.9%。测试时扩展策略可将GPT-5成功率从7.7%提升至22%，不同Agent能力互补，联合成功率近翻倍。

智能体 Anthropic 安全/对齐评测/基准

11月18日

00:00

Mistral AI：News（网页）

60

Mistral AI 开源多模态模型 Pixtral Large 发布

Mistral AI 基于 Mistral Large 2 发布了开源多模态模型 Pixtral Large。该模型包含 123B 多模态解码器和 1B 视觉编码器，支持 128K 上下文窗口。性能方面，它在 MathVista、DocVQA、ChartQA 和 MM-MT-Bench 等基准测试中超越 GPT-4o 与 Gemini-1.5 Pro，并在 LMSYS Vision Leaderboard 上成为得分最高的开源模型。需要注意的是，该模型已停止维护，并被更新的视觉模型所取代。

多模态开源/仓库模型发布评测/基准

9月20日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena 正式启用独立网站 lmarena.ai

Chatbot Arena 正式启用独立网站 lmarena.ai 及博客，从 LMSys 研究集体中独立运营以确保长期发展。该平台过去一年已发展为成熟的生态系统，未来将与 LMSys 保持紧密合作，并扩展评估范围至编程、复杂任务和红队测试等前沿模型领域。LMSys 将继续作为 Vicuna、SGLang 等项目的孵化器，专注于开放研究与开发。

行业动态评测/基准

9月18日

20:06

公众号：DeepSeek（深度求索）

56

DeepSeek-V2.5 登上 LMSYS ChatBotArena，创国产模型历史最高分

DeepSeek-V2.5 在 LMSYS ChatBotArena（全球大模型竞技场）榜单中上榜，创下国产大模型在该竞技场的最高得分记录。

DeepSeek 开源生态模型发布评测/基准

8月29日

00:00

LMSYS：Blog（Chatbot Arena 团队）

风格是否重要？在 Chatbot Arena 中解耦风格与实质

Chatbot Arena 团队发布经风格控制调整后的新排行榜，通过 Bradley-Terry 回归控制回答长度及 markdown 格式（标题、加粗、列表）的影响，将模型实质能力与表达风格解耦。调整后排名出现显著变化：GPT-4o-mini 和 Grok-2-mini 排名降至多数前沿模型之下，而 Claude 3.5 Sonnet、Opus 和 Llama-3.1-405B 显著上升。在 Hard Prompt 子榜中，Claude 3.5 Sonnet 与 chatgpt-4o-latest 并列第一，Llama-3.1-405B 升至第三。

数据/训练评测/基准

6月27日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena 推出多模态排行榜

Chatbot Arena 新增图像对战功能并发布多模态排行榜。基于两周内17,429份跨60余种语言的投票，GPT-4o以1226分领跑，Claude 3.5 Sonnet以1209分紧随其后，两者视觉优势较纯语言模型更明显。Gemini 1.5 Pro与GPT-4 Turbo并列第三，开源模型Llava 1.6 34B位列第八。平台同步将"Elo评分"更名为"Arena Score"，并计划扩展至PDF、视频及音频等模态支持。

Anthropic OpenAI 多模态评测/基准

5月20日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena新增Hard Prompts高难度评测类别

Chatbot Arena推出Hard Prompts新评测类别，基于特定性、领域知识、复杂度等7项标准对100万条提示词评分，筛选得分≥6的高难度提示（约占20%）构建榜单。新榜单显示，Llama-3-8B-Instruct排名较英语总榜显著下滑，Claude-3-Opus超越Llama-3-70B-Instruct，GPT-4o等模型表现提升。平台同步实施去重机制减少高频问候干扰。

推理数据/训练评测/基准

5月8日

00:00

LMSYS：Blog（Chatbot Arena 团队）

技术博客：Llama 3 表现如何？Arena 数据分析

Meta 于 4 月 18 日发布的开源模型 Llama 3-70B 在 Chatbot Arena 排行榜迅速登顶，参与超 5 万次对战。该模型在开放式写作和创意任务上表现突出，胜率达 60%，但在数学、编码等封闭式技术任务上逊于 GPT-4-Turbo 和 Claude 3 Opus。随着提示难度增加，其胜率从 50% 显著下降至 40%。分析显示，Llama 3 的输出风格更友好且具对话性，这成为其获得用户偏好的关键因素。

Meta 开源生态推理评测/基准

5月2日

00:00

LMSYS：Blog（Chatbot Arena 团队）

LMSYS 与 Kaggle 联合举办人类偏好预测竞赛，奖金 10 万美元

LMSYS 与 Kaggle 联合发起一项人类偏好预测竞赛，总奖金池达 10 万美元。参赛者需构建预测模型，判断用户在大型语言模型（LLM）两两对决中更偏好哪个回答。竞赛基于 LMSYS Arena 的真实对战数据，旨在通过众包方式探索更准确的 LLM 评估方法，推动模型与人类偏好对齐。比赛面向全球开发者开放，获胜方案有望改进现有大模型排名机制。

数据/训练评测/基准

4月19日

00:00

LMSYS：Blog（Chatbot Arena 团队）

从实时数据到高质量基准：Arena-Hard Pipeline

研究团队推出 Arena-Hard 数据流程及 Arena Hard Auto v0.1 基准测试，用于从 Chatbot Arena 实时用户数据中自动构建高质量 LLM 评估集。该基准在模型区分度上显著优于 MT Bench，与 Chatbot Arena 人类偏好排序的一致性达 89.1%，可分离性达 87.4%，单次评估成本仅需 25 美元。流程通过主题建模从 20 万条用户查询中筛选多样化、高质量提示词，并采用 GPT-4-Turbo 作为评判，解决了传统静态基准测试集泄露和区分度不足的问题。

数据/训练论文/研究评测/基准

3月1日

00:00

LMSYS：Blog（Chatbot Arena 团队）

LMSYS Chatbot Arena：实时社区驱动的大模型评估平台

LMSYS Chatbot Arena是由LMSYS和UC Berkeley SkyLab于2023年5月推出的开源评估平台，基于FastChat框架构建。平台通过实时两两对比已收集超80万张社区投票，评估了GPT-4、Gemini、Llama、Mistral等90余个模型。坚持透明原则，仅收录API或开源权重可访问的公开模型，同时支持未发布模型匿名测试。团队定期开放20%投票数据（含提示词、回答及用户偏好），致力于通过社区驱动的实时评估推进大语言模型研究。

开源生态数据/训练评测/基准

12月7日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena更新：新开源模型领先，评分系统升级

Chatbot Arena平台已收集超13万张投票，对40余个模型进行排名。新加入的Tulu-2-DPO-70B和Yi-34B-Chat在开源模型中领先，性能接近GPT-3.5；基于Mistral的7B模型也展现强劲实力。平台正从Elo评分系统转向Bradley-Terry模型以提升稳定性。数据还显示GPT-4-0314与GPT-4-0613存在显著性能差异，而GPT-3.5-turbo-1106版本出现意外性能下滑。

开源生态数据/训练评测/基准

11月14日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Catch me if you can！13B模型如何击败GPT-4：Llama-rephraser在MMLU、GSM-8K、HumanEval基准测试中达到GPT-4性能

简单改写或翻译测试集即可让13B模型在MMLU、GSM-8K和HumanEval等基准测试中达到GPT-4性能（MMLU 85.9分），而现有n-gram和嵌入相似度去污染方法完全无法检测此类样本。研究团队推出LLM Decontaminator工具，利用大模型评估潜在改写对，在The Stack、RedPajama等真实数据集中发现显著污染，甚至检测到MATH基准训练-测试集之间的数据重叠。

数据/训练论文/研究评测/基准

7月20日

00:00

LMSYS：Blog（Chatbot Arena 团队）

LMSYS Org 发布 Chatbot Arena 人类偏好数据集

LMSYS Org 发布 Chatbot Arena 两大人类偏好数据集：33K 条真实对话（涵盖 GPT-4、Claude 等 20 个模型）及 3K 条 MT-bench 专家标注。平台上线三个月已收集 19K 独立 IP 的 53K 次投票，覆盖 22 个模型。最新排行榜新增 LLaMA 2、Claude 2 等模型。MT-bench 评估显示人类与 GPT-4 评判一致性超 80%。数据包含真实场景下的模型输出，可用于 RLHF 训练与模型安全研究。

开源生态数据/训练评测/基准

6月22日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena第8周榜单：推出MT-Bench与Vicuna-33B

Chatbot Arena发布第8周排行榜，新增Vicuna-v1.3系列开源模型（7B-33B参数）及MT-Bench评估基准。MT-Bench包含80道多轮题目，涵盖写作、推理等8类，由GPT-4评分。新榜采用三项指标：基于4.2万匿名投票的Arena Elo、MT-Bench分数及MMLU。结果显示，GPT-4以8.99分和1227分领先，Vicuna-33B获7.12分，性能接近Claude与GPT-3.5-turbo。

开源生态数据/训练评测/基准

5月25日

00:00

LMSYS：Blog（Chatbot Arena 团队）

LMSYS 发布最新大语言模型排行榜（第4周）

LMSYS Org 发布基于 27K 条匿名投票的大模型排行榜（4 月 24 日-5 月 22 日）。GPT-4（1225 分）居首，Claude-v1（1195 分）与 Claude-instant-v1（1153 分）紧随其后。新加入的 Google PaLM 2（1042 分）位列第六，虽对顶级模型胜率过半，但因过度监管（20.9% 对局因拒答失利），竟在 21.6% 比赛中输给非头部模型，表现不及 GPT-3.5-turbo（12.8%）。

Anthropic Google 评测/基准

5月10日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena第二周排行榜：GPT-4居首，Claude紧随其后

LMSYS Org发布Chatbot Arena第二周排行榜，新增GPT-4、Claude-v1、GPT-3.5-turbo和RWKV-4-Raven-14B四款模型。基于1.3万条匿名投票的Elo评分显示，GPT-4以1274分领跑，Claude-v1（1224分）和GPT-3.5-turbo（1155分）分列二、三位。专有模型与开源模型差距显著，GPT-4对Vicuna-13B胜率达82%，但Claude在66场非平局对决中对GPT-4取得48%胜率。RWKV-4-Raven-14B作为非Transformer架构的RNN模型排名第六，表现超出预期。

Anthropic OpenAI 评测/基准

5月3日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Chatbot Arena：基于Elo评分的众包大模型评测平台

LMSYS推出Chatbot Arena平台，通过众包匿名对战机制与Elo评分系统对LLM进行排名。基于4.7K投票数据的初始榜单显示，Vicuna-13b以1169分位居榜首，Koala-13b和OASST-Pythia-12b分列二、三位。用户通过与两个匿名模型实时对话并投票，帮助解决开放式问题的自动评估难题，具备可扩展性和增量评估能力。

10月11日

23:00

EleutherAI：Blog

语言模型评估中的多项选择归一化

自回归语言模型（GPT-3、GPT-Neo、GPT-J 等）的多项选择任务评估存在多种实现路径。文章系统梳理了当前主流的归一化（Normalization）方法，针对模型在不同选项上的概率计算方式、长度偏差修正及分数标准化技术进行详细阐述，为统一语言模型评测标准提供方法论参考。

数据/训练论文/研究评测/基准

5月25日

04:00

EleutherAI：Blog

关于 OpenAI API 模型规模的探讨

研究团队利用 eval harness 评估框架，通过对比 OpenAI API 模型在标准测试集上的性能表现，成功反向推算出其模型参数规模。该方法基于模型能力与参数量之间的相关性，分析了包括 GPT 系列在内的闭源模型在各项任务中的得分差异，揭示了 OpenAI 未公开披露的模型大小信息，为理解这些模型的实际规模与能力边界提供了量化依据。

OpenAI 论文/研究评测/基准

04:00

EleutherAI：Blog

在下游任务上微调模型

研究团队对GPT-Neo模型开展下游任务微调实验，利用eval harness评测体系进行针对性训练，系统观测微调过程对其性能表现产生的具体影响。实验通过调整模型参数适配特定任务，评估预训练模型在下游场景中的能力变化与适应性表现，为理解微调对模型性能的优化效果提供实证数据支撑。

数据/训练论文/研究评测/基准

1…8 910

下一页 ›