10月8日

00:00

Berkeley RDI：Blog（AI 安全与评测）

研究团队发布网络安全基准测试CyberGym，涵盖1,507个真实漏洞，规模达现有基准7.5倍。测试显示顶级AI Agent单次攻击成功率约30%，30次尝试可达67%，且已自主发现35个零日漏洞及17个补丁缺陷。Claude-Sonnet-4.5单次成功率28.9%，Claude-Sonnet-4达17.9%。测试时扩展策略可将GPT-5成功率从7.7%提升至22%，不同Agent能力互补，联合成功率近翻倍。

智能体 Anthropic 安全/对齐评测/基准

9月18日

01:38

Noam Brown@polynoamial

精选

OpenAI 推理系统在 2025 ICPC 世界总决赛中获得 12/12 满分，成绩相当于人类参赛者第一名。其中 11 道题目由 GPT-5 解决。

Mostafa Rohaninejad: 1/n I'm really excited to share that our @OpenAI reasoning system got a perfect score of 12/12 during the 2025 ICPC Worl...

OpenAI 推理编码评测/基准

推荐理由：GPT-5在ICPC世界总决赛获满分，编程推理能力达人类冠军水平

01:35

OpenAI@OpenAI

精选

OpenAI 推理系统在 2025 ICPC 世界总决赛中解出全部 12 道算法题，获得 12/12 满分。该成绩在所有人类参赛队伍中排名第一，足以夺得冠军。

Mostafa Rohaninejad: 1/n I'm really excited to share that our @OpenAI reasoning system got a perfect score of 12/12 during the 2025 ICPC Worl...

OpenAI 推理编码评测/基准

关联讨论 1 条

推荐理由：通用推理模型首次在顶级编程竞赛击败人类冠军，算法岗竞争格局或将重塑

01:09

Google DeepMind@GoogleDeepMind

精选

Gemini 2.5 Deep Think 进阶版在 ICPC 2025 世界编程大赛中取得金牌水平成绩。继 IMO 数学竞赛后，这是该模型在竞技领域取得的又一历史性突破。

Google 推理编码评测/基准

推荐理由：Gemini 2.5 Deep Think 在 ICPC 编程竞赛中达到金牌水平，AI 推理能力再获突破

9月13日

22:51

Jim Fan@DrJimFan

BEHAVIOR挑战启动：机器人学迎来ImageNet时刻

推文指出计算机视觉（ImageNet）和自然语言处理（MMLU、HLE、SWEBench）已建立标准化基准体系，而机器人学仍缺乏统一评估标准，存在硬件、任务定义、评分体系混乱的问题。由ImageNet创造者开发的BEHAVIOR项目基于Isaac Sim物理引擎，旨在建立可复现的机器人学统一基准。该项目已启动首届NeurIPS 2025挑战赛，期望成为推动领域进步的标志性信号。

Fei-Fei Li: (1/N) How close are we to enabling robots to solve the long-horizon, complex tasks that matter in everyday life? 🚨 We a...

具身智能评测/基准

8月22日

03:16

Hao AI Lab@haoailab

【Lmgame Bench】 🤔 是否曾想过如何在 Lmgame-Bench 中评估不同游戏，甚至添加自己的游戏，却不知从何入手？我们已让运行评估和集成新游戏变得极其简单。我们最新的博客将引导您了解 Lmgame Bench 的几个关键功能，包括： - 智能体与环境设置。 - 单命令单智能体与多智能体评估。 - 模型与游戏框架支持。您可以通过我们的博客了解更多 👉https://lmgame.org/#/blog/lmgame_use

智能体论文/研究评测/基准

8月13日

06:31

Hao AI Lab@haoailab

【Lmgame Bench】 🔥 我们在 Lmgame Bench 中测试了 Openai 的 GPT-5-thinking-high 和两个最新的开源模型！

智能体 OpenAI 推理评测/基准

8月8日

06:26

Hao AI Lab@haoailab

【Lmgame Bench】 🏆祝贺 o3 强势夺得首届 AI 国际象棋锦标赛冠军！同时祝贺 grok-4 和 gemini-2.5-pro 分获亚军和季军！

Kaggle: What a show! The Kaggle Game Arena AI Chess Exhibition Tournament is complete, and the winner is O3 🏆! A huge thank you...

Google OpenAI 推理评测/基准

7月25日

03:11

Hao AI Lab@haoailab

【Lmgame Bench】 🧐 Kimi-k2-0711-preview 在数学、编程和工具使用智能体基准测试中表现出色。但我们发现，对于像 Kimi-k2 这样的非推理模型，游戏环境仍然是一个挑战，在 Lmgame Bench 上，它在我们排行榜评估的所有19个模型中仅排名第18。

智能体推理评测/基准

7月19日

16:20

Noam Brown@polynoamial

OpenAI 在 IMO 竞赛中斩获金牌，这一结果出乎众人意料。推文以轻松的语气指出，该成绩让许多人感到惊讶。

Meta OpenAI 推理评测/基准

6月17日

09:33

Saining Xie@sainingxie

精选

所以这不是一个针对软件工程智能体的基准测试。它旨在通过编程测试核心推理与智能--由一些顶尖竞技程序员撰写的 71 页深度分析作为支撑。

Zihan Zheng: We introduce LiveCodeBench Pro, a live, exceptionally challenging benchmark comprising competitive programming problems ...

推理编码评测/基准

推荐理由：o3与Gemini 2.5在IOI级竞赛题上零分，LLM推理天花板显现

11月18日