全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「评测/基准」清除

5月13日周三

08:00HuggingFace Daily Papers（社区热门论文）68提升全模态语言模型：基于视觉去偏评估的分阶段后训练

05:03DogeDesigner40Grok Voice领跑语音AI基准测试

05:02Elon Musk48Grok Voice 在语音智能体基准测试中领先

04:27Jeff Dean52Percy Liang将在CAIS 2026发表主题演讲

02:09Noam Brown58GPT-5.5低分评测引反思，呼吁更新评估体系

00:30Artificial Analysis62语音智能体性能基准发布，顶尖模型仅能处理半数真实客服场景

5月12日周二

19:49公众号：智谱（GLM）63同事件精选GLM-5.1获AA全新Coding Agent基准开源第一同一事件，精选展示《GLM-5.1开源：一个独立工作8小时的模型》

09:35Noam Brown61GPT-5.5初检发现FrontierMath三成致命错误

08:35Epoch AI80精选FrontierMath评测发现致命错误，将更新修正后分数

08:00HuggingFace Daily Papers（社区热门论文）32代码引导推理协议评估小语言模型的可执行推理脚手架

08:00HuggingFace Daily Papers（社区热门论文）45地理空间基础模型缺乏统一评估标准

08:00HuggingFace Daily Papers（社区热门论文）51自动化智能体评估的实证研究

08:00HuggingFace Daily Papers（社区热门论文）56视觉美学基准：前沿模型能评判美吗？

07:49Berryxia.AI59Artificial Analysis发布Coding Agent指数，实测模型与编码环境组合表现

02:29Ethan Mollick61大语言模型规模越大，综合能力越强

5月11日周一

23:57Artificial Analysis65人工智能分析发布编码代理基准指数，揭示模型与执行框架组合表现

13:18向阳乔木56当前AI代码生成最难的基准测试ProgramBench

08:00HuggingFace Daily Papers（社区热门论文）55WildClawBench：面向真实世界长周期智能体评估的基准

08:00HuggingFace Daily Papers（社区热门论文）64Agent-ValueBench：首个评估智能体价值的综合基准

5月10日周日

17:37The Decoder：AI News（RSS）62METR称其几乎无法评估Claude Mythos，Palo Alto Networks警告自主AI攻击者出现

08:00HuggingFace Daily Papers（社区热门论文）61从像素到概念：分割模型真的理解它们分割的内容吗？

01:58AI Notkilleveryoneism Memes ⏸️68Mythos突破METR图表记录

5月9日周六

22:21Hacker News 热门（buzzing.cc 中文翻译）47大型语言模型能否在 TLA 中建模现实世界系统？

21:57Ethan Mollick46机器人进展难追踪，独立基准测试缺失

16:21Chubby♨️50Claude Mythos准确率优势显著拉大

14:51公众号：阶跃星辰（Step）45阶跃语音模型位列 Artificial Analysis 评测榜中国第一、全球前三

14:19Hacker News 热门（buzzing.cc 中文翻译）57最近使用 ChatGPT 5.5 Pro 的体验

12:35StepFun69StepAudio 2.5 TTS 在语音竞技场盲测中跻身全球前三

12:23OpenRouter65精选Hermes Agent登顶OpenRouter全球令牌排名

10:29IT之家（RSS）66阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime，支持情绪感知与人设自定义

09:52Ethan Mollick72Claude Mythos评估显示16小时风险时距

08:50Artificial Analysis62StepFun StepAudio 2.5 TTS 在语音竞技场排名第三，质量提升但定价偏高

08:00HuggingFace Daily Papers（社区热门论文）65FORTIS：评估智能体技能中的过度权限问题

08:00HuggingFace Daily Papers（社区热门论文）66MLS-Bench：对AI系统构建更优AI能力的全面严格评估

02:18Chubby♨️55OpenAI数周内快速逼近Claude Mythos，2026成回归之年

5月8日周五

17:05Baidu Inc.26DuMate智能体双基准测试夺冠

15:23HuggingFace Daily Papers（社区热门论文）62无基准场景下的LLM安全性比较评分验证框架

09:22HuggingFace Daily Papers（社区热门论文）68XL-SafetyBench：一个基于国家的跨文化大语言模型安全与文化敏感性基准

08:21Berryxia.AI59重构代码成AI终极考验，Scale AI发布SWE Atlas最终榜单

08:00HuggingFace Daily Papers（社区热门论文）50CODS 2025 AssetOpsBench挑战赛结果与回顾分析

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月13日

08:00

HuggingFace Daily Papers（社区热门论文）

68

提升全模态语言模型：基于视觉去偏评估的分阶段后训练

研究发现，现有全模态基准测试因存在仅凭视觉即可解答的“捷径”问题，可能夸大模型性能。为此，我们通过视觉探测清洗九个基准，构建了包含8,551个查询的去偏评估集OmniClean。基于Qwen2.5-Omni-3B模型，提出了三阶段后训练方案OmniBoost：混合双模态监督微调、混合模态RLVR训练，以及在自蒸馏数据上的微调。实验表明，平衡的双模态微调提升有限，RLVR首次带来广泛改进，而自蒸馏则重塑了模型的基准表现。最终，该3B模型在OmniClean上的综合性能达到甚至略微超过了未使用更强全模态教师的30B模型。这证明视觉泄漏受控的评估能更清晰解读进展，且小模型可通过分阶段后训练与自蒸馏监督显著提升。

多模态论文/研究评测/基准

05:03

DogeDesigner@cb_doge

40

Grok Voice在真实世界语音AI基准测试中占据主导地位 🔥 τ-voice Bench 🥇 • 🏆 综合排名第一 → 67.3% • 🏆 零售业第一 → 62.3% • 🏆 航空业第一 → 66% • 🏆 电信业第一 → 73.7%

xAI 评测/基准语音

05:02

Elon Musk@elonmusk

48

Artificial Analysis 发布首个语音到语音（S2S）模型智能体性能基准测试τ-Voice，模拟包含口音、噪音和网络丢包的复杂客服场景。测试显示，当前最强S2S模型仅能端到端解决约一半的真实任务，与顶尖文本智能体存在差距。xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先，平均对话时长5.6分钟；OpenAI的GPT-Realtime系列与谷歌的Gemini紧随其后。该领域发展迅速，排名可能随模型更新而变动。

Artificial Analysis: Announcing agentic performance benchmarking for Speech to Speech models on Artificial Analysis. We use τ-Voice to measur...

xAI 评测/基准语音

04:27

Jeff Dean@JeffDean

52

斯坦福大学教授、基础模型研究中心创始主任Percy Liang确认担任CAIS 2026大会主题演讲嘉宾。他因创立全面评估语言模型的HELM框架和持续发布基础模型透明度指数而知名，该指数对各大AI实验室的信息披露施加了压力。他目前主导的Marin项目致力于打造一个完全开放的实验室，所有实验无论成败均从第一天起公开。大会将于明年5月26日至29日在圣何塞举行。

ACM Conference on AI and Agentic Systems: 🎤 Keynote announcement: @percyliang (Percy Liang), Professor of Computer Science at @Stanford, founding director of the...

开源生态行业动态评测/基准

02:09

Noam Brown@polynoamial

58

我很高兴看到一项新评测得分如此之低。当我们发布GPT-5.5时，几乎每个基准测试的得分都超过了50%。是时候淘汰像GQPA这样的评测，引入一套新的评估体系了。

Kilian Lieret: The first ProgramBench task was just solved by GPT 5.5 high/xhigh. Interestingly, high/xhigh picked two different langua...

OpenAI 大佬观点评测/基准

00:30

Artificial Analysis@ArtificialAnlys

62

语音智能体性能基准发布，顶尖模型仅能处理半数真实客服场景

Artificial Analysis推出语音智能体基准测试𝜏-Voice，用于评估客服场景中的工具调用与多轮对话能力。测试显示，当前最强语音到语音模型仅能端到端解决约一半的真实任务，与文本智能体存在明显差距。语音通道因口音、噪音、网络问题及需快速响应、保持对话一致性而更具挑战。在模拟航空、零售、电信领域的真实音频条件下，xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先，平均对话时长5.6分钟；OpenAI与Google的模型紧随其后。该基准补充了现有的大规模音频智能测试与对话自然度评估体系。

智能体 OpenAI xAI 多模态

5月12日

19:49

公众号：智谱（GLM）

同事件精选63

GLM-5.1获AA全新Coding Agent基准开源第一

全球权威评测机构Artificial Analysis发布全新Coding Agent Index，包含SWE-Bench-Pro-Hard-AA、Terminal-Bench v2和SWE-Atlas-QnA三项基准，用于衡量模型与Agent harness组合的真实编程能力。闭源模型Opus 4.7（在Cursor CLI中运行）全球第一，智谱GLM-5.1（在Claude Code中运行）获开源第一，代表国产大模型在实际编程Agent场景达到SOTA水平。

开源生态编码评测/基准

同一事件，精选展示《GLM-5.1开源：一个独立工作8小时的模型》

推荐理由：GLM-5.1 在 AA 的新 Coding Agent 基准上拿了开源第一，时隔一个月回头看，这个成绩对国产开源模型在编程 Agent 赛道的位置是个重要注脚，做工具链选型的还是值得扫一眼。

09:35

Noam Brown@polynoamial

61

趣闻：这些致命错误最初是用@OpenAI的GPT-5.5标记的【引用 @EpochAIResearch】：我们正在对FrontierMath的1-4级进行AI辅助审查。这已标记出约三分之一题目的致命错误，且我们认为大多数标记是有效的。完成人工审核后，我们将在修正数据集上公布更新分数。

Epoch AI: We are conducting an AI-assisted review of FrontierMath: Tiers 1-4. This has flagged fatal errors in about a third of pr...

OpenAI 论文/研究评测/基准

08:35

Epoch AI@EpochAIResearch

精选80

我们正在对FrontierMath的Tiers 1-4进行AI辅助审查。这已标记出约三分之一题目存在致命错误，且我们相信大多数标记是有效的。在完成全面人工审核后，我们将在修正的数据集上发布更新后的分数。

数据/训练评测/基准

推荐理由：FrontierMath 是衡量模型数学推理的核心基准，三分之一题目有致命错误这件事会让之前的所有满分评分变得可疑，做评估的人必须重新审视数据。

08:00

HuggingFace Daily Papers（社区热门论文）

32

代码引导推理协议评估小语言模型的可执行推理脚手架

本研究提出了“代码引导推理”评估协议，用于系统衡量可执行推理脚手架对小语言模型在多选题任务中的性能提升。该协议标准化了从任务接口到结果记录的六个组件。基于20,498条实验数据分析表明，在具有非零基线的样本中，脚手架辅助的平均准确率为66.21%，较直接回答的38.11%提升了28.10个百分点。研究同时也指出，该方法面临计算开销增大、答案提取过程脆弱以及生成程序可能违规等局限性。

推理论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

45

地理空间基础模型缺乏统一评估标准

当前地理空间基础模型研究缺乏统一评估标准、训练测试协议与预训练控制，导致模型难以公平比较。对152篇论文的审计发现，同一模型在相同基准上存在显著结果分歧；不同研究预训练配置几乎没有重复；且近四成论文未公开模型权重。为此，文章提出六项具体建议，包括发布带许可证权重、共享核心评估框架、明确基线来源、报告结果方差等，以推动社区建立协作标准，促进该领域健康发展。

开源生态数据/训练论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

51

自动化智能体评估的实证研究

研究发现，直接使用前沿代码助手（如GPT、Claude）进行智能体评估效果不佳，其执行成功率仅为30%，且生成的评估指标平均超过12项，过于复杂。为此，研究者提出了EvalAgent，它能将评估领域知识编码为可组合的“评估技能”，自动化生成包含指标、可执行代码和报告的完整评估成果。通过新构建的AgentEvalBench基准和衡量首次运行成功率的Eval@1指标进行评估，EvalAgent将Eval@1从基线方法的17.5%大幅提升至65%，并获得了79.5%的人类专家偏好。消融研究证实评估技能至关重要，移除后Eval@1会从65%骤降至30%。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

56

视觉美学基准：前沿模型能评判美吗？

针对现有美学评估常简化为单图像打分的问题，研究提出了视觉美学基准（VAB），将其定义为在主题匹配的候选图像集中进行对比选择。该基准包含400项任务和1,195张图像，每项任务由10位专家达成共识标注。评估20个前沿多模态大模型和6个专用视觉质量奖励模型后发现，最强模型仅在26.5%的任务中准确识别最佳和最差图像，远低于人类专家68.9%的准确率。在少量专家示例上微调较小模型，其性能可接近大得多的开源模型，表明VAB中的对比信号具有可迁移性。这些结果揭示了当前模型与专家美学判断之间存在显著且可量化的差距。

arXiv 多模态论文/研究评测/基准

07:49

Berryxia.AI@berryxia

59

Artificial Analysis发布Coding Agent指数，实测模型与编码环境组合表现

Artificial Analysis发布Coding Agent指数，首次将AI模型与Cursor CLI等具体编码环境组合评估。测试基于SWE-Bench-Pro等三大真实编码基准。结果显示，Opus 4.7在Cursor CLI上以61分领先，开源模型GLM-5.1最佳为53分，但仍落后顶尖闭源模型。成本与效率差异显著：每任务成本最高相差30多倍，耗时相差7倍。该榜单揭示了不同组合在性能、成本与效率上的巨大差异，为开发者选择编码助手提供了实用参考。

Artificial Analysis: Announcing the Artificial Analysis Coding Agent Index! Our new coding agent benchmarks measure how combinations of agent...

智能体编码评测/基准

02:29

Ethan Mollick@emollick

61

大语言模型（LLM）的一个重要特性是，更新、更大的模型在所有方面都表现更优。AI实验室正将大量资源投入编程等经济价值高的领域，但更大的模型在谈判、对齐、诗歌创作等广泛任务上同样更具优势。例如，在PACT基准测试的数千场模拟谈判中，GPT-5.5在买卖双方多轮议价游戏中取得了最佳成绩，这印证了模型规模与综合能力提升的正相关关系。

Lech Mazur: First update to PACT, my head-to-head LLM negotiation benchmark! 20-round buyer-seller bargaining game: each round the A...

OpenAI 大佬观点推理现象/趋势

5月11日

23:57

Artificial Analysis@ArtificialAnlys

65

人工智能分析发布编码代理基准指数，揭示模型与执行框架组合表现

人工智能分析发布编码代理基准指数，评估不同模型与执行框架组合在三大编码基准中的表现。Opus 4.7在Cursor CLI中以61分领先，GPT-5.5与Opus 4.7在其它框架中得分60紧随其后。开源模型GLM-5.1在Claude Code中获得53分，表现竞争但仍显著落后顶尖闭源模型。经济性差异悬殊：每任务成本从Composer 2的0.07美元到GLM-5.1的2.26美元不等，后者因任务循环令牌使用高达480万；任务耗时差异超7倍，Opus 4.7仅需6分钟而Kimi K2.6需40分钟。缓存命中率普遍较高，影响实际运行成本。

智能体 Anthropic DeepSeek OpenAI

13:18

向阳乔木@vista8

56

当前AI代码生成最难的基准测试ProgramBench

ProgramBench是Meta、斯坦福和哈佛团队推出的高难度AI代码生成基准测试。它要求AI仅根据二进制文件及文档，在无法反编译和联网的条件下，从零重写原程序。测试项目涵盖从jq到FFmpeg、SQLite乃至PHP编译器级别。目前表现最佳的Claude Opus在“接近完成”指标上仅达3%，GPT-5和Gemini系列通过率均为零，凸显了AI在复杂软件工程任务上的巨大挑战。

Anthropic OpenAI 编码评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

55

WildClawBench：面向真实世界长周期智能体评估的基准

WildClawBench是一个原生运行环境基准，包含60项人工编写的双语多模态任务，涵盖六大主题。任务平均耗时约8分钟，涉及超20次工具调用，并在可复现的Docker容器中运行真实的CLI智能体框架与工具。评估采用混合评分，结合规则检查、环境状态审计和LLM/VLM语义评判。在19个前沿模型中，表现最佳的Claude Opus 4.7在OpenClaw框架下总体得分仅62.2%，其余均低于60%，且仅更换框架就可使同一模型得分波动高达18分。结果表明，当前模型在长周期、原生环境的智能体任务上仍面临巨大挑战。研究已公开任务、代码及容器化工具以支持复现。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

64

Agent-ValueBench：首个评估智能体价值的综合基准

研究团队发布了首个专门评估智能体价值的基准测试Agent-ValueBench，以弥补现有基准仅局限于大语言模型的不足。该基准包含16个领域的394个可执行环境，提供了4,335个覆盖28个价值体系的价值冲突任务。每个任务均通过定制流程合成并由心理学家审定，配备两条极性对齐的黄金轨迹用于评估。基于对14个前沿模型的测试，研究发现智能体价值呈现“价值潮汐”同质化现象，其表现受执行框架非叠加性影响，而嵌入式技能能产生更决定性的调控效果。这表明智能体对齐的重点正从模型与提示词引导转向框架对齐与技能引导。

智能体安全/对齐论文/研究评测/基准

5月10日

17:37

The Decoder：AI News（RSS）

62

METR称其几乎无法评估Claude Mythos，Palo Alto Networks警告自主AI攻击者出现

METR的现有测试套件几乎无法有效评估Claude Mythos Preview，228项任务中仅5项能覆盖其相关能力范围。与此同时，Palo Alto Networks报告指出，前沿AI模型能自主串联利用系统漏洞，将初始访问到数据窃取的时间缩短至仅25分钟。当前评估方法的发展速度已明显落后于模型本身的进化，这可能构成了更严峻的挑战。

Anthropic 安全/对齐行业动态评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

61

从像素到概念：分割模型真的理解它们分割的内容吗？

研究团队推出CAFE基准，专门评估提示型分割模型的概念忠实性。该基准通过属性级反事实操作，构建了包含2,146个测试样本的数据集，涵盖表面模仿、上下文冲突和本体冲突三类误导性语义线索。对多种模型的评估揭示了一个系统性差距：模型即使面对误导性提示也常能生成精确掩码，这表明强大的掩码预测能力并不等同于忠实的概念语义基础。CAFE为诊断模型是否基于概念而非视觉捷径进行分割提供了受控的评估标准。

arXiv 多模态论文/研究评测/基准

01:58

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

68

滴答作响。

Peter Wildeford🇺🇸🚀: wow Mythos finally broke the METR graph

安全/对齐评测/基准

5月9日

22:21

Hacker News 热门（buzzing.cc 中文翻译）

47

大型语言模型能否在 TLA 中建模现实世界系统？

一篇探讨大型语言模型（LLMs）能否使用 Temporal Logic of Actions (TLA) 建模现实世界系统的文章在 SIGOPS 网站发布，并在 Hacker News 上获得 100 点关注。该研究聚焦于 LLMs 在形式化验证领域的应用潜力，评估其建模现实系统时的准确性、效率及挑战，可能涉及对现有建模方法的比较与性能指标分析，以揭示 LLMs 在复杂系统设计中的可行性和局限性。

论文/研究评测/基准

21:57

Ethan Mollick@emollick

46

AI基准测试虽有缺陷，但进展追踪相对容易；机器人学则缺乏明确的衡量标准，演示视频如赛跑或洗衣无法有效评估进展，需要建立类似AI的独立基准测试如ARC-AGI-BOT。引用推文指出，尽管对机器人技术充满期待，但使其在经济上大规模实用的关键飞跃时间表仍不确定，可能在1年、3年、5年或10年内实现。

prinz: @Miles_Brundage I am actually extremely excited about robotics, but have not been able to figure out whether the major l...

具身智能大佬观点评测/基准

16:21

Chubby♨️@kimmonismus

50

更令人印象深刻的是，当成功率从50%提升到80%时，Claude Mythos与Gemini 3.1 Pro之间的差距会变得多么巨大。 Mythos不仅仅是"工作更持久"--最重要的是，它的工作准确率显著更高！这才是真正令人惊叹的部分。

Chubby♨️: Holy sh*t! That jump! So the next model after Mythos will work a whole 8 hour work day at 80% success rate, I assume.

Anthropic Google 大佬观点评测/基准

14:51

公众号：阶跃星辰（Step）

45

阶跃语音模型位列 Artificial Analysis 评测榜中国第一、全球前三

评测/基准语音

14:19

Hacker News 热门（buzzing.cc 中文翻译）

57

最近使用 ChatGPT 5.5 Pro 的体验

OpenAI发布了ChatGPT 5.5 Pro模型，该版本在推理能力、代码生成和长上下文处理方面有显著提升。模型支持128K上下文窗口，并在数学问题解决基准测试中准确率达到92.7%，较上一版本提高约15%。实际体验显示，其在处理复杂指令和多步骤任务时响应更精准、逻辑更连贯，但偶尔仍会出现事实性错误。该模型目前通过订阅制向专业用户开放。

OpenAI 推理评测/基准

12:35

StepFun@StepFun_ai

69

StepFun 推出的 StepAudio 2.5 TTS 在 Artificial Analysis 语音竞技场盲测排行榜中位列全球第三，Elo 评分为 1187 分，仅次于 Inworld TTS 1.5 Max 与 Google Gemini 3.1 Flash TTS。该模型语音自然度较前代显著提升，并以 8 分优势超越 Eleven v3。其定价为每百万字符 85 美元，生成速度为每秒 37.6 字符，并提供了全局上下文提示和行内情感标签两种语音控制方式。

Artificial Analysis: StepFun's new StepAudio 2.5 TTS ranks #3 on the Artificial Analysis Speech Arena Leaderboard, only behind Inworld's Real...

模型发布评测/基准语音

12:23

OpenRouter@OpenRouter

精选65

祝贺@NousResearch！【引用 @NousResearch】：Hermes Agent 现已在全球 @OpenRouter 令牌排名中位列第一。虽然我们的旅程才刚刚开始，但我们想借此机会感谢我们的贡献者、支持者和用户，感谢他们为我们走到今天所做的一切。

Nous Research: Hermes Agent is now #1 on the Global @OpenRouter token rankings. While our journey together has just begun, we'd like to...

智能体行业动态评测/基准

推荐理由：Hermes Agent在OpenRouter登顶，不是一次普通的排名更新，它代表Agent模型的调用量正式超过了通用聊天，做Agent的该兴奋了。

10:29

IT之家（RSS）

66

阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime，支持情绪感知与人设自定义

阶跃星辰发布新一代实时语音大模型StepAudio 2.5 Realtime，现已全量上线。该模型能感知语调、语速等“副语言”信息以识别用户情绪，动态调整回应以提升对话真实感。开发者可通过API精细定制AI角色的性格、背景等，其能力基于超万个原生人设生成的百万级特征矩阵训练，并针对角色一致性进行了强化。模型在对话能力上强调智商与情商的双重提升，可应对从闲聊到专业面试等多种场景。据2026年4月评测，其主观对话体验与语音问答基准得分均领先于同期竞品。

多模态模型发布评测/基准语音

09:52

Ethan Mollick@emollick

72

嗯。【引用 @METR_Evals】：我们于2026年3月的有限窗口内评估了Claude Mythos Preview的早期版本进行风险评估。在我们的任务套件上，我们估计其50%时间范围至少为16小时（95%置信区间8.5小时至55小时），这处于我们无需新任务即可测量的上限。

METR: We evaluated an early version of Claude Mythos Preview for risk assessment during a limited window in March 2026. We est...

Anthropic 安全/对齐评测/基准

08:50

Artificial Analysis@ArtificialAnlys

62

StepFun StepAudio 2.5 TTS 在语音竞技场排名第三，质量提升但定价偏高

StepFun 推出的 StepAudio 2.5 TTS 模型在 Artificial Analysis 语音竞技场排行榜中位列第三，仅次于 Inworld Realtime TTS 1.5 Max 和 Google Gemini 3.1 Flash TTS。该模型语音自然度显著提升，以 1187 的 Elo 评分超越 Eleven v3。其定价为每百万字符 85 美元，高于领先模型；生成速度为每秒 37.6 字符，介于竞品之间。模型提供全局上下文提示和行内情感标签两种控制语音表现的方式。

多模态评测/基准语音

08:00

HuggingFace Daily Papers（社区热门论文）

65

FORTIS：评估智能体技能中的过度权限问题

研究团队推出FORTIS基准，用于评估大语言模型智能体在技能调用中的过度权限问题。该基准从两个阶段测试模型：能否从大量重叠技能库中选择最小必要权限的技能，以及执行时是否超出技能允许的工具或操作范围。在十个前沿模型和三个领域的测试中，过度权限行为成为普遍现象。模型倾向于选择比任务所需更高权限的技能和工具，即使在最强模型中，两阶段的失败率依然很高。在用户描述不完整、便捷性引导和接近技能边界等常规交互条件下，问题尤为严重。结果表明，技能层非但未能约束智能体，反而成为当前系统中权限升级的主要来源。

智能体安全/对齐评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

66

MLS-Bench：对AI系统构建更优AI能力的全面严格评估

MLS-Bench是一个评估AI系统能否发明通用、可扩展机器学习方法的基准。它包含12个领域的140项任务，要求智能体改进ML系统的特定组件，并证明其改进能在受控环境中泛化与扩展。研究发现，当前智能体远未达到可靠超越人类设计方法的水平，且工程式调优比真正的方法发明更容易。测试阶段的规模扩展、自适应计算分配和额外上下文均无法单独解决核心瓶颈，关键在于智能体缺乏规划、验证和扩展主张所需的科学洞察力。该项目已建立社区平台并开源相关资源。

智能体推理论文/研究评测/基准

02:18

Chubby♨️@kimmonismus

55

OpenAI数周内快速逼近Claude Mythos，2026成回归之年

OpenAI的GPT-5.5 Cyber在网络安全能力上迅速缩小与Claude Mythos的差距，耗时仅数周而非数年。在AISI的专家网络任务中，两者表现接近，GPT-5.5 Cyber通过率甚至略高，且每token成本显著更低。但Mythos在公开实践案例上仍占优势，如协助Mozilla进行大规模Firefox漏洞排查。2026年正成为OpenAI的强势回归之年，其模型性能更强、成本效益更高，且一系列决策时机精准，展现出强劲复苏态势。

Anthropic OpenAI 大佬观点安全/对齐

5月8日

17:05

Baidu Inc.@Baidu_Inc

26

DuMate的智能体能力刚经历测试，结果出炉：在@pinchbench和DeepResearch Bench上均位列第一。详细分析如下👇

智能体评测/基准

15:23

HuggingFace Daily Papers（社区热门论文）

62

无基准场景下的LLM安全性比较评分验证框架

针对缺乏标注基准的语言、领域或监管场景，本文提出“无基准比较性安全评分”框架，明确了基于场景审计作为部署证据的合约条件。该方法依赖固定的场景包、评分准则等要素，并通过工具有效性链替代真实标签验证，包括对安全与篡改版本的响应灵敏度、目标驱动方差的主导性及重复运行的稳定性。工具SimpleAudit在挪威语安全包上验证有效。实际案例表明，模型安全性取决于具体场景类别和风险度量，因此需完整报告评分、差异、临界率等多维度信息，而非简化为单一排名。

安全/对齐论文/研究评测/基准

09:22

HuggingFace Daily Papers（社区热门论文）

68

XL-SafetyBench：一个基于国家的跨文化大语言模型安全与文化敏感性基准

针对现有大语言模型安全基准的英语中心主义局限，研究团队发布了XL-SafetyBench。该基准包含10个国家-语言对的5500个测试用例，设有基于国家的对抗性“越狱基准”和嵌入本地敏感性的“文化基准”。通过引入中立安全率与文化敏感率等补充指标，能更好区分原则性拒绝与理解失败。对37个模型的评估发现，前沿模型的越狱鲁棒性与文化意识不耦合，而本地模型的安全表现更多源于生成失败而非真正对齐。该工作为多语言时代的模型安全提供了细致的跨文化评估工具。

安全/对齐论文/研究评测/基准

08:21

Berryxia.AI@berryxia

59

重构代码成AI终极考验，Scale AI发布SWE Atlas最终榜单

Scale AI发布SWE Atlas最终榜单“Refactoring”，专门测试AI agent大规模重构代码而不破坏系统的能力。任务难度顶尖，代码改动量远超以往基准。Claude Opus 4.7配合Claude Code夺得第一。结果显示，即使前沿模型也常在重构时留下死代码、残留垃圾或漏掉调用点。国产模型中GLM-5排名最高（第8位），其次是Kimi和Minmax。榜单揭示核心挑战：写新功能容易，但干净优雅地重构老代码难十倍，真正顶级的agent需具备强大的“修代码”能力。

Scale Labs: Today we're releasing Refactoring, the final leaderboard of our SWE Atlas suite. This new leaderboard is the ultimate te...

Anthropic 编码评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

50

CODS 2025 AssetOpsBench挑战赛结果与回顾分析

本研究对CODS 2025多智能体编排挑战赛进行了回顾分析。公开规划排行榜在72.73%准确率处饱和，隐藏评估则显著改变了结论：规划任务中公开与私有分数呈中度相关（0.69），而执行任务中呈负相关（-0.13），部分系统分数从45.45%提升至63.64%。官方评分中特定术语影响微弱，调整权重将改变前两名排序。竞赛注册队伍虽多，但仅24支获得有效公开分数，其中超半数为团队协作。成功的执行方法主要集中于改进响应选择、污染清理等护栏机制，而非创新智能体架构。

智能体论文/研究评测/基准

1…14 151617 18…22