全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态X · 480 条

全部一手资讯 X 论文

标签「评测/基准」清除

Xiaomi MiMo@XiaomiMiMo · 5月14日60

Wow, this is honestly exciting to see！ Thanks to Design Arena and everyone who tested MiMo V2.5 Pro. We’ll keep building and improving 🚀

译MiMo V2.5 Pro (Thinking) 模型在Design Arena的开放权重模型总排行榜中位列第三，相比前代MiMo-V2.5跃升了8个名次。其在前端编码任务上的表现已与Claude Sonnet 4.6处于同一性能区间。团队对测试者表示感谢，并承诺将持续改进模型。

向阳乔木@vista8 · 5月14日64

我觉得Get笔记的价值比远远低估了。无论小宇宙、B站、抖音、Youtube、TikTok等，只需要提供链接就能解读。促销时买的会员，一年只要99元，太超值了。还提供Skill和Cli，让Codex分析接入了自己的网站。有URL就能解读，还能获取原始转写文本。官网和Skill见评论区

译Get笔记的价值被严重低估，其会员年费仅99元，性价比极高。核心功能在于用户只需提供链接，即可解读来自小宇宙、B站、抖音、YouTube、TikTok等多个平台的内容，并能获取原始转写文本。此外，它还通过提供Skill和Cli工具，允许用户将Codex分析功能接入自己的网站，实现了服务的深度集成与扩展。

向阳乔木@vista8 · 5月14日49

这个模型还是挺不错的。就是现在基本上所有第三方AI Chat客户端都不支持音视频上传解析。无论CherryStuido、Chatwise还是其他，不知道现在有没有了。

译用户认为某模型表现不错，但指出当前多数第三方AI Chat客户端（如CherryStuido、Chatwise）尚不支持音视频上传解析功能。同时，豆包大模型的Doubao-Seed-2.0-lite 0428版本已完成重要升级，新增音频理解能力，成为其家族首款支持图片、视频、音频、文本四种输入的全模态理解模型，且Agent、Coding和GUI能力据称也有显著提升。

向阳乔木@vista8 · 5月14日64

昨晚上偶然测了 @Ethan_Yang_AI 团队开发的knowly。试着解读Youtube视频和arXiv论文，效果惊艳。除免费额度稍微有点少，向量处理稍慢外。无论产品交互、还是解读效果，丝毫不逊色于NotebookLM。配套Chrome插件还没几个用户，就已经被谷歌列入精选，实力可见一斑。官网见评论

译测试Ethan_Yang_AI团队开发的Knowly，其解读YouTube视频和arXiv论文的效果令人惊艳。尽管存在免费额度略少、向量处理稍慢的不足，但其产品交互和解读效果均不逊色于NotebookLM。其配套的Chrome插件在用户数尚少时即被谷歌列入精选，彰显了产品实力。

Berryxia.AI@berryxia · 5月13日60

一起来看看大模型的IQ和EQ排名😂 大家还在疯狂卷参数、卷基准分数的时候，有人直接给AI模型打起了IQ分。 AIIQ. org 刚刚上线，把流行大模型全部拉出来，用真实基准数据智能估算IQ和EQ，还做了IQ vs 成本、IQ vs EQ、3D性价比对比图，清晰到离谱。它把12个硬核基准分成抽象、数学、编程、学术四个维度，保守填补缺失数据，最后给出标准正态分布上的IQ分数。 EQ也用EQ-Bench和Arena Elo加权计算，甚至对Anthropic模型做了200分惩罚。这已经不是简单的“谁更强”排行榜，而是真正开始用人类智力标准去衡量AI的时代。真正拉开差距的，从来不是谁的参数最大，而是谁先学会用更聪明的方式去评估和选择模型。网站👉 https://www.aiiq.org

译AIIQ.org网站上线，通过12个基准测试在抽象、数学、编程和学术四个维度评估流行大模型，智能估算其IQ分数。EQ由EQ-Bench和Arena Elo加权计算，并对Anthropic模型施加200分惩罚。网站提供IQ与成本、EQ的对比图及3D分析，以人类智力标准衡量AI综合能力。

Berryxia.AI@berryxia · 5月13日51

每天打开群聊消息永远999+ 根本没时间慢慢爬楼本以为腾讯元宝的群聊总结是拯救懒人神器结果实测完和我们想的不太一样它根本做不到自动进群总结还要自己手动多选聊天记录而且不能全选，上限多少条还没有看到说明再转发给元宝才行总结出来的内容也像单纯复制文本拼凑完全没有AI该有的智能感明明大家最需要的就是直接把元宝拉进群自动梳理每日群聊重点偏偏最简单的需求硬是不给做啊！🤔

译用户实测腾讯元宝的群聊总结功能，发现其与预期存在较大差距。该功能无法自动进群总结，需用户手动多选聊天记录并转发给元宝，且存在操作上限不明确的问题。生成的总结内容被批评为机械的文本拼凑，缺乏AI应有的智能分析与提炼能力。用户指出，最核心的需求是能将元宝直接拉入群聊并自动梳理每日重点，但目前这一简单需求并未得到实现。

Berryxia.AI@berryxia · 5月13日52

这个榜单你认为符合你的预期么？🤔

译根据Text Arena最新分类排名，五大前沿AI模型展现出不同的优势领域与取舍。Claude Opus 4.7表现最为全面稳定，在几乎所有主要类别中领先。Gemini 3.1 Pro能力均衡，尤其在创意写作方面突出。Muse Spark在整体表现和编程方面强劲，但在专家任务、数学和长查询上稍弱。GPT-5.5 High是整体最平衡的模型之一，在专家任务和数学领域表现特别出色。Grok 4.20则更偏专长，主要在创意写作和困难提示方面表现突出。该榜单清晰揭示了当前顶级模型在通用性与专项能力上的不同发展路径。

DogeDesigner@cb_doge · 5月13日40

Grok Voice dominates real-world voice AI benchmarks 🔥 τ-voice Bench 🥇 • 🏆 #1 Overall → 67.3% • 🏆 #1 Retail → 62.3% • 🏆 #1 Airline → 66% • 🏆 #1 Telecom → 73.7%

译Grok Voice在真实世界语音AI基准测试中占据主导地位 🔥 τ-voice Bench 🥇 • 🏆 综合排名第一 → 67.3% • 🏆 零售业第一 → 62.3% • 🏆 航空业第一 → 66% • 🏆 电信业第一 → 73.7%

Elon Musk@elonmusk · 5月13日48

Grok Voice is #1!

译Artificial Analysis 发布首个语音到语音（S2S）模型智能体性能基准测试𝜏-Voice，模拟包含口音、噪音和网络丢包的复杂客服场景。测试显示，当前最强S2S模型仅能端到端解决约一半的真实任务，与顶尖文本智能体存在差距。xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先，平均对话时长5.6分钟；OpenAI的GPT-Realtime系列与谷歌的Gemini紧随其后。该领域发展迅速，排名可能随模型更新而变动。

Jeff Dean@JeffDean · 5月13日52

Great to see @percyliang as a keynote speaker at #cais2026!

译斯坦福大学教授、基础模型研究中心创始主任Percy Liang确认担任CAIS 2026大会主题演讲嘉宾。他因创立全面评估语言模型的HELM框架和持续发布基础模型透明度指数而知名，该指数对各大AI实验室的信息披露施加了压力。他目前主导的Marin项目致力于打造一个完全开放的实验室，所有实验无论成败均从第一天起公开。大会将于明年5月26日至29日在圣何塞举行。

Noam Brown@polynoamial · 5月13日58

I love seeing a new eval with such low scores. When we announced GPT-5.5, almost every benchmark had a score above 50%. It's time to retire evals like GQPA and bring in a new set.

译我很高兴看到一项新评测得分如此之低。当我们发布GPT-5.5时，几乎每个基准测试的得分都超过了50%。是时候淘汰像GQPA这样的评测，引入一套新的评估体系了。

Artificial Analysis@ArtificialAnlys · 5月13日62

Announcing agentic performance benchmarking for Speech to Speech models on Artificial Analysis. We use 𝜏-Voice to measure tool calling and customer interaction voice agent capabilities in realistic customer service scenarios Even the strongest Speech to Speech (S2S) models today resolve only about half of realistic customer service scenarios end-to-end - a meaningful gap relative to frontier text-based agents on the same tasks. Voice channels introduce significant complexity: challenging accents, background noise, and packet loss, all while requiring fast responses, consistency across long multi-turn conversations, and reliable tool use. Performance also varies considerably by audio condition: in clean audio some models perform notably better, but realistic conditions continue to pose a challenge. Conversation duration also varies meaningfully across models, with implications for both customer experience and operational cost. About 𝜏-Voice: Our Agentic Performance benchmark is based on 𝜏-Voice (Ray, Dhandhania, Barres & Narasimhan, 2026), which extends 𝜏²-bench into the voice modality to evaluate S2S models on realistic customer service tasks. It measures multi-turn instruction following, support of a simulated customer through a complete interaction, and tool use against simulated customer service systems. The simulated user combines an LLM-driven decision model with realistic audio synthesis: diverse accents, background noise, and packet loss modelled on real network conditions. This complements our Big Bench Audio benchmark measuring intelligence and Conversational Dynamics (Full Duplex Bench subset) benchmark measuring conversational naturalness. Scores are the average of three independent pass@1 trials. We evaluate under realistic audio conditions using the 𝜏²-bench base task split across three domains: ➤ Airline (50 scenarios): e.g., changing a flight, rebooking under policy constraints ➤ Retail (114 scenarios): e.g., disputing a charge, processing a return ➤ Telecom (114 scenarios): e.g., resolving a billing issue, troubleshooting a service problem Task success is determined by deterministic checks against expected actions and final database state, consistent with the 𝜏²-bench evaluator. Key results: xAI's Grok Voice Think Fast 1.0 is the clear leader at 52.1%, averaging 5.6 minutes per conversation, the second-longest overall. OpenAI's GPT-Realtime-2 (High) (39.8%, 3.0 min) and GPT-Realtime-1.5 (38.8%, 4.8 min) follow, with Gemini 3.1 Flash Live Preview - High close behind at 37.7% (3.8 min). Speech to Speech is a fast evolving modality and we expect movement in rankings as we continue to add new models with these capabilities, and model robustness improves. Congratulations @xAI @elonmusk! See below for further detail ⬇️

译Artificial Analysis推出语音智能体基准测试𝜏-Voice，用于评估客服场景中的工具调用与多轮对话能力。测试显示，当前最强语音到语音模型仅能端到端解决约一半的真实任务，与文本智能体存在明显差距。语音通道因口音、噪音、网络问题及需快速响应、保持对话一致性而更具挑战。在模拟航空、零售、电信领域的真实音频条件下，xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先，平均对话时长5.6分钟；OpenAI与Google的模型紧随其后。该基准补充了现有的大规模音频智能测试与对话自然度评估体系。

Noam Brown@polynoamial · 5月12日61

Fun fact: the fatal errors were initially flagged using @OpenAI's GPT-5.5

译趣闻：这些致命错误最初是用@OpenAI的GPT-5.5标记的 [引用 @EpochAIResearch]：我们正在对FrontierMath的1-4级进行AI辅助审查。这已标记出约三分之一题目的致命错误，且我们认为大多数标记是有效的。完成人工审核后，我们将在修正数据集上公布更新分数。

Epoch AI@EpochAIResearch · 5月12日80

We are conducting an AI-assisted review of FrontierMath: Tiers 1-4. This has flagged fatal errors in about a third of problems, and we believe most of these flags to be valid. We will release updated scores on a corrected dataset after completing a thorough human review.

译我们正在对FrontierMath的Tiers 1-4进行AI辅助审查。这已标记出约三分之一题目存在致命错误，且我们相信大多数标记是有效的。在完成全面人工审核后，我们将在修正的数据集上发布更新后的分数。

Berryxia.AI@berryxia · 5月12日59

Artificial Analysis 最近出了一个 Coding Agent Index，我一看就觉得这榜单做得挺实在。他们这次不是只测单个模型，而是把「模型 + harness」（比如 Cursor CLI、Claude Code、Codex、Gemini CLI 这些实际编码环境）组合在一起测，用的三个真实编码基准：SWE-Bench-Pro-Hard-AA（150 个前沿模型都难搞的任务）、Terminal-Bench v2（84 个终端操作任务）和 SWE-Atlas-QnA（124 个代码行为分析题）。结果出来后挺有意思： Opus 4.7 在 Cursor CLI 上拿了 61 分排第一，GPT-5.5 在 Codex 和 Opus 4.7 在 Claude Code 都拿到 60 分，紧随其后。GPT-5.5 在 Cursor CLI 也到了 58 分。开源模型表现也不差，GLM-5.1 在 Claude Code 拿到 53 分，是开源里最高的，Kimi K2.6 和 DeepSeek V4 Pro 也都到 50 分，不过跟顶尖闭源模型还是有明显差距。 Gemini 3.1 Pro 在自己家的 Gemini CLI 上只拿到 43 分，比它在普通智能榜上的表现差不少，看来 harness 拖了后腿。成本和效率差异也拉得很大：每任务成本差了 30 多倍，最便宜的是 Cursor 的 Composer 2（0.07 美元/任务），最贵的是 GPT-5.5 在 Codex（2.21 美元）和 GLM-5.1（2.26 美元）；每任务耗时差了 7 倍，Opus 4.7 在 Claude Code 最快只要 6 分钟左右，Kimi K2.6 最慢要 40 分钟。token 用量也差了 3 倍多。这波榜单真正把开发者日常选工具的完整链路测出来了，对想挑 coding agent 的同学来说，值得去他们官网仔细看一眼。链接在这：https://artificialanalysis.ai/agents/coding-agents

译Artificial Analysis发布Coding Agent指数，首次将AI模型与Cursor CLI等具体编码环境组合评估。测试基于SWE-Bench-Pro等三大真实编码基准。结果显示，Opus 4.7在Cursor CLI上以61分领先，开源模型GLM-5.1最佳为53分，但仍落后顶尖闭源模型。成本与效率差异显著：每任务成本最高相差30多倍，耗时相差7倍。该榜单揭示了不同组合在性能、成本与效率上的巨大差异，为开发者选择编码助手提供了实用参考。

Ethan Mollick@emollick · 5月12日61

One of the most important properties of LLMs that we take for granted is that newer, bigger models are just better at everything. The AI Labs are pouring effort into economically valuable fields like coding, but bigger models are also better at negotiation, alignment, poetry, etc

译大语言模型（LLM）的一个重要特性是，更新、更大的模型在所有方面都表现更优。AI实验室正将大量资源投入编程等经济价值高的领域，但更大的模型在谈判、对齐、诗歌创作等广泛任务上同样更具优势。例如，在PACT基准测试的数千场模拟谈判中，GPT-5.5在买卖双方多轮议价游戏中取得了最佳成绩，这印证了模型规模与综合能力提升的正相关关系。

Artificial Analysis@ArtificialAnlys · 5月11日65

Announcing the Artificial Analysis Coding Agent Index! Our new coding agent benchmarks measure how combinations of agent harnesses and models perform on 3 leading benchmarks, token usage, cost and more When developers use AI to code they’re choosing a model, but also pairing it with a specific harness. It makes sense to benchmark that combination to understand and compare performance. The Artificial Analysis Coding Agent Index includes 3 leading benchmarks that represent a broad spectrum of coding agent use: ➤ SWE-Bench-Pro-Hard-AA, 150 realistic coding tasks that frontier models struggle with, sampled from Scale AI’s SWE-Bench Pro ➤ Terminal-Bench v2, 84 agentic terminal tasks from the Laude Institute and that range from system administration and cryptography to machine learning. 5 tasks were filtered due to environment incompatibility ➤ SWE-Atlas-QnA, 124 technical questions developed by Scale AI about how code behaves, root causes of issues, and more, requiring agents to explore codebases and give text answers Analysis of results: ➤ Opus 4.7 and GPT-5.5 lead the Index: Opus 4.7 in Cursor CLI scores 61, followed closely by GPT-5.5 in Codex and Opus 4.7 in Claude Code at 60. GPT-5.5 in Cursor CLI follows at 58. ➤ Open weights models are competitive, but still trail the leaders: GLM-5.1 in Claude Code is the top open-weight result at 53, followed by Kimi K2.6 and DeepSeek V4 Pro in Claude Code at 50. These are strong results, but still meaningfully behind the top proprietary models. ➤ Gemini 3.1 Pro in Gemini CLI underperforms: Gemini 3.1 Pro in Gemini CLI scores 43, well below where Gemini 3.1 Pro sits on our Intelligence Index, highlighting that Gemini’s performance in Gemini CLI remains a relative weak spot for Google’s offering. ➤ Cost per task (API token pricing) varies >30x: Composer 2 in Cursor CLI is cheapest at $0.07/task, followed by DeepSeek V4 Pro in Claude Code at $0.35/task and Kimi K2.6 in Claude Code at $0.76/task. At the high end, GPT-5.5 in Codex costs $2.21/task, while GLM-5.1 in Claude Code costs $2.26/task. For both models this was contributed to by high token usage, and in GPT-5.5’s case by a relatively higher per token cost. ➤ Token usage varies >3x: GLM-5.1 in Claude Code uses the most tokens at 4.8M/task, followed by Kimi K2.6 at 3.7M/task and DeepSeek V4 Pro at 3.5M/task. GPT-5.5 in Codex uses 2.8M tokens/task, substantially more than Opus 4.7 in Claude Code at 1.7M/task. In GLM-5.1’s case, higher token usage, cost and execution time were partly driven by the model entering loops on some tasks. ➤ Cache hit rates remain high but vary materially: Cache hit rates range from 80% to 96% across combinations. Provider routing, harness prompt structure and cache behavior can materially change the economics of running the same model given cached inputs are typically <50% the API price of regular input tokens. ➤ Time per task varies >7x: Opus 4.7 in Claude Code is fastest at ~6 minutes/task, while Kimi K2.6 in Claude Code is slowest at ~40 minutes/task. This is contributed to by differences in average turns per task, token usage and API serving speed. Opus 4.7 had materially lower amount of turns to complete a task than all other models while Kimi K2.6 had the most. ➤ Cursor made real progress with Composer 2: Composer 2 in Cursor CLI scores 48, near the leading open-weight model results, while being the cheapest combination measured at $0.07/task. Cursor has stated Composer 2 is built from Kimi K2.5, showcasing they have made substantial post-training gains. This is just the start. We are planning to add additional agents (both harnesses and models). Let us know what you would like to see added next.

译人工智能分析发布编码代理基准指数，评估不同模型与执行框架组合在三大编码基准中的表现。Opus 4.7在Cursor CLI中以61分领先，GPT-5.5与Opus 4.7在其它框架中得分60紧随其后。开源模型GLM-5.1在Claude Code中获得53分，表现竞争但仍显著落后顶尖闭源模型。经济性差异悬殊：每任务成本从Composer 2的0.07美元到GLM-5.1的2.26美元不等，后者因任务循环令牌使用高达480万；任务耗时差异超7倍，Opus 4.7仅需6分钟而Kimi K2.6需40分钟。缓存命中率普遍较高，影响实际运行成本。

向阳乔木@vista8 · 5月11日56

当下AI写代码最难的 benchmark 叫 ProgramBench。 Claude Opus 4.7 最好，也只在"接近完成"这个指标上拿到了 3%，GPT-5、Gemini 系列，全是零。这个测试是 Meta、Stanford、Harvard 的研究团队搞的：给 AI 一个编译好的二进制文件和它的文档，让 AI 从零把这个程序重新写出来。没有源代码，不能反编译，不能上网查资料。从小工具到大项目都有，有jq、ripgrep 这种命令行小工具。也有 FFmpeg、SQLite、PHP 编译器这种级别。官网：https://programbench.com/ 论文：https://arxiv.org/abs/2605.03546

译ProgramBench是Meta、斯坦福和哈佛团队推出的高难度AI代码生成基准测试。它要求AI仅根据二进制文件及文档，在无法反编译和联网的条件下，从零重写原程序。测试项目涵盖从jq到FFmpeg、SQLite乃至PHP编译器级别。目前表现最佳的Claude Opus在“接近完成”指标上仅达3%，GPT-5和Gemini系列通过率均为零，凸显了AI在复杂软件工程任务上的巨大挑战。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月10日68

Tick tock.

译滴答作响。

Ethan Mollick@emollick · 5月9日46

As much as the state of benchmarks in AI is flawed, it is so much easier to track AI progress than robotics. Not sure what you can make of all the videos of robots running races or doing laundry - are there any equivalents to independent AI benchmarks for robots? ARC-AGI-BOT?

译AI基准测试虽有缺陷，但进展追踪相对容易；机器人学则缺乏明确的衡量标准，演示视频如赛跑或洗衣无法有效评估进展，需要建立类似AI的独立基准测试如ARC-AGI-BOT。引用推文指出，尽管对机器人技术充满期待，但使其在经济上大规模实用的关键飞跃时间表仍不确定，可能在1年、3年、5年或10年内实现。

Chubby♨️@kimmonismus · 5月9日50

What is even more impressive is just how wide the gap between Claude Mythos and Gemini 3.1 Pro becomes when moving from a 50% success rate to an 80% success rate. Mythos doesn't just work "longer" - above all, it works significantly more accurately! That is the truly impressive part.

译更令人印象深刻的是，当成功率从50%提升到80%时，Claude Mythos与Gemini 3.1 Pro之间的差距会变得多么巨大。 Mythos不仅仅是"工作更持久"——最重要的是，它的工作准确率显著更高！这才是真正令人惊叹的部分。

StepFun@StepFun_ai · 5月9日69

Highest-ranked Chinese TTS model on the @ArtificialAnlys Speech Arena. Top 3 globally. Blind test. Real ears. They picked it! StepAudio 2.5 TTS.

译StepFun 推出的 StepAudio 2.5 TTS 在 Artificial Analysis 语音竞技场盲测排行榜中位列全球第三，Elo 评分为 1187 分，仅次于 Inworld TTS 1.5 Max 与 Google Gemini 3.1 Flash TTS。该模型语音自然度较前代显著提升，并以 8 分优势超越 Eleven v3。其定价为每百万字符 85 美元，生成速度为每秒 37.6 字符，并提供了全局上下文提示和行内情感标签两种语音控制方式。

OpenRouter@OpenRouter · 5月9日65

Congrats to @NousResearch!

译祝贺@NousResearch！ [引用 @NousResearch]：Hermes Agent 现已在全球 @OpenRouter 令牌排名中位列第一。虽然我们的旅程才刚刚开始，但我们想借此机会感谢我们的贡献者、支持者和用户，感谢他们为我们走到今天所做的一切。

Ethan Mollick@emollick · 5月9日72

Huh.

译嗯。 [引用 @METR_Evals]：我们于2026年3月的有限窗口内评估了Claude Mythos Preview的早期版本进行风险评估。在我们的任务套件上，我们估计其50%时间范围至少为16小时（95%置信区间8.5小时至55小时），这处于我们无需新任务即可测量的上限。

Artificial Analysis@ArtificialAnlys · 5月9日62

StepFun’s new StepAudio 2.5 TTS ranks #3 on the Artificial Analysis Speech Arena Leaderboard, only behind Inworld’s Realtime TTS 1.5 Max and Google’s Gemini 3.1 Flash TTS StepAudio 2.5 TTS represents a significant step forward for StepFun from previous TTS models, with notably increased naturalness of speech samples. The model now edges out Eleven v3 on our current prompt set with an Elo score of 1,187. Key takeaways: ➤ Quality: StepAudio 2.5 TTS has an Elo of 1,187 based on 834 arena appearances, placing it 28 points behind the leading model (Inworld TTS 1.5 Max at 1,215) and 8 points ahead of Eleven v3 at 1,179 ➤ Pricing: Model is priced at $85/1M characters, a premium to leading frontier models, Inworld TTS 1.5 Max at $35/1M and Gemini 3.1 Flash TTS at $36.6/1M ➤ Speed: Model generates characters 37.6 characters per second, compared to 220.5 chars/s for Inworld TTS 1.5 Max and 30.1 chars/s for Gemini 3.1 Flash TTS ➤ Prompting: StepAudio 2.5 TTS offers two paths to control delivery of speech: 1. Global context prompt for overall style, 2. Inline contextual tags for more granular emotion and prosody See more details and listen to samples below ⬇️

译StepFun 推出的 StepAudio 2.5 TTS 模型在 Artificial Analysis 语音竞技场排行榜中位列第三，仅次于 Inworld Realtime TTS 1.5 Max 和 Google Gemini 3.1 Flash TTS。该模型语音自然度显著提升，以 1187 的 Elo 评分超越 Eleven v3。其定价为每百万字符 85 美元，高于领先模型；生成速度为每秒 37.6 字符，介于竞品之间。模型提供全局上下文提示和行内情感标签两种控制语音表现的方式。

Chubby♨️@kimmonismus · 5月9日55

The surprising part is not just that Claude Mythos is powerful. It is that OpenAI seems to have closed much of the cyber-capability gap with GPT-5.5 Cyber in weeks, not years. On AISI’s expert cyber tasks, GPT-5.5 Cyber was roughly on par with Mythos and even slightly ahead on pass rate, while being materially cheaper per token. But Mythos still has the stronger public real-world proof point: Mozilla’s large-scale Firefox vulnerability work. Be that as it may, 2026 increasingly looks like OpenAI’s comeback year: stronger releases, more cost-effective models, and a series of decisions that seem to be landing at exactly the right moment.

译OpenAI的GPT-5.5 Cyber在网络安全能力上迅速缩小与Claude Mythos的差距，耗时仅数周而非数年。在AISI的专家网络任务中，两者表现接近，GPT-5.5 Cyber通过率甚至略高，且每token成本显著更低。但Mythos在公开实践案例上仍占优势，如协助Mozilla进行大规模Firefox漏洞排查。2026年正成为OpenAI的强势回归之年，其模型性能更强、成本效益更高，且一系列决策时机精准，展现出强劲复苏态势。

Baidu Inc.@Baidu_Inc · 5月8日26

DuMate's agent capabilities just got put to the test, and the results are in: #1 on @pinchbench and DeepResearch Bench. Here's the breakdown 👇

译DuMate的智能体能力刚经历测试，结果出炉：在@pinchbench和DeepResearch Bench上均位列第一。详细分析如下👇

Berryxia.AI@berryxia · 5月8日59

这个榜单的维度有点意义啊！很具有模型的真实水平的表现参考意义！国产模型排名最高的是GLM-5，位居第8！但不是5.1 ，其次是Kimi、Minmax 。重构代码才是真正把AI agent拉下神坛的终极考验。 Scale AI今天发布SWE Atlas的最终榜单「Refactoring」，专门测agent能不能把代码大规模重构却不把系统搞崩。结果Claude Opus 4.7配合Claude Code直接拿下第一。这次任务的代码改动量是SWE-Bench Pro的2倍、SWE-Bench Verified的30倍，难度直接干到顶。即使是前沿agent，能写出能跑的功能重构，却经常在专业评审里翻车。留下死代码、残留垃圾、漏掉调用点、或者在边缘case直接崩掉。这才是最扎心的真相：写新功能容易，干净优雅地重构老代码难十倍。真正顶级的agent，不光要会生代码，更要会“修代码”。

译Scale AI发布SWE Atlas最终榜单“Refactoring”，专门测试AI agent大规模重构代码而不破坏系统的能力。任务难度顶尖，代码改动量远超以往基准。Claude Opus 4.7配合Claude Code夺得第一。结果显示，即使前沿模型也常在重构时留下死代码、残留垃圾或漏掉调用点。国产模型中GLM-5排名最高（第8位），其次是Kimi和Minmax。榜单揭示核心挑战：写新功能容易，但干净优雅地重构老代码难十倍，真正顶级的agent需具备强大的“修代码”能力。

Orange AI@oran_ge · 5月8日49

GPT image 2.0 这个模型真实深不可测发布两周了，每天都能发现它的新能力一个是刷到昨天阑夕分享的文字海报玩法另一个是 Labnana 社区的群友的认证：GPT 的二次元画风把香蕉按在地上摩擦。。这个模型甚至都不用给参考图，提到名字 IP 就直接出来了相比之下，Banana 2 是个不太成功的模型，文字和二次元效果都不如 Pro，Grok 除了尺度大，其他一无是处。 Labnana 现在把 GPT Images 2.0 的免费体验作为一个长期福利，大部分用户只要签到和邀请积分基本就够用了注册地址 https://labnana.com/

译GPT Image 2.0模型发布后持续展现惊人能力，无需参考图即可根据名称或IP生成高质量内容，尤其在二次元画风上表现卓越，被社区认为远超Banana 2等模型。Labnana社区现已将GPT Image 2.0的免费体验作为长期福利，用户通过签到和邀请获取积分即可基本满足使用需求。

TestingCatalog News 🗞@testingcatalog · 5月8日49

Scale AI published SWE Atlas Refactoring Leaderboard, a new benchmark that evaluates agent capabilities of restructuring the code. > It requires agents to produce twice as much lines of code than SWE Bench Pro. > Claude Code with Opus 4.7 tops the leaderboard followed by Codex with GPT-5.5, GPT-5.4 and GPT-5.3. > Refactoring is quite an important task for LLMs to handle as it often boils down to a quite boring engineering work.

译Scale AI发布了SWE Atlas重构排行榜，这是一个评估智能体重构代码能力的新基准。 > 它要求智能体生成的代码行数是SWE Bench Pro的两倍。 > Claude Code with Opus 4.7位居榜首，其次是Codex with GPT-5.5、GPT-5.4和GPT-5.3。 > 重构对大型语言模型而言是相当重要的任务，因为这通常归结为相当枯燥的工程工作。

elvis@omarsar0 · 5月7日64

Top skill to learn today: AI Agent Evaluation. Anyone can build AI agents now but the difference is in the quality that's only possible via proper evals. Wrote some thoughts on evaluating production AI systems in n8n. Insights, templates, and examples to try at your own pace.

译当前AI智能体（Agent）构建门槛降低，其质量差异的核心在于能否进行恰当的评估。真正的挑战在于生产环境中可能出现的“静默漂移”——即使通过所有测试，系统质量仍可能在无报错的情况下悄然下降。解决方案并非加强部署前测试，而是建立持续评估机制。这已成为区分AI系统优劣的关键技能。

向阳乔木@vista8 · 5月7日60

对，你没看错，Opus 4.6 是比Opus 4.7强，相信不少人有体感。评测来自 @lyricwai 做的llmsnare，为了这个Benchmark测试，他说之前每天消耗接近 100 刀。这个结论跟Base44的评测一致，他们的挫败指数排行（越低用户越满意），第一名也是Opus 4.6 第一名：opus 4.6 - 1.3 第二名：sonnet 4.6 - 1.4 第三名：opus 4.7 - 1.5 第三名：gpt 5.5 - 1.5 第四名：gpt 5.4 - 1.6 第五名：Gemini 3.1 - 2.2 评测网站和文章见评论区

译根据@lyricwai的llmsnare基准测试及Base44的“挫败指数”排名，Anthropic的Opus 4.6模型以1.3的指数位居榜首，显示其用户满意度最高，甚至超越了其后续版本Opus 4.7（指数1.5）。Sonnet 4.6以1.4位列第二。该测试每日消耗近100美元，结论表明新版模型在关键用户体验指标上可能出现倒退。

向阳乔木@vista8 · 5月7日32

这项目有意思，让由 20 不同大模型开发相同的UI组件。看出来的效果有什么不同。比如GPT-5.5 用文字有点多，感觉还是Opus 4.7好点。网址见评论

Artificial Analysis@ArtificialAnlys · 5月7日63

Artificial Analysis is partnering with Harvey on their new Legal Agent Benchmark! Harvey’s Legal Agent Benchmark (LAB) is an agent-native take on how AI should be contributing to legal work in 2026 - made up 1200 agentic tasks across 24 practice areas. It’s highly aligned with our vision for what exceptional agentic evals should look like, and we’re excited to be partnering with Harvey on it. We're excited to work with Harvey to track and understand agent performance on LAB.

译Artificial Analysis宣布与Harvey合作，共同推出法律AI代理评估基准（LAB）。该基准以“代理原生”理念设计，旨在定义2026年AI在法律领域的工作贡献，涵盖24个实践领域、共计1200项代理任务。LAB与Artificial Analysis对卓越代理评估的愿景高度一致，双方将通过此次合作持续追踪和分析代理在基准上的性能表现，以推动AI在法律应用中的进一步发展。

Rohan Paul@rohanpaul_ai · 5月7日68

A new open-source tool is trying to make LLM bad behavior measurable. iFixAi is an open-source test kit (Github link in comment) for checking whether an AI agent behaves reliably before a company ships it to real users. You get a repeatable, fixture-driven diagnostic with 32 inspection-tests across 5 risk categories. Those tests ask practical questions: does the AI invent facts, follow unsafe instructions, change answers for no good reason, hide uncertainty, or act differently when the wording slightly changes? A fixture is just the test scene, meaning the fake users, roles, tools, permissions, documents, and rules that mimic the company’s real product. The big deal is repeatability, because iFixAi saves the exact model, prompts, rubrics, judge setup, and test inputs, so another engineer can rerun the same test and verify the same result. The point is not to prove an AI is “safe,” but to catch regressions, compare vendors fairly, and give compliance teams evidence instead of screenshots and opinions. Run the same fixtures, compare the same categories, and see whether the system’s behavior has moved.

译开源测试套件iFixAi通过模拟真实产品场景的测试夹具，为AI代理在部署前提供可重复、标准化的可靠性评估。它在五大风险类别下运行32项检查，评估模型是否捏造事实、遵循不安全指令、无故更改答案、隐藏不确定性或在措辞微调时行为不一致。其核心价值在于可重复性，能完整保存模型、提示词、评判标准和输入，确保不同工程师可复现相同结果。该工具主要目标并非证明AI绝对安全，而是用于捕捉性能退化、公平比较不同供应商模型，并为合规团队提供基于证据的客观报告。

Epoch AI@EpochAIResearch · 5月7日70

We are launching domain-specific capability scores, tracking the capabilities of models across SWE and Math benchmarks, using the same scale as the general ECI. We also support customization for users who want to create their own variants of the ECI. Link below!

译我们正在推出领域特定能力评分，使用与通用ECI相同的量表，追踪模型在软件工程和数学基准测试中的能力。我们还支持用户自定义创建ECI变体。链接如下！

Chubby♨️@kimmonismus · 5月6日49

A very worthwhile substack (written by @natalia__coelho ) article that focuses particularly on Claude Mythos and GPT-5.5 cyber. tl;dr according to the analysis, GPT-5.5 is basically tied with Claude Mythos Preview on cyber capabilities, and may even be more cost-efficient; Mythos looks slightly ahead on some general benchmarks and SWE-bench Pro, but not like a major capability leap. OpenAI has recently enabled some truly outstanding releases. Against this backdrop, the question arises as to why Claude Mythos remains so secretive.

译一篇关于Claude Mythos和GPT-5.5的分析文章指出，两者在网络安全能力上基本持平，GPT-5.5可能更具成本效益。Mythos在部分通用基准和SWE-bench Pro上略微领先，但并未形成显著的能力突破。分析认为Mythos的性能符合既往趋势，并非偏离趋势的巨大飞跃。与此同时，OpenAI近期发布了多项出色产品，这反衬出Claude Mythos为何仍保持高度保密状态。

Xiaomi MiMo@XiaomiMiMo · 5月6日59

MiMo V2.5 🥰🥰

译MiMo V2.5 🥰🥰 [引用 @Designarena]：突发：小米MiMo-V2.5在设计竞技场开放权重模型中综合排名第六！其Elo评分为1297，与@Kimi_Moonshot的Kimi K2.5（思考版）处于同一性能区间。祝贺@XiaomiMiMo团队发布成功！

Jeff Dean@JeffDean · 5月6日50

Great to see my friend @andykonwinski as one of the keynote dishes at the first @CAISconf later this month!

译Databricks和Perplexity AI联合创始人、Laude Institute创始人Andy Konwinski将于本月晚些时候在首届CAISconf上发表主题演讲。Laude Institute秉持“交付你的研究”使命，通过Moonshots、Slingshots和Open Frontier等项目资助开源AI研究。其支持的智能体基准Terminal-Bench在推出126天后即被列入Anthropic的Claude 4模型卡，并已成为衡量命令行性能的行业标准。CAISconf会议定于5月26日至29日在圣何塞举行。

Ethan Mollick@emollick · 5月6日66

All benchmarks are flawed, but GPQA has been fairly consistent & highly correlated with other measured benchmars. I think it's a good way to see how far we've come that the free model from OpenAI, GPT 5.5 Instant, is at a level that even paid models did not reach until late 2025

译所有基准测试都有缺陷，但GPQA一直相当稳定且与其他测量基准高度相关。我认为这是一个很好的方式来看我们已经走了多远，OpenAI的免费模型GPT 5.5 Instant已经达到了甚至付费模型直到2025年底才达到的水平

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月14日

13:58

Xiaomi MiMo@XiaomiMiMo

60

MiMo V2.5 Pro （Thinking）模型在Design Arena的开放权重模型总排行榜中位列第三，相比前代MiMo-V2.5跃升了8个名次。其在前端编码任务上的表现已与Claude Sonnet 4.6处于同一性能区间。团队对测试者表示感谢，并承诺将持续改进模型。

Design Arena: BREAKING: MiMo V2.5 Pro (Thinking) takes 3rd overall out of open weights models on Design Arena. MiMo V2.5 Pro (Thinking...

推理编码评测/基准

11:56

向阳乔木@vista8

64

Get笔记会员超值，支持多平台链接解读与集成

Get笔记的价值被严重低估，其会员年费仅99元，性价比极高。核心功能在于用户只需提供链接，即可解读来自小宇宙、B站、抖音、YouTube、TikTok等多个平台的内容，并能获取原始转写文本。此外，它还通过提供Skill和Cli工具，允许用户将Codex分析功能接入自己的网站，实现了服务的深度集成与扩展。

MCP/工具多模态评测/基准

11:26

向阳乔木@vista8

49

用户认为某模型表现不错，但指出当前多数第三方AI Chat客户端（如CherryStuido、Chatwise）尚不支持音视频上传解析功能。同时，豆包大模型的Doubao-Seed-2.0-lite 0428版本已完成重要升级，新增音频理解能力，成为其家族首款支持图片、视频、音频、文本四种输入的全模态理解模型，且Agent、Coding和GUI能力据称也有显著提升。

向阳乔木: 前段时间参与了 Doubao-Seed-2.0-lite 0428 内测。这个版本升级,增加了音频理解,能同时支持图片、视频、音频、文本四种输入,成为豆包大模型家族首款全模态理解模型。除了全模态理解,据说 Agent、Coding、GU...

多模态视频评测/基准语音

00:25

向阳乔木@vista8

64

Knowly解读视频与论文效果惊艳，实力获谷歌认可

测试Ethan_Yang_AI团队开发的Knowly，其解读YouTube视频和arXiv论文的效果令人惊艳。尽管存在免费额度略少、向量处理稍慢的不足，但其产品交互和解读效果均不逊色于NotebookLM。其配套的Chrome插件在用户数尚少时即被谷歌列入精选，彰显了产品实力。

多模态评测/基准

5月13日

14:50

Berryxia.AI@berryxia

60

大模型的IQ和EQ排名

AIIQ.org网站上线，通过12个基准测试在抽象、数学、编程和学术四个维度评估流行大模型，智能估算其IQ分数。EQ由EQ-Bench和Arena Elo加权计算，并对Anthropic模型施加200分惩罚。网站提供IQ与成本、EQ的对比图及3D分析，以人类智力标准衡量AI综合能力。

现象/趋势评测/基准

11:50

Berryxia.AI@berryxia

51

腾讯元宝群聊总结功能实测：手动操作欠智能，核心需求未满足

用户实测腾讯元宝的群聊总结功能，发现其与预期存在较大差距。该功能无法自动进群总结，需用户手动多选聊天记录并转发给元宝，且存在操作上限不明确的问题。生成的总结内容被批评为机械的文本拼凑，缺乏AI应有的智能分析与提炼能力。用户指出，最核心的需求是能将元宝直接拉入群聊并自动梳理每日重点，但目前这一简单需求并未得到实现。

教程/实践评测/基准

08:49

Berryxia.AI@berryxia

52

根据Text Arena最新分类排名，五大前沿AI模型展现出不同的优势领域与取舍。Claude Opus 4.7表现最为全面稳定，在几乎所有主要类别中领先。Gemini 3.1 Pro能力均衡，尤其在创意写作方面突出。Muse Spark在整体表现和编程方面强劲，但在专家任务、数学和长查询上稍弱。GPT-5.5 High是整体最平衡的模型之一，在专家任务和数学领域表现特别出色。Grok 4.20则更偏专长，主要在创意写作和困难提示方面表现突出。该榜单清晰揭示了当前顶级模型在通用性与专项能力上的不同发展路径。

Arena.ai: The top 5 labs in Text Arena rankings by category show that frontier models have distinct strengths and tradeoffs. #1 @A...

Anthropic OpenAI 推理编码

05:03

DogeDesigner@cb_doge

40

Grok Voice在真实世界语音AI基准测试中占据主导地位 🔥 τ-voice Bench 🥇 • 🏆 综合排名第一 → 67.3% • 🏆 零售业第一 → 62.3% • 🏆 航空业第一 → 66% • 🏆 电信业第一 → 73.7%

xAI 评测/基准语音

05:02

Elon Musk@elonmusk

48

Artificial Analysis 发布首个语音到语音（S2S）模型智能体性能基准测试τ-Voice，模拟包含口音、噪音和网络丢包的复杂客服场景。测试显示，当前最强S2S模型仅能端到端解决约一半的真实任务，与顶尖文本智能体存在差距。xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先，平均对话时长5.6分钟；OpenAI的GPT-Realtime系列与谷歌的Gemini紧随其后。该领域发展迅速，排名可能随模型更新而变动。

Artificial Analysis: Announcing agentic performance benchmarking for Speech to Speech models on Artificial Analysis. We use τ-Voice to measur...

xAI 评测/基准语音

04:27

Jeff Dean@JeffDean

52

斯坦福大学教授、基础模型研究中心创始主任Percy Liang确认担任CAIS 2026大会主题演讲嘉宾。他因创立全面评估语言模型的HELM框架和持续发布基础模型透明度指数而知名，该指数对各大AI实验室的信息披露施加了压力。他目前主导的Marin项目致力于打造一个完全开放的实验室，所有实验无论成败均从第一天起公开。大会将于明年5月26日至29日在圣何塞举行。

ACM Conference on AI and Agentic Systems: 🎤 Keynote announcement: @percyliang (Percy Liang), Professor of Computer Science at @Stanford, founding director of the...

开源生态行业动态评测/基准

02:09

Noam Brown@polynoamial

58

我很高兴看到一项新评测得分如此之低。当我们发布GPT-5.5时，几乎每个基准测试的得分都超过了50%。是时候淘汰像GQPA这样的评测，引入一套新的评估体系了。

Kilian Lieret: The first ProgramBench task was just solved by GPT 5.5 high/xhigh. Interestingly, high/xhigh picked two different langua...

OpenAI 大佬观点评测/基准

00:30

Artificial Analysis@ArtificialAnlys

62

语音智能体性能基准发布，顶尖模型仅能处理半数真实客服场景

Artificial Analysis推出语音智能体基准测试𝜏-Voice，用于评估客服场景中的工具调用与多轮对话能力。测试显示，当前最强语音到语音模型仅能端到端解决约一半的真实任务，与文本智能体存在明显差距。语音通道因口音、噪音、网络问题及需快速响应、保持对话一致性而更具挑战。在模拟航空、零售、电信领域的真实音频条件下，xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先，平均对话时长5.6分钟；OpenAI与Google的模型紧随其后。该基准补充了现有的大规模音频智能测试与对话自然度评估体系。

智能体 OpenAI xAI 多模态

5月12日

09:35

Noam Brown@polynoamial

61

趣闻：这些致命错误最初是用@OpenAI的GPT-5.5标记的【引用 @EpochAIResearch】：我们正在对FrontierMath的1-4级进行AI辅助审查。这已标记出约三分之一题目的致命错误，且我们认为大多数标记是有效的。完成人工审核后，我们将在修正数据集上公布更新分数。

Epoch AI: We are conducting an AI-assisted review of FrontierMath: Tiers 1-4. This has flagged fatal errors in about a third of pr...

OpenAI 论文/研究评测/基准

08:35

Epoch AI@EpochAIResearch

精选80

我们正在对FrontierMath的Tiers 1-4进行AI辅助审查。这已标记出约三分之一题目存在致命错误，且我们相信大多数标记是有效的。在完成全面人工审核后，我们将在修正的数据集上发布更新后的分数。

数据/训练评测/基准

推荐理由：FrontierMath 是衡量模型数学推理的核心基准，三分之一题目有致命错误这件事会让之前的所有满分评分变得可疑，做评估的人必须重新审视数据。

07:49

Berryxia.AI@berryxia

59

Artificial Analysis发布Coding Agent指数，实测模型与编码环境组合表现

Artificial Analysis发布Coding Agent指数，首次将AI模型与Cursor CLI等具体编码环境组合评估。测试基于SWE-Bench-Pro等三大真实编码基准。结果显示，Opus 4.7在Cursor CLI上以61分领先，开源模型GLM-5.1最佳为53分，但仍落后顶尖闭源模型。成本与效率差异显著：每任务成本最高相差30多倍，耗时相差7倍。该榜单揭示了不同组合在性能、成本与效率上的巨大差异，为开发者选择编码助手提供了实用参考。

Artificial Analysis: Announcing the Artificial Analysis Coding Agent Index! Our new coding agent benchmarks measure how combinations of agent...

智能体编码评测/基准

02:29

Ethan Mollick@emollick

61

大语言模型（LLM）的一个重要特性是，更新、更大的模型在所有方面都表现更优。AI实验室正将大量资源投入编程等经济价值高的领域，但更大的模型在谈判、对齐、诗歌创作等广泛任务上同样更具优势。例如，在PACT基准测试的数千场模拟谈判中，GPT-5.5在买卖双方多轮议价游戏中取得了最佳成绩，这印证了模型规模与综合能力提升的正相关关系。

Lech Mazur: First update to PACT, my head-to-head LLM negotiation benchmark! 20-round buyer-seller bargaining game: each round the A...

OpenAI 大佬观点推理现象/趋势

5月11日

23:57

Artificial Analysis@ArtificialAnlys

65

人工智能分析发布编码代理基准指数，揭示模型与执行框架组合表现

人工智能分析发布编码代理基准指数，评估不同模型与执行框架组合在三大编码基准中的表现。Opus 4.7在Cursor CLI中以61分领先，GPT-5.5与Opus 4.7在其它框架中得分60紧随其后。开源模型GLM-5.1在Claude Code中获得53分，表现竞争但仍显著落后顶尖闭源模型。经济性差异悬殊：每任务成本从Composer 2的0.07美元到GLM-5.1的2.26美元不等，后者因任务循环令牌使用高达480万；任务耗时差异超7倍，Opus 4.7仅需6分钟而Kimi K2.6需40分钟。缓存命中率普遍较高，影响实际运行成本。

智能体 Anthropic DeepSeek OpenAI

13:18

向阳乔木@vista8

56

当前AI代码生成最难的基准测试ProgramBench

ProgramBench是Meta、斯坦福和哈佛团队推出的高难度AI代码生成基准测试。它要求AI仅根据二进制文件及文档，在无法反编译和联网的条件下，从零重写原程序。测试项目涵盖从jq到FFmpeg、SQLite乃至PHP编译器级别。目前表现最佳的Claude Opus在“接近完成”指标上仅达3%，GPT-5和Gemini系列通过率均为零，凸显了AI在复杂软件工程任务上的巨大挑战。

Anthropic OpenAI 编码评测/基准

5月10日

01:58

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

68

滴答作响。

Peter Wildeford🇺🇸🚀: wow Mythos finally broke the METR graph

安全/对齐评测/基准

5月9日

21:57

Ethan Mollick@emollick

46

AI基准测试虽有缺陷，但进展追踪相对容易；机器人学则缺乏明确的衡量标准，演示视频如赛跑或洗衣无法有效评估进展，需要建立类似AI的独立基准测试如ARC-AGI-BOT。引用推文指出，尽管对机器人技术充满期待，但使其在经济上大规模实用的关键飞跃时间表仍不确定，可能在1年、3年、5年或10年内实现。

prinz: @Miles_Brundage I am actually extremely excited about robotics, but have not been able to figure out whether the major l...

具身智能大佬观点评测/基准

16:21

Chubby♨️@kimmonismus

50

更令人印象深刻的是，当成功率从50%提升到80%时，Claude Mythos与Gemini 3.1 Pro之间的差距会变得多么巨大。 Mythos不仅仅是"工作更持久"--最重要的是，它的工作准确率显著更高！这才是真正令人惊叹的部分。

Chubby♨️: Holy sh*t! That jump! So the next model after Mythos will work a whole 8 hour work day at 80% success rate, I assume.

Anthropic Google 大佬观点评测/基准

12:35

StepFun@StepFun_ai

69

StepFun 推出的 StepAudio 2.5 TTS 在 Artificial Analysis 语音竞技场盲测排行榜中位列全球第三，Elo 评分为 1187 分，仅次于 Inworld TTS 1.5 Max 与 Google Gemini 3.1 Flash TTS。该模型语音自然度较前代显著提升，并以 8 分优势超越 Eleven v3。其定价为每百万字符 85 美元，生成速度为每秒 37.6 字符，并提供了全局上下文提示和行内情感标签两种语音控制方式。

Artificial Analysis: StepFun's new StepAudio 2.5 TTS ranks #3 on the Artificial Analysis Speech Arena Leaderboard, only behind Inworld's Real...

模型发布评测/基准语音

12:23

OpenRouter@OpenRouter

精选65

祝贺@NousResearch！【引用 @NousResearch】：Hermes Agent 现已在全球 @OpenRouter 令牌排名中位列第一。虽然我们的旅程才刚刚开始，但我们想借此机会感谢我们的贡献者、支持者和用户，感谢他们为我们走到今天所做的一切。

Nous Research: Hermes Agent is now #1 on the Global @OpenRouter token rankings. While our journey together has just begun, we'd like to...

智能体行业动态评测/基准

推荐理由：Hermes Agent在OpenRouter登顶，不是一次普通的排名更新，它代表Agent模型的调用量正式超过了通用聊天，做Agent的该兴奋了。

09:52

Ethan Mollick@emollick

72

嗯。【引用 @METR_Evals】：我们于2026年3月的有限窗口内评估了Claude Mythos Preview的早期版本进行风险评估。在我们的任务套件上，我们估计其50%时间范围至少为16小时（95%置信区间8.5小时至55小时），这处于我们无需新任务即可测量的上限。

METR: We evaluated an early version of Claude Mythos Preview for risk assessment during a limited window in March 2026. We est...

Anthropic 安全/对齐评测/基准

08:50

Artificial Analysis@ArtificialAnlys

62

StepFun StepAudio 2.5 TTS 在语音竞技场排名第三，质量提升但定价偏高

StepFun 推出的 StepAudio 2.5 TTS 模型在 Artificial Analysis 语音竞技场排行榜中位列第三，仅次于 Inworld Realtime TTS 1.5 Max 和 Google Gemini 3.1 Flash TTS。该模型语音自然度显著提升，以 1187 的 Elo 评分超越 Eleven v3。其定价为每百万字符 85 美元，高于领先模型；生成速度为每秒 37.6 字符，介于竞品之间。模型提供全局上下文提示和行内情感标签两种控制语音表现的方式。

多模态评测/基准语音

02:18

Chubby♨️@kimmonismus

55

OpenAI数周内快速逼近Claude Mythos，2026成回归之年

OpenAI的GPT-5.5 Cyber在网络安全能力上迅速缩小与Claude Mythos的差距，耗时仅数周而非数年。在AISI的专家网络任务中，两者表现接近，GPT-5.5 Cyber通过率甚至略高，且每token成本显著更低。但Mythos在公开实践案例上仍占优势，如协助Mozilla进行大规模Firefox漏洞排查。2026年正成为OpenAI的强势回归之年，其模型性能更强、成本效益更高，且一系列决策时机精准，展现出强劲复苏态势。

Anthropic OpenAI 大佬观点安全/对齐

5月8日

17:05

Baidu Inc.@Baidu_Inc

26

DuMate的智能体能力刚经历测试，结果出炉：在@pinchbench和DeepResearch Bench上均位列第一。详细分析如下👇

智能体评测/基准

08:21

Berryxia.AI@berryxia

59

重构代码成AI终极考验，Scale AI发布SWE Atlas最终榜单

Scale AI发布SWE Atlas最终榜单“Refactoring”，专门测试AI agent大规模重构代码而不破坏系统的能力。任务难度顶尖，代码改动量远超以往基准。Claude Opus 4.7配合Claude Code夺得第一。结果显示，即使前沿模型也常在重构时留下死代码、残留垃圾或漏掉调用点。国产模型中GLM-5排名最高（第8位），其次是Kimi和Minmax。榜单揭示核心挑战：写新功能容易，但干净优雅地重构老代码难十倍，真正顶级的agent需具备强大的“修代码”能力。

Scale Labs: Today we're releasing Refactoring, the final leaderboard of our SWE Atlas suite. This new leaderboard is the ultimate te...

Anthropic 编码评测/基准

06:05

Orange AI@oran_ge

49

GPT Image 2.0能力深不可测，Labnana社区提供免费体验

GPT Image 2.0模型发布后持续展现惊人能力，无需参考图即可根据名称或IP生成高质量内容，尤其在二次元画风上表现卓越，被社区认为远超Banana 2等模型。Labnana社区现已将GPT Image 2.0的免费体验作为长期福利，用户通过签到和邀请获取积分即可基本满足使用需求。

OpenAI 图像生成评测/基准

00:41

TestingCatalog News 🗞@testingcatalog

49

Scale AI发布了SWE Atlas重构排行榜，这是一个评估智能体重构代码能力的新基准。 > 它要求智能体生成的代码行数是SWE Bench Pro的两倍。 > Claude Code with Opus 4.7位居榜首，其次是Codex with GPT-5.5、GPT-5.4和GPT-5.3。 > 重构对大型语言模型而言是相当重要的任务，因为这通常归结为相当枯燥的工程工作。

Anthropic 编码评测/基准

5月7日

23:36

elvis@omarsar0

64

当前AI智能体（Agent）构建门槛降低，其质量差异的核心在于能否进行恰当的评估。真正的挑战在于生产环境中可能出现的"静默漂移"--即使通过所有测试，系统质量仍可能在无报错的情况下悄然下降。解决方案并非加强部署前测试，而是建立持续评估机制。这已成为区分AI系统优劣的关键技能。

n8n.io: Your AI workflow passed every test. Two weeks later, quality drops. No errors. Just silent drift. The fix isn't more pre...

智能体大佬观点评测/基准

21:43

向阳乔木@vista8

60

评测显示Opus 4.6用户体验优于后续版本4.7

根据@lyricwai的llmsnare基准测试及Base44的“挫败指数”排名，Anthropic的Opus 4.6模型以1.3的指数位居榜首，显示其用户满意度最高，甚至超越了其后续版本Opus 4.7（指数1.5）。Sonnet 4.6以1.4位列第二。该测试每日消耗近100美元，结论表明新版模型在关键用户体验指标上可能出现倒退。

Anthropic 推理评测/基准

09:42

向阳乔木@vista8

32

这项目有意思，让由 20 不同大模型开发相同的UI组件。看出来的效果有什么不同。比如GPT-5.5 用文字有点多，感觉还是Opus 4.7好点。网址见评论

开源生态评测/基准

06:03

Artificial Analysis@ArtificialAnlys

63

Artificial Analysis宣布与Harvey合作，共同推出法律AI代理评估基准（LAB）。该基准以"代理原生"理念设计，旨在定义2026年AI在法律领域的工作贡献，涵盖24个实践领域、共计1200项代理任务。LAB与Artificial Analysis对卓越代理评估的愿景高度一致，双方将通过此次合作持续追踪和分析代理在基准上的性能表现，以推动AI在法律应用中的进一步发展。

Gabe Pereyra: http://x.com/i/article/2051782974098886656

智能体评测/基准

02:04

Rohan Paul@rohanpaul_ai

68

开源工具iFixAi旨在量化评估AI代理的可靠性

开源测试套件iFixAi通过模拟真实产品场景的测试夹具，为AI代理在部署前提供可重复、标准化的可靠性评估。它在五大风险类别下运行32项检查，评估模型是否捏造事实、遵循不安全指令、无故更改答案、隐藏不确定性或在措辞微调时行为不一致。其核心价值在于可重复性，能完整保存模型、提示词、评判标准和输入，确保不同工程师可复现相同结果。该工具主要目标并非证明AI绝对安全，而是用于捕捉性能退化、公平比较不同供应商模型，并为合规团队提供基于证据的客观报告。

CyrilXBT: http://x.com/i/article/2052027135619919876

安全/对齐开源/仓库评测/基准

01:06

Epoch AI@EpochAIResearch

70

我们正在推出领域特定能力评分，使用与通用ECI相同的量表，追踪模型在软件工程和数学基准测试中的能力。我们还支持用户自定义创建ECI变体。链接如下！

推理编码评测/基准

5月6日

23:00

Chubby♨️@kimmonismus

49

Claude Mythos与GPT-5.5能力相近，未现性能飞跃

一篇关于Claude Mythos和GPT-5.5的分析文章指出，两者在网络安全能力上基本持平，GPT-5.5可能更具成本效益。Mythos在部分通用基准和SWE-bench Pro上略微领先，但并未形成显著的能力突破。分析认为Mythos的性能符合既往趋势，并非偏离趋势的巨大飞跃。与此同时，OpenAI近期发布了多项出色产品，这反衬出Claude Mythos为何仍保持高度保密状态。

Matthew Barnett: New post from @natalia__coelho on Mythos. She analyzes its capabilities using publicly reported benchmark results to det...

Anthropic OpenAI 推理编码

18:07

Xiaomi MiMo@XiaomiMiMo

59

MiMo V2.5 🥰🥰 【引用 @Designarena】：突发：小米MiMo-V2.5在设计竞技场开放权重模型中综合排名第六！其Elo评分为1297，与@Kimi_Moonshot的Kimi K2.5（思考版）处于同一性能区间。祝贺@XiaomiMiMo团队发布成功！

Design Arena: BREAKING: MiMo-V2.5 by @Xiaomi is #6 overall out of open weight models on Design Arena! This has an Elo of 1297 and is i...

开源/仓库模型发布评测/基准

10:26

Jeff Dean@JeffDean

50

Databricks和Perplexity AI联合创始人、Laude Institute创始人Andy Konwinski将于本月晚些时候在首届CAISconf上发表主题演讲。Laude Institute秉持"交付你的研究"使命，通过Moonshots、Slingshots和Open Frontier等项目资助开源AI研究。其支持的智能体基准Terminal-Bench在推出126天后即被列入Anthropic的Claude 4模型卡，并已成为衡量命令行性能的行业标准。CAISconf会议定于5月26日至29日在圣何塞举行。

ACM Conference on AI and Agentic Systems: 📢Keynote announcement: @andykonwinski (Andy Konwinski), co-founder of Databricks and Perplexity AI, founder of @LaudeIn...

开源生态行业动态评测/基准

07:33

Ethan Mollick@emollick

66

所有基准测试都有缺陷，但GPQA一直相当稳定且与其他测量基准高度相关。我认为这是一个很好的方式来看我们已经走了多远，OpenAI的免费模型GPT 5.5 Instant已经达到了甚至付费模型直到2025年底才达到的水平

OpenAI 大佬观点评测/基准

1…7 8910 11 12