5月19日

01:13

凡人小北@frxiaobei

Qwen 3.7 有惊喜但不大，国内 top/国际第一梯队早就实锤了。期待下未来能超过 Anthropic，给国人出口恶气。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

模型发布评测/基准

00:56

Berryxia.AI@berryxia

阿里Qwen3.7预览版在Arena排行榜取得显著成绩

阿里巴巴最新发布的Qwen3.7预览版在Arena社区排行榜上表现突出。在基于百万真实用户投票的Text Arena中，Qwen3.7 Max Preview总榜排名第13，使阿里巴巴位列实验室第6名，并在数学、专家咨询、软件与IT、编程等细分领域进入前十。同时，在Vision Arena中，Qwen3.7 Plus Preview总榜排名第16，助力阿里巴巴升至实验室第5名。此次排名并非实验室内部测试，而是社区实际交互的体现，标志着阿里在模型的文本与视觉综合能力上实现了重要进步。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态评测/基准

00:02

Qwen@Alibaba_Qwen

阿里巴巴通义千问Qwen3.7-Max-Preview与Qwen3.7-Plus-Preview模型现已登陆AI评测平台Arena，分别参与文本与视觉评测。这一进展大幅提升了阿里巴巴在两大领域的实验室排名：在文本榜单跃升至全球第6位，在视觉榜单升至第5位。具体而言，Qwen3.7 Max Preview在文本总榜位列第13，并在数学、编程等多个子榜单中表现突出；Qwen3.7 Plus Preview在视觉总榜排名第16。官方对取得的进步表示祝贺，并透露Qwen3.7系列模型的正式版本即将发布。

Arena.ai: Qwen3.7 Preview By @Alibaba_Qwen lands on Arena for Text and Vision. In Text Arena, Qwen3.7 Max Preview ranks #13 overal...

多模态模型发布评测/基准

00:02

Qwen@Alibaba_Qwen

🚀🚀 【引用 @arena】：在视觉竞技场中，Qwen3.7 Plus Preview使@Alibaba_Qwen成为第5大实验室，总排名第16位。

Arena.ai: In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.

多模态模型发布评测/基准

5月18日

22:52

Hugging Face：Blog（RSS）

精选64

Hugging Face 推出开放 AI 智能体排行榜（Open Agent Leaderboard）

Hugging Face 发布开放 AI 智能体排行榜，用于比较完整智能体系统而非仅底层模型，并同时报告成功率和每次任务成本。排行榜统一了六项已有基准测试（SWE-Bench Verified、BrowseComp+、AppWorld、tau2-Bench Airline & Retail、tau2-Bench Telecom），覆盖代码修复、网络研究、个人任务、客服和技术支持。通过统一协议，各智能体系统以相同接口连接所有基准。结果显示相同模型搭配不同智能体系统会产生显著不同的分数和成本。配套 Exgentic 框架用于运行和复现评估，相关论文开源。

智能体开源/仓库评测/基准

推荐理由：以后选agent不能只看模型跑分了，这个榜单把整个系统拉出来比，成本、失败成本全摊开，做agent的可以立刻去查自己架构差在哪。