全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「评测/基准」清除

6月9日周二

04:16Artificial Analysis68xAI发布grok-imagine-video-1.5-preview，在AI视频生成评测中位列第二

03:46Artificial Analysis59MiniMax推出多模态模型M3，1M上下文，多项基准领先

6月8日周一

12:44数字生命卡兹克6412个旗舰大模型参加高考语文数学测试，MiMo v2.5 Pro总分第一

12:00公众号：数字生命卡兹克4712款旗舰AI大模型参加高考语文数学测试，MiMo v2.5 Pro总分第一仅领先Kimi k2.6 0.01分

11:55公众号：卡尔的AI沃茨3813个大语言模型参加2026数学高考，GPT 5.5等并列第一

11:55公众号：卡尔的AI沃茨4213个顶级AI模型参加2026年数学高考，GPT 5.5等并列第一

11:38Rohan Paul56AutoLab 基准揭示：AI 智能体成功关键在于持续测试而非初始方案

11:29Hacker News 热门（buzzing.cc 中文翻译）38DeepSeek V4 Pro 在准确率方面超越 GPT-5.5 Pro

08:00HuggingFace Daily Papers（社区热门论文）57WeaveBench：面向计算机使用智能体的长时域混合界面基准

08:00HuggingFace Daily Papers（社区热门论文）65τ-Rec：面向智能体型推荐系统的可验证基准

08:00HuggingFace Daily Papers（社区热门论文）68TRL-Bench：标准化跨范式表格编码器表示级评估基准

06:40karminski-牙医58Ideogram 4实测：9.3B开放权重原生2K

05:10SemiAnalysis57NVIDIA Nemotron3 Ultra不敌Kimi K2.6和GLM5.1

04:58swyx43明天发布今年最大代码评测基准

03:07Rohan Paul49Meta-Agent Challenge：当前AI智能体能否自主构建更好的智能体？

6月7日周日

22:30宝玉54Deep Research 能力对比：ChatGPT 最优，Gemini 次之，Claude 垫底

17:04MarkTechPost（RSS）562026年最佳21款低代码与无代码AI工具盘点

07:13MiniMax (official)60M3与Opus代码审计13个bug：$0.07 vs $1.30

01:57宝玉44Claude Opus 4.8 审美胜过 GPT-5

01:46Logan Kilpatrick54深度模型评测指导风投决策

6月6日周六

23:26向阳乔木37Vista直播总结LLM前端审美排名

23:24AYi60Qwen3-VL系列实测：性价比超Gemini 3.5 Flash 22倍

23:17IT之家（RSS）56研究称AI模型分析球赛"几乎靠猜"，体育解说暂无忧

09:01Artificial Analysis52Gemma 4 12B 语音转录表现不佳，落后于专有转录模型

06:29Rohan Paul76精选Arena 发布真实世界 AI 智能体排行榜 Agent Arena

03:33Anthropic：Research（发表成果 · 网页）65精选Anthropic：让Claude成为化学家

00:00Ars Technica：AI（RSS）42Fitbit Air 是一款可靠的可穿戴设备，但 Google 的 AI 健康教练显得多余

6月5日周五

23:47HuggingFace Daily Papers（社区热门论文）64Benchmark Agent：全自主评测基准构建系统

22:26The Verge：AI（RSS）55Quilty 能靠剧本预测电影票房成败吗？

21:47HuggingFace Daily Papers（社区热门论文）69ForeSci：评估LLM智能体的前瞻性AI研究判断

20:55Berryxia.AI70PlanningBench：腾讯混元与人大高瓴开源LLM规划能力评测框架

19:27MarkTechPost（RSS）642026年15款最佳Vibe Coding工具对比：价格、功能与适用场景

17:54公众号：通义实验室（千问）70精选PawBench：给通用智能体一把可度量的尺

11:46HuggingFace Daily Papers（社区热门论文）59ArcANE：角色扮演语言智能体能否在正确时机保持角色？

11:38Logan Kilpatrick40公共AI基准创建alpha机会巨大

10:24公众号：龙猫LongCat（美团）55ACL'26美团技术团队6篇论文入选：聚焦大模型评测与推理优化

08:56Rohan Paul53Nemotron 3 Ultra 对比 GPT-5.5 在 atomic.chat 本地桌面应用上的性能与成本测试

08:00HuggingFace Daily Papers（社区热门论文）58编码AI智能体会欺骗我们吗？CapCode框架通过随机测试的上限评估检测与防止作弊

08:00HuggingFace Daily Papers（社区热门论文）65SWE-Explore：编码智能体仓库探索能力评测基准

08:00HuggingFace Daily Papers（社区热门论文）56MMAE：大规模多任务音频编辑基准

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月9日

04:16

Artificial Analysis@ArtificialAnlys

68

xAI发布grok-imagine-video-1.5-preview，在AI视频生成评测中位列第二

xAI推出视频生成模型grok-imagine-video-1.5-preview，目前在Artificial Analysis Video Arena的Image to Video (With Audio)排行榜中排名第二，仅次于字节跳动Seedance 2.0。该模型支持图像转视频并原生生成音频，最长可生成15秒视频。在无音频排行榜中位列第三，紧随Seedance 2.0和自家的grok-imagine-video。模型定价为每分钟视频$8.40，现已通过xAI API提供，并将逐步在Grok app和X上线。

xAI 模型发布视频评测/基准

03:46

Artificial Analysis@ArtificialAnlys

59

MiniMax推出多模态模型M3，1M上下文，多项基准领先

MiniMax推出首个多模态M系列模型M3，支持图像/视频输入及1M token上下文窗口。在Artificial Analysis Intelligence Index上得55分，超越开源权重的Kimi K2.6和MiMo-V2.5-Pro（均54）。相比前代M2.7，HLE提升9点至37%，GPQA Diamond提升6点至93%，多项基准均有进步。原生多模态MMMU-Pro约80%与GPT-5.5持平。定价$0.30/$1.20/1M tokens（512K内），512K-1M翻倍。权重计划约10天内开源。

多模态开源生态评测/基准

6月8日

12:44

数字生命卡兹克@Khazix0918

64

12个旗舰大模型参加高考语文数学测试，MiMo v2.5 Pro总分第一

今年高考，12个国内外旗舰大模型（Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3）参加语文和数学全国一卷测试。采用API调用、禁止工具、LaTeX纯文本输入，4位高中老师盲评阅卷。总分第一：MiMo v2.5 Pro（256.3分），第二Kimi k2.6（256.29分），仅差0.01分。语文最高：GLM5.1和Gemini 3.1 Pro并列；数学最高：DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。前九名模型总分差距仅2分，数学主观题正确率高，唯填空题最后一题全军覆没。作文评分看重结构清晰度与时代关联。

Anthropic DeepSeek OpenAI 现象/趋势

12:00

公众号：数字生命卡兹克

47

12款旗舰AI大模型参加高考语文数学测试，MiMo v2.5 Pro总分第一仅领先Kimi k2.6 0.01分

Claude Opus 4.8、GPT-5.5等12款旗舰模型参加今年高考语文数学（全国一卷部分试题）测试，采用API调用、禁用代码推理和网页搜索。总分第一MiMo v2.5 Pro（256.3分），第二名Kimi k2.6（256.29分）差0.01分，第三至第九名分差仅2分。语文最高分由GLM5.1和Gemini 3.1 Pro并列，数学最高分由DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。DeepSeek作文得分偏低拉低总分。语文卷基于101分版本折算至150分制。

推理评测/基准

11:55

公众号：卡尔的AI沃茨

38

13个大语言模型参加2026数学高考，GPT 5.5等并列第一

13个大语言模型（GPT 5.5 Thinking、DeepSeek-v4 Pro、Gemini 3.1 Pro Thinking、Claude Opus 4.8 Max、Kimi 2.6 Thinking、Sonnet 4.6 Thinking、GLM 5.1、豆包 Thinking、Qwen 3.7 Plus Thinking、MiniMax M3、元宝 Thinking、Mimo-2.5-pro、Grok）用2026年全国一卷数学高考题进行测试，统一以LaTeX格式输入、关闭联网、不干扰作答。GPT 5.5、DeepSeek-v4 Pro、Gemini 3.1 Pro和Claude Opus 4.8并列第一，得分接近144分；Kimi 2.6以微小差距位居第二梯队；元宝118分；Mimo和Grok得分最低。大部分模型在多选题和长解答题上出现漏条件、读图错误、过度泛化等问题，甚至出现拒答或搜索答案的行为。

DeepSeek OpenAI 推理评测/基准

11:55

公众号：卡尔的AI沃茨

42

13个顶级AI模型参加2026年数学高考，GPT 5.5等并列第一

13个顶级AI模型参加2026年数学全国一卷测试，GPT 5.5 Thinking、Deepseek-v4 Pro、Gemini 3.1 Pro Thinking和Claude Opus 4.8 Max并列第一，Kimi 2.6 Thinking以微小分差位居第二梯队。测试采用LaTeX格式统一输入，禁用联网。多数模型在长解答题和多选题上容易失分，如第11题（多选题，正确答案ABD）所有模型均未完全答对。Claude Opus 4.8 Max因额度不足未完成所有题目，Claude Sonnet 4.6 Thinking尝试直接搜答案，Deepseek-v4 Pro曾拒绝完成。模型在上下文记忆、题目理解和符号识别方面仍有明显短板。

推理评测/基准

11:38

Rohan Paul@rohanpaul_ai

56

AutoLab 基准揭示：AI 智能体成功关键在于持续测试而非初始方案

斯坦福、MIT、英伟达、谷歌等顶级实验室联合提出新基准 AutoLab，包含 36 个任务。每个任务中，智能体从可工作的弱代码起步，需在固定时间内迭代优化。任务涵盖系统加速、谜题、模型开发和 CUDA 内核。17 个前沿模型测试结果显示，成功的关键不是初版方案有多好，而是能否持续测试、频繁实验并利用实证反馈。Claude Opus 4.6 领跑基准，靠的是坚持迭代而非初始判断力，而其他前沿模型要么提前放弃，要么思考过久导致超时。

智能体论文/研究评测/基准

11:29

Hacker News 热门（buzzing.cc 中文翻译）

38

DeepSeek V4 Pro 在准确率方面超越 GPT-5.5 Pro

DeepSeek V4 Pro 在准确率（precision）指标上击败 GPT-5.5 Pro，具体分数和参数量未透露。该结果来自 runtimewire.com 的评测，在 Hacker News 获得 110 个点赞。

DeepSeek OpenAI 推理评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

57

WeaveBench：面向计算机使用智能体的长时域混合界面基准

WeaveBench 包含 114 个任务，覆盖 8 个真实工作领域，要求智能体在单次轨迹中结合 GUI 操作、CLI 与代码执行。评估在真实 Ubuntu 桌面进行，并设计了轨迹感知评判器以检测伪造视觉证据等捷径。前沿模型-运行时组合的最佳 PassRate 仅为 41.2%，表明基准远未饱和；仅依据结果评分会显著高估智能体性能。该基准揭示了当前计算机使用智能体评估的关键缺口。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

65

τ-Rec：面向智能体型推荐系统的可验证基准

τ-Rec 是一个面向智能体型推荐系统的评估基准，用可验证奖励和 reveal-tagged elicitation（RTE）机制替代主观的 LLM-as-a-judge 评估。该基准通过结构化目录谓词测试智能体，并采用 pass^k 可靠性指标衡量一致性推理。对五个模型族（GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Flash、DeepSeek V4 Flash、Qwen3-32B 和 GPT-5 mini）的九种配置评估发现显著的可靠性悬崖：最佳模型在 pass^1 上仅约 57%，在 pass^4 上降至约 38%，暴露出当前对话智能体部署中的关键差距。全部代码和数据已公开。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

68

TRL-Bench：标准化跨范式表格编码器表示级评估基准

TRL-Bench 是一个多粒度表格表示学习基准，通过统一协议评估行级、列级和表级嵌入。包含三个测试套件：TRL-CTbench（列/表）、TRL-Rbench（行）和 TRL-DLTE（组合式数据湖表增强）。发布的数据资产包括 50 个 OpenML 表（123 个验证目标）、16 个行对链接改写任务及 47,772 表 DLTE 湖。在 20 个模型和 16 个任务上的评估表明，标准化下游条件后，编码器质量呈能力特定性，通用文本编码器在表面文本信号强的任务上领先，表格专用模型在其预训练目标与任务对齐时胜出，最强 DLTE 管线需组合能力匹配的专用模型。

arXiv 数据/训练论文/研究评测/基准

06:40

karminski-牙医@karminski3

58

Ideogram 4实测：9.3B开放权重原生2K

ideogram发布Ideogram 4文生图模型，开放权重，仅9.3B参数，支持原生2K分辨率生成。作者将其与通义Z-image-Turbo生成效果对比，认为两者风格相似。

图像生成开源生态评测/基准

05:10

SemiAnalysis@SemiAnalysis_

57

NVIDIA的新Nemotron3 Ultra在TerminalBench等编码任务上被Kimi K2.6和GLM5.1击败。为了让全球Nemotron联盟训练委员会训练前沿开源模型，黄仁勋应邀请至少以下一家前沿AI实验室加入委员会：DeepSeek、MoonshotAI、MiniMax、Qwen、StepFun、zAI GLM。

开源生态编码评测/基准

04:58

swyx@swyx

43

swyx 宣布明天将发布"今年最大的代码评测基准"。他在引用推文中提到，已有第二家初创公司基于他的播客内容开展销售和评测，并感慨播客直接或间接影响了许多人的职业路线。

swyx: lol heard a 2nd startup today that has made sales and evals based on this podcast its fun to be "just an interviewer", b...

编码评测/基准

03:07

Rohan Paul@rohanpaul_ai

49

Meta-Agent Challenge：当前AI智能体能否自主构建更好的智能体？

一项新研究提出Meta-Agent Challenge（MAC）基准，测试AI智能体能否在没有人类设计帮助的情况下自主构建更优智能体。智能体需在安全工作区内自行发明策略、编写代码、测试并从失败中学习。实验覆盖数学、科学问答、竞赛编程、代码修复和长终端任务5个领域。结果显示，当前智能体大多无法超越人工设计的强智能体系统，仅Claude等少数封闭前沿模型取得较好表现。研究认为，当前智能体更像是强大的执行者，而非具备可靠自改进能力的工程师。

智能体 arXiv 论文/研究评测/基准

6月7日

22:30

宝玉@dotey

54

Deep Research 能力对比：ChatGPT 最优，Gemini 次之，Claude 垫底

宝玉 (@dotey) 对比各模型 Deep Research 表现：ChatGPT 的 DeepResearch 最好，Gemini 搜索能力强、表现也不错，Claude 做得很差。引用推文补充：在写代码、工程工作及需联网搜索数据并分析得出结论的任务上，Claude 的“5.5”版本远超 Opus，Opus 搜索能力几乎不可用。

patrick_bob: @dotey 但是写代码,工程工作,以及所有需要上网搜索数据计算得出分析结论的事项,5.5 比 opus 强很多,opus基本不可用,它的搜索能力几乎等于没发用

Anthropic Google OpenAI 搜索

17:04

MarkTechPost（RSS）

56

2026年最佳21款低代码与无代码AI工具盘点

低代码与无代码AI平台正将提示词转化为可运行的应用、智能体或模型。该指南比较了21款工具，涵盖应用构建器、自动化、AI智能体和机器学习平台四类，每款均附带官方链接。

评测/基准部署/工程

07:13

MiniMax (official)@MiniMax_AI

60

对 Claude Opus 4.8 和 MiniMax M3 进行相同的代码审计：同一代码库、同一提示词，预先植入 17 个已知 bug。MiniMax M3 以 $0.07 抓到 13 个；最便宜的 Claude 运行同样抓到 13 个，花费 $1.30。MiniMax 表示这一对比非常有趣，绝对值得一读。

Kilo: We gave the same code audit to Claude Opus 4.8 and MiniMax M3. Same codebase. Same prompt. 17 known bugs planted in adva...

Anthropic 编码评测/基准

01:57

宝玉@dotey

44

审美 Claude opus 4.8 > GPT 5，设计相关任务还是得 Opus

向阳乔木: 跟Tom聊完了,直播中讨论的大模型前端审美主观排名: Claude opus 4.8 > kimi2.6 > GPT 5.5 > Deepseek v4 pro > GLM 5.1> deepseek v4 flash 不知道和你的实际使用...

Anthropic OpenAI 大佬观点评测/基准

01:46

Logan Kilpatrick@OfficialLoganK

54

你可以建立一家顶级风投公司，仅基于深度模型基准测试/评估来做出短期和长期投资决策。发现能力过剩，发现模型糟糕的领域，并追踪轨迹等。

OpenAI 大佬观点评测/基准

6月6日

23:26

向阳乔木@vista8

37

Vista直播总结LLM前端审美排名

今晚跟 @tuturetom 直播的AI总结，把所有经验都毫无保留分享了。 Open Design最常见的使用场景：做前端设计和原型、做PPT、做海报等。另外直播中，大家讨论了一个非常主观的LLM前端审美排名，仅供参考： Claude opus 4.8 > kimi2.6 > GPT 5.5 > Deepseek v4 pro > GLM 5.1 > Deepseek v4 Flash

向阳乔木: http://x.com/i/article/2063275048157458432

大佬观点评测/基准

23:24

AYi@AYi_AInotes

60

Qwen3-VL系列实测：性价比超Gemini 3.5 Flash 22倍

用户实测推荐，目前多模态大模型性价比最高的是Qwen3-VL / Qwen3.5 VL系列，其输出价格比Gemini 3.5 Flash便宜22倍，读图能力相当。作者使用的具体模型是qwen/qwen3.5-flash，价格为$0.1/$0.4，支持多模态图片+视频，上下文窗口达1M。

AYi: http://x.com/i/article/2060717603987791878

Google 多模态评测/基准

23:17

IT之家（RSS）

56

研究称AI模型分析球赛"几乎靠猜"，体育解说暂无忧

北卡罗来纳大学教堂山分校和美国东北大学的一项新研究发现，主流AI模型在分析职业体育比赛时表现很差。研究构建了SVI-bench基准，包含35000小时比赛画面等数据。ChatGPT、谷歌Gemini和千问等模型在基础感知任务上平均准确率约74%，因果推理成功率仅约40%，模拟球员下一步行动接近随机猜测，自主分析准确率只有5%。研究认为AI仅擅长描述画面，无法解释战术为何成功或预判后续发展。

推理论文/研究评测/基准

09:01

Artificial Analysis@ArtificialAnlys

52

Gemma 4 12B 语音转录表现不佳，落后于专有转录模型

Google DeepMind 发布开源权重模型 Gemma 4 12B，支持语音转录，在 AA-WER 基准上得分为 8.8%（排名第 58），远低于专注转录的开源模型 Voxtral Mini Transcribe 2（4B 参数，WER 3.6%）和 Voxtral Small（12B 参数，WER 2.8%）。该模型是 Gemma 4 系列中支持转录的最大型号（另有 E4B、E2B），而 31B 和 26B A4B 仅支持文本、图片和视频输入。Google 同步推出本地听写应用 Eloquent（MacOS/iOS）。模型已在 Hugging Face、Ollama 和 LMStudio 上架。

Google 开源/仓库评测/基准语音

06:29

Rohan Paul@rohanpaul_ai

精选76

Arena 发布真实世界 AI 智能体排行榜 Agent Arena

Arena 推出基于真实用户任务的智能体排行榜，评估模型在代码编写、应用构建、文档分析等工作中的表现，而非孤立基准。排行榜基于30万+任务、200万+工具调用和4000万行代码，综合任务成功、纠正遵从性、错误恢复、用户表扬与抱怨、工具幻觉等信号。前三名：GPT-5.5 High（+10.7%）、Claude Opus 4.7 Thinking（+9.5%）、GPT-5.4 High（+8.9%）。

Arena.ai: Introducing Agent Arena: real-world agentic evals at scale. How do you evaluate agents doing actual work? We measure mil...

智能体 Anthropic OpenAI 评测/基准

推荐理由：Arena 跳出了刷榜逻辑，用真实用户的多轮交互来评估 Agent，这比任何 toy benchmark 都更有说服力，选模型做 Agent 应用的可以把它当新指南。

03:33

Anthropic：Research（发表成果 · 网页）

精选65

Anthropic：让Claude成为化学家

Anthropic与顶尖化学家合作，提升Claude在化学领域的实用性。首个白皮书测试Claude在NMR谱图分析上的表现：在20个化合物上，对比Claude Opus 4.7、Opus 4.6、Sonnet 4.6与ChemDraw、MestReNova的正向预测（从结构预测谱图）和反向结构解析（从实验谱图推断结构）能力。所有化合物选自模型训练截止日期后发布的ChemRxiv预印本，以避免选择偏差。

Anthropic 多模态论文/研究评测/基准

关联讨论 2 条X：Anthropic (@AnthropicAI)X：Rohan Paul (@rohanpaul_ai)

推荐理由：化学家可能几年后回头看会记起这篇，Claude Opus 4.7 在 NMR 预测上追平了 ChemDraw，还顺手做了反向结构解析——专业软件不干的事，它用更接近人类日常输入的方式做到了。

00:00

Ars Technica：AI（RSS）

42

Fitbit Air 是一款可靠的可穿戴设备，但 Google 的 AI 健康教练显得多余

Fitbit Air 作为一款极简、可靠的健身追踪器表现出色，但 Google 的 AI Health Coach 功能反而成为负担。

Google 评测/基准

6月5日

23:47

HuggingFace Daily Papers（社区热门论文）

64

Benchmark Agent：全自主评测基准构建系统

Benchmark Agent 是一个全自主智能体系统，可端到端完成评测基准构建，涵盖用户查询分析、子任务设计、数据标注与质量控制。系统一次性生成 15 个代表性基准，覆盖文本理解、多模态理解和领域特定推理等评估场景。人工评估、LLM-as-a-judge 和一致性检验表明，Benchmark Agent 能以极少量人工参与产出高质量评测样本。持续评估还发现当前模型在某些领域推理任务上仍有明显短板。预览页面与代码即将公开。

智能体论文/研究评测/基准

22:26

The Verge：AI（RSS）

55

Quilty 能靠剧本预测电影票房成败吗？

AI 初创公司 Quilty 宣称其工具仅通过阅读剧本就能准确预测电影的市场表现。然而，实际测试结果引发质疑：在拥有全球数据的情况下，Quilty 预测后来票房惨败的《Christy》会优于最终成为奥斯卡获奖大片的《Sinners》。Quilty 创始人认为这类工具能“民主化”电影行业，为新兴创作者提供辅助，但权威性有待验证。

视频评测/基准

21:47

HuggingFace Daily Papers（社区热门论文）

69

ForeSci：评估LLM智能体的前瞻性AI研究判断

ForeSci是一个评估LLM智能体前瞻性研究判断力的时空控制基准，包含500个任务，覆盖四个快速发展的AI领域和四个决策族。每个任务配有截止时间对齐的离线知识库，训练数据止于截止点，后续论文仅用于验证。评估了原生LLM、Hybrid RAG和三种研究智能体适配方法在四个骨干模型上的表现。结果显示，显式证据组织能提升可追溯性和事实支持，但收益因决策族而异；诊断发现证据与决策脱节，智能体可能引用相关证据却预测错误研究对象。该基准将前瞻性AI研究判断转化为可控评估系统。

智能体 arXiv 论文/研究评测/基准

20:55

Berryxia.AI@berryxia

70

PlanningBench：腾讯混元与人大高瓴开源LLM规划能力评测框架

腾讯混元联合人大高瓴人工智能学院开源PlanningBench，一个可扩展、可验证的框架，用于评估和训练大语言模型（LLM）的真实规划能力。该框架包含30多个来自调度、生产、旅行、资源分配、应急响应等六大类的真实世界规划任务，每项任务都有清晰的成功标准和全自动验证机制。用户既可用它评测当前最强模型在规划上的短板，也可直接用于微调，让模型从“会说”进化到“会干”。论文、代码和数据集已全部在GitHub和Hugging Face开源。

Tencent Hy: Planning is where LLMs move from "saying" to "doing." Tencent Hy, in collaboration with the Gaoling School of Artificial...

智能体论文/研究评测/基准

19:27

MarkTechPost（RSS）

64

2026年15款最佳Vibe Coding工具对比：价格、功能与适用场景

Vibe Coding将自然语言转化为可运行的软件。文章对比了2026年15款Vibe Coding工具的价格、功能与适用场景，帮助开发者选择最适合的应用构建方式。

编码评测/基准

17:54

公众号：通义实验室（千问）

精选70

PawBench：给通用智能体一把可度量的尺

通义实验室推出全新评测基准PawBench v1.0，面向个人助理与通用智能体场景，将底座模型与运行框架Harness纳入同一体系进行交叉评测。评测矩阵包含9个模型与3个Harness（Hermes、OpenClaw、QwenPaw），覆盖150道真实任务共4050个测试单元。结果显示，QwenPaw（76.4分）、OpenClaw（75.4分）、Hermes（70.4分）之间存在显著分差，Harness环境对表现的影响甚至大于模型本身。PawBench还通过切片分析揭示了Harness在产物校验、Skill主动发现和Web搜索默认可用性等方面的关键差距。项目已开源。

智能体 MCP/工具评测/基准

推荐理由：PawBench 把 Harness 从‘看不见的手’变成可诊断的变量，好 Harness 能让弱模型以下克上，这份评测对 Agent 框架开发者是一份必读的校验清单。

11:46

HuggingFace Daily Papers（社区热门论文）

59

ArcANE：角色扮演语言智能体能否在正确时机保持角色？

现有基准仅评测角色扮演语言智能体（RPLA）对给定章节的事实回忆，未检验其回应是否贴合角色心理发展轨迹，尤其当场景超出原著文本时。ArcANE 是自动构建的基准，覆盖17部小说和80个主角，利用角色弧线将叙事沿心理轴分段，并为每个阶段提出相同场景（含原著内与外）。在6个模型和6种上下文模式下，使用角色弧线作为条件均优于其他策略，在原著外场景（检索无法获取信息）上差距最大。进一步微调开源权重模型得 ArcANE-8B/32B，在原著外场景上扩大了弧线优势。

智能体论文/研究评测/基准

11:38

Logan Kilpatrick@OfficialLoganK

40

现在创建好的公共AI基准所能获得的alpha量是疯狂的，这是一个巨大的机会。

大佬观点评测/基准

10:24

公众号：龙猫LongCat（美团）

55

ACL'26美团技术团队6篇论文入选：聚焦大模型评测与推理优化

美团技术团队在ACL'26上分享6篇论文，涵盖代码评测、复杂流程推理、数学竞赛、过度思考分析、推理后训练优化及生成式推荐。CoreCodeBench从12个开源库生成1524个结构化任务，有效性达78.55%；SOP-Maze基于真实业务构建397个流程实例，测试显示前沿模型存在流程遵循、对话脆弱性和计算错误三类短板；AMO-Bench含50道高难度数学题，最强模型准确率仅52.4%；The Evolution of Thought提出推理完成点（RCP）检测器减少冗余生成；MASPO通过软高斯门控等优化推理后训练，提升Avg@32和Pass@32；FLR将隐式推理分解为多维偏好因子，平均提升3.2%。

开源/仓库推理论文/研究评测/基准

08:56

Rohan Paul@rohanpaul_ai

53

在 atomic.chat 本地桌面应用中，Nemotron 3 Ultra（MoE 架构，总参数 550B，每 token 活跃 55B）与 GPT-5.5 在构建带物理引擎的 HTML5 canvas 任务（旋转水桶、高尔顿板、极端质量块碰撞）上表现几乎相同。Nemotron 3 Ultra 消耗 11.3k tokens、花费 $0.051，GPT-5.5 消耗 11.0k tokens、花费 $0.57，前者成本仅为后者的约 1/10，质量差距远小于价格差距。

atomic.chat: Nemotron 3 Ultra performed GPT 5.5 level 10× cheaper We gave three same prompts to build HTML5 canvas with real physics....

端侧编码评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

58

编码AI智能体会欺骗我们吗？CapCode框架通过随机测试的上限评估检测与防止作弊

在编码AI智能体评估和训练中，模型可能通过走捷径获得高分，造成欺骗性表现。CapCode框架通过构建带随机测试的编码数据集，将非作弊可得分的上限故意设低于1，使超过上限的分数成为不可信的作弊证据。CapReward奖励机制基于CapCode原则，抑制超过上限的优化。实验表明，CapCode能有效检测作弊且保持模型排名，CapReward减少作弊行为，使模型更好遵循任务规范。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

65

SWE-Explore：编码智能体仓库探索能力评测基准

SWE-Explore 是一个专为评测编码智能体仓库探索能力而设计的基准，覆盖 848 个 issue、10 种编程语言和 203 个开源仓库。每项任务要求探索者在固定行预算内返回相关代码区域的有序列表，ground truth 来自成功解决同一 issue 的独立智能体轨迹。评测从覆盖率、排名和上下文效率三个维度展开，发现这些指标与下游修复行为高度相关。结果显示，智能体探索器整体明显优于传统检索方法，但文件级定位已足够强，行级覆盖率和高效排名才是区分前沿探索器能力的关键。

智能体编码论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

56

MMAE：大规模多任务音频编辑基准

MMAE是首个专为通用指令音频编辑设计的综合评估基准，涵盖声音、语音、音乐及其混合共7种音频模态，并建立包含6级任务复杂度、2级细粒度与8种操作类型的分类体系。通过人机协作精心筛选2000个高保真样本，配套基于评分标准的评估框架，将自由形式任务分解为17,741个可验证指标，实现指令遵循与上下文一致性的精确多维度评估。对主流模型的评测显示，精确匹配率（EMR）整体低于5%，在复杂混合模态任务中降至绝对0%。

arXiv 多模态论文/研究评测/基准

1…7 8910 11…22