AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「评测/基准」清除
6月9日周二
04:16Artificial Analysis68xAI发布grok-imagine-video-1.5-preview,在AI视频生成评测中位列第二
03:46Artificial Analysis59MiniMax推出多模态模型M3,1M上下文,多项基准领先
6月8日周一
12:44数字生命卡兹克6412个旗舰大模型参加高考语文数学测试,MiMo v2.5 Pro总分第一
12:00公众号:数字生命卡兹克4712款旗舰AI大模型参加高考语文数学测试,MiMo v2.5 Pro总分第一仅领先Kimi k2.6 0.01分
11:55公众号:卡尔的AI沃茨3813个大语言模型参加2026数学高考,GPT 5.5等并列第一
11:55公众号:卡尔的AI沃茨4213个顶级AI模型参加2026年数学高考,GPT 5.5等并列第一
11:38Rohan Paul56AutoLab 基准揭示:AI 智能体成功关键在于持续测试而非初始方案
11:29Hacker News 热门(buzzing.cc 中文翻译)38DeepSeek V4 Pro 在准确率方面超越 GPT-5.5 Pro
08:00HuggingFace Daily Papers(社区热门论文)57WeaveBench:面向计算机使用智能体的长时域混合界面基准
08:00HuggingFace Daily Papers(社区热门论文)65τ-Rec:面向智能体型推荐系统的可验证基准
08:00HuggingFace Daily Papers(社区热门论文)68TRL-Bench:标准化跨范式表格编码器表示级评估基准
06:40karminski-牙医58Ideogram 4实测:9.3B开放权重原生2K
05:10SemiAnalysis57NVIDIA Nemotron3 Ultra不敌Kimi K2.6和GLM5.1
04:58swyx43明天发布今年最大代码评测基准
03:07Rohan Paul49Meta-Agent Challenge:当前AI智能体能否自主构建更好的智能体?
6月7日周日
22:30宝玉54Deep Research 能力对比:ChatGPT 最优,Gemini 次之,Claude 垫底
17:04MarkTechPost(RSS)562026年最佳21款低代码与无代码AI工具盘点
07:13MiniMax (official)60M3与Opus代码审计13个bug:$0.07 vs $1.30
01:57宝玉44Claude Opus 4.8 审美胜过 GPT-5
01:46Logan Kilpatrick54深度模型评测指导风投决策
6月6日周六
23:26向阳乔木37Vista直播总结LLM前端审美排名
23:24AYi60Qwen3-VL系列实测:性价比超Gemini 3.5 Flash 22倍
23:17IT之家(RSS)56研究称AI模型分析球赛"几乎靠猜",体育解说暂无忧
09:01Artificial Analysis52Gemma 4 12B 语音转录表现不佳,落后于专有转录模型
06:29Rohan Paul76精选Arena 发布真实世界 AI 智能体排行榜 Agent Arena
03:33Anthropic:Research(发表成果 · 网页)65精选Anthropic:让Claude成为化学家
00:00Ars Technica:AI(RSS)42Fitbit Air 是一款可靠的可穿戴设备,但 Google 的 AI 健康教练显得多余
6月5日周五
23:47HuggingFace Daily Papers(社区热门论文)64Benchmark Agent:全自主评测基准构建系统
22:26The Verge:AI(RSS)55Quilty 能靠剧本预测电影票房成败吗?
21:47HuggingFace Daily Papers(社区热门论文)69ForeSci: 评估LLM智能体的前瞻性AI研究判断
20:55Berryxia.AI70PlanningBench:腾讯混元与人大高瓴开源LLM规划能力评测框架
19:27MarkTechPost(RSS)642026年15款最佳Vibe Coding工具对比:价格、功能与适用场景
17:54公众号:通义实验室(千问)70精选PawBench:给通用智能体一把可度量的尺
11:46HuggingFace Daily Papers(社区热门论文)59ArcANE: 角色扮演语言智能体能否在正确时机保持角色?
11:38Logan Kilpatrick40公共AI基准创建alpha机会巨大
10:24公众号:龙猫LongCat(美团)55ACL'26美团技术团队6篇论文入选:聚焦大模型评测与推理优化
08:56Rohan Paul53Nemotron 3 Ultra 对比 GPT-5.5 在 atomic.chat 本地桌面应用上的性能与成本测试
08:00HuggingFace Daily Papers(社区热门论文)58编码AI智能体会欺骗我们吗?CapCode框架通过随机测试的上限评估检测与防止作弊
08:00HuggingFace Daily Papers(社区热门论文)65SWE-Explore:编码智能体仓库探索能力评测基准
08:00HuggingFace Daily Papers(社区热门论文)56MMAE:大规模多任务音频编辑基准
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月9日
04:16
Artificial Analysis@ArtificialAnlys
68
xAI发布grok-imagine-video-1.5-preview,在AI视频生成评测中位列第二

xAI推出视频生成模型grok-imagine-video-1.5-preview,目前在Artificial Analysis Video Arena的Image to Video (With Audio)排行榜中排名第二,仅次于字节跳动Seedance 2.0。该模型支持图像转视频并原生生成音频,最长可生成15秒视频。在无音频排行榜中位列第三,紧随Seedance 2.0和自家的grok-imagine-video。模型定价为每分钟视频$8.40,现已通过xAI API提供,并将逐步在Grok app和X上线。

xAI模型发布视频评测/基准
03:46
Artificial Analysis@ArtificialAnlys
59
MiniMax推出多模态模型M3,1M上下文,多项基准领先

MiniMax推出首个多模态M系列模型M3,支持图像/视频输入及1M token上下文窗口。在Artificial Analysis Intelligence Index上得55分,超越开源权重的Kimi K2.6和MiMo-V2.5-Pro(均54)。相比前代M2.7,HLE提升9点至37%,GPQA Diamond提升6点至93%,多项基准均有进步。原生多模态MMMU-Pro约80%与GPT-5.5持平。定价$0.30/$1.20/1M tokens(512K内),512K-1M翻倍。权重计划约10天内开源。

多模态开源生态评测/基准
6月8日
12:44
数字生命卡兹克@Khazix0918
64
12个旗舰大模型参加高考语文数学测试,MiMo v2.5 Pro总分第一

今年高考,12个国内外旗舰大模型(Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、千问3.7 max、文心Ernie 5.1、星火Spark X2、智谱GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3)参加语文和数学全国一卷测试。采用API调用、禁止工具、LaTeX纯文本输入,4位高中老师盲评阅卷。总分第一:MiMo v2.5 Pro(256.3分),第二Kimi k2.6(256.29分),仅差0.01分。语文最高:GLM5.1和Gemini 3.1 Pro并列;数学最高:DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。前九名模型总分差距仅2分,数学主观题正确率高,唯填空题最后一题全军覆没。作文评分看重结构清晰度与时代关联。

AnthropicDeepSeekOpenAI现象/趋势
12:00
公众号:数字生命卡兹克
47
12款旗舰AI大模型参加高考语文数学测试,MiMo v2.5 Pro总分第一仅领先Kimi k2.6 0.01分

Claude Opus 4.8、GPT-5.5等12款旗舰模型参加今年高考语文数学(全国一卷部分试题)测试,采用API调用、禁用代码推理和网页搜索。总分第一MiMo v2.5 Pro(256.3分),第二名Kimi k2.6(256.29分)差0.01分,第三至第九名分差仅2分。语文最高分由GLM5.1和Gemini 3.1 Pro并列,数学最高分由DeepSeek V4 Pro、MiMo、ERNIE 5.1并列。DeepSeek作文得分偏低拉低总分。语文卷基于101分版本折算至150分制。

推理评测/基准
11:55
公众号:卡尔的AI沃茨
38
13个大语言模型参加2026数学高考,GPT 5.5等并列第一

13个大语言模型(GPT 5.5 Thinking、DeepSeek-v4 Pro、Gemini 3.1 Pro Thinking、Claude Opus 4.8 Max、Kimi 2.6 Thinking、Sonnet 4.6 Thinking、GLM 5.1、豆包 Thinking、Qwen 3.7 Plus Thinking、MiniMax M3、元宝 Thinking、Mimo-2.5-pro、Grok)用2026年全国一卷数学高考题进行测试,统一以LaTeX格式输入、关闭联网、不干扰作答。GPT 5.5、DeepSeek-v4 Pro、Gemini 3.1 Pro和Claude Opus 4.8并列第一,得分接近144分;Kimi 2.6以微小差距位居第二梯队;元宝118分;Mimo和Grok得分最低。大部分模型在多选题和长解答题上出现漏条件、读图错误、过度泛化等问题,甚至出现拒答或搜索答案的行为。

DeepSeekOpenAI推理评测/基准
11:55
公众号:卡尔的AI沃茨
42
13个顶级AI模型参加2026年数学高考,GPT 5.5等并列第一

13个顶级AI模型参加2026年数学全国一卷测试,GPT 5.5 Thinking、Deepseek-v4 Pro、Gemini 3.1 Pro Thinking和Claude Opus 4.8 Max并列第一,Kimi 2.6 Thinking以微小分差位居第二梯队。测试采用LaTeX格式统一输入,禁用联网。多数模型在长解答题和多选题上容易失分,如第11题(多选题,正确答案ABD)所有模型均未完全答对。Claude Opus 4.8 Max因额度不足未完成所有题目,Claude Sonnet 4.6 Thinking尝试直接搜答案,Deepseek-v4 Pro曾拒绝完成。模型在上下文记忆、题目理解和符号识别方面仍有明显短板。

推理评测/基准
11:38
Rohan Paul@rohanpaul_ai
56
AutoLab 基准揭示:AI 智能体成功关键在于持续测试而非初始方案

斯坦福、MIT、英伟达、谷歌等顶级实验室联合提出新基准 AutoLab,包含 36 个任务。每个任务中,智能体从可工作的弱代码起步,需在固定时间内迭代优化。任务涵盖系统加速、谜题、模型开发和 CUDA 内核。17 个前沿模型测试结果显示,成功的关键不是初版方案有多好,而是能否持续测试、频繁实验并利用实证反馈。Claude Opus 4.6 领跑基准,靠的是坚持迭代而非初始判断力,而其他前沿模型要么提前放弃,要么思考过久导致超时。

智能体论文/研究评测/基准
11:29
Hacker News 热门(buzzing.cc 中文翻译)
38
DeepSeek V4 Pro 在准确率方面超越 GPT-5.5 Pro

DeepSeek V4 Pro 在准确率(precision)指标上击败 GPT-5.5 Pro,具体分数和参数量未透露。该结果来自 runtimewire.com 的评测,在 Hacker News 获得 110 个点赞。

DeepSeekOpenAI推理评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
57
WeaveBench:面向计算机使用智能体的长时域混合界面基准

WeaveBench 包含 114 个任务,覆盖 8 个真实工作领域,要求智能体在单次轨迹中结合 GUI 操作、CLI 与代码执行。评估在真实 Ubuntu 桌面进行,并设计了轨迹感知评判器以检测伪造视觉证据等捷径。前沿模型-运行时组合的最佳 PassRate 仅为 41.2%,表明基准远未饱和;仅依据结果评分会显著高估智能体性能。该基准揭示了当前计算机使用智能体评估的关键缺口。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
65
τ-Rec:面向智能体型推荐系统的可验证基准

τ-Rec 是一个面向智能体型推荐系统的评估基准,用可验证奖励和 reveal-tagged elicitation(RTE)机制替代主观的 LLM-as-a-judge 评估。该基准通过结构化目录谓词测试智能体,并采用 pass^k 可靠性指标衡量一致性推理。对五个模型族(GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Flash、DeepSeek V4 Flash、Qwen3-32B 和 GPT-5 mini)的九种配置评估发现显著的可靠性悬崖:最佳模型在 pass^1 上仅约 57%,在 pass^4 上降至约 38%,暴露出当前对话智能体部署中的关键差距。全部代码和数据已公开。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
68
TRL-Bench:标准化跨范式表格编码器表示级评估基准

TRL-Bench 是一个多粒度表格表示学习基准,通过统一协议评估行级、列级和表级嵌入。包含三个测试套件:TRL-CTbench(列/表)、TRL-Rbench(行)和 TRL-DLTE(组合式数据湖表增强)。发布的数据资产包括 50 个 OpenML 表(123 个验证目标)、16 个行对链接改写任务及 47,772 表 DLTE 湖。在 20 个模型和 16 个任务上的评估表明,标准化下游条件后,编码器质量呈能力特定性,通用文本编码器在表面文本信号强的任务上领先,表格专用模型在其预训练目标与任务对齐时胜出,最强 DLTE 管线需组合能力匹配的专用模型。

arXiv数据/训练论文/研究评测/基准
06:40
karminski-牙医@karminski3
58
Ideogram 4实测:9.3B开放权重原生2K

ideogram发布Ideogram 4文生图模型,开放权重,仅9.3B参数,支持原生2K分辨率生成。作者将其与通义Z-image-Turbo生成效果对比,认为两者风格相似。

图像生成开源生态评测/基准
05:10
SemiAnalysis@SemiAnalysis_
57
NVIDIA的新Nemotron3 Ultra在TerminalBench等编码任务上被Kimi K2.6和GLM5.1击败。为了让全球Nemotron联盟训练委员会训练前沿开源模型,黄仁勋应邀请至少以下一家前沿AI实验室加入委员会:DeepSeek、MoonshotAI、MiniMax、Qwen、StepFun、zAI GLM。
开源生态编码评测/基准
04:58
swyx@swyx
43
swyx 宣布明天将发布"今年最大的代码评测基准"。他在引用推文中提到,已有第二家初创公司基于他的播客内容开展销售和评测,并感慨播客直接或间接影响了许多人的职业路线。

swyx: lol heard a 2nd startup today that has made sales and evals based on this podcast its fun to be "just an interviewer", b...

编码评测/基准
03:07
Rohan Paul@rohanpaul_ai
49
Meta-Agent Challenge:当前AI智能体能否自主构建更好的智能体?

一项新研究提出Meta-Agent Challenge(MAC)基准,测试AI智能体能否在没有人类设计帮助的情况下自主构建更优智能体。智能体需在安全工作区内自行发明策略、编写代码、测试并从失败中学习。实验覆盖数学、科学问答、竞赛编程、代码修复和长终端任务5个领域。结果显示,当前智能体大多无法超越人工设计的强智能体系统,仅Claude等少数封闭前沿模型取得较好表现。研究认为,当前智能体更像是强大的执行者,而非具备可靠自改进能力的工程师。

智能体arXiv论文/研究评测/基准
6月7日
22:30
宝玉@dotey
54
Deep Research 能力对比:ChatGPT 最优,Gemini 次之,Claude 垫底

宝玉 (@dotey) 对比各模型 Deep Research 表现:ChatGPT 的 DeepResearch 最好,Gemini 搜索能力强、表现也不错,Claude 做得很差。引用推文补充:在写代码、工程工作及需联网搜索数据并分析得出结论的任务上,Claude 的“5.5”版本远超 Opus,Opus 搜索能力几乎不可用。

patrick_bob: @dotey 但是写代码,工程工作,以及所有需要上网搜索数据计算得出分析结论的事项,5.5 比 opus 强很多,opus基本不可用,它的搜索能力几乎等于没发用

AnthropicGoogleOpenAI搜索
17:04
MarkTechPost(RSS)
56
2026年最佳21款低代码与无代码AI工具盘点

低代码与无代码AI平台正将提示词转化为可运行的应用、智能体或模型。该指南比较了21款工具,涵盖应用构建器、自动化、AI智能体和机器学习平台四类,每款均附带官方链接。

评测/基准部署/工程
07:13
MiniMax (official)@MiniMax_AI
60
对 Claude Opus 4.8 和 MiniMax M3 进行相同的代码审计:同一代码库、同一提示词,预先植入 17 个已知 bug。MiniMax M3 以 $0.07 抓到 13 个;最便宜的 Claude 运行同样抓到 13 个,花费 $1.30。MiniMax 表示这一对比非常有趣,绝对值得一读。

Kilo: We gave the same code audit to Claude Opus 4.8 and MiniMax M3. Same codebase. Same prompt. 17 known bugs planted in adva...

Anthropic编码评测/基准
01:57
宝玉@dotey
44
审美 Claude opus 4.8 > GPT 5,设计相关任务还是得 Opus

向阳乔木: 跟Tom聊完了,直播中讨论的大模型前端审美主观排名: Claude opus 4.8 > kimi2.6 > GPT 5.5 > Deepseek v4 pro > GLM 5.1> deepseek v4 flash 不知道和你的实际使用...

AnthropicOpenAI大佬观点评测/基准
01:46
Logan Kilpatrick@OfficialLoganK
54
你可以建立一家顶级风投公司,仅基于深度模型基准测试/评估来做出短期和长期投资决策。 发现能力过剩,发现模型糟糕的领域,并追踪轨迹等。
OpenAI大佬观点评测/基准
6月6日
23:26
向阳乔木@vista8
37
Vista直播总结LLM前端审美排名

今晚跟 @tuturetom 直播的AI总结,把所有经验都毫无保留分享了。 Open Design最常见的使用场景:做前端设计和原型、做PPT、做海报等。 另外直播中,大家讨论了一个非常主观的LLM前端审美排名,仅供参考: Claude opus 4.8 > kimi2.6 > GPT 5.5 > Deepseek v4 pro > GLM 5.1 > Deepseek v4 Flash

向阳乔木: http://x.com/i/article/2063275048157458432

大佬观点评测/基准
23:24
AYi@AYi_AInotes
60
Qwen3-VL系列实测:性价比超Gemini 3.5 Flash 22倍

用户实测推荐,目前多模态大模型性价比最高的是Qwen3-VL / Qwen3.5 VL系列,其输出价格比Gemini 3.5 Flash便宜22倍,读图能力相当。作者使用的具体模型是qwen/qwen3.5-flash,价格为$0.1/$0.4,支持多模态图片+视频,上下文窗口达1M。

AYi: http://x.com/i/article/2060717603987791878

Google多模态评测/基准
23:17
IT之家(RSS)
56
研究称AI模型分析球赛"几乎靠猜",体育解说暂无忧

北卡罗来纳大学教堂山分校和美国东北大学的一项新研究发现,主流AI模型在分析职业体育比赛时表现很差。研究构建了SVI-bench基准,包含35000小时比赛画面等数据。ChatGPT、谷歌Gemini和千问等模型在基础感知任务上平均准确率约74%,因果推理成功率仅约40%,模拟球员下一步行动接近随机猜测,自主分析准确率只有5%。研究认为AI仅擅长描述画面,无法解释战术为何成功或预判后续发展。

推理论文/研究评测/基准
09:01
Artificial Analysis@ArtificialAnlys
52
Gemma 4 12B 语音转录表现不佳,落后于专有转录模型

Google DeepMind 发布开源权重模型 Gemma 4 12B,支持语音转录,在 AA-WER 基准上得分为 8.8%(排名第 58),远低于专注转录的开源模型 Voxtral Mini Transcribe 2(4B 参数,WER 3.6%)和 Voxtral Small(12B 参数,WER 2.8%)。该模型是 Gemma 4 系列中支持转录的最大型号(另有 E4B、E2B),而 31B 和 26B A4B 仅支持文本、图片和视频输入。Google 同步推出本地听写应用 Eloquent(MacOS/iOS)。模型已在 Hugging Face、Ollama 和 LMStudio 上架。

Google开源/仓库评测/基准语音
06:29
Rohan Paul@rohanpaul_ai
精选76
Arena 发布真实世界 AI 智能体排行榜 Agent Arena

Arena 推出基于真实用户任务的智能体排行榜,评估模型在代码编写、应用构建、文档分析等工作中的表现,而非孤立基准。排行榜基于30万+任务、200万+工具调用和4000万行代码,综合任务成功、纠正遵从性、错误恢复、用户表扬与抱怨、工具幻觉等信号。前三名:GPT-5.5 High(+10.7%)、Claude Opus 4.7 Thinking(+9.5%)、GPT-5.4 High(+8.9%)。

Arena.ai: Introducing Agent Arena: real-world agentic evals at scale. How do you evaluate agents doing actual work? We measure mil...

智能体AnthropicOpenAI评测/基准

推荐理由:Arena 跳出了刷榜逻辑,用真实用户的多轮交互来评估 Agent,这比任何 toy benchmark 都更有说服力,选模型做 Agent 应用的可以把它当新指南。
03:33
Anthropic:Research(发表成果 · 网页)
精选65
Anthropic:让Claude成为化学家

Anthropic与顶尖化学家合作,提升Claude在化学领域的实用性。首个白皮书测试Claude在NMR谱图分析上的表现:在20个化合物上,对比Claude Opus 4.7、Opus 4.6、Sonnet 4.6与ChemDraw、MestReNova的正向预测(从结构预测谱图)和反向结构解析(从实验谱图推断结构)能力。所有化合物选自模型训练截止日期后发布的ChemRxiv预印本,以避免选择偏差。

Anthropic多模态论文/研究评测/基准
关联讨论 2 条X:Anthropic (@AnthropicAI)X:Rohan Paul (@rohanpaul_ai)
推荐理由:化学家可能几年后回头看会记起这篇,Claude Opus 4.7 在 NMR 预测上追平了 ChemDraw,还顺手做了反向结构解析——专业软件不干的事,它用更接近人类日常输入的方式做到了。
00:00
Ars Technica:AI(RSS)
42
Fitbit Air 是一款可靠的可穿戴设备,但 Google 的 AI 健康教练显得多余

Fitbit Air 作为一款极简、可靠的健身追踪器表现出色,但 Google 的 AI Health Coach 功能反而成为负担。

Google评测/基准
6月5日
23:47
HuggingFace Daily Papers(社区热门论文)
64
Benchmark Agent:全自主评测基准构建系统

Benchmark Agent 是一个全自主智能体系统,可端到端完成评测基准构建,涵盖用户查询分析、子任务设计、数据标注与质量控制。系统一次性生成 15 个代表性基准,覆盖文本理解、多模态理解和领域特定推理等评估场景。人工评估、LLM-as-a-judge 和一致性检验表明,Benchmark Agent 能以极少量人工参与产出高质量评测样本。持续评估还发现当前模型在某些领域推理任务上仍有明显短板。预览页面与代码即将公开。

智能体论文/研究评测/基准
22:26
The Verge:AI(RSS)
55
Quilty 能靠剧本预测电影票房成败吗?

AI 初创公司 Quilty 宣称其工具仅通过阅读剧本就能准确预测电影的市场表现。然而,实际测试结果引发质疑:在拥有全球数据的情况下,Quilty 预测后来票房惨败的《Christy》会优于最终成为奥斯卡获奖大片的《Sinners》。Quilty 创始人认为这类工具能“民主化”电影行业,为新兴创作者提供辅助,但权威性有待验证。

视频评测/基准
21:47
HuggingFace Daily Papers(社区热门论文)
69
ForeSci: 评估LLM智能体的前瞻性AI研究判断

ForeSci是一个评估LLM智能体前瞻性研究判断力的时空控制基准,包含500个任务,覆盖四个快速发展的AI领域和四个决策族。每个任务配有截止时间对齐的离线知识库,训练数据止于截止点,后续论文仅用于验证。评估了原生LLM、Hybrid RAG和三种研究智能体适配方法在四个骨干模型上的表现。结果显示,显式证据组织能提升可追溯性和事实支持,但收益因决策族而异;诊断发现证据与决策脱节,智能体可能引用相关证据却预测错误研究对象。该基准将前瞻性AI研究判断转化为可控评估系统。

智能体arXiv论文/研究评测/基准
20:55
Berryxia.AI@berryxia
70
PlanningBench:腾讯混元与人大高瓴开源LLM规划能力评测框架

腾讯混元联合人大高瓴人工智能学院开源PlanningBench,一个可扩展、可验证的框架,用于评估和训练大语言模型(LLM)的真实规划能力。该框架包含30多个来自调度、生产、旅行、资源分配、应急响应等六大类的真实世界规划任务,每项任务都有清晰的成功标准和全自动验证机制。用户既可用它评测当前最强模型在规划上的短板,也可直接用于微调,让模型从“会说”进化到“会干”。论文、代码和数据集已全部在GitHub和Hugging Face开源。

Tencent Hy: Planning is where LLMs move from "saying" to "doing." Tencent Hy, in collaboration with the Gaoling School of Artificial...

智能体论文/研究评测/基准
19:27
MarkTechPost(RSS)
64
2026年15款最佳Vibe Coding工具对比:价格、功能与适用场景

Vibe Coding将自然语言转化为可运行的软件。文章对比了2026年15款Vibe Coding工具的价格、功能与适用场景,帮助开发者选择最适合的应用构建方式。

编码评测/基准
17:54
公众号:通义实验室(千问)
精选70
PawBench:给通用智能体一把可度量的尺

通义实验室推出全新评测基准PawBench v1.0,面向个人助理与通用智能体场景,将底座模型与运行框架Harness纳入同一体系进行交叉评测。评测矩阵包含9个模型与3个Harness(Hermes、OpenClaw、QwenPaw),覆盖150道真实任务共4050个测试单元。结果显示,QwenPaw(76.4分)、OpenClaw(75.4分)、Hermes(70.4分)之间存在显著分差,Harness环境对表现的影响甚至大于模型本身。PawBench还通过切片分析揭示了Harness在产物校验、Skill主动发现和Web搜索默认可用性等方面的关键差距。项目已开源。

智能体MCP/工具评测/基准

推荐理由:PawBench 把 Harness 从‘看不见的手’变成可诊断的变量,好 Harness 能让弱模型以下克上,这份评测对 Agent 框架开发者是一份必读的校验清单。
11:46
HuggingFace Daily Papers(社区热门论文)
59
ArcANE: 角色扮演语言智能体能否在正确时机保持角色?

现有基准仅评测角色扮演语言智能体(RPLA)对给定章节的事实回忆,未检验其回应是否贴合角色心理发展轨迹,尤其当场景超出原著文本时。ArcANE 是自动构建的基准,覆盖17部小说和80个主角,利用角色弧线将叙事沿心理轴分段,并为每个阶段提出相同场景(含原著内与外)。在6个模型和6种上下文模式下,使用角色弧线作为条件均优于其他策略,在原著外场景(检索无法获取信息)上差距最大。进一步微调开源权重模型得 ArcANE-8B/32B,在原著外场景上扩大了弧线优势。

智能体论文/研究评测/基准
11:38
Logan Kilpatrick@OfficialLoganK
40
现在创建好的公共AI基准所能获得的alpha量是疯狂的,这是一个巨大的机会。
大佬观点评测/基准
10:24
公众号:龙猫LongCat(美团)
55
ACL'26美团技术团队6篇论文入选:聚焦大模型评测与推理优化

美团技术团队在ACL'26上分享6篇论文,涵盖代码评测、复杂流程推理、数学竞赛、过度思考分析、推理后训练优化及生成式推荐。CoreCodeBench从12个开源库生成1524个结构化任务,有效性达78.55%;SOP-Maze基于真实业务构建397个流程实例,测试显示前沿模型存在流程遵循、对话脆弱性和计算错误三类短板;AMO-Bench含50道高难度数学题,最强模型准确率仅52.4%;The Evolution of Thought提出推理完成点(RCP)检测器减少冗余生成;MASPO通过软高斯门控等优化推理后训练,提升Avg@32和Pass@32;FLR将隐式推理分解为多维偏好因子,平均提升3.2%。

开源/仓库推理论文/研究评测/基准
08:56
Rohan Paul@rohanpaul_ai
53
在 atomic.chat 本地桌面应用中,Nemotron 3 Ultra(MoE 架构,总参数 550B,每 token 活跃 55B)与 GPT-5.5 在构建带物理引擎的 HTML5 canvas 任务(旋转水桶、高尔顿板、极端质量块碰撞)上表现几乎相同。Nemotron 3 Ultra 消耗 11.3k tokens、花费 $0.051,GPT-5.5 消耗 11.0k tokens、花费 $0.57,前者成本仅为后者的约 1/10,质量差距远小于价格差距。

atomic.chat: Nemotron 3 Ultra performed GPT 5.5 level 10× cheaper We gave three same prompts to build HTML5 canvas with real physics....

端侧编码评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
58
编码AI智能体会欺骗我们吗?CapCode框架通过随机测试的上限评估检测与防止作弊

在编码AI智能体评估和训练中,模型可能通过走捷径获得高分,造成欺骗性表现。CapCode框架通过构建带随机测试的编码数据集,将非作弊可得分的上限故意设低于1,使超过上限的分数成为不可信的作弊证据。CapReward奖励机制基于CapCode原则,抑制超过上限的优化。实验表明,CapCode能有效检测作弊且保持模型排名,CapReward减少作弊行为,使模型更好遵循任务规范。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
65
SWE-Explore:编码智能体仓库探索能力评测基准

SWE-Explore 是一个专为评测编码智能体仓库探索能力而设计的基准,覆盖 848 个 issue、10 种编程语言和 203 个开源仓库。每项任务要求探索者在固定行预算内返回相关代码区域的有序列表,ground truth 来自成功解决同一 issue 的独立智能体轨迹。评测从覆盖率、排名和上下文效率三个维度展开,发现这些指标与下游修复行为高度相关。结果显示,智能体探索器整体明显优于传统检索方法,但文件级定位已足够强,行级覆盖率和高效排名才是区分前沿探索器能力的关键。

智能体编码论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
56
MMAE:大规模多任务音频编辑基准

MMAE是首个专为通用指令音频编辑设计的综合评估基准,涵盖声音、语音、音乐及其混合共7种音频模态,并建立包含6级任务复杂度、2级细粒度与8种操作类型的分类体系。通过人机协作精心筛选2000个高保真样本,配套基于评分标准的评估框架,将自由形式任务分解为17,741个可验证指标,实现指令遵循与上下文一致性的精确多维度评估。对主流模型的评测显示,精确匹配率(EMR)整体低于5%,在复杂混合模态任务中降至绝对0%。

arXiv多模态论文/研究评测/基准
‹ 上一页
1…7891011…22
下一页 ›