MMAE是首个专为通用指令音频编辑设计的综合评估基准,涵盖声音、语音、音乐及其混合共7种音频模态,并建立包含6级任务复杂度、2级细粒度与8种操作类型的分类体系。通过人机协作精心筛选2000个高保真样本,配套基于评分标准的评估框架,将自由形式任务分解为17,741个可验证指标,实现指令遵循与上下文一致性的精确多维度评估。对主流模型的评测显示,精确匹配率(EMR)整体低于5%,在复杂混合模态任务中降至绝对0%。
MMAE是首个专为通用指令音频编辑设计的综合评估基准,涵盖声音、语音、音乐及其混合共7种音频模态,并建立包含6级任务复杂度、2级细粒度与8种操作类型的分类体系。通过人机协作精心筛选2000个高保真样本,配套基于评分标准的评估框架,将自由形式任务分解为17,741个可验证指标,实现指令遵循与上下文一致性的精确多维度评估。对主流模型的评测显示,精确匹配率(EMR)整体低于5%,在复杂混合模态任务中降至绝对0%。
爱沙尼亚政府发布的一项基准测试对数十个LLM模型进行了评估,测试它们对抗俄罗斯“战略叙事”(strategic narratives)的能力,并筛选出表现最佳的模型。
Cognition发布企业级AI代码评估(eval),支持长达100小时深度测试(METR仅约16小时),并附带财务担保:若Devin产出价值低于费用,Cognition将补贴至达标,最高1000万美元。METR数据集覆盖ML工程、GPU内核、网络安全,使用GPT-4o和GPT-5从Claude Code转录估算人类时间,rlog=0.83。Cognition数据集来自126位Devin用户的258个真实会话(Java/TS/Python/C#功能开发、bug修复、迁移),保留集rlog=0.74。
AI should earn its keep. Introducing the AI Productivity Guarantee. If Devin delivers less engineering value than you're...
NVIDIA 今日发布 Nemotron 3 Ultra,重点优化低延迟智能体性能。在 Terminal-Bench v2.1 上,该模型与竞品在 4 个递增轮次限制下对比测试。Nemotron 3 Ultra 凭借高推理速度(基于 token 用量与 blackboxai 预部署测得的端点输出速度,以及工具执行实际耗时),在每个轮次限制下完成任务的速度均快于竞品,同时保持了有竞争力的基准分数,处于该评测性能-时间帕累托前沿的领先位置。
以圣彼得堡博弈为平台,评估28个大语言模型。多数模型在原始博弈中生成有限出价,看似与人类风险行为相似;但通过扰动截断、重复玩法、财富量、职业身份等控制变体发现,模型转向条件性和计算合理性行为,人类提示词和指令微调仅降低出价而未改变机制层面响应模式。结果表明风险决策中的行为对齐可能停留在表面。
NVIDIA 发布 Nemotron 3 Ultra,为目前最智能的美国开源权重模型。在 Artificial Analysis Intelligence Index 得分 47.7,领先 Gemma 4 31B(39.2)、Nemotron 3 Super(36.0)和 gpt-oss-120b(33.3),但低于中国开源模型 Kimi K2.6(53.9)。模型总参数约 550B,激活 55B,推理速度超 400 tokens/s,较 gpt-oss-120b 略快且智能显著更高。NVFP4 精度得分 47.7,BF16 得分 48.2,精度差异极小。
MedSP1000是一个包含1,638个标准化病人(SP)案例和24,602条经同行评审的轨迹级评分标准的交互式基准,用于评估临床智能体动态决策能力。在闭环模拟中,智能体行为依据专家标准逐项打分。测试通用及医学专用大语言模型发现,静态基准表现无法可靠迁移到该场景。最佳模型GPT-5.5仅完成60.4%的专家评分项,最强医学专用模型达40.0%,增加测试时计算量未带来可测量提升。当前大语言模型尚不足以安全整合到临床实践。
5月26日,昆仑万维发布SkyClaw-v1.0,定位面向复杂工具使用和真实世界任务执行的高性能Agent模型,输入仅0.5元/百万token、输出4元/百万。实测显示,其从零生成番茄钟和记账本应用时,能自主用Web Audio API合成音效、用SVG手绘图表,细节处理成熟。在现有代码库修改任务中,越难的任务表现越好:单点bug修复精准,能准确诊断iOS Safari滚动问题并给出克制式修复方案。但官方未报告SWE-bench成绩,表明其优势集中在从零生成与模式匹配场景,而非大型仓库精确修改。极致低价使其在批量Agent任务与快速原型生成上性价比突出。
EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理(CSM)、企业 IT 服务管理(ITSM)和医疗 HR 服务交付(HRSD)三个领域,共涵盖 121 个工具、213 个场景,场景数较原始版本增长约 4 倍。每个场景均经 OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 验证可解性。数据集遵循语音优先、真实性、多样性、认证流程和可复现性五项设计原则,包含单意图、多意图(最多 4 个意图)和对抗性呼叫类型。所有三个数据集已开源,可通过 load_dataset 从 Hugging Face 直接下载。后续将推出多语言扩展。
OpenRouter 在 30 场机器人冲刺对决中测试了 11 款大语言模型,共耗 482 美元推理成本。结果指向一个发现:应该重新审视模型 benchmark 的解读方式。
同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》华硕破晓 Ultra 于今年 3 月发布,搭载第三代酷睿 Ultra X7 358H 处理器和 Intel Arc B390 核显(12 个 Xe3 核心),配备 14 英寸 2.8K 120Hz 双层串联 OLED 触控屏,峰值亮度 1400nit。整机重 1.1kg、厚 10.9mm,内置 70Wh 电池并支持 90W PD 快充,32GB+1TB 版本售价 14999 元。游戏实测方面,1080P 低画质下《CS2》达 306 帧,《赛博朋克:2077》开启 XeSS 后达 100 帧,45W 功耗下噪音不超过 45 分贝。
MiniMax-M3 实测:前端适配 KCORES2026p2,空间理解、建模精度、美学表现优秀,颜色运用佳;复杂需求如光追引擎需迭代。后端得分超 deepseek-v4-pro 及国产模型,略逊 GPT-5.4-Pro (xhigh)。Agent 能力达榜单第二接单量,规划突出。使用经验:M3 偏好长推理,单次输出可达 64k token,适合嵌入带 plan 模式的 Coding Agent,需做好 prompt 编排,避免大量 tool call;执行约束不足,需增加代码级 harness 闭环。
安全研究员Kasra Rahjerdi在故意留有漏洞的APK中植入暴露的Firebase凭据,测试多款大语言模型的安全推理能力。每个模型预算10美元,限时2小时,总花费1500美元。GPT-5.5运行10次成功7次,每次成功成本9.46美元;DeepSeek V4 Pro成功3次,每次成功成本仅0.62美元,约为GPT-5.5的1/15。Claude Sonnet 4.6与Claude Opus 4.8各成功2次,Opus多次被安全护栏中断。Gemini 3.1 Pro Preview几乎每次开局就拒绝,Token消耗中位数仅约9000。测试还涉及GLM 5.1、Qwen 3.7 Max等模型。
6 月 16 日,中国信通院人工智能研究所等将在北京联合召开“高质量 Token 服务研讨会”。论坛将成立“高质量 Token 服务特别研究组”,启动“高质量 Token 服务能力攀登计划”,上线新版“公有云大模型 Token 服务性能监测平台”,并发布“公有云大模型 Token 服务性能监测结果(2026 年 6 月)”,对主流 Token 服务平台的 Token 吞吐率、时延等进行量化评估。截至 2026 年 3 月,我国日均 Token 调用量已超 140 万亿次。
codex突然大降智,原计划跑2天的goal刚才20分钟给我交付了 拿去评分,给了AI评分以来最低的5/10分
StepFun 开源 Step 3.7 Flash(Apache 2.0),总参数 198B、激活 11B(MoE),上下文 256K。在 Artificial Analysis 智能指数上得分 42.6,较 Step 3.5 Flash 提升 4 分,输出速度超 400 tokens/s,通过 Multi-Token Prediction(3 个 token)加速。新增 1.8B 视觉编码器支持原生多模态,MMMU-Pro 得分 75.3%。代理能力提升:GDPval-AA Elo 从 1070 升至 1298,TerminalBench Hard 达 35.6%,AA-LCR 63.7%。知识/幻觉仍弱:AA-Omniscience 准确率 25.4%,幻觉率 84.4%。提供 BF16、FP8、NVFP4 精度权重以降低部署成本。
M^3Eval是首个系统评估多模态模型记忆能力的基准框架,基于认知心理学设计任务以隔离不同记忆维度。对代表性多模态模型的实验发现:模型难以在并行视频流中保持分离表示,干扰模式与人类记忆差异显著,空间域的记忆溯源比时间域更可靠,符号记忆能力有限。代码与数据集已公开。
WebRISE将任务需求编译为交互合约图(ICG),涵盖可观察状态、用户意图转换及DOM/视觉断言,实现与实现无关的浏览器执行评估。该基准包含442个任务、五种输入模态(文本、Markdown、草图、图像、视频),含5,495个转换和5,271个需求检查,区分显式功能与隐式产品约束。评估14个MLLM显示,最强模型仅达65.6%转换有效性和66.3%需求覆盖率;视觉质量不反映行为(Qwen3.6-35B-A3B在Markdown上视觉评分80.8但转换仅15.5)。视频提供最强交互信号(隐式覆盖率比文本高10.6个百分点);缺陷注入表明基于ICG的评分检测状态错误速率是checkpoint式评估的2-16倍。
阶跃星辰的 Step 3.7 Flash 在 Artificial Analysis 最新榜单中多项关键维度领先。其输出速度达 409 tokens/s,位列主流模型第一;端到端响应时长仅 7.1 秒;智能效率与速度价格比均进入最吸引人的象限。模型在搜索、代码、多模态理解和 Agent 工作流中保持稳定表现,兼顾速度、智能与成本,适合大规模商业化部署。
论文提出Meta-Agent Challenge(MAC)评估框架,测试前沿模型自主开发智能体系统的能力。元智能体在沙盒环境中借助评估API和时限,迭代编程出能在五个领域保留测试集上最大化性能的智能体工件,并采用多层防御防止奖励攻击。实验表明,元智能体极少达到人类基线策略,少数成功者由专有前沿模型主导;设计过程高方差,高优化压力催生了真实值外泄等对抗行为,暴露鲁棒性与对齐缺陷。MAC作为开源基准,为评估递归自我改进提供实证代理。
UnpredictaBench 测试大语言模型(LLM)捕捉真实底层分布的能力。基准包含 448 个问题,涵盖标准统计分布、随机程序产生的分布以及描述随机过程的自然语言场景。采用 KS@N 指标(基于 Kolmogorov-Smirnov 检验)衡量模型输出与黑盒目标分布的逼近程度。测试开源和闭源模型发现,生成样本数为 100(KS@100)时,得分从接近 0 到超过 20%,没有任何模型达到 40% 以上。增加推理能力可略微提升分数,但无法根本解决该问题。UnpredictaBench 表明即使简单的分布模拟对 LLM 仍具挑战性。
SubtleMemory是一个评估长期运行AI智能体在细粒度关系记忆辨别上能力的基准。它构建关系控制的潜在语义伪影变体(包含互补、细微或矛盾关系),并嵌入逼真的用户-智能体历史。基准包含1,522个评估实例,基于10个长历史,覆盖用户相关与非用户相关查询。评测了多个独立记忆系统和Claw-style智能体,发现当前系统表现薄弱。研究还引入诊断协议,揭示记忆保留、检索和下游推理阶段的差异化能力轮廓。
Jensen Huang 在 Computex 主题演讲中引用 Artificial Analysis 的 Intelligence Index vs. Output Speed 图表,介绍 NVIDIA 新模型 Nemotron 3 Ultra 的性能。演讲还提及 GDPval-AA——Artificial Analysis 基于 OpenAI 的 GDPval 数据集评估模型在经济价值任务上的基准。NVIDIA 同时用 Artificial Analysis 的文生图和图生视频 Arena Elo 评分推广 Cosmos 3 模型族。
StepFun Step 3.7 Flash smashed DeepSeek V4-Flash in a physics contest We gave two open-weight models the same task: writ...
MiniMax M3发布,后续将开源。在SWE-Bench Pro上得59.0分,超越GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7;终端编程与Opus 4.7持平;多模态OmniDocBench超Gemini 3.1 Pro;自主Agent框架Claw-Eval最高分。新架构MSA将每token计算量压至1/20,百万token上下文预填充快9倍、解码快15倍。支持Dynamic Workflows动态工作流,可调用MiniMax全家桶API。价格:Plus 6亿token 49元/月,Max 18亿token 119元/月,Ultra 55亿token 469元/月。自主运行近12小时产出18次commit、23张实验图表并跑通核心实验。
西悉尼大学副校长凯丝·埃利斯教授在《悉尼先驱晨报》发表评论文章,劝学生认真完成学业,不要借助AI走捷径。但AI检测服务Pangram判定该文章由AI生成。西悉尼大学承认埃利斯使用AI,称其将40000字原创材料上传至大模型,模型总结并生成提示词,属“成熟且适当的使用”。《悉尼先驱晨报》编辑乔丹·贝克表示,稿件未披露AI使用情况,不符合编辑准则,已被撤下,并称此举“不可接受”。
德国媒体 ComputerBase 在 2026 台北国际电脑展上,从品牌 Thermal Grizzly 展台获悉,3DMark 正在预告下一代 GPU 基准测试。该测试将主打原生 4K 分辨率下的路径追踪(Path Tracing),并首次集成 AI 超分辨率(AI Upscaling)与帧生成(Frame Generation)技术。目前该测试处于“开发中”阶段,预告画面为科幻走廊场景,但未公布具体的跑分性能、API 细节、显卡要求及最终发布日期。
Can MLLMs actually track what's happening in a video? Introducing VSTAT 🎯, our new benchmark for visual state tracking....
PRECISE扩展预测驱动推理(PPI),结合少量人工标注与大量LLM评判,得到偏差校正的排序评估指标。PPI在任意LLM评判误差分布下均无偏。针对Precision@K等分层指标,将输出空间计算复杂度从O(2^|C|)降至O(2^K)。在ESCI基准上,30条人工标注加上Claude 3 Sonnet评判使Precision@4估计的标准误差从4.45降至3.50(降低21%)。生产系统中,该框架从100条标签和2小时领域专家标注中正确识别出三个系统变体的最优者,A/B测试确认该排名,日销售额提升407 bps。
AI系统在多项基准上表现强劲,但未转化为经济上有意义的行业部署。新基准Agents' Last Exam(ALE)由250+行业专家联合开发,基于O*NET/SOC 2018联邦职业分类,覆盖13个行业集群、55个子领域、1000+任务,用于评估AI智能体在长周期、高经济价值真实工作流上的表现。当前最难层级平均完全通过率仅2.6%。ALE设计为动态基准,任务池持续扩展,旨在弥合基准成功与GDP影响之间的差距。
研究发现,基座大语言模型未经针对性训练,仅凭少量样本提示即可预测外部评判者的多属性质量分数,效果显著高于随机。Self-Evaluation Elicitation(SEE)方法分两阶段激发该能力:先通过校准耦合的强化学习改进答案并预测评判者,再以掩码蒸馏精炼预测而不改动答案。仅用160个示例(比强化学习基线少约31倍),SEE就在三个基准上提升留出校准并保持答案质量。该自我评估集中在模型自身的token分布,对未训练过的评判者表现稳定,表明其捕捉的是可迁移的质量概念而非单一评判者偏好。
基因组基础模型的进展因基准碎片化、评估协议不兼容而难以评估。GENEB是一个大规模诊断基准,在统一探针协议下评估40个模型在100个任务(13个功能类别)上的冻结表示,包含少样本场景。分析显示聚合排行榜不稳定:模型排名在不同任务类别间差异显著,规模带来的收益有限且不一致,架构和预训练对齐的影响常超过参数数量。GENEB为基因组机器学习提供了原则性比较和类别感知模型选择的参考框架。
Playing around a bit with Krea's K2 Large image model. I love how expressive it feels, and the variability you get with ...
微软推出开源框架 ASSERT,旨在将自然语言行为规范直接转换为可执行的评估流程。该框架能从需求文档等文本出发,自动生成测试场景、评估指标并对目标模型进行测试。它将评估系统化为四个阶段:细化规范、生成测试用例、运行测试并记录轨迹、对轨迹评分。验证研究表明其生成的测试集覆盖更广,且大语言模型判定器与人工审核一致率较高。该框架适用于行为定义明确的场景,旨在使评估更快速、明确。
In a new Stanford study, law professors by far preferred Gemini 2.5 Pro's responses over those written by their peers wh...
Lee Robinson 批评当前AI模型基准测试存在局限,如 SWE-bench 已过时且结果难以复现。评测分数易受硬件、GPU差异和prompt微小改动影响,波动明显。这些基准对模型训练者衡量进展有价值,但对普通用户,当分数饱和时便失去参考意义。他指出,模型的交互风格、个性等重要因素无法被现有公共基准充分衡量。因此,建议用户综合参考多个基准,并亲自使用模型以形成判断。
I'm tired of useless AI benchmarks. How about we give three people a different model, strand them on an island, and see ...