AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「评测/基准」清除
4月29日周三
08:00HuggingFace Daily Papers(社区热门论文)55HiL-Bench(人在回路基准测试):智能体知道何时该求助吗?
07:07Rohan Paul54GPT-5.5 Pro创ECI评分新高,综合能力领先
02:09Epoch AI59GPT-5.5 Pro创ECI指数新高分159
4月28日周二
23:35阿绎 AYi48DeepSeek V4 Pro质量是Claude的85%,价格只有七分之一。
12:34HuggingFace Daily Papers(社区热门论文)54ReVSI:重建视觉空间智能评估以准确评估VLM的3D推理能力
08:00HuggingFace Daily Papers(社区热门论文)52PSP:一个面向印度语种TTS的、按音系维度划分的可解释口音基准
00:46CMU:Machine Learning Blog58精选介绍ARFBench:基于真实事件的时间序列问答基准
4月27日周一
23:26Hacker News 热门(buzzing.cc 中文翻译)64Show HN: 我开发的 OSS Agent 在 Gemini-3-flash-preview 上夺得 TerminalBench 榜首
21:58elvis59开源评估平台FutureAGI助力构建可信自进化AI代理
17:20Kimi.ai50Kimi登顶周榜致谢开发者
14:21karminski-牙医50DeepSeek-V4测试进度同步及新增大模型工程能力测试
08:00OpenRouter:Announcements(RSS)50Opus 4.7 的新分词器:实际成本是多少
08:00OpenRouter:Announcements(RSS)57精选Opus 4.7新分词器对成本的实际影响
08:00HuggingFace Daily Papers(社区热门论文)53AutoGUI-v2:一个综合性的多模态GUI功能理解基准
07:25François Chollet53驳斥满分谣言,强调暴力求解前提
07:25François Chollet61GPT-5.5结合工具或已破解ARC-AGI-3难题
01:54Hacker News 热门(buzzing.cc 中文翻译)71精选为什么 SWE-bench Verified 不再衡量前沿编码能力
4月26日周日
17:22The Decoder:AI News(RSS)61500名投资银行家评审AI输出,发现无一可交付客户
17:21阿绎 AYi42印度开发者详解Claude代码功能,推荐聚合平台Zenmux
08:00HuggingFace Daily Papers(社区热门论文)63ClawMark:一个面向多轮次、多日、多模态协作智能体的动态世界基准测试
04:52elvis53评估主动式AI代理的新框架PARE与基准PARE-Bench
03:51Hacker News 热门(buzzing.cc 中文翻译)48人工智能的λ演算基准测试
03:21Hacker News 热门(buzzing.cc 中文翻译)34快速体验在 Firefox 上运行的 Mythos:是否被过度炒作了?
01:02elvis63微软论文揭示AI长文档编辑工作流普遍损坏内容
4月25日周六
21:05Orange AI24用惯 Opus 之后再用 V4 … 欸,写作能力太差了 有种时光倒流半年的感觉
13:00阿绎 AYi54DeepSeek V4 Pro在ZenMux平台免费开放,实测可替代大部分Claude任务
09:10向阳乔木42AI编程模型梯队评价:GLM-5.1领跑入门级
08:00HuggingFace Daily Papers(社区热门论文)54ProEval:面向生成式AI评估的主动故障发现与高效性能估计框架
06:45SemiAnalysis61编程助手深度解析与性能之争
4月24日周五
19:37karminski-牙医43DeepSeek-V4发布,编程能力横评即将出炉
12:24Ethan Mollick54DeepSeek v4 Pro上线可玩画廊
11:54Ethan Mollick45DeepSeek v4生成首批TiKZ独角兽图
11:24Chubby♨️63评测显示Deepseek v4 pro性能媲美顶尖模型
11:17HuggingFace Daily Papers(社区热门论文)55WorldMark:面向交互式视频世界模型的统一基准套件
10:44小互57GPT-5.5评测重回榜首,性能提升但幻觉率仍高
08:00HuggingFace Daily Papers(社区热门论文)55AgentSearchBench: 一个面向真实场景的AI智能体搜索基准
03:59Simon Willison 博客74精选通过半官方Codex后门API为GPT-5.5生成"骑自行车的鹈鹕"
4月23日周四
08:00HuggingFace Daily Papers(社区热门论文)59Seeing Isn't Believing: 揭示评估型视觉-语言模型的盲点
08:00HuggingFace Daily Papers(社区热门论文)45语音优先国家的偏好:印度语言TTS的大规模配对评估与偏好分析
08:00HuggingFace Daily Papers(社区热门论文)54基于多样性引导用户模拟的高效智能体评估
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月29日
08:00
HuggingFace Daily Papers(社区热门论文)
55
HiL-Bench(人在回路基准测试):智能体知道何时该求助吗?

HiL-Bench 基准测试旨在评估智能体在任务信息不完整或模糊时,能否判断何时应自主执行、何时需向人类求助。该测试包含人为设置的障碍信息,核心指标 Ask-F1 综合衡量提问精准度与障碍召回率,以平衡过度提问与盲目猜测。评估显示,当前前沿模型在判断求助时机上存在普遍缺陷,其完整信息性能仅能恢复一小部分。失败模式主要体现为三种:过度自信未察觉信息缺口、虽检测到不确定性但仍持续出错、以及提出宽泛模糊的求助。通过基于 Ask-F1 的强化学习训练,一个 32B 模型在求助质量与任务通过率上均获得提升,且能力可跨领域迁移,表明判断力可通过训练改进。

智能体arXiv论文/研究评测/基准
07:07
Rohan Paul@rohanpaul_ai
54
GPT-5.5 Pro在Epoch AI的ECI指数中获得159分,创下该综合能力评分的新纪录,表明其在多项测试中的整体模型能力目前领先。ECI指数旨在通过整合多个基准测试来评估模型的广泛推理能力,避免单一测试易被针对性优化的问题。此外,GPT-5.5 Pro与GPT-5.5共同解决了两个此前未有模型能处理的Tier 4级别难题。

Epoch AI: GPT-5.5 Pro achieves a new high score of 159 on the Epoch Capabilities Index! ECI is our statistical tool that combines ...

OpenAI推理评测/基准
02:09
Epoch AI@EpochAIResearch
59
GPT-5.5 Pro 在 Epoch Capabilities Index 上创下 159 分的新高分!ECI 是我们的统计工具,它将多个基准测试整合到一个统一的量表中。
OpenAI模型发布评测/基准
4月28日
23:35
阿绎 AYi@AYi_AInotes
48
DeepSeek V4 Pro质量是Claude的85%,价格只有七分之一。

通过ZenMux平台的PK模式实测,DeepSeek V4 Pro在处理结构化任务(如马斯克思维模型分析)时,输出逻辑清晰、表达母语化,质量达到Claude的85%,但价格仅为其七分之一。作者建议将80%的日常工作(如写代码、调研)交由DeepSeek处理,20%需要顶级文笔的任务使用Claude,可节省70%以上API费用。ZenMux提供免费测试额度、PK对比模式、保险赔付和可观测性工具,帮助用户规避依赖单一API厂商的风险并提升选型效率。

阿绎 AYi: 兄弟们,DeepSeek V4 Pro在ZenMux上免费放开了,登录就能跑,实测能替掉你80%的Claude活。视频是我早上实测的和Claude opus 4.7同时跑一个昨SaaS产品网站的任务,效果真的炸裂! 说个前情,老朋友都知道我...

DeepSeek现象/趋势编码评测/基准
12:34
HuggingFace Daily Papers(社区热门论文)
54
ReVSI:重建视觉空间智能评估以准确评估VLM的3D推理能力

现有视觉语言模型(VLM)的空间智能评估存在系统性缺陷:基于点云标注的问答对在视频评估中因重建误差和标注伪影导致答案错误或模糊,且评估常假设全场景访问,而实际模型仅处理稀疏采样帧。为提升评估有效性,我们提出ReVSI基准,通过重新标注5个数据集的381个场景并严格生成可信问答对,确保问题在模型实际输入下可答且答案正确。该基准提供多种帧预算变体及细粒度物体可见性元数据,支持可控诊断分析。在ReVSI上的评估揭示了以往基准掩盖的系统性故障模式,实现了更可靠、更具诊断性的空间智能评估。

多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
52
PSP:一个面向印度语种TTS的、按音系维度划分的可解释口音基准

研究团队提出PSP(音素替换剖面),一种用于量化评估印度语种TTS系统口音的可解释基准方法。PSP将口音分解为六个互补维度:卷舌音坍缩率、送气音保真度、元音长度保真度、泰米尔语卷舌近音保真度、Frèchet音频距离以及韵律特征散度。通过在印地语、泰卢固语和泰米尔语上测试五个TTS系统,研究发现:卷舌音错误率随音系难度递增;PSP评估结果与传统可懂度指标排序存在差异;没有单一系统在所有维度上均表现最优。团队同时开源了包括母语参考中心向量、评分代码在内的一系列资源。

论文/研究评测/基准语音
00:46
CMU:Machine Learning Blog
精选58
介绍ARFBench:基于真实事件的时间序列问答基准

每年系统故障导致损失超万亿美元,工程师需通过分析时间序列数据快速定位问题。时间序列问答(TSQA)是关键运维任务,对AI模型构成挑战。为此,研究团队推出ARFBench基准,基于Datadog真实内部事件及遥测数据构建。测试显示,当前领先的大型语言模型、视觉语言模型和时间序列基础模型在ARFBench上表现均有较大改进空间。团队提出混合TSFM-VLM模型,其整体性能接近前沿水平,为TSQA任务提供了新评估框架和改进方向。

论文/研究评测/基准部署/工程

推荐理由:CMU 和 Datadog 联手搞了个基于真实事故的时序问答基准,结论很诚实,现有模型全拉胯。做 SRE Agent 的团队该看看,这比合成数据的 benchmark 有说服力得多。
4月27日
23:26
Hacker News 热门(buzzing.cc 中文翻译)
64
Show HN: 我开发的 OSS Agent 在 Gemini-3-flash-preview 上夺得 TerminalBench 榜首

一款名为OSS Agent的开源智能体在谷歌Gemini-3-flash-preview模型上运行,成功登顶终端操作基准测试TerminalBench榜首。该智能体由开发者独立构建,其GitHub仓库地址已公开。这一成果在技术社区Hacker News上获得了113个点赞,引发了广泛关注。

智能体产品更新开源生态评测/基准
21:58
elvis@omarsar0
59
开源评估平台FutureAGI助力构建可信自进化AI代理

构建自进化AI代理必须依赖可靠的评估体系,否则将浪费资源。@FutureAGI_ 开源其平台,整合了领先的评估工具与方法,为开发者提供完整基础设施。该平台涵盖幻觉、毒性、偏见等多维度可修改评估器,集成六种提示优化算法,支持多轮模拟测试与实时安全防护,并提供多语言追踪及兼容OpenAI的网关。其开源特性旨在建立可信任的评估基础,推动自进化AI代理领域发展。

智能体产品更新开源生态评测/基准
17:20
Kimi.ai@Kimi_Moonshot
50
Kimi K2.6 现已登上 OpenRouter 每周 LLM 排行榜首位 🏆 衷心感谢每一位使用 Kimi 进行开发的开发者。我们将继续埋头苦干,持续交付。
开源生态模型发布评测/基准
14:21
karminski-牙医@karminski3
50
DeepSeek-V4测试进度同步及新增大模型工程能力测试

作者同步了DeepSeek-V4的测试进度,并重点介绍了一项新设计的“大模型工程能力测试”。该测试以约20万行代码的SillyTavern项目为基础,要求大模型通过tool_call创建新的数值系统(如属性、状态),并能注入JS代码与现有系统交互。测试使用魔改的kimi-cli来监督实现过程、统计token与工具使用情况,并运行定制黑盒测试。此外,通过为酒馆增加CLI模式,测试还评估了大模型的Agent能力,使其能自行测试并迭代代码。目前测试仍在进行中。

智能体DeepSeek编码评测/基准
08:00
OpenRouter:Announcements(RSS)
50
Opus 4.7 的新分词器:实际成本是多少

Anthropic 为 Opus 4.7 更换了分词器(tokenizer)。OpenRouter 通过分析用户从 Opus 4.6 迁移至 4.7 的使用量变化,测算了新分词器对实际成本的影响。

Anthropic评测/基准
08:00
OpenRouter:Announcements(RSS)
精选57
Opus 4.7新分词器对成本的实际影响

Anthropic在Claude Opus 4.7版本中更新了分词器。通过对比4.6到4.7版本的实际使用数据,分析发现这一技术调整改变了文本转换为令牌的方式,直接影响API计价。相同的文本输入可能产生不同数量的令牌,从而导致用户的实际使用成本发生可量化的变化。这一调整虽不改变模型能力,但关乎运营开销,是开发者和企业用户需评估的关键因素。

Anthropic评测/基准部署/工程

推荐理由:Opus 4.7 换了 tokenizer,大多数人只知道模型变强了,不知道计费逻辑也变了。OpenRouter 用真实流量数据算了一笔账,做成本预算的产品人值得扫一眼。
08:00
HuggingFace Daily Papers(社区热门论文)
53
AutoGUI-v2:一个综合性的多模态GUI功能理解基准

为实现真正的数字自主性,研究团队推出了AutoGUI-v2基准,旨在评估智能体对图形用户界面(GUI)的深度功能理解与交互结果预测能力。该基准通过一种新颖的视觉-语言模型与人类协作流程构建,递归解析多平台截图,生成了涵盖六个操作系统的2,753项任务,严格测试区域与元素级语义理解、功能定位及动态状态预测。评估结果显示,基于智能体数据微调的开源模型在功能定位上表现优异,而商业模型则在功能描述上领先。关键发现是,所有模型在面对非常见操作的复杂交互逻辑时均表现不佳,表明深度功能理解仍是当前面临的核心挑战。

智能体多模态论文/研究评测/基准
07:25
François Chollet@fchollet
53
不,如果不考虑行动效率,最高分将是100%,用20行Python代码就能实现。你只需要暴力枚举状态空间。请停止传播完全虚假的信息。 【引用 @scaling01】:62.1% on ARC-AGI-3 would be the score if they used the same scoring as ARC-AGI-1/2

Lisan al Gaib: 62.1% on ARC-AGI-3 would be the score if they used the same scoring as ARC-AGI-1/2

大佬观点推理评测/基准
07:25
François Chollet@fchollet
61
(我们测试过,得分低于1%) 【引用 @scaling01】:有可能GPT-5.5-xhigh配合工具已经解决了ARC-AGI-3

Lisan al Gaib: there's a chance ARC-AGI-3 is already solved with GPT-5.5-xhigh + tools

大佬观点推理评测/基准
01:54
Hacker News 热门(buzzing.cc 中文翻译)
精选71
为什么 SWE-bench Verified 不再衡量前沿编码能力

OpenAI宣布停止使用SWE-bench Verified基准评估前沿编码能力。该基准基于GitHub历史问题构建,其任务分布已无法准确反映当前AI编码助手需解决的实际问题类型。随着模型性能提升,基准测试集趋于饱和,区分度下降,现有模型表现已接近人类水平。因此,团队将转向更具挑战性和现实复杂度的新评估方法。

OpenAI大佬观点编码评测/基准

推荐理由:OpenAI 亲自给 SWE-bench Verified 判了死刑,这比任何第三方评测都有说服力。做 coding agent 选型的人该认真想想,你的 benchmark 体系是不是也该换了。
4月26日
17:22
The Decoder:AI News(RSS)
61
500名投资银行家评审AI输出,发现无一可交付客户

一项新基准测试让GPT-5.4和Claude Opus 4.6等顶级模型处理初级投资银行家的日常任务。评审结果显示,没有任何一个AI输出被评定为可直接交付客户,其内容存在不精确或完全错误的问题。尽管如此,超过半数的银行家表示,他们会将AI输出作为工作的起点。

智能体现象/趋势评测/基准
17:21
阿绎 AYi@AYi_AInotes
42
印度开发者详解Claude代码功能,推荐聚合平台Zenmux

一位印度开发者详细介绍了Claude的12个关键代码功能,包括CLAUDE.md、Plan Mode、MCP等,并建议开发者使用AI模型聚合平台。针对Claude可能封号的风险,推荐使用Zenmux平台,该平台集成了包括Claude Opus、GPT-5.4和DeepSeek V4 Pro在内的多种最新大模型,国内可直连。平台提供PK对比模式、保险赔付机制和详细的可观测性工具。特别指出,DeepSeek V4 Pro在Zenmux上目前有免费额度,经测试能处理大部分Claude的工作流,建议用户自行测试以进行模型选型。

阿绎 AYi: 兄弟们,DeepSeek V4 Pro在ZenMux上免费放开了,登录就能跑,实测能替掉你80%的Claude活。视频是我早上实测的和Claude opus 4.7同时跑一个昨SaaS产品网站的任务,效果真的炸裂! 说个前情,老朋友都知道我...

大佬观点评测/基准部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
63
ClawMark:一个面向多轮次、多日、多模态协作智能体的动态世界基准测试

ClawMark是一个针对长期协作智能体的新型基准测试,旨在模拟外部环境独立变化的真实工作场景。它构建于一个状态可动态演化的沙盒环境,包含文件系统、电子邮件等五类服务,覆盖13个专业场景下的100项任务。评估完全依赖1537个确定性Python检查器对服务状态进行评分,未使用LLM作为评判工具。对七个前沿智能体系统的测试表明,最强模型加权得分为75.8,但严格任务完成率仅为20.0%,说明智能体常能取得部分进展却难以完整达成工作流。分析发现,性能在首次环境更新后普遍下降,适应动态变化仍是核心挑战。

智能体论文/研究评测/基准
04:52
elvis@omarsar0
53
研究提出PARE框架,通过将应用程序建模为具有状态导航和状态相关操作的有限状态机,实现对主动式AI代理的更真实评估。基于此构建的PARE-Bench基准包含143项跨通信、生产力等领域的任务,测试代理的情境观察、目标推断、干预时机及多应用协调能力。该工作弥补了当前主流基准将应用视为扁平API、忽略真实交互状态性与顺序性的缺陷,为衡量代理能否推断用户未言明目标并在正确时刻行动提供了原则性方法。

DAIR.AI: Great paper on improving proactive agents. (bookmark it) Proactive agents act before you do. But how do you evaluate som...

智能体论文/研究评测/基准
03:51
Hacker News 热门(buzzing.cc 中文翻译)
48
人工智能的λ演算基准测试

研究人员发布了人工智能的λ演算基准测试,旨在评估AI模型理解和执行函数式编程核心概念的能力。该基准测试包含一系列基于λ演算的挑战性问题,用以检验模型的逻辑推理、符号操作和算法实现水平。初步测试结果显示,当前主流大语言模型在该基准上的表现差异显著,部分模型得分不足50分,凸显了AI在形式化推理方面的现有局限。这一工具为衡量AI的抽象思维与计算能力提供了新的量化标准。

推理论文/研究评测/基准
03:21
Hacker News 热门(buzzing.cc 中文翻译)
34
快速体验在 Firefox 上运行的 Mythos:是否被过度炒作了?

文章对在Firefox浏览器上运行的Mythos进行了快速体验评估,并对其市场热度提出质疑。Mythos作为一款备受关注的新应用或平台,此次在Firefox上的运行表现是评测重点。文中提及了实际体验中的具体变化或性能指标,但未详细列出核心数据。最终观点指向Mythos可能被过度炒作,其实际体验并未完全达到市场宣传的预期水平。

端侧评测/基准
01:02
elvis@omarsar0
63
微软论文揭示AI长文档编辑工作流普遍损坏内容

微软新论文引入DELEGATE-52基准,模拟52个专业领域的长文档编辑工作流。测试19个模型,包括Gemini 3.1 Pro、Claude 4.6 Opus和GPT-5.4等前沿模型,发现在长工作流结束时平均损坏25%的文档内容。代理工具使用未能改善表现。论文还提供了其他相关见解。

论文/研究评测/基准部署/工程
4月25日
21:05
Orange AI@oran_ge
24
用惯 Opus 之后再用 V4 … 欸,写作能力太差了 有种时光倒流半年的感觉
大佬观点评测/基准
13:00
阿绎 AYi@AYi_AInotes
54
DeepSeek V4 Pro在ZenMux平台免费开放,实测可替代大部分Claude任务

作者通过ZenMux平台的PK模式,将DeepSeek V4 Pro与GPT-5.4、Claude Opus 4.6进行同屏实测对比。结果显示,在日常项目中,V4 Pro能处理约80%的任务,且成本显著低于Claude Opus;剩余20%对稳定性要求极高的关键任务则仍由Claude兜底。作者认为模型分层策略至关重要,未来将是模型组合的时代。他推荐ZenMux平台,因其PK对比功能、输出异常保险赔付机制及细致的成本观测工具,能有效提升效率并规避单一API供应商风险。目前V4 Pro和Flash版均有免费测试额度。

DeepSeek教程/实践评测/基准
09:10
向阳乔木@vista8
42
彭兄发的分享,可能转自杨攀的tgo群。 对非顶级AI编程(GPT,Claude)模型主观体验评价: 1、通过入门门槛梯队:glm-5.1 ~= kimi-k2.6 > deepseek-v4-pro > qwen-3.6-max-preview 2、未通过入门门槛梯队:mimo-v2.5-pro > qwen-3.6-plus > hy-3 > grok-4.20
大佬观点编码评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
54
ProEval:面向生成式AI评估的主动故障发现与高效性能估计框架

针对生成式AI模型评估成本高昂的问题,本文提出主动评估框架ProEval。该框架利用迁移学习与预训练高斯过程代理模型,将性能估计建模为贝叶斯积分,将故障发现建模为超水平集采样,从而主动选择高信息量的测试输入。理论证明其估计器具有无偏性与有界性。在推理、安全对齐和分类任务上的实验表明,ProEval仅需8-65倍更少的样本即可实现误差在1%以内的性能估计,同时在严格评估预算下能发现更多样化的故障案例,效率显著优于基线方法。

论文/研究评测/基准部署/工程
06:45
SemiAnalysis@SemiAnalysis_
61
编程助手深度解析: 需要更多Token, GPT 5.5实战体验, Opus 4.7版本, DeepSeek V4模型, 为何基准测试存在缺陷, 以及谁将胜出 立即阅读: https://newsletter.semianalysis.com/p/the-coding-assistant-breakdown-more?r=54gphk
现象/趋势编码评测/基准
4月24日
19:37
karminski-牙医@karminski3
43
DeepSeek-V4发布,编程能力横评即将出炉

作者在收到DeepSeek-V4的推送后,已开始对其进行测试。本次测评将重点关注其编程能力,并计划将其与近半年来发布的其他主流大模型(如GPT、Claude、LLaMA等)进行横向比较。完整的评测视频将在所有测试完成后发布,目前会先放出速报。

DeepSeek现象/趋势评测/基准
12:24
Ethan Mollick@emollick
54
这是 DeepSeek v4 Pro。也已加入可玩模型库。 【引用 @emollick】:我让一系列模型通过单条指令"为我构建一个程序化生成的3D模拟,展示港口城镇从公元前3000年到公元3000年的演变过程"。 完整模型库可在此体验:https://hg-20f7d1a3ce.netlify.app 或在此阅读我关于 GPT-5.5 的文章:https://www.oneusefulthing.org/p/sign-of-the-future-gpt-55?r=i5f7&utm_medium=ios&triedRedirect=true

Ethan Mollick: I had a range of models "build me a procedurally generated 3D simulation showing the evolution of a harbor town from 300...

DeepSeek现象/趋势评测/基准
11:54
Ethan Mollick@emollick
45
我的前两个来自 DeepSeek v4 的 TiKZ Sparks 独角兽。 (专家模式,来自 DeepSeek 网站,根据发布说明应为 v4 Pro)
DeepSeek大佬观点评测/基准
11:24
Chubby♨️@kimmonismus
63
Deepseek v4 pro 评测。大致与 GPT-5.4 xhigh 和 opus 4.6 max 相当

Chubby♨️: DEEEPSEEK 4 RELEASED!! Holy!! Lets go

DeepSeek模型发布评测/基准
11:17
HuggingFace Daily Papers(社区热门论文)
55
WorldMark:面向交互式视频世界模型的统一基准套件

针对交互式视频生成模型缺乏公平比较基准的问题,本文提出了首个统一测试平台WorldMark。它包含三个核心部分:一个将共享WASD动作映射到各模型原生控制的统一接口,确保六大模型能在完全相同的场景与轨迹上对比;一个涵盖500个测试案例的分层测试集,覆盖不同视角、风格与难度等级;以及一个支持视觉质量、控制对齐和世界一致性评测的模块化工具包。所有数据与代码均已公开,同时上线的在线平台World Model Arena支持模型并排对比与实时排名。

具身智能开源生态论文/研究评测/基准
10:44
小互@xiaohu
57
GPT-5.5评测重回榜首,性能提升但幻觉率仍高

在独立评测中,GPT-5.5以3分优势超越Anthropic和Google的模型,重回性能榜首。其API定价大幅上涨,输入与输出费用分别达到每百万5美元和30美元,但token消耗减少了约40%。模型通过自我编写的算法进行了优化,使token生成速度提升超过20%。尽管知识准确率达到57%的历史新高,但其幻觉率也高达86%,显示出性能与可靠性之间的显著矛盾。

OpenAI模型发布评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
55
AgentSearchBench: 一个面向真实场景的AI智能体搜索基准

研究团队推出了AgentSearchBench,这是一个用于评估真实场景下AI智能体搜索能力的大规模基准。该基准从多个提供方收集了近10,000个真实世界智能体,将智能体搜索形式化为可执行任务查询和高级任务描述下的检索与重排序问题,并利用基于执行结果的性能信号来评估相关性。实验表明,语义相似性与智能体实际性能之间存在持续差距,暴露了仅基于描述进行检索和重排序方法的局限性。研究进一步证明,轻量级的行为信号(包括执行感知探测)能显著提升排序质量,凸显了将执行信号纳入智能体发现过程的重要性。相关代码已开源。

智能体GitHub论文/研究评测/基准
03:59
Simon Willison 博客
精选74
通过半官方Codex后门API为GPT-5.5生成"骑自行车的鹈鹕"

尽管GPT-5.5的官方API尚未发布,但作者利用OpenAI为OpenClaw等工具开放的订阅集成机制,通过反向工程开源Codex CLI,开发了一个LLM插件。该插件允许付费订阅用户通过Codex后端API调用GPT-5.5模型。文章以生成“骑自行车的鹈鹕”SVG图像为例,展示了其使用效果,并指出高推理强度设置能显著提升输出质量,但耗时更长。目前,OpenAI表示正与合作伙伴制定API大规模服务的安全要求。

OpenAI大佬观点模型发布评测/基准
关联讨论 1 条IT之家(RSS)
推荐理由:Simon Willison 不只评测 GPT-5.5,还顺手逆向 Codex 做了个用订阅跑 API 的插件。定价翻倍、xhigh 模式四分钟出图这些细节,比官方通稿有用十倍,做选型的人该看这篇而不是 OpenAI 博客。
4月23日
08:00
HuggingFace Daily Papers(社区热门论文)
59
Seeing Isn't Believing: 揭示评估型视觉-语言模型的盲点

研究系统评估了用于评估其他模型输出的视觉-语言模型(VLMs)的可靠性。通过引入超过40个扰动维度、涵盖4000多个扰动实例的基准测试,对4个主流VLMs在图像到文本和文本到图像任务中的表现进行了检验。结果显示,当前评估型VLMs存在显著盲点:它们时常无法检测出质量已下降的输出,在某些情况下漏检率超过50%;尤其难以识别细粒度的组合性与空间错误;对于与输入图像相矛盾的幻觉内容也常不敏感。尽管成对比较范式相对更可靠,但失误率依然存在。这些发现凸显了当前评估型VLMs的不可靠性,警示在将其用于基准测试和开发决策时需保持谨慎。相关代码与数据已公开。

多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
45
语音优先国家的偏好:印度语言TTS的大规模配对评估与偏好分析

本研究提出一个结合语言控制与感知标注的多语言TTS受控多维配对评估框架。针对10种印度语言的5000余条原生及语码混合句子,对7个前沿TTS系统进行了评估,收集了超过1900名母语评分者提供的12万对以上比较数据。评分者除整体偏好外,还从可懂度、表现力、音质、生动性、噪声和幻觉六个感知维度进行判断。研究通过Bradley-Terry模型构建多语言排行榜,利用SHAP分析解读人类偏好,并分析了排行榜的可靠性及各模型在不同感知维度上的优势与权衡。

论文/研究评测/基准语音
08:00
HuggingFace Daily Papers(社区热门论文)
54
基于多样性引导用户模拟的高效智能体评估

针对大语言模型客服代理评估效率低、难以发现深层故障的难题,研究团队提出了DIVERT框架。该框架采用基于快照和覆盖引导的用户模拟方法,在关键决策点保存完整对话状态并从中断点恢复,避免了相同对话前缀的重复计算。通过从每个决策点生成多样化的用户响应以探索不同交互路径,DIVERT能够更高效、更全面地发现由罕见用户行为引发的深层故障模式。实证结果表明,与标准的线性蒙特卡洛展开方法相比,DIVERT在单位计算量内能发现更多故障,并扩展了可识别故障的任务范围。

智能体论文/研究评测/基准
‹ 上一页
1…171819202122
下一页 ›