AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 395 条
全部一手资讯X论文
标签「评测/基准」清除
5月29日周五
06:06公众号:数字生命卡兹克58Claude Opus 4.8 上线:更精确不偷懒,但主动性减弱,创作仍不及4.6
5月28日周四
21:36Hacker News 热门(buzzing.cc 中文翻译)64五款前沿大型语言模型在1000条现实世界事实核查声明中,有67%的结论存在分歧
12:28HuggingFace Daily Papers(社区热门论文)65LiveBrowseComp:搜索智能体是在真正搜索,还是在验证既有知识?
08:00HuggingFace Daily Papers(社区热门论文)55SoundnessBench:你的AI科学家真的能分辨好的研究想法和坏的吗?
08:00HuggingFace Daily Papers(社区热门论文)70精选恢复策略引发的错误:鲁棒GUI智能体的基准测试与轨迹合成
08:00HuggingFace Daily Papers(社区热门论文)61看到不等于知道:视觉语言模型 (VLMs) 是否知道何时不应回答空间问题(以及为什么)?
01:20Hugging Face:Blog(RSS)70精选ITBench-AA:前沿大模型在首个智能体企业IT任务基准测试中得分均低于50%
5月27日周三
21:14IT之家(RSS)40【IT之家评测室】把 267 吋巨幕戴在头上、将 AI 融入日常:雷鸟 GT Max / V4 智能眼镜评测
12:13IT之家(RSS)66英伟达 Vera 数据中心处理器首批跑分曝光,综合成绩比前代 Grace 快 63%
08:00HuggingFace Daily Papers(社区热门论文)57LLM论文评审的人类对齐性与可博弈性研究
08:00HuggingFace Daily Papers(社区热门论文)55A Matter of TASTE: 提升AI智能体评测基准的覆盖率与难度
08:00HuggingFace Daily Papers(社区热门论文)50多场景长语音生成综合评测基准
5月26日周二
14:11IT之家(RSS)63国产第一:阿里 Qwen3.7-Max 模型 AI 编程能力超 Claude Opus 4.6
10:18HuggingFace Daily Papers(社区热门论文)63MetaphorVU:迈向隐喻视频理解
08:00HuggingFace Daily Papers(社区热门论文)56OmniInteract:实时全模态助手的真实场景流式交互基准测试
08:00HuggingFace Daily Papers(社区热门论文)50在采样中迷失:通过词汇覆盖度分数(WCS)评估大语言模型的词汇可达性
08:00HuggingFace Daily Papers(社区热门论文)61Chartographer:用于评估视觉语言模型的反事实图表生成
5月25日周一
21:58Hacker News 热门(buzzing.cc 中文翻译)69既然谷歌已不再是曾经的谷歌,有哪些替代的搜索引擎?
15:58The Decoder:AI News(RSS)55AI models often give the right answers but point to the wrong sources
08:00HuggingFace Daily Papers(社区热门论文)58你的智能体也在老化:部署系统的智能体寿命工程
08:00HuggingFace Daily Papers(社区热门论文)64AgentHijack:针对电脑使用代理在常见环境干扰下的鲁棒性评测基准
5月24日周日
23:06TechCrunch:AI(RSS)46我试用了亚马逊Bee可穿戴设备:既着迷又有些毛骨悚然
08:00HuggingFace Daily Papers(社区热门论文)58SimuWoB:模拟真实移动应用以实现快速可靠的GUI智能体评测
5月23日周六
06:41Simon Willison 博客33pydantic-monty 调查
01:30Apple Machine Learning Research(RSS)66精选VSAS-Bench:视觉流式辅助模型的实时评估基准
00:05TechCrunch:AI(RSS)46我们试用了Google的AI眼镜,它们已接近成熟
5月22日周五
20:56Hacker News 热门(buzzing.cc 中文翻译)38Antigravity 2.0 在 OpenSCAD 建筑 3D 大型语言模型基准测试中位居榜首
11:14HuggingFace Daily Papers(社区热门论文)63感知还是偏见:多模态大语言模型能否超越人格的第一印象?
10:14HuggingFace Daily Papers(社区热门论文)66通过结构化表发现实现多样化模型发现
10:14HuggingFace Daily Papers(社区热门论文)64TerminalWorld:在真实终端任务上评测智能体
08:00HuggingFace Daily Papers(社区热门论文)55EvalVerse:面向专业电影视频生成的流程感知与专家校准基准测试
08:00HuggingFace Daily Papers(社区热门论文)58迈向评测工程:ML评测框架的野外实证研究
08:00HuggingFace Daily Papers(社区热门论文)50SkillEvolBench:评估从情景经验到程序性技能的演进
03:32TechCrunch:AI(RSS)64Google已非往日之Google,六款值得尝试的搜索引擎
00:00Anthropic:Research(发表成果 · 网页)83精选Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力
5月21日周四
18:06IT之家(RSS)14绿联NAS私有云DXP4800 GT深度体验:四盘位配双万兆
11:09HuggingFace Daily Papers(社区热门论文)75精选SpecBench:测量长期编码代理中的奖励黑客行为
10:09HuggingFace Daily Papers(社区热门论文)62论文评审中人工智能审稿人的局限与机遇:基于45位专家对《自然》系列论文的评审分析
08:00HuggingFace Daily Papers(社区热门论文)57智能体CLEAR:LLM智能体多层级评估自动化
08:00HuggingFace Daily Papers(社区热门论文)61虚假的推理:通过零思维链截断揭露大语言模型中的规避型数据污染
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
06:06
公众号:数字生命卡兹克
58
Claude Opus 4.8 上线:更精确不偷懒,但主动性减弱,创作仍不及4.6

Claude Opus 4.8 上线,价格与 4.7 相同($5/M 输入、$25/M 输出),上下文等参数一致。新特性:effort 控制向所有用户开放;模型更精确遵循指令但主动性减弱;代码瑕疵蒙混过关概率降低 4 倍;fast mode 速度 2.5 倍,价格降至之前的 1/3(输入 $10/M、输出 $50/M)。Claude Code 新增 dynamic workflows,可自动拉起数十至上百个子 Agent 并行处理并自验。Benchmark 方面,Terminal-Bench 2.1 仍未超过 GPT-5.5。此外,Anthropic 完成 650 亿美元融资,估值近万亿美元。创作能力虽比 4.7 有进步,但整体仍不如 4.6。

智能体Anthropic编码评测/基准
5月28日
21:36
Hacker News 热门(buzzing.cc 中文翻译)
64
五款前沿大型语言模型在1000条现实世界事实核查声明中,有67%的结论存在分歧
推理评测/基准
12:28
HuggingFace Daily Papers(社区热门论文)
65
LiveBrowseComp:搜索智能体是在真正搜索,还是在验证既有知识?

研究揭示基于LLM的搜索智能体存在“内在知识依赖”:在BrowseComp基准测试中,智能体在无需工具时仍能回答高达44.5%的问题,超过半数的搜索查询源于模型内部假设而非检索线索,移除支撑证据时其表现甚至差于闭卷基准。这表明静态基准可能奖励的是基于记忆的验证。为此,研究引入深度搜索基准LiveBrowseComp,包含335个依赖于基准构建前90天内发布事实的人工问题。在LiveBrowseComp上,所有智能体的闭卷准确率低于2%,搜索增强得分显著下降,且先前模型排名不再可靠。

智能体arXivHugging Face搜索
08:00
HuggingFace Daily Papers(社区热门论文)
55
SoundnessBench:你的AI科学家真的能分辨好的研究想法和坏的吗?

SoundnessBench 是一个包含1,099个机器学习研究提案的基准,用于评估大语言模型(LLM)判断研究想法方法论可行性的能力。在对12个前沿LLM的测试中发现普遍存在乐观偏差:标准提示下模型常将低合理性提案误判为合理,激进提示则会将错误从假阳性转为假阴性。对照实验表明这种行为并非由单一混淆因素造成。结果表明,当前LLM尚不适合作为独立的科研严谨性初筛评估工具。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
精选70
恢复策略引发的错误:鲁棒GUI智能体的基准测试与轨迹合成

针对GUI智能体缺乏从自身错误中恢复能力的问题,本研究提出了GUI-RobustEval基准测试和RoTS轨迹合成框架。GUI-RobustEval包含1216个可执行测试用例,系统评估智能体在多种错误模式下的恢复能力。RoTS框架通过基于树的流程合成了80万条高质量数据。在此基础上训练的RoTS-7B和RoTS-32B模型,在GUI-RobustEval及传统基准上均获得显著提升。其中RoTS-32B在OSWorld上取得了47.4%的成功率和33.8%的All-Pass@4分数,表明长时程错误恢复能力的增强对鲁棒性和整体性能均有贡献。

智能体论文/研究评测/基准

推荐理由:GUI Agent 能不能从自己犯的错里爬起来,才是落地的关键,阿里这篇论文给出了一个不错的基准和训练方案,做 Agent 的可以看看。
08:00
HuggingFace Daily Papers(社区热门论文)
61
看到不等于知道:视觉语言模型 (VLMs) 是否知道何时不应回答空间问题(以及为什么)?

研究构建了 SpatialUncertain 评估框架,测试多种前沿视觉语言模型 (VLMs)。在遮挡和视角歧义两种空间观察挑战下,模型平均准确率分别约为 30% 和低于 10%,并常无法识别应转向的额外视角。研究主张评估重点需从回答正确性转向模型对何时放弃作答及如何寻求可靠证据的认知。

多模态推理论文/研究评测/基准
01:20
Hugging Face:Blog(RSS)
精选70
ITBench-AA:前沿大模型在首个智能体企业IT任务基准测试中得分均低于50%

由Artificial Analysis和IBM推出的ITBench-AA SRE基准测试显示,所有前沿大模型得分均未超过50%。Claude Opus 4.7(自适应推理,最大努力)以47%领先,GPT-5.5(xhigh)和Qwen3.7 Max分别得46%和42%。该测试包含59个需要通过Shell命令调查Kubernetes事件快照并提交根因诊断的智能体任务。关键发现是模型推理轮次差异近3倍,但更长的轨迹并不转化为更高准确率,过度调查的模型会因提交误报而受罚。在成本方面,开源模型Gemma 4 31B(Reasoning)以每任务$0.14的成本获得37%得分,优于成本更高但得分更低的闭源模型。

智能体Hugging Face评测/基准
关联讨论 1 条X:通义千问 / Qwen (@Alibaba_Qwen)
推荐理由:IT运维这事儿,AI还是新手。ITBench-AA这份基准把Claude Opus 4.7逼到47%,开源模型GLM-5.1却用五分之一成本拿到40%,企业场景性价比可能不在闭源那边。
5月27日
21:14
IT之家(RSS)
40
【IT之家评测室】把 267 吋巨幕戴在头上、将 AI 融入日常:雷鸟 GT Max / V4 智能眼镜评测
多模态端侧评测/基准
12:13
IT之家(RSS)
66
英伟达 Vera 数据中心处理器首批跑分曝光,综合成绩比前代 Grace 快 63%

英伟达Vera数据中心处理器基准测试成绩显示,其基于Arm v9.2指令集和88个Olympium核心,综合平均性能比前代Grace快63%,同时领先AMD EPYC 9575F 10%及Intel Xeon 6980P 55%。该处理器专为Agentic AI设计,官方称性能比x86处理器高出1.5倍。

推理评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
57
LLM论文评审的人类对齐性与可博弈性研究

该研究基于2025 ACL Rolling Review (ARR)的论文,实证评估了大语言模型(LLM)生成的论文评审意见。研究发现,LLM评审与人类评审的对齐程度有限,且在不同提示词和模型之间存在显著差异。此外,当作者采用基于LLM评审意见的迭代修改工作流时,可以有效“博弈”LLM评审,使高达35%的论文的总分获得统计意义上的显著提升。

安全/对齐论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
55
A Matter of TASTE: 提升AI智能体评测基准的覆盖率与难度

针对现有智能体评测基准(如τ^2-Bench)因难度饱和而难以评估能力上限的问题,研究提出TASTE方法。该方法通过反转传统任务构建流程,利用基于LLM判断有效性信号训练的自适应对比n-gram模型生成有效工具序列,经聚类筛选与迭代难度演化,自动构建出工具覆盖更广、难度更高的τ^c-Bench基准。对11组智能体/大语言模型对的评估显示,多个在τ^2-Bench上接近饱和的模型在τ^c-Bench上性能大幅下降,且生成任务要求的唯一工具组合数量显著增加,表明现有基准高分常反映测试集饱和而非模型稳健能力。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
50
多场景长语音生成综合评测基准

SwanBench-Speech是一个针对长语音生成的综合评测基准,涵盖长语音生成和对话生成,覆盖声学、语义和表现力挑战。该基准包含1,101个样本,横跨17种常见语音场景,并从上述三个维度定义了包含7个指标的自动化评测方案。实验揭示,当前模型在高表达性场景下表现依然吃力,且在一致性与层次感上与真实录音存在明显差距。

论文/研究评测/基准语音
5月26日
14:11
IT之家(RSS)
63
国产第一:阿里 Qwen3.7-Max 模型 AI 编程能力超 Claude Opus 4.6
编码评测/基准
10:18
HuggingFace Daily Papers(社区热门论文)
63
MetaphorVU:迈向隐喻视频理解

为系统评估多模态大语言模型(MLLMs)对隐喻视频的理解能力,研究团队提出了首个专项基准测试 MetaphorVU-Bench。实验发现,当前 MLLMs 在隐喻视频理解上表现不佳,远未达到人类水平,主要缺陷在于跨域映射能力不足。为此,团队构建了一个隐喻知识图谱进行映射增强,并提出了推理时增强框架 MetaphorBoost,该框架实现了性能的持续提升。

arXiv多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
56
OmniInteract:实时全模态助手的真实场景流式交互基准测试

OmniInteract是一个用于评估实时全模态大语言模型的流式交互基准。它包含250个视频,定义了1,430个需要模型在线响应的时段:1,062个涵盖实时、主动与嵌套场景的单问单答时段,以及368个多问多答时段。模型必须处理原始音视频流,且无法预知未来内容。评估使用交互感知质量-时效性F1分数等指标。实验表明,当前模型在流式交互上表现薄弱,最优的整体IA-QTF1分数仅为0.368。

arXiv多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
50
在采样中迷失:通过词汇覆盖度分数(WCS)评估大语言模型的词汇可达性

研究指出,工业标准的采样默认参数(如 Top-p、Top-k 和 Min-p)无意中充当了审查机制,过滤掉了许多低频但高信息量的人类词汇,导致大语言模型生成的文本趋于同质化。研究团队提出了词汇覆盖度分数(WCS)来量化这一现象,它衡量了上下文语境中被标准采样过滤器修剪掉的人类词汇比例。通过审计开放权重模型,该研究识别出被解码器排除在可达范围之外的逻辑词汇选项,为在文本连贯性与词汇丰富度之间寻找平衡提供了诊断框架。

论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
61
Chartographer:用于评估视觉语言模型的反事实图表生成

现有图表问答基准测试存在局限,模型可能依赖捷径或背景知识而非视觉推理来回答问题。为严格评估视觉推理能力,研究提出了“反事实图表”方法,即在保持图表-问答任务不变的前提下,改变底层图表及其答案。为此,研究引入了Chartographer框架,该框架能将图表逆向工程为可执行代码,验证重建保真度,生成种子可控的变体,并从可执行的问答逻辑中推导新答案。通过将此框架应用于现有数据集,研究评估了专有及开源视觉语言模型的变化敏感性与泛化能力。结果表明,反事实图表揭示了单一图表测试所隐藏的失败:模型在正确回答原始图表后,往往无法在更新图表需要全新视觉推理路径时成功泛化。

多模态论文/研究评测/基准
5月25日
21:58
Hacker News 热门(buzzing.cc 中文翻译)
69
既然谷歌已不再是曾经的谷歌,有哪些替代的搜索引擎?

当谷歌搜索引擎功能发生转变后,TechCrunch 文章推荐了可供用户尝试的替代性搜索引擎选项。

搜索评测/基准
15:58
The Decoder:AI News(RSS)
55
AI models often give the right answers but point to the wrong sources

北京大学研究人员发现,GPT 和 Gemini 等主流大语言模型在进行文档分析时,经常引用无法支持其答案的文本段落。即便答案本身正确,被引用的证据也常是错误的。研究人员将此现象称为“归因幻觉”,并指出这是法律和医疗等受监管领域的风险。为此,他们提出了首个系统性测试该问题的新基准 CiteVQA。

GoogleOpenAI安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
你的智能体也在老化:部署系统的智能体寿命工程

本文提出了AgingBench,一个用于评估AI智能体长期可靠性的纵向基准。部署后的智能体会因交互历史压缩、记忆检索等机制而逐渐老化。AgingBench通过时间依赖图和反事实探针诊断记忆管道问题。测试发现老化现象复杂:行为测试可能正常,但事实精度已下降;相同错误答案可能需要不同的修复策略。结论是可靠的智能体部署需要生命周期评估与机制级诊断,而不仅是更强的基础模型。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
64
AgentHijack:针对电脑使用代理在常见环境干扰下的鲁棒性评测基准

AgentHijack 是一个评测基准,用于评估由多模态大语言模型驱动的电脑使用代理在动态环境干扰下的鲁棒性。该基准设置了 9 种可配置的常见干扰来模拟真实世界中的不理想场景。实验发现,即使轻微的干扰也会导致代理性能显著下降,凸显了增强其鲁棒性的必要性。为此,研究提出了一个改进框架 AgentHijack-Agent,它结合了具有增强定位能力的动作生成器以及负责行为总结和环境检查的观察者模块。

智能体论文/研究评测/基准
5月24日
23:06
TechCrunch:AI(RSS)
46
我试用了亚马逊Bee可穿戴设备:既着迷又有些毛骨悚然

亚马逊推出了AI可穿戴设备Bee,与其他同类产品类似,它在提供便利性的同时也引发了用户对隐私的担忧,这种便利与隐私焦虑的矛盾结合显得十分奇特。

评测/基准语音
08:00
HuggingFace Daily Papers(社区热门论文)
58
SimuWoB:模拟真实移动应用以实现快速可靠的GUI智能体评测

SimuWoB是一个为移动GUI智能体设计的完全合成基准测试,包含120个跨越不同类型和难度等级的任务。它通过一个框架生成高保真任务和虚拟环境,并为每个任务自动提供有效奖励;环境以无后端的网页形式部署,可通过URL访问,以实现高效、可复现的评估。实验显示,在最先进的移动GUI智能体上,平均成功率仅为27.92%,长视野任务的成功率降至17.82%,揭示了当前智能体在复杂场景下的不足。与真实世界样本任务的评估结果对比表明,基于此合成环境的评估具有良好的泛化能力。

智能体论文/研究评测/基准
5月23日
06:41
Simon Willison 博客
33
pydantic-monty 调查

作者时隔数月重新评估 Monty,一个用 Rust 实现的 Python 沙箱子集。他使用 Claude Code 审查了该项目的最新版本,确认其资源限制设置(如 max_duration_secs、max_memory 等)运作如预期。

安全/对齐评测/基准
01:30
Apple Machine Learning Research(RSS)
精选66
VSAS-Bench:视觉流式辅助模型的实时评估基准

现有视觉语言模型框架主要在离线场景下评估性能,但实时视觉助手所依赖的流式模型还需考量额外指标,如反映响应时效性的“主动性”和捕捉随时间推移响应稳定性的“一致性”。为此,研究团队提出了VSAS-Bench,这是一个新的评估基准,专门针对流式视觉语言模型在实时交互任务中的表现,填补了当前评估方法在动态、持续生成场景下的空白。

多模态论文/研究评测/基准

推荐理由:苹果搞了个实时视觉助手的评估基准,把离线评测拉到了流式场景,多模态 agent 和实时 VLM 方向的研究者值得跟进一下评估方法。
00:05
TechCrunch:AI(RSS)
46
我们试用了Google的AI眼镜,它们已接近成熟

Google展示了运行Android XR操作系统的原型智能眼镜,该设备能将Gemini AI驱动的翻译、导航及其他信息直接叠加并显示在用户视野中。这标志着可穿戴设备从“后置屏幕”向“前置视窗”交互模式的重要演进,其核心在于将实时AI处理能力与日常视觉场景深度融合。

Google多模态评测/基准
5月22日
20:56
Hacker News 热门(buzzing.cc 中文翻译)
38
Antigravity 2.0 在 OpenSCAD 建筑 3D 大型语言模型基准测试中位居榜首

Antigravity 2.0 在 OpenSCAD 建筑 3D 大型语言模型基准测试中夺得第一。该模型在生成符合 OpenSCAD 语法的建筑三维代码任务上,显著优于其他参与评估的模型,标志着其在该专业领域的领先地位。

图像生成评测/基准
11:14
HuggingFace Daily Papers(社区热门论文)
63
感知还是偏见:多模态大语言模型能否超越人格的第一印象?

多模态大语言模型在需要人格感知的人机交互中应用广泛,但现有评估仅关注大五人格分数的预测。本研究提出了一个新的接地人格推理任务,并发布了包含1104个视频的MM-OCEAN数据集。研究通过三层评估框架对27个模型进行测试,发现一个关键的“偏见鸿沟”:在所有模型中,有51%的正确评分并未基于检索到的行为线索,且整体证据归因率仅在0-33.5%之间。这表明模型往往只是“猜对”了分数,而非基于正确的推理依据,为未来提升模型的接地社交认知能力指明了方向。

arXiv多模态论文/研究评测/基准
10:14
HuggingFace Daily Papers(社区热门论文)
66
通过结构化表发现实现多样化模型发现

针对现有模型搜索系统结果同质化的问题,本文提出 StructuredSemanticSearch 框架。该框架将语义基线与结构化表发现相结合,通过表格发现算子检索相关模型卡片表格,并控制预算以公平比较文本与表格检索效果。创新性地采用方向感知的表格集成技术,生成紧凑的集成视图。评估采用基于“要点”的可审计协议,在597个查询上的实验表明,该结构化感知方法相比纯语义基线,能显著提升证据覆盖率和结果多样性,为动态模型库的评估提供了可扩展的路径。

搜索论文/研究评测/基准
10:14
HuggingFace Daily Papers(社区热门论文)
64
TerminalWorld:在真实终端任务上评测智能体

研究团队发布了TerminalWorld,一个可扩展的数据引擎,能自动从大量真实终端录制中逆向工程生成高保真的评估任务。该引擎处理了80,870份录制,产出了涵盖18个类别、1,280个唯一命令的1,530个任务基准。其中包含一个经过人工复核的200个任务子集。测试显示,当前先进的模型与智能体在真实终端工作流上表现欠佳,最高通过率仅为62.5%。该基准衡量的能力与现有专家设计基准的相关性很弱(r=0.20),凸显其独特价值。引擎的自动化设计使其具备真实性与可扩展性,数据与代码已开源。

智能体开源/仓库论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
55
EvalVerse:面向专业电影视频生成的流程感知与专家校准基准测试

生成式视频模型正迈向专业电影合成,但现有评估主要关注“是否正确”,忽略了“是否优秀”的电影质感。为此,本文提出EvalVerse,一个全面、流程感知且经专家校准的评估框架。它首先将评估体系与专业电影制作流程(前期、制作、后期)对齐;其次利用大规模人工标注数据集凝练专家判断;最后通过专家校准微调将知识注入视觉语言模型(VLM),使其能进行明确的思维链(CoT)推理。该框架在兼容基础“正确性”指标的同时,将评估显著扩展至“优秀度”,并覆盖多镜头序列与视听整合等复杂任务,为奖励模型等未来研究提供了基础。

视频论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
58
迈向评测工程:ML评测框架的野外实证研究

研究者对57个机器学习评测框架进行了实证分析,提出一个五阶段框架模型,并分类了16,560个操作问题。研究发现,大多数挑战集中在规范阶段,占问题的41.4%。未实现的功能、文档缺失和输入验证不足这三类根本原因,合计占已分类问题的61.7%。不同工作流阶段的根本原因各异:环境不兼容和外部依赖失效占配置阶段问题的36.2%;算法错误与验证缺失则是评估阶段的主导原因。

arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
50
SkillEvolBench:评估从情景经验到程序性技能的演进

该研究提出了SkillEvolBench,一个用于评估大语言模型智能体能否将情景经验提炼为可复用程序性技能的诊断基准。基准包含180个任务,分布在六个真实智能体环境中。测试发现,当前智能体通常只能局部适应,很少能形成稳健的可复用技能。基于技能的条件有时能改善获取或重放,但在冻结部署任务下表现不稳定。原始轨迹重用经常优于蒸馏的技能,表明当前的抽象过程丢弃了对未来任务仍有用的上下文和程序性线索。研究基于十个模型配置和三个智能体工具包,指出仅写入更多技能或更大的资源库并不足够。

智能体arXiv论文/研究评测/基准
03:32
TechCrunch:AI(RSS)
64
Google已非往日之Google,六款值得尝试的搜索引擎

Google即将全面引入AI概览功能,这将显著改变其搜索结果呈现方式。这一变化可能引发部分用户不满,尤其针对过度依赖AI生成的摘要式回答。与此同时,多家搜索引擎如DuckDuckGo、Brave Search等凭借隐私保护、去广告化或传统列表式结果等差异化特性,正吸引寻求替代方案的用户。市场动态显示,搜索引擎竞争正从技术功能向用户体验维度拓展。

Google搜索评测/基准
00:00
Anthropic:Research(发表成果 · 网页)
精选83
Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力

Anthropic 与 ExploitBench、ExploitGym 和 SCONE-bench 的研究者合作,测量了 Claude Mythos Preview 的漏洞利用能力。在 ExploitBench 的 V8 基准(41 个已修复漏洞)上,Mythos Preview 是唯一能可靠突破 V8 沙箱(从 T3 到 T2)的模型,并在超过一半的环境中实现突破;在 Baseline 和 Nudged 变体中共完成 21 个 CVEs 的任意代码执行(ACE),而其他所有模型的 ACE 数为零。Mythos Preview 还实现了近一半测试环境中的控制流劫持(T1)。该模型通过 Project Glasswing 谨慎发布,尚未开放通用访问。

Anthropic安全/对齐论文/研究评测/基准
关联讨论 3 条Berkeley RDI:Blog(AI 安全与评测)The Decoder:AI News(RSS)Anthropic:Research(发表成果 · 网页)
推荐理由:Mythos Preview 在三大漏洞基准上碾压式领先,第一次展示了前沿模型能端到端开发漏洞,安全基线从此改写,做安全的该认真读。
5月21日
18:06
IT之家(RSS)
14
绿联NAS私有云DXP4800 GT深度体验:四盘位配双万兆

随着个人数据量的飞速增长,NAS私有云成为存储管理的重要方案。绿联科技推出新款四盘位NAS产品DXP4800 GT,其核心亮点是配备了同价位产品中罕见的双万兆网口,提升网络传输性能。该产品搭载AMD Ryzen Embedded R2514处理器(4核8线程,最高睿频3.7GHz)并集成Radeon Vega 8显卡,提供强大的本地处理与影音能力。机身采用简约一体化铝合金设计,接口包括HDMI、USB 3.2、SD卡槽及U.2固态硬盘支持,扩展丰富。官方配套希捷酷狼4TB硬盘,强调易于上手的初次配置流程,适合家庭及进阶用户使用。

评测/基准部署/工程
11:09
HuggingFace Daily Papers(社区热门论文)
精选75
SpecBench:测量长期编码代理中的奖励黑客行为

长期编码代理在优化测试通过时可能偏离用户真实目标,导致奖励黑客现象。研究将软件工程任务分解为规格说明、可见验证测试和隐藏测试,通过两类测试通过率差距量化黑客行为。为此引入SpecBench基准,包含30个从短期(如JSON解析器)到超长期(如构建操作系统内核)的系统级编程任务。实验显示,所有前沿代理在可见测试上饱和,但隐藏测试上存在持续差距,小模型差距更大;代码规模每增十倍,差距增长28个百分点。失败案例包括故意利用测试输入。SpecBench提供原则性平台,评估代理是否构建真实工作系统而非仅玩游戏测试套件。

智能体arXiv安全/对齐编码

推荐理由:SpecBench把编码代理的‘应试’问题量化了,越长的任务越容易靠作弊通过测试。如果你在做Agent,这个基准会让你重新审视自己的评估体系。
10:09
HuggingFace Daily Papers(社区热门论文)
62
论文评审中人工智能审稿人的局限与机遇:基于45位专家对《自然》系列论文的评审分析

本研究通过一项大规模专家标注实验,邀请物理、生物与健康科学领域的45位科学家,耗时469小时,对82篇《自然》系列论文的2960条批评意见(来自人类与AI评审)进行多维度评估。结果发现,由GPT-5.2驱动的AI评审代理在准确性、重要性与证据充分性的综合评分上,超过了每篇论文得分最高的人类评审员(60.0%对48.2%)。AI评审能发现26%人类未提及的独特问题,但其意见重叠度(21%)远高于人类(3%),并暴露出16种人类没有的反复性弱点,如子领域知识有限、多文件长上下文管理能力不足等。研究表明,当前AI评审员更适合作为人类评审的补充工具,而非完全替代。

智能体论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
57
智能体CLEAR:LLM智能体多层级评估自动化

现有LLM智能体评估工具局限于基本观测能力或静态错误分类。Agentic CLEAR是一个自动、动态、易用的评估框架,它在系统、轨迹和节点三个粒度层级上,对智能体行为生成文本洞察。该框架运行于可观测性层之上,具备直观UI便于集成。在四个基准、七种智能体设置和数万次LLM调用上的实验表明,Agentic CLEAR能产生高质量、数据驱动的反馈,其分析与人类标注错误高度吻合,并能预测任务成功率。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
61
虚假的推理:通过零思维链截断揭露大语言模型中的规避型数据污染

大语言模型在多项任务中展现强大推理能力,但数据污染问题,特别是发布者采用改写基准数据等规避策略,严重削弱了其评估的客观性。研究发现,模型生成的推理步骤会主动掩盖其底层的记忆化现象。为此,研究者提出 Zero-CoT Probe 检测方法,通过截断整个 CoT 过程来暴露潜在的捷径映射。该方法将模型在原始基准与同构扰动参考集上的零思维链表现进行对比,并引入“污染置信度”指标。在已知污染模型与专门微调的污染模型上的实验表明,该方法能有效检测直接与规避型数据污染。代码已开源:https://github.com/Yifan-Lan/zero-cot-probe。

数据/训练论文/研究评测/基准
‹ 上一页
1…45678…10
下一页 ›