AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「评测/基准」清除
5月8日周五
06:05Orange AI49GPT Image 2.0能力深不可测,Labnana社区提供免费体验
01:22HuggingFace Daily Papers(社区热门论文)65评估智能体创造性推理:基于可供性的工具重新利用基准CreativityBench
00:41TestingCatalog News 🗞49Scale AI发布代码重构基准榜,Claude Code居首
5月7日周四
23:36elvis64AI智能体评估:从构建到持续优化的关键技能
23:22HuggingFace Daily Papers(社区热门论文)62SWE-WebDevBench:将编码智能体应用平台作为虚拟软件机构进行评估
21:43向阳乔木60评测显示Opus 4.6用户体验优于后续版本4.7
10:22HuggingFace Daily Papers(社区热门论文)54StableI2I:识别图像转换中的非预期变化
09:42向阳乔木32这项目有意思,让由 20 不同大模型开发相同的UI组件。 看出来的效果有什么不同。 比如GPT-5.5 用文字有点多,感觉还是Opus 4.7好点。 网址见评论
08:00HuggingFace Daily Papers(社区热门论文)49STALE:LLM智能体能知道自己的记忆何时失效吗?
06:03Artificial Analysis63Artificial Analysis与Harvey合作推出法律AI代理评估基准
02:04Rohan Paul68开源工具iFixAi旨在量化评估AI代理的可靠性
01:06Epoch AI70推出领域能力评分与自定义ECI功能
5月6日周三
23:00Chubby♨️49Claude Mythos与GPT-5.5能力相近,未现性能飞跃
18:07Xiaomi MiMo59小米MiMo V2.5跻身设计竞技场第六
17:22Hugging Face:Blog(RSS)47Open ASR 排行榜引入私有数据集以对抗基准过度优化
12:20HuggingFace Daily Papers(社区热门论文)58PatRe:一个用于专利审查的全周期审查意见与答复生成基准
10:26Jeff Dean50Andy Konwinski将在首届CAISconf发表主题演讲,其创立的Laude Institute推动开源AI研究
10:20HuggingFace Daily Papers(社区热门论文)66Workspace-Bench 1.0:针对具有大规模文件依赖的工作空间任务的AI智能体基准测试
07:33Ethan Mollick66所有基准测试都有缺陷,但GPQA一直相当稳定且与其他测量基准高度相关。我认为这是一个很好的方式来看我们已经走了多远,OpenAI的免费模型GPT 5.5 Instant已经达到了甚至付费模型直到2025年底才达到的水平
04:31Epoch AI49"经典"推理基准的配方很简单:纯文本、数小时的时间跨度、易于评分,并带有专家人类基线。 接下来呢?在本周的Gradient Update中,@GregHBurnham 认为只需舍弃这四种成分之一即可。
03:57Rohan Paul68GPT-5.5 与 Opus 4.7 在 ARC-AGI-3 上的得分低于 1%
02:57Artificial Analysis58MiniMax-M2.7模型在六大推理服务商上线,速度与价格差异显著
5月5日周二
23:56Luma71前沿多模态,赋能商业应用
23:25Deedy62新基准测试揭示大模型编程能力空白
11:25OpenRouter65精选GPT 5.5成本激增49-92%,长提示词效率提升
11:17HuggingFace Daily Papers(社区热门论文)69AcademiClaw:当学生为AI智能体设定挑战
08:16Simon Willison 博客44Granite 4.1 3B模型SVG鹈鹕图集
08:14Berryxia.AI58Grok 4.3在法律与金融领域基准测试中表现领先
05:25SemiAnalysis71精选GB300 NVL72实测性能达GB200的2.7倍,凸显端到端实测价值
04:57swyx 🇸🇬61Opus 4.7性能争议:评估提升与用户感受存差异
03:18Artificial Analysis69匿名模型Peanut登顶开源文生图榜
00:45Elon Musk41尝试Grok:在法律与金融领域展现卓越推理能力
00:26Epoch AI46探讨AI基准测试的困境与未来方向
5月4日周一
23:48Chubby♨️62初创公司Video Rebirth文生视频模型Bach-1.0跻身全球前六
5月3日周日
19:21Ethan Mollick57前沿智能体长任务评估遇瓶颈
16:21The Decoder:AI News(RSS)54美国政府基准测试称中国在AI竞赛中落后,但独立数据并不支持
15:21The Decoder:AI News(RSS)41Same prompt, different morals: 前沿AI模型在伦理困境上的分歧
13:49Hacker News 热门(buzzing.cc 中文翻译)43Kimi K2.6 刚刚在一场编程挑战赛中击败了 Claude、GPT-5.5 和 Gemini
06:17Eric50GPT-5.5教学更清晰:先标签后概念
5月2日周六
21:50The Decoder:AI News(RSS)53ARC-AGI-3 分析显示,即便是最新 AI 模型仍存在三种系统性推理错误
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月8日
06:05
Orange AI@oran_ge
49
GPT Image 2.0能力深不可测,Labnana社区提供免费体验

GPT Image 2.0模型发布后持续展现惊人能力,无需参考图即可根据名称或IP生成高质量内容,尤其在二次元画风上表现卓越,被社区认为远超Banana 2等模型。Labnana社区现已将GPT Image 2.0的免费体验作为长期福利,用户通过签到和邀请获取积分即可基本满足使用需求。

OpenAI图像生成评测/基准
01:22
HuggingFace Daily Papers(社区热门论文)
65
评估智能体创造性推理:基于可供性的工具重新利用基准CreativityBench

研究团队推出CreativityBench基准,以评估大语言模型基于物体可供性和属性进行创造性工具重新利用的能力。该基准基于一个包含4000个实体和超15万条标注的大规模知识库,生成了1.4万个需识别非显而易见但物理可行解决方案的落地任务。对10个前沿模型的评估表明,模型虽常能选择合理物体,但在识别正确部件、其可供性及所需物理机制方面存在显著困难,导致性能大幅下降。模型规模扩大带来的改进很快饱和,通用推理能力与思维链等策略均未能有效提升创造性可供性发现,凸显该能力仍是当前模型的主要挑战。

智能体推理论文/研究评测/基准
00:41
TestingCatalog News 🗞@testingcatalog
49
Scale AI发布了SWE Atlas重构排行榜,这是一个评估智能体重构代码能力的新基准。 > 它要求智能体生成的代码行数是SWE Bench Pro的两倍。 > Claude Code with Opus 4.7位居榜首,其次是Codex with GPT-5.5、GPT-5.4和GPT-5.3。 > 重构对大型语言模型而言是相当重要的任务,因为这通常归结为相当枯燥的工程工作。
Anthropic编码评测/基准
5月7日
23:36
elvis@omarsar0
64
当前AI智能体(Agent)构建门槛降低,其质量差异的核心在于能否进行恰当的评估。真正的挑战在于生产环境中可能出现的"静默漂移"--即使通过所有测试,系统质量仍可能在无报错的情况下悄然下降。解决方案并非加强部署前测试,而是建立持续评估机制。这已成为区分AI系统优劣的关键技能。

n8n.io: Your AI workflow passed every test. Two weeks later, quality drops. No errors. Just silent drift. The fix isn't more pre...

智能体大佬观点评测/基准
23:22
HuggingFace Daily Papers(社区热门论文)
62
SWE-WebDevBench:将编码智能体应用平台作为虚拟软件机构进行评估

研究团队推出SWE-WebDev Bench评估框架,从交互模式、机构角色和复杂度三个维度,通过68个指标系统性评估AI驱动的“氛围编码”平台。在6个平台、3个领域、18个评估单元上的测试揭示了当前AI应用构建器的四大普遍缺陷:存在将丰富业务需求过度简化的“规范瓶颈”;普遍存在前端与后端脱节,精美UI常掩盖缺失或故障的后端;生产就绪度陡降,工程质量得分无平台超过60%,且人工后期工作量差异大;安全与基础设施问题广泛,安全得分无平台超过65%,并发处理能力低至6%。该基准已开源以推动复现并帮助平台改进。

智能体编码论文/研究评测/基准
21:43
向阳乔木@vista8
60
评测显示Opus 4.6用户体验优于后续版本4.7

根据@lyricwai的llmsnare基准测试及Base44的“挫败指数”排名,Anthropic的Opus 4.6模型以1.3的指数位居榜首,显示其用户满意度最高,甚至超越了其后续版本Opus 4.7(指数1.5)。Sonnet 4.6以1.4位列第二。该测试每日消耗近100美元,结论表明新版模型在关键用户体验指标上可能出现倒退。

Anthropic推理评测/基准
10:22
HuggingFace Daily Papers(社区热门论文)
54
StableI2I:识别图像转换中的非预期变化

针对现有评估方法在图像到图像转换任务中忽视内容保真度与前后一致性的问题,研究团队提出了StableI2I。这是一个无需参考图像的动态评估框架,能在图像编辑、修复等多种任务中量化语义对应与空间结构的保持程度。团队同时构建了配套基准StableI2I-Bench,用于系统评估多模态大模型在此类判断任务上的准确性。实验表明,该框架能提供精细、可解释的评估结果,且与人类主观判断高度相关,可作为诊断真实世界图像转换系统内容一致性与模型性能的实用工具。

图像生成论文/研究评测/基准
09:42
向阳乔木@vista8
32
这项目有意思,让由 20 不同大模型开发相同的UI组件。 看出来的效果有什么不同。 比如GPT-5.5 用文字有点多,感觉还是Opus 4.7好点。 网址见评论
开源生态评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
49
STALE:LLM智能体能知道自己的记忆何时失效吗?

研究揭示了LLM智能体长期记忆中的“隐性冲突”缺陷,即新证据在不明确否定的情况下使旧记忆失效。为此,研究者构建了STALE基准,包含400个冲突场景与1200个查询,从状态解析、前提抵抗和隐性策略适应三个维度进行评估。系统测试表明,前沿模型在根据更新证据行动上存在普遍差距,最佳模型准确率仅55.2%。研究进一步提出了CUPMem原型,通过结构化状态整合加强写入时修订,为构建状态感知的鲁棒记忆提供了初步基线。

智能体推理论文/研究评测/基准
06:03
Artificial Analysis@ArtificialAnlys
63
Artificial Analysis宣布与Harvey合作,共同推出法律AI代理评估基准(LAB)。该基准以"代理原生"理念设计,旨在定义2026年AI在法律领域的工作贡献,涵盖24个实践领域、共计1200项代理任务。LAB与Artificial Analysis对卓越代理评估的愿景高度一致,双方将通过此次合作持续追踪和分析代理在基准上的性能表现,以推动AI在法律应用中的进一步发展。

Gabe Pereyra: http://x.com/i/article/2051782974098886656

智能体评测/基准
02:04
Rohan Paul@rohanpaul_ai
68
开源工具iFixAi旨在量化评估AI代理的可靠性

开源测试套件iFixAi通过模拟真实产品场景的测试夹具,为AI代理在部署前提供可重复、标准化的可靠性评估。它在五大风险类别下运行32项检查,评估模型是否捏造事实、遵循不安全指令、无故更改答案、隐藏不确定性或在措辞微调时行为不一致。其核心价值在于可重复性,能完整保存模型、提示词、评判标准和输入,确保不同工程师可复现相同结果。该工具主要目标并非证明AI绝对安全,而是用于捕捉性能退化、公平比较不同供应商模型,并为合规团队提供基于证据的客观报告。

CyrilXBT: http://x.com/i/article/2052027135619919876

安全/对齐开源/仓库评测/基准
01:06
Epoch AI@EpochAIResearch
70
我们正在推出领域特定能力评分,使用与通用ECI相同的量表,追踪模型在软件工程和数学基准测试中的能力。我们还支持用户自定义创建ECI变体。链接如下!
推理编码评测/基准
5月6日
23:00
Chubby♨️@kimmonismus
49
Claude Mythos与GPT-5.5能力相近,未现性能飞跃

一篇关于Claude Mythos和GPT-5.5的分析文章指出,两者在网络安全能力上基本持平,GPT-5.5可能更具成本效益。Mythos在部分通用基准和SWE-bench Pro上略微领先,但并未形成显著的能力突破。分析认为Mythos的性能符合既往趋势,并非偏离趋势的巨大飞跃。与此同时,OpenAI近期发布了多项出色产品,这反衬出Claude Mythos为何仍保持高度保密状态。

Matthew Barnett: New post from @natalia__coelho on Mythos. She analyzes its capabilities using publicly reported benchmark results to det...

AnthropicOpenAI推理编码
18:07
Xiaomi MiMo@XiaomiMiMo
59
MiMo V2.5 🥰🥰 【引用 @Designarena】:突发:小米MiMo-V2.5在设计竞技场开放权重模型中综合排名第六! 其Elo评分为1297,与@Kimi_Moonshot的Kimi K2.5(思考版)处于同一性能区间。 祝贺@XiaomiMiMo团队发布成功!

Design Arena: BREAKING: MiMo-V2.5 by @Xiaomi is #6 overall out of open weight models on Design Arena! This has an Elo of 1297 and is i...

开源/仓库模型发布评测/基准
17:22
Hugging Face:Blog(RSS)
47
Open ASR 排行榜引入私有数据集以对抗基准过度优化

Hugging Face 的 Open ASR Leaderboard 加入了来自 Appen Inc. 和 DataoceanAI 的高质量私有英语 ASR 数据集,涵盖多种口音及脚本式/会话式语音,总时长约 28.7 小时。数据集保持私有以降低 benchmaxxing(针对基准的过度优化)或测试集污染风险。默认平均 WER 仍基于公开数据集计算,用户可通过切换查看私有数据集影响。标准化采用基于 Whisper 的标准化器,UI 代码和评估脚本已开源。自 2023 年 9 月上线以来,该榜单访问量已超过 71 万次。

Hugging Face产品更新开源/仓库评测/基准
12:20
HuggingFace Daily Papers(社区热门论文)
58
PatRe:一个用于专利审查的全周期审查意见与答复生成基准

针对现有基准将专利审查简化为分类或静态抽取的局限,本文提出了PatRe,首个模拟完整专利审查生命周期(包括审查意见生成与申请人答复)的基准。它包含480个真实案例,支持基于标准答案和检索模拟两种评估设置。研究通过多类大语言模型的实验发现,专有与开源模型性能存在差异,且审查员分析与申请人答复任务间存在不对称性。这些结果揭示了LLMs在模拟专利审查中复杂的法律推理与技术新颖性判断时,兼具潜力与当前局限。相关代码与数据集已开源。

arXiv论文/研究评测/基准
10:26
Jeff Dean@JeffDean
50
Databricks和Perplexity AI联合创始人、Laude Institute创始人Andy Konwinski将于本月晚些时候在首届CAISconf上发表主题演讲。Laude Institute秉持"交付你的研究"使命,通过Moonshots、Slingshots和Open Frontier等项目资助开源AI研究。其支持的智能体基准Terminal-Bench在推出126天后即被列入Anthropic的Claude 4模型卡,并已成为衡量命令行性能的行业标准。CAISconf会议定于5月26日至29日在圣何塞举行。

ACM Conference on AI and Agentic Systems: 📢Keynote announcement: @andykonwinski (Andy Konwinski), co-founder of Databricks and Perplexity AI, founder of @LaudeIn...

开源生态行业动态评测/基准
10:20
HuggingFace Daily Papers(社区热门论文)
66
Workspace-Bench 1.0:针对具有大规模文件依赖的工作空间任务的AI智能体基准测试

本文提出了Workspace-Bench 1.0基准,用于评估AI智能体在需要处理大规模异构文件依赖的真实工作空间任务中的能力。该基准构建了包含5类工作者档案、74种文件类型、超2万个文件(最大20GB)的模拟工作空间,并设计了388项附带文件依赖图的任务,总计7399个评分项,要求智能体进行跨文件检索、上下文推理与自适应决策。同时提供的精简版Workspace-Bench-Lite(100项任务)可将评估成本降低约70%。对4种主流智能体框架和7个基础模型的测试表明,最佳智能体得分仅为68.7%,远低于人类表现的80.7%,平均表现仅47.4%,揭示出现有AI在此类任务上仍远未达到可靠水平。

智能体论文/研究评测/基准
07:33
Ethan Mollick@emollick
66
所有基准测试都有缺陷,但GPQA一直相当稳定且与其他测量基准高度相关。我认为这是一个很好的方式来看我们已经走了多远,OpenAI的免费模型GPT 5.5 Instant已经达到了甚至付费模型直到2025年底才达到的水平
OpenAI大佬观点评测/基准
04:31
Epoch AI@EpochAIResearch
49
"经典"推理基准的配方很简单:纯文本、数小时的时间跨度、易于评分,并带有专家人类基线。 接下来呢?在本周的Gradient Update中,@GregHBurnham 认为只需舍弃这四种成分之一即可。
现象/趋势评测/基准
03:57
Rohan Paul@rohanpaul_ai
68
GPT-5.5 与 Opus 4.7 在 ARC-AGI-3 上的得分低于 1%
AnthropicOpenAI推理评测/基准
02:57
Artificial Analysis@ArtificialAnlys
58
MiniMax-M2.7模型在六大推理服务商上线,速度与价格差异显著

MiniMax-M2.7模型已在六家推理服务商上线,各提供商在速度和价格上差异明显。SambaNovaAI以每秒435个输出令牌的速度领先,比其他提供商快3倍以上,但其价格也高出约2倍。FireworksAI、Novita Labs等四家则与MiniMax官方API定价持平。分析指出,Fireworks和SambaNova在速度与价格的权衡中处于帕累托前沿:前者性价比高,后者则以高价换取极致速度。此外,各家的高速缓存折扣政策不同,这对缓存密集型工作负载的成本影响显著。因此,最优选择高度依赖于具体工作负载对延迟和成本的敏感度。

推理评测/基准部署/工程
5月5日
23:56
Luma@LumaLabsAI
71
Luma Labs 推出的 UNI-1.1-Max 和 UNI-1.1 多模态模型在 Image Arena 的文本生成图像与图像编辑综合排名中位列第三,且未采用智能体搜索技术。具体来看,在文本生成图像竞技场中,两款模型分别排名第六和第七;在多图像编辑和单图像编辑竞技场中,它们均进入前十一名,其中 UNI-1.1-Max 在单图像编辑中排名第七。这一成绩标志着 Luma Labs 在多模态前沿领域取得了扎实进展。

Arena.ai: Exciting news: UNI-1.1-Max and UNI-1.1 debuts making @LumaLabsAI the #3 lab in the Image Arena across both Text-to-Image...

图像生成模型发布评测/基准
23:25
Deedy@deedydas
62
SWE-Bench 的创建者刚刚发布了一个非常简单的新基准测试,所有 LLM 都得 0 分。 ProgramBench 提出的问题是:模型能否在没有互联网的情况下从零开始重建真实可执行程序(ffmpeg、SQLite、ripgrep)? 我们在模型质量上还远未饱和。
推理编码评测/基准
11:25
OpenRouter@OpenRouter
精选65
我们分析了GPT 5.5与GPT 5.4,发现成本增加了49-92%。 GPT 5.5价格翻倍的影响因模型生成长提示时补全令牌减少了19-34%而有所缓解。 更多分析请见:https://openrouter.ai/announcements/gpt55-cost-analysis
OpenAI评测/基准

推荐理由:OpenRouter 拆解了 GPT 5.5 的实际成本,49-92% 的涨价被输出 token 减少部分抵消,用 API 的人必须算的一笔账。
11:17
HuggingFace Daily Papers(社区热门论文)
69
AcademiClaw:当学生为AI智能体设定挑战

研究团队推出AcademiClaw双语基准测试集,包含80项源自大学生真实学术流程的复杂长周期任务,涵盖作业、研究、竞赛等。任务经专家从230份提交中筛选,覆盖超过25个专业领域,包括奥数、语言学、GPU密集型强化学习等,其中16项需CUDA GPU执行。每项任务在隔离Docker环境中运行,采用多维评分与独立安全审计进行评估。对六个前沿模型的测试显示,最佳通过率仅为55%,分析揭示了模型在不同领域的能力边界差异、行为策略分化及令牌消耗与输出质量脱节等问题。该基准开源以推动AI智能体更好地满足真实学术需求。

智能体开源/仓库论文/研究评测/基准
08:16
Simon Willison 博客
44
Granite 4.1 3B模型SVG鹈鹕图集

IBM近日发布了采用Apache 2.0许可证的Granite 4.1大语言模型系列。随后,Unsloth提供了该系列3B模型的21个GGUF量化变体。作者利用这些大小从1.2GB到6.34GB不等的量化模型,尝试生成“鹈鹕骑自行车”的SVG图像以测试其能力。实验结果显示,所有模型生成的图像质量均较差,且未观察到模型大小与输出质量之间存在明显关联。基于此次不理想的尝试,作者表示未来将选用更擅长图像生成的模型重新进行此类实验。

图像生成开源生态评测/基准
08:14
Berryxia.AI@berryxia
58
Grok 4.3近期在Vals AI的私有基准测试中,于法律和金融领域展现出领先的智能推理能力。其在针对真实加拿大法庭案例的CaseLaw (v2)测试中,以79.31%的准确率超越GPT-5.1;在基于复杂多页信贷协议的CorpFin (v2)测试中,准确率达68.53%。这些测试聚焦深度法律推理与金融合同理解等高难度现实任务,结果表明Grok 4.3在真实世界高风险领域的卓越性能,印证了xAI致力于构建世界级推理引擎的目标。

X Freeze: Grok 4.3 just became the smartest AI in the world at law and money It took #1 on TWO brutal private tests no other model...

OpenAIxAI推理评测/基准
05:25
SemiAnalysis@SemiAnalysis_
精选71
GB300 NVL72实测性能达GB200的2.7倍,凸显端到端实测价值

在行业标准推理引擎vLLM上的测试显示,NVIDIA GB300 NVL72的实测端到端性能已达GB200 NVL72的2.7倍。尽管其纸面参数仅显示NVFP4算力提升约1.5倍、HBM容量增加1.5倍且带宽相同,但在大多数服务商实际运行的中段负载区间,凭借全栈优化的复合增益,GB300实现了远超理论算力提升的性能飞跃。此次测试基于NVIDIA、Inferact和CoreWeave为开源项目提供的临时GB300系统完成,结果印证了端到端实测性能才是衡量硬件效能的黄金标准,而非单纯的纸面理论算力。

推理评测/基准部署/工程

推荐理由:纸面 FP4 算力只多 50% 的 GB300,实际推理却快了 2.7 倍,全栈优化的复合增益比参数表好看太多,做推理服务的该重新算算 TCO 了。
04:57
swyx 🇸🇬@swyx
61
看到很多人说Opus 4.7相比4.6是净退步,但这似乎只是些个例。 离线和在线评估都指向明确的进步。 那是什么没被捕捉到呢?"个性"吗?
Anthropic大佬观点评测/基准
03:18
Artificial Analysis@ArtificialAnlys
69
一款新的匿名模型在Artificial Analysis文本转图像竞技场中首次亮相,位列第8!Peanut的权重预计即将发布,这将使其成为领先的文本转图像开源权重模型。 Peanut定位为新的领先开源权重文本转图像模型,超越了Z-Image Turbo、Qwen-Image和FLUX.2 【dev】。 更多详细信息(及权重)即将公布。 查看下方🧵中Artificial Analysis图像竞技场里Peanut的生成示例。
图像生成开源/仓库模型发布评测/基准
00:45
Elon Musk@elonmusk
41
在"Vals AI"的私人基准测试中,Grok 4.3在法律和金融领域展现出领先的智能水平。它在CaseLaw (v2)测试中以79.31%的准确率排名第一,该测试基于真实加拿大法庭案例,评估深度法律推理和先例理解能力,表现优于GPT-5.1。同时,它在针对复杂长期信贷协议的CorpFin (v2)测试中以68.53%的准确率夺冠,评估了对多页金融合同条款、风险的理解。这些模拟高风险现实挑战的测试表明,Grok 4.3在最困难的任务中具备卓越的推理能力。xAI正致力于构建世界所需的推理引擎。

X Freeze: Grok 4.3 just became the smartest AI in the world at law and money It took #1 on TWO brutal private tests no other model...

xAI推理评测/基准
00:26
Epoch AI@EpochAIResearch
46
探讨AI基准测试的困境与未来方向

针对“AI基准测试是否已失效”的悲观论调,讨论者进行了反驳,并深入探讨下一代AI基准测试的可能形态。核心议题包括基准测试开发的成本与收益、可扩展基准(如MirrorCode)的构建、AI技术对基准开发本身的加速作用,以及当前基准测试与现实应用能力之间存在的差距。对话还触及了构建通用人工智能(AGI)基准的可行性,并展望了超越自动化评分的更全面评估方法。

数据/训练评测/基准
5月4日
23:48
Chubby♨️@kimmonismus
62
初创公司Video Rebirth的文本生成视频模型Bach-1.0 Preview在Artificial Analysis的全球AI视频排行榜上首次亮相即位列第六。其性能与Vidu Q3 Pro、Kling 3.0 Omni 1080p (Pro)及grok-imagine-video等知名模型相当。该模型计划于五月下旬广泛发布。

Artificial Analysis: Bach-1.0 Preview from Video Rebirth debuts at #6 on the Artificial Analysis Text to Video Leaderboard (No Audio)! Bach-1...

模型发布视频评测/基准
5月3日
19:21
Ethan Mollick@emollick
57
对前沿智能体在较长任务上的性能进行基准测试正变得越来越困难。重复测量的成本非常高,而且使用受控框架中的模型与通过API使用模型之间存在差异。 我怀疑基准测试低估了进展,它们是为模型设计的,而非为受控智能体。
智能体大佬观点现象/趋势评测/基准
16:21
The Decoder:AI News(RSS)
54
美国政府基准测试称中国在AI竞赛中落后,但独立数据并不支持

美国政府机构评估称中国在人工智能竞赛中落后八个月,但独立数据并未证实这一差距。当前美国实验室持续追求更智能的模型,而中国玩家如深度求索(Deepseek)等提供的价格优势可能成为更关键的竞争筹码。这场竞赛的衡量标准正从单纯的技术指标扩展到包括成本效益在内的综合维度。

DeepSeek现象/趋势评测/基准
15:21
The Decoder:AI News(RSS)
41
Same prompt, different morals: 前沿AI模型在伦理困境上的分歧

一项新基准测试让领先的语言模型处理100个日常伦理场景,涵盖从销售数据滥用到肿瘤学违规操作等领域。测试结果显示,不同前沿模型对相同伦理提示给出了差异显著的回应。这引出了一个核心问题:究竟由谁来决定AI被允许做什么,以及它应遵循谁的伦理准则?该基准旨在揭示和量化主流AI系统在道德判断上的不一致性。

安全/对齐评测/基准
13:49
Hacker News 热门(buzzing.cc 中文翻译)
43
Kimi K2.6 刚刚在一场编程挑战赛中击败了 Claude、GPT-5.5 和 Gemini

Kimi K2.6在编程挑战赛中击败了Claude、GPT-5.5和Gemini。该模型是一款开源的中国AI模型,在HumanEval编程基准测试中取得了92.7%的准确率,超越了GPT-5.5的92.2%和Claude 3.5 Sonnet的90.2%。其上下文长度扩展至128K tokens,并采用了MoE架构。此次表现标志着开源模型在编程能力上首次超越主流闭源模型。

开源/仓库编码评测/基准
06:17
Eric@ericmitchellai
50
用户通过对比GPT-5.4和GPT-5.5的教学效果,指出两者在解释概念时存在关键差异。GPT-5.4倾向于先阐述概念,再让学习者回溯关联标签,增加了认知负担。而GPT-5.5采用更清晰的方式:先给出明确标签(如"导数"),再立即附上概念解释(如"描述变化速率")。这种"标签优先"的结构使解释流畅连贯,无需大脑反复回溯重组信息,从而在长期教学对话中能更好地维持学习者的注意力。

Chris: This helped me appreciate GPT-5.5 vs 5.4 even more. "Explain, calculus, short and sweet" I've been testing educational p...

OpenAI评测/基准
5月2日
21:50
The Decoder:AI News(RSS)
53
ARC-AGI-3 分析显示,即便是最新 AI 模型仍存在三种系统性推理错误

ARC Prize Foundation 对 OpenAI 的 GPT-5.5 和 Anthropic 的 Opus 4.7 在 ARC-AGI-3 基准测试中的 160 次任务运行进行了分析。研究发现,三种系统性错误模式导致这两个模型在人类能轻松解决的任务上得分均低于 1%。这些错误揭示了当前顶尖大语言模型在抽象推理能力上仍存在根本性缺陷。

AnthropicOpenAI推理评测/基准
‹ 上一页
1…1516171819…22
下一页 ›