5月8日

06:05

Orange AI@oran_ge

GPT Image 2.0模型发布后持续展现惊人能力，无需参考图即可根据名称或IP生成高质量内容，尤其在二次元画风上表现卓越，被社区认为远超Banana 2等模型。Labnana社区现已将GPT Image 2.0的免费体验作为长期福利，用户通过签到和邀请获取积分即可基本满足使用需求。

OpenAI 图像生成评测/基准

01:22

HuggingFace Daily Papers（社区热门论文）

评估智能体创造性推理：基于可供性的工具重新利用基准CreativityBench

研究团队推出CreativityBench基准，以评估大语言模型基于物体可供性和属性进行创造性工具重新利用的能力。该基准基于一个包含4000个实体和超15万条标注的大规模知识库，生成了1.4万个需识别非显而易见但物理可行解决方案的落地任务。对10个前沿模型的评估表明，模型虽常能选择合理物体，但在识别正确部件、其可供性及所需物理机制方面存在显著困难，导致性能大幅下降。模型规模扩大带来的改进很快饱和，通用推理能力与思维链等策略均未能有效提升创造性可供性发现，凸显该能力仍是当前模型的主要挑战。

智能体推理论文/研究评测/基准

00:41

TestingCatalog News 🗞@testingcatalog

Scale AI发布了SWE Atlas重构排行榜，这是一个评估智能体重构代码能力的新基准。 > 它要求智能体生成的代码行数是SWE Bench Pro的两倍。 > Claude Code with Opus 4.7位居榜首，其次是Codex with GPT-5.5、GPT-5.4和GPT-5.3。 > 重构对大型语言模型而言是相当重要的任务，因为这通常归结为相当枯燥的工程工作。

Anthropic 编码评测/基准

5月7日

23:36

elvis@omarsar0

当前AI智能体（Agent）构建门槛降低，其质量差异的核心在于能否进行恰当的评估。真正的挑战在于生产环境中可能出现的"静默漂移"--即使通过所有测试，系统质量仍可能在无报错的情况下悄然下降。解决方案并非加强部署前测试，而是建立持续评估机制。这已成为区分AI系统优劣的关键技能。

n8n.io: Your AI workflow passed every test. Two weeks later, quality drops. No errors. Just silent drift. The fix isn't more pre...

智能体大佬观点评测/基准

23:22

HuggingFace Daily Papers（社区热门论文）

SWE-WebDevBench：将编码智能体应用平台作为虚拟软件机构进行评估

研究团队推出SWE-WebDev Bench评估框架，从交互模式、机构角色和复杂度三个维度，通过68个指标系统性评估AI驱动的“氛围编码”平台。在6个平台、3个领域、18个评估单元上的测试揭示了当前AI应用构建器的四大普遍缺陷：存在将丰富业务需求过度简化的“规范瓶颈”；普遍存在前端与后端脱节，精美UI常掩盖缺失或故障的后端；生产就绪度陡降，工程质量得分无平台超过60%，且人工后期工作量差异大；安全与基础设施问题广泛，安全得分无平台超过65%，并发处理能力低至6%。该基准已开源以推动复现并帮助平台改进。

智能体编码论文/研究评测/基准

21:43

向阳乔木@vista8

评测显示Opus 4.6用户体验优于后续版本4.7

根据@lyricwai的llmsnare基准测试及Base44的“挫败指数”排名，Anthropic的Opus 4.6模型以1.3的指数位居榜首，显示其用户满意度最高，甚至超越了其后续版本Opus 4.7（指数1.5）。Sonnet 4.6以1.4位列第二。该测试每日消耗近100美元，结论表明新版模型在关键用户体验指标上可能出现倒退。

Anthropic 推理评测/基准