GPT Image 2.0模型发布后持续展现惊人能力,无需参考图即可根据名称或IP生成高质量内容,尤其在二次元画风上表现卓越,被社区认为远超Banana 2等模型。Labnana社区现已将GPT Image 2.0的免费体验作为长期福利,用户通过签到和邀请获取积分即可基本满足使用需求。
GPT Image 2.0模型发布后持续展现惊人能力,无需参考图即可根据名称或IP生成高质量内容,尤其在二次元画风上表现卓越,被社区认为远超Banana 2等模型。Labnana社区现已将GPT Image 2.0的免费体验作为长期福利,用户通过签到和邀请获取积分即可基本满足使用需求。
研究团队推出CreativityBench基准,以评估大语言模型基于物体可供性和属性进行创造性工具重新利用的能力。该基准基于一个包含4000个实体和超15万条标注的大规模知识库,生成了1.4万个需识别非显而易见但物理可行解决方案的落地任务。对10个前沿模型的评估表明,模型虽常能选择合理物体,但在识别正确部件、其可供性及所需物理机制方面存在显著困难,导致性能大幅下降。模型规模扩大带来的改进很快饱和,通用推理能力与思维链等策略均未能有效提升创造性可供性发现,凸显该能力仍是当前模型的主要挑战。
Your AI workflow passed every test. Two weeks later, quality drops. No errors. Just silent drift. The fix isn't more pre...
研究团队推出SWE-WebDev Bench评估框架,从交互模式、机构角色和复杂度三个维度,通过68个指标系统性评估AI驱动的“氛围编码”平台。在6个平台、3个领域、18个评估单元上的测试揭示了当前AI应用构建器的四大普遍缺陷:存在将丰富业务需求过度简化的“规范瓶颈”;普遍存在前端与后端脱节,精美UI常掩盖缺失或故障的后端;生产就绪度陡降,工程质量得分无平台超过60%,且人工后期工作量差异大;安全与基础设施问题广泛,安全得分无平台超过65%,并发处理能力低至6%。该基准已开源以推动复现并帮助平台改进。
根据@lyricwai的llmsnare基准测试及Base44的“挫败指数”排名,Anthropic的Opus 4.6模型以1.3的指数位居榜首,显示其用户满意度最高,甚至超越了其后续版本Opus 4.7(指数1.5)。Sonnet 4.6以1.4位列第二。该测试每日消耗近100美元,结论表明新版模型在关键用户体验指标上可能出现倒退。
针对现有评估方法在图像到图像转换任务中忽视内容保真度与前后一致性的问题,研究团队提出了StableI2I。这是一个无需参考图像的动态评估框架,能在图像编辑、修复等多种任务中量化语义对应与空间结构的保持程度。团队同时构建了配套基准StableI2I-Bench,用于系统评估多模态大模型在此类判断任务上的准确性。实验表明,该框架能提供精细、可解释的评估结果,且与人类主观判断高度相关,可作为诊断真实世界图像转换系统内容一致性与模型性能的实用工具。
研究揭示了LLM智能体长期记忆中的“隐性冲突”缺陷,即新证据在不明确否定的情况下使旧记忆失效。为此,研究者构建了STALE基准,包含400个冲突场景与1200个查询,从状态解析、前提抵抗和隐性策略适应三个维度进行评估。系统测试表明,前沿模型在根据更新证据行动上存在普遍差距,最佳模型准确率仅55.2%。研究进一步提出了CUPMem原型,通过结构化状态整合加强写入时修订,为构建状态感知的鲁棒记忆提供了初步基线。
http://x.com/i/article/2051782974098886656
开源测试套件iFixAi通过模拟真实产品场景的测试夹具,为AI代理在部署前提供可重复、标准化的可靠性评估。它在五大风险类别下运行32项检查,评估模型是否捏造事实、遵循不安全指令、无故更改答案、隐藏不确定性或在措辞微调时行为不一致。其核心价值在于可重复性,能完整保存模型、提示词、评判标准和输入,确保不同工程师可复现相同结果。该工具主要目标并非证明AI绝对安全,而是用于捕捉性能退化、公平比较不同供应商模型,并为合规团队提供基于证据的客观报告。
http://x.com/i/article/2052027135619919876
一篇关于Claude Mythos和GPT-5.5的分析文章指出,两者在网络安全能力上基本持平,GPT-5.5可能更具成本效益。Mythos在部分通用基准和SWE-bench Pro上略微领先,但并未形成显著的能力突破。分析认为Mythos的性能符合既往趋势,并非偏离趋势的巨大飞跃。与此同时,OpenAI近期发布了多项出色产品,这反衬出Claude Mythos为何仍保持高度保密状态。
New post from @natalia__coelho on Mythos. She analyzes its capabilities using publicly reported benchmark results to det...
BREAKING: MiMo-V2.5 by @Xiaomi is #6 overall out of open weight models on Design Arena! This has an Elo of 1297 and is i...
Hugging Face 的 Open ASR Leaderboard 加入了来自 Appen Inc. 和 DataoceanAI 的高质量私有英语 ASR 数据集,涵盖多种口音及脚本式/会话式语音,总时长约 28.7 小时。数据集保持私有以降低 benchmaxxing(针对基准的过度优化)或测试集污染风险。默认平均 WER 仍基于公开数据集计算,用户可通过切换查看私有数据集影响。标准化采用基于 Whisper 的标准化器,UI 代码和评估脚本已开源。自 2023 年 9 月上线以来,该榜单访问量已超过 71 万次。
针对现有基准将专利审查简化为分类或静态抽取的局限,本文提出了PatRe,首个模拟完整专利审查生命周期(包括审查意见生成与申请人答复)的基准。它包含480个真实案例,支持基于标准答案和检索模拟两种评估设置。研究通过多类大语言模型的实验发现,专有与开源模型性能存在差异,且审查员分析与申请人答复任务间存在不对称性。这些结果揭示了LLMs在模拟专利审查中复杂的法律推理与技术新颖性判断时,兼具潜力与当前局限。相关代码与数据集已开源。
📢Keynote announcement: @andykonwinski (Andy Konwinski), co-founder of Databricks and Perplexity AI, founder of @LaudeIn...
本文提出了Workspace-Bench 1.0基准,用于评估AI智能体在需要处理大规模异构文件依赖的真实工作空间任务中的能力。该基准构建了包含5类工作者档案、74种文件类型、超2万个文件(最大20GB)的模拟工作空间,并设计了388项附带文件依赖图的任务,总计7399个评分项,要求智能体进行跨文件检索、上下文推理与自适应决策。同时提供的精简版Workspace-Bench-Lite(100项任务)可将评估成本降低约70%。对4种主流智能体框架和7个基础模型的测试表明,最佳智能体得分仅为68.7%,远低于人类表现的80.7%,平均表现仅47.4%,揭示出现有AI在此类任务上仍远未达到可靠水平。
MiniMax-M2.7模型已在六家推理服务商上线,各提供商在速度和价格上差异明显。SambaNovaAI以每秒435个输出令牌的速度领先,比其他提供商快3倍以上,但其价格也高出约2倍。FireworksAI、Novita Labs等四家则与MiniMax官方API定价持平。分析指出,Fireworks和SambaNova在速度与价格的权衡中处于帕累托前沿:前者性价比高,后者则以高价换取极致速度。此外,各家的高速缓存折扣政策不同,这对缓存密集型工作负载的成本影响显著。因此,最优选择高度依赖于具体工作负载对延迟和成本的敏感度。
Exciting news: UNI-1.1-Max and UNI-1.1 debuts making @LumaLabsAI the #3 lab in the Image Arena across both Text-to-Image...
研究团队推出AcademiClaw双语基准测试集,包含80项源自大学生真实学术流程的复杂长周期任务,涵盖作业、研究、竞赛等。任务经专家从230份提交中筛选,覆盖超过25个专业领域,包括奥数、语言学、GPU密集型强化学习等,其中16项需CUDA GPU执行。每项任务在隔离Docker环境中运行,采用多维评分与独立安全审计进行评估。对六个前沿模型的测试显示,最佳通过率仅为55%,分析揭示了模型在不同领域的能力边界差异、行为策略分化及令牌消耗与输出质量脱节等问题。该基准开源以推动AI智能体更好地满足真实学术需求。
IBM近日发布了采用Apache 2.0许可证的Granite 4.1大语言模型系列。随后,Unsloth提供了该系列3B模型的21个GGUF量化变体。作者利用这些大小从1.2GB到6.34GB不等的量化模型,尝试生成“鹈鹕骑自行车”的SVG图像以测试其能力。实验结果显示,所有模型生成的图像质量均较差,且未观察到模型大小与输出质量之间存在明显关联。基于此次不理想的尝试,作者表示未来将选用更擅长图像生成的模型重新进行此类实验。
Grok 4.3 just became the smartest AI in the world at law and money It took #1 on TWO brutal private tests no other model...
在行业标准推理引擎vLLM上的测试显示,NVIDIA GB300 NVL72的实测端到端性能已达GB200 NVL72的2.7倍。尽管其纸面参数仅显示NVFP4算力提升约1.5倍、HBM容量增加1.5倍且带宽相同,但在大多数服务商实际运行的中段负载区间,凭借全栈优化的复合增益,GB300实现了远超理论算力提升的性能飞跃。此次测试基于NVIDIA、Inferact和CoreWeave为开源项目提供的临时GB300系统完成,结果印证了端到端实测性能才是衡量硬件效能的黄金标准,而非单纯的纸面理论算力。
Grok 4.3 just became the smartest AI in the world at law and money It took #1 on TWO brutal private tests no other model...
针对“AI基准测试是否已失效”的悲观论调,讨论者进行了反驳,并深入探讨下一代AI基准测试的可能形态。核心议题包括基准测试开发的成本与收益、可扩展基准(如MirrorCode)的构建、AI技术对基准开发本身的加速作用,以及当前基准测试与现实应用能力之间存在的差距。对话还触及了构建通用人工智能(AGI)基准的可行性,并展望了超越自动化评分的更全面评估方法。
Bach-1.0 Preview from Video Rebirth debuts at #6 on the Artificial Analysis Text to Video Leaderboard (No Audio)! Bach-1...
美国政府机构评估称中国在人工智能竞赛中落后八个月,但独立数据并未证实这一差距。当前美国实验室持续追求更智能的模型,而中国玩家如深度求索(Deepseek)等提供的价格优势可能成为更关键的竞争筹码。这场竞赛的衡量标准正从单纯的技术指标扩展到包括成本效益在内的综合维度。
一项新基准测试让领先的语言模型处理100个日常伦理场景,涵盖从销售数据滥用到肿瘤学违规操作等领域。测试结果显示,不同前沿模型对相同伦理提示给出了差异显著的回应。这引出了一个核心问题:究竟由谁来决定AI被允许做什么,以及它应遵循谁的伦理准则?该基准旨在揭示和量化主流AI系统在道德判断上的不一致性。
Kimi K2.6在编程挑战赛中击败了Claude、GPT-5.5和Gemini。该模型是一款开源的中国AI模型,在HumanEval编程基准测试中取得了92.7%的准确率,超越了GPT-5.5的92.2%和Claude 3.5 Sonnet的90.2%。其上下文长度扩展至128K tokens,并采用了MoE架构。此次表现标志着开源模型在编程能力上首次超越主流闭源模型。
This helped me appreciate GPT-5.5 vs 5.4 even more. "Explain, calculus, short and sweet" I've been testing educational p...
ARC Prize Foundation 对 OpenAI 的 GPT-5.5 和 Anthropic 的 Opus 4.7 在 ARC-AGI-3 基准测试中的 160 次任务运行进行了分析。研究发现,三种系统性错误模式导致这两个模型在人类能轻松解决的任务上得分均低于 1%。这些错误揭示了当前顶尖大语言模型在抽象推理能力上仍存在根本性缺陷。