AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「评测/基准」清除
6月11日周四
00:44Chubby♨️43Fable 5一次性生成类似晨风风格的游戏
6月10日周三
22:08Berryxia.AI48四款模型对比,Google仍用去年模型
18:46MarkTechPost(RSS)532026 年顶级 AI 编程智能体与开发平台对比:Atoms、Devin、Windsurf、Cursor、Warp 等
17:11Chubby♨️53Fable 5 在 three.js 中展示惊人能力
12:20歸藏(guizang.ai)49Fable 5 漏洞分析强但写代码偏科
11:31数字生命卡兹克83Anthropic发布Claude Fable 5与Mythos 5:安全版免费至6月22日,价格公布
10:56HuggingFace Daily Papers(社区热门论文)65Workflow-GYM:面向真实世界专业领域长周期GUI智能体任务的基准
10:20歸藏(guizang.ai)21Fable 5 在 26万行 CodePilot 代码库中测试
09:17meng shao53对比Claude Fable 5与Step 3.7 Flash价格及实际任务演示
08:25karminski-牙医64Anthropic Fable 5 测试:光追代码出现变量声明错误
08:20Simon Willison 博客67Claude Fable 5 初步印象:容量更大、知识更丰富但速度慢价格高
08:07Berryxia.AI51Fable 5 一周测评:不如 Opus 和 GPT 实用
08:00HuggingFace Daily Papers(社区热门论文)62MedMisBench:大语言模型在误导性医学上下文下的认知韧性评估
08:00HuggingFace Daily Papers(社区热门论文)50SciAgentArena:评估AI智能体应对跨尺度科学挑战的基准测试
08:00HuggingFace Daily Papers(社区热门论文)56重新思考LLM心理测量评估:自我报告何时及为何能预测行为
07:07Berryxia.AI62Matthew Berman 一周实测 Fable(Mythos):下一代模型但怪癖明显
06:06Orange AI74今天 Claude Fable 5 正式上线,基于 Mythos 的底座,但增加了安全护栏。
05:55HuggingFace Daily Papers(社区热门论文)76精选精确性不等于忠实度:完整Oracle下的覆盖感知接地生成评估
05:52Artificial Analysis67HiDream O1-Image-1.5 在 Artificial Analysis 文生图排行榜中位列第三,超越 Google Nano Banana 2
04:43TechCrunch:AI(RSS)72同事件精选Anthropic 的 Claude Fable 5 能一键生成古怪好玩的视频游戏同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
03:55Hugging Face:Blog(RSS)67精选Hugging Face 博客发布语音智能体代码切换基准测试
02:51Artificial Analysis61Artificial Analysis 将于6月11日举办编程智能体基准测试活动
02:11Nathan Lambert63Claude Fable 5 在 APEX-SWE 评测中夺冠,Observability 类别首破 50%
01:38swyx70Mythos上线:FrontierCode基准测试发布
01:37Chubby♨️78Claude 5 Fable 基准跃升至 Mythos
01:19Yuchen Jin71Claude Fable 5 全面领先,价格仅 Opus 4.8 两倍
00:46AK56SWE-Explore:编码智能体仓库探索
00:16AK51SpatialWorld:多模态智能体空间推理基准
6月9日周二
23:38Noam Brown68两年过去,LLM 测试时计算缩放仍被忽视
22:50SemiAnalysis65DeepSeek V4 1.6T 43天性能追踪
20:14Rohan Paul66Cognition 推出 FrontierCode 编码基准:评估 AI 代码的可合并性
12:55HuggingFace Daily Papers(社区热门论文)68评估卡片:AI评估报告的可解读层
10:55HuggingFace Daily Papers(社区热门论文)61SpatialWorld:多模态智能体在真实世界任务中的交互式空间推理基准
10:43meng shao52阶跃星辰 Step 3.7 Flash 完成真实 Coding Agent 任务:将 Agent Memory 痕迹生成本地 HTML 工具
10:33Hacker News 热门(buzzing.cc 中文翻译)71同事件精选FrontierCode 在 Hacker News 获 101 分同一事件,精选展示《FrontierCode 基准测试:AI 编程评估新标准——维护者审核通过率最高仅 13.4%》
09:28AYi77精选FrontierCode 基准测试:AI 编程评估新标准--维护者审核通过率最高仅 13.4%
09:13meng shao72Cognition 推出 FrontierCode 代码评估基准:从可用到可合并
08:00HuggingFace Daily Papers(社区热门论文)52P3D-Bench:面向参数化3D生成与结构推理的多模态大语言模型基准
08:00HuggingFace Daily Papers(社区热门论文)56ComBench:面向奥林匹克级组合数学的推理与构造基准
04:32swyx62Cognition 推出 FrontierCode 编码评估基准,聚焦代码可维护性
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月11日
00:44
Chubby♨️@kimmonismus
43
一个更现实的单次生成游戏的例子。要求Fable 5以《上古卷轴5:晨风》的风格重新创建一个游戏。它一次性生成了任务、货币、战斗、日志和小地图。而且它成功了。
编码评测/基准
6月10日
22:08
Berryxia.AI@berryxia
48
Fable 5 VS Opus 4.8 VS Gemini 3.1 Pro VS GPT 5.5 只有Google 还拿着去年的模型在玩儿~
AnthropicOpenAI评测/基准
18:46
MarkTechPost(RSS)
53
2026 年顶级 AI 编程智能体与开发平台对比:Atoms、Devin、Windsurf、Cursor、Warp 等

软件开发的模式已然改变——工程师不再手动输入大部分代码,而是描述意图,由 AI 智能体规划任务、跨文件编辑、运行测试并提交 Pull Request。许多工具已能在有限监督下直接部署到生产环境。这篇指南对比了 Atoms、Devin、Windsurf、Cursor、Warp 等主流 AI 编码代理与开发平台,帮助开发者选择最适合需求的工具。

智能体编码评测/基准
17:11
Chubby♨️@kimmonismus
53
Matt Shumer 用 Fable 5 在 three.js 中制作了这个,让人不禁期待《上古卷轴6》完全由提示词生成。太疯狂了。

Chubby♨️: So we can expect The Elder Scrolls VI to be fully prompt-generated, right? Matt Shumer made this with Fable 5 in three.j...

多模态评测/基准
12:20
歸藏(guizang.ai)@op7418
49
Fable 5 漏洞分析强但写代码偏科

用户在 26 万行代码的 CodePilot 代码库中测试 Fable 5,发现其在漏洞分析和 bug 寻找方面表现出色,能找出大量问题。但在代码生成上,Fable 5 并非万能,写出的代码常有明显 bug,需要多次修复才能完成,属于偏科严重的模型。与之前的版本 4.8 相比,Fable 5 某些方面提升巨大,另一些方面虽更好但提升有限。

歸藏(guizang.ai): 在我 26 万行代码的 CodePilot 代码库中尝试 Fable 5,看一下它能找出多少问题

推理编码评测/基准
11:31
数字生命卡兹克@Khazix0918
83
Anthropic发布Claude Fable 5与Mythos 5:安全版免费至6月22日,价格公布

Anthropic今日发布Claude Fable 5(加安全限制)与Mythos 5(底层相同),价格每百万输入token $10、输出$50。即日起至6月22日,Pro/Max/Team/企业版订阅用户可免费使用Fable 5,之后仅API可用。跑分全面碾压,三方基准达SOTA。案例:Stripe用Fable 5一天迁移5000万行Ruby代码;纯视觉通关宝可梦火红;自建3D CAD编辑器并设计可打印模型;Mythos 5加速药物设计10倍,基因组学自主训练模型超越Science论文成果。

Anthropic大佬观点安全/对齐编码
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
10:56
HuggingFace Daily Papers(社区热门论文)
65
Workflow-GYM:面向真实世界专业领域长周期GUI智能体任务的基准

Workflow-GYM是专门评估AI智能体在专业领域和专用软件环境下执行长周期GUI任务的基准。实验表明,即使是最强模型,成功率也仅略高于30%,凸显出专业长周期GUI工作流对当前智能体的巨大挑战。进一步分析发现,智能体难以维持工作流一致性,频繁出现阶段遗漏、错误传播、目标漂移以及对专业软件环境理解不足等问题。这些发现揭示了当前智能体的局限性,并为下一代GUI智能体研究指明了关键方向。

智能体arXiv论文/研究评测/基准
10:20
歸藏(guizang.ai)@op7418
21
在我 26 万行代码的 CodePilot 代码库中尝试 Fable 5,看一下它能找出多少问题
编码评测/基准
09:17
meng shao@shao__meng
53
博主对比Claude Fable 5与Step 3.7 Flash官方API价格:输入/输出约50倍,缓存命中输入约100倍;开启Fast Mode(速度×3,价格×6)后分别升至约300倍、300倍、600倍。作为实例,用Step 3.7 Flash完成真实Coding Agent任务:将Agent Memory运行痕迹(含memory events、structured facts、memory chunks等)生成为单文件HTML工具agent_memory_inspector.html,可查看8条事件、9条事实、8个chunk、9/9测试通过等信息,展示了模型将混乱Agent traces转化为可用检查工具的能力。

meng shao: 我这次用 Step 3.7 Flash 测了一个真实 Coding Agent 任务: 把一组 Agent Memory 的运行痕迹,做成本地可检查的 Memory Inspector。 输入不是干净需求文档,是一个已有 Local Age...

智能体Anthropic编码评测/基准
08:25
karminski-牙医@karminski3
64
Anthropic Fable 5 测试:光追代码出现变量声明错误

用户测试 Anthropic Fable 5,使用 xhigh 模式让其从零编写光追渲染器。生成的 PBR 与 BRDF 代码质量出色,但出现变量声明晚于引用的错误,导致代码直接报错。推测模型过度关注核心算法逻辑,忽略了变量声明等细节。此外,成本高昂,仅生成该网页就花费 2 美元。作者调侃 AI 超越人类还为时尚早——因为自己的工资负担不起。

Anthropic编码评测/基准
08:20
Simon Willison 博客
67
Claude Fable 5 初步印象:容量更大、知识更丰富但速度慢价格高

Anthropic 发布 Claude Fable 5 与 Claude Mythos 5,后者无安全分类器。两模型均支持 1M token 上下文窗口、128k 最大输出 token,知识截止至 2026 年 1 月,定价为 Opus 4.5/4.6/4.7/4.8 的两倍($10/百万输入 token,$50/百万输出 token)。Simon Willison 测试发现 Fable 5 知识更丰富、响应更详细(如列出其开源项目远超 Opus 4.8 的准确度),但速度慢且价格高昂,推测为迄今最大模型之一。Anthropic 称 Fable 5 与 Mythos 5 性能相同,但安全护栏更严格,API 新增回退机制及护栏触发通知。

Anthropic模型发布编码评测/基准
08:07
Berryxia.AI@berryxia
51
Fable 5 一周测评:不如 Opus 和 GPT 实用

海外博主 Matthew Berman 对 Fable 5 进行了一周实战测评。结论是 Fable 5 价格高昂,不适合普通 Vibe Coding 场景,仅在专业领域、超长时任务中可能有所发挥。相比之下,Opus 和 GPT 等模型更可靠、更具性价比,建议普通用户优先选择 Opus 和 GPT。

Berryxia.AI: http://x.com/i/article/2064479983104602112

评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
62
MedMisBench:大语言模型在误导性医学上下文下的认知韧性评估

大语言模型在医学考试中已达专家级水平,但MedMisBench基准测试揭示其结构性脆弱:在误导性上下文中,模型平均准确率从原题的71.1%骤降至38.0%,攻击成功率达51.5%。MedMisBench包含10,932道医学题和48,889组误导性上下文–选项对,覆盖医学推理、智能体能力和患者旅程评估。最有效的攻击是权威式虚假陈述(69.5%)和例外投毒声明(64.1%)。来自7国的14名临床医生评审认定38.2%的案例存在严重潜在危害。

安全/对齐论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
50
SciAgentArena:评估AI智能体应对跨尺度科学挑战的基准测试

为填补现有AI智能体在真实科研场景中评估的空白,SciAgentArena被提出,包含约200个跨领域科学任务,支持逐步验证与交互式评估。测试发现,当前AI智能体在任务结构与评价标准明确的特定数据分析流程中能有效发挥作用,但在生成新颖见解、持续自主探索以及为开放式科研问题构建稳健方案方面仍表现不均。该基准为衡量科学领域AI智能体的进展提供了实用框架,相关代码、任务与数据集已开源。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
56
重新思考LLM心理测量评估:自我报告何时及为何能预测行为

本研究对比大五人格与计划行为理论(TPB)在LLM自我报告与行为一致性上的表现。在四项行为任务与11个前沿LLM中,同一对话内TPB达到人类水平一致性,大五不能;跨对话时,仅对训练形成的隐性偏见等行为保持一致性,对上下文启动的谄媚等行为则崩溃;角色提示使自我报告更一致,但不改变行为。结论:粗粒度人格框架(如大五)不适合测试部署行为。

安全/对齐论文/研究评测/基准
07:07
Berryxia.AI@berryxia
62
Matthew Berman 一周实测 Fable(Mythos):下一代模型但怪癖明显

Matthew Berman 一周实测 Fable(Mythos),认为这是真正的下一代模型,但存在明显怪癖。优点:Workflow 模式能瞬间拉起几百个 agent 并行全量代码审查,找出 bug 和边缘 case 的数量是 Claude/GPT 的一倍以上;自主性极强,敢于长时间自主完成超长时域任务。缺点:极度啰嗦、信息密度过高;喜欢反复问澄清问题;速度慢,简单任务五分钟才输出几千 token。建议把 effort level 调到最低。总结:Fable 5 是当前最强模型,适合最复杂的任务,但价格高昂,简单任务不推荐。

智能体推理评测/基准
06:06
Orange AI@oran_ge
74
今天 Claude Fable 5 正式上线,基于 Mythos 的底座,但增加了安全护栏。

Claude Fable 5 基于 Mythos 底座并增加安全护栏,是自 4.5 以来最重大进步。在软件工程、知识工作等基准中领先,任务越复杂优势越明显。价格:输入 10 美金、输出 50 美金、缓存输入 1 美金,长文本一句话可达 10 美金。已原价上线 Cola。

Anthropic推理模型发布评测/基准
05:55
HuggingFace Daily Papers(社区热门论文)
精选76
精确性不等于忠实度:完整Oracle下的覆盖感知接地生成评估

无参考忠实度度量仅衡量精确率(陈述是否被支持),鼓励模型少说甚至不说以获得高分。本研究利用F1遥测(确定性完整ground truth)和NOAA天气预报两个完整Oracle领域,证明此盲点:在多语言(EN/ES/PT)共7253个决策实例(覆盖150场比赛)的基准上,最精确的前沿模型仅覆盖不到一半相关事实,按F1排名垫底。引入覆盖度(召回率)后系统排序改变;显式要求详尽也无法弥补差距。作者提出将忠实度与覆盖度合并为单一分数,并给出无参考验证器引导生成方法,同时提升精确率和召回率。相关基准、标注、度量、基线及交互演示已开源。

论文/研究评测/基准

推荐理由:这个研究戳破了自动评估里 Faithfulness 的泡沫,指标只看模型「说对多少」不看「说全没有」,沉默的模型反而拿高分,以后评测不能只看精确度了,做评估的得补上覆盖度这一环。
05:52
Artificial Analysis@ArtificialAnlys
67
HiDream O1-Image-1.5 在 Artificial Analysis 文生图排行榜中位列第三,超越 Google Nano Banana 2

HiDream 发布 O1-Image-1.5,在 Artificial Analysis 文生图排行榜中位列第三,超越 Google Nano Banana 2。该闭源模型可生成高达 2K 分辨率图像,基于自研 Unified Transformer(UiT)架构,将原始像素、文本和任务条件编码到统一 token 空间。质量仅次于 OpenAI,与 GPT Image 1.5 (high)、Nano Banana 2(Gemini 3.1 Flash Image Preview)及 Cosmos3-Super-Text2Image 相当。定价 $80/千张,现可通过 HiHarness 及 Vivago 平台使用。

图像生成模型发布评测/基准
04:43
TechCrunch:AI(RSS)
同事件精选72
Anthropic 的 Claude Fable 5 能一键生成古怪好玩的视频游戏

Anthropic 发布 Claude Fable 5,可一键生成古怪好玩的视频游戏,预计将在网页 vibe coders 中广受欢迎。

Anthropic模型发布编码评测/基准
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
推荐理由:Fable 5是Mythos的首次公开亮相,Ethan Mollick的单提示生成游戏实测让人看到代码生成已近‘一键出活’,对开发者来说是个信号——整个技术栈都要重新评估。
03:55
Hugging Face:Blog(RSS)
精选67
Hugging Face 博客发布语音智能体代码切换基准测试

Hugging Face 博客发布针对语音智能体处理代码切换语音的基准测试。数据集覆盖西班牙语‑英语、法语‑英语、加拿大法语‑英语和德语‑英语四对语言,基于人力资源与IT服务管理场景构建。采用词错误率、语义词错误率和答案错误率三项指标评估七种ASR系统,包括AssemblyAI Universal 3-Pro、Deepgram Nova 3 Multilang、ElevenLabs Scribe V2、Gemini 3 Flash、Mistral AI Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3和OpenAI Whisper Large V3 Turbo。主要发现:代码切换的转录成本因语言对和模型而异;ElevenLabs Scribe V2、Gemini 3 Flash和AssemblyAI Universal 3-Pro在所有指标上表现最佳。数据集和测试框架通过AU-Harness开源发布。

Hugging Face评测/基准语音

推荐理由:如果你在给多语言客户做语音Agent,这篇博客直接把主流ASR的code-switching能力测了一遍,ElevenLabs Scribe V2目前最强,还开源了数据集,拿来就能测自己的模型。
02:51
Artificial Analysis@ArtificialAnlys
61
Artificial Analysis 将于6月11日举办编程智能体基准测试活动

Artificial Analysis 宣布将于6月11日(周四)在旧金山举办 Coding Agent Benchmarks 活动。演讲嘉宾包括 Cognition 高级研究副总裁 Silas Alberti、Cursor 工程师 Nate Schmidt、Kernel Labs 创始人兼 Latent Space 播客联合主持人 Alessio Fanelli,以及 Artificial Analysis 联合创始人 George Cameron。更多嘉宾待公布,活动将在 Kernel Labs 举行,可通过 Luma 链接申请参会。

智能体编码行业动态评测/基准
02:11
Nathan Lambert@natolambert
63
Claude Fable 5 在 APEX-SWE 软件工程评测中取得 65.5% Pass@1 总体成绩,较 Claude Opus 4.8 高约 18 个百分点。两个子类别中,Integration 为 61.3%,Observability 高达 69.7%,后者比 Opus 4.8 领先 26 个百分点。Fable 5 是首个在 Observability 类别突破 50% 的模型,也是唯一在该项上得分高于 Integration 的模型(其他模型均相反)。Observability 此前一直是所有模型的瓶颈,Fable 5 首次打破这一局面。主推文认为,虽然模型 token 价格不菲,但对大量企业而言物有所值。

Mercor: Claude Fable 5 takes #1 on APEX-SWE: 65.5% Pass@1 overall. It scores ~18pp higher than Opus 4.8. We tested @claudeai Fab...

Anthropic推理编码评测/基准
01:38
swyx@swyx
70
Mythos上线:FrontierCode基准测试发布

Mythos正式上线FrontierCode基准测试,旨在衡量AI生成可维护代码的能力。该基准包含超1000小时维护者验证的任务,并引入3000+评分标准防奖励攻击。最高难度FC Diamond上,Opus 4.8得分仅13.8%,且Opus 4.8与GPT 5.5均未随effort扩展提升。Mythos/Fable后训练将test time compute用于数小时级长任务。基准已在Devin上线,ACU成本仅1.4倍。FC Extended中最易的1/3任务在2025年末被快速攻克——Opus从41%升至74%,标志着AI编码进入“维护可读代码”新时代。

swyx: It's finally out!!! @METR_Evals found that more than half of SWEBench results is unmergeable slop. FrontierCode represen...

AnthropicOpenAI编码评测/基准
01:37
Chubby♨️@kimmonismus
78
Claude 5 Fable 基准测试! 天哪,甚至到 Mythos 都有显著跃升。
Anthropic模型发布评测/基准
关联讨论 31 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
01:19
Yuchen Jin@Yuchenj_UW
71
Claude Fable 5 / Mythos 5 全面胜出。 我以为 Fable 5 只是弱化版 Mythos Preview,但它实际更强。SWE-Bench Pro:Fable 5:80.3%,GPT-5.5:58.6%。 而且价格仅为 Opus 4.8 的 2 倍:$10/输入 MTok,$50/输出 MTok。 我认为 GPT 5.6 无法超越这个成绩。
AnthropicOpenAI编码评测/基准
00:46
AK@_akhaliq
56
SWE-Explore 评估编码智能体如何探索仓库
智能体编码论文/研究评测/基准
00:16
AK@_akhaliq
51
SpatialWorld 评测多模态智能体在真实世界任务中的交互式空间推理能力
智能体Hugging Face多模态论文/研究
6月9日
23:38
Noam Brown@polynoamial
68
自 @OpenAI o1 以来,我们就知道 LLM 测试时计算缩放。 然而两年后,实验室仍在报告模型的标量评测;安全组织仍对某个脚手架通过 100 倍推理表现更好感到惊讶;而 RSP 在决定关键阈值时仍忽略推理预算。

Noam Brown: http://x.com/i/article/2057694226981257216

OpenAI大佬观点安全/对齐评测/基准
22:50
SemiAnalysis@SemiAnalysis_
65
DeepSeek V4 1.6T 第0天至第43天性能随时间变化 - 华为, GB300 NVL72, MI355X, B200 第0天在InferenceX上的推理性能 26天内100倍性能提升 每百万Token成本 华为950DT推理追踪分析 https://semianalysis.substack.com/p/deepseekv4-16t-day-0-to-day-43-performance
DeepSeek推理评测/基准部署/工程
20:14
Rohan Paul@rohanpaul_ai
66
Cognition 推出 FrontierCode 编码基准:评估 AI 代码的可合并性

Cognition 发布 FrontierCode 编码基准,评测 AI 生成的代码是否达到维护者可合并的质量,而非仅通过测试。基准含 150 个任务(Main 最难 100 个,Diamond 最难 50 个),由 20 余位开源维护者设计,每个任务耗时超 40 小时。评分设阻隔项(如破坏行为、缺失逻辑等)和加权项(可读性、类型安全等)。额外包含反向测试、范围检查、自适应评分。在 Diamond 子集上,Claude Opus 4.8 得分 13.4%,GPT-5.5 6.3%,Gemini 3.1 Pro 4.7%,开源最佳 Kimi K2.6 3.8%,显示顶尖模型在可合并代码上仍表现糟糕。

Cognition: Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...

编码评测/基准
12:55
HuggingFace Daily Papers(社区热门论文)
68
评估卡片:AI评估报告的可解读层

AI评估结果规模庞大但报告不一致,导致读者难以跨来源比较、识别遗漏或追溯结论。Evaluation Cards通过整合基准元数据、评估运行数据和模型元数据,形成统一记录。方法包括:(1)从52篇论文和10次利益相关者访谈中推导报告模式;(2)实现四个可解释信号(可复现性、文档完整性、来源与风险、分数可比性),并针对研究与非研究受众提供不同读者模式;(3)部署监控工具,覆盖5816个模型、635个基准和101843个结果,揭示当前报告实践中的系统性缺口。

arXiv论文/研究评测/基准部署/工程
10:55
HuggingFace Daily Papers(社区热门论文)
61
SpatialWorld:多模态智能体在真实世界任务中的交互式空间推理基准

SpatialWorld 是为评估多模态智能体在复杂真实任务中的交互式空间理解而设计的统一基准。它整合 8 个异构模拟后端,包含 760 个人工标注任务,覆盖家庭日常、旅行、社交协作等场景。智能体需在仅视觉部分可观测条件下主动收集第一人称证据,并通过统一文本动作接口输出决策。对 15 个先进多模态智能体的评测显示,最强闭源模型 GPT-5 平均任务成功率仅 17.4%,最强开源模型 Qwen-3.5 达 14.1%。分析表明任务成功与执行效率存在脱节,不同领域性能差异显著,主动探索与长程规划仍是瓶颈。

arXiv具身智能多模态论文/研究
10:43
meng shao@shao__meng
52
阶跃星辰 Step 3.7 Flash 完成真实 Coding Agent 任务:将 Agent Memory 痕迹生成本地 HTML 工具

开发者用 Step 3.7 Flash 测试真实 Coding Agent 任务:将已有 Local Agent Memory MVP 的运行痕迹(memory_events、structured_facts、memory_chunks 等 9 个场景测试数据)生成为单文件本地 HTML 工具 agent_memory_inspector.html。页面展示 8 条 memory events、9 条 structured facts、8 个 memory chunks、9/9 场景测试通过、敏感信息过滤前后对比、recall 命中内容及 retrieval 类型与分数、跨 session 记忆连续性。模型先读取现有代码和测试输出,检索 Letta、LangSmith 等工具展示方式后编写代码。测试环境:Cursor Agent + step-3.7-flash,本地 HTML 输出。

智能体编码评测/基准
10:33
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选71
FrontierCode 在 Hacker News 获 101 分

cognition.ai 的 FrontierCode 项目在 Hacker News 上获得 101 个 points。目前公开信息仅包含项目名称和来源,具体功能、技术细节或性能数据尚未披露。

开源生态编码评测/基准
同一事件,精选展示《FrontierCode 基准测试:AI 编程评估新标准--维护者审核通过率最高仅 13.4%》
推荐理由:这是第一个真正衡量「代码能不能被合并」的基准,由几十位开源仓库维护者亲手设计标准,填补了 SWE-Bench 只测正确性不测质量的盲区。虽然任务集不公开,但它对‘生产级代码智能体’的评估思路会直接影响接下来的模型选型。
09:28
AYi@AYi_AInotes
精选77
FrontierCode 基准测试:AI 编程评估新标准--维护者审核通过率最高仅 13.4%

Cognition 发布 FrontierCode 基准测试,重新定义 AI 编程评估:由 20 多位顶级开源维护者手工制作 150 个任务(每个耗时 40+ 小时),依据 3000 多条规则判断维护者是否愿意合并代码。该基准指出 SWE-Bench 等超半数通过测试的代码实为不可维护的垃圾。结果中 Claude Opus 4.8 在最高难度档获 13.4%,GPT-5.5 为 6.3%,其余模型 1%–5%。这意味着即便最强模型,近九成代码仍无法通过有经验维护者审核。

Cognition: Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...

AnthropicOpenAI编码评测/基准

推荐理由:Cognition 这个新基准把尺子从「代码能不能跑」换成了「维护者愿不愿意 merge」,直接戳破现有编码评测的泡沫。Opus 4.8 第一但只有 13.4%,真实世界的编程距离「能用」还有九成路要走,做 coding agent 的团队必读。
09:13
meng shao@shao__meng
72
Cognition 推出 FrontierCode 代码评估基准:从可用到可合并

Cognition 发布 FrontierCode,含 150 个任务(来自 36 个开源仓库,每任务 40+ 小时),按难度分 Extended/Main/Diamond 三层。沿行为正确性、回归安全等六维度衡量 mergeability,指标为 Pass rate 与 Score。Diamond 子集最高分:Claude Opus 4.8 达 13.4%,GPT-5.5 为 6.3%,Gemini 3.1 Pro 4.7%;Main 子集 Opus 4.8 为 34.3%。开源最佳 Kimi K2.6 仅 3.8%。GPT-5.5 token 用量约为 Opus 四分之一,性价比更优。

Cognition: Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...

编码评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
52
P3D-Bench:面向参数化3D生成与结构推理的多模态大语言模型基准

P3D-Bench是用于评估多模态大语言模型参数化3D生成与结构推理的基准。它覆盖Text-to-3D、Image-to-3D和Assembly-3D三个任务族,从可执行性、几何保真度、拓扑、文本约束、多视图语义对齐和部件级结构六维评分。基于400个文本案例、400个图像案例及203个标注装配体对前沿MLLMs和纯文本LLMs的评测发现了三个结论:装配体任务最困难,模型无法将多部件组合成连贯结构;模型能恢复目标物体的全局形状与语义身份,但无法精确复现输入指定的参数化几何;部件级建模普遍薄弱,既无法还原每个部件的几何,也无法输出正确的部件数量。

多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
56
ComBench:面向奥林匹克级组合数学的推理与构造基准

ComBench是一个面向奥林匹克级组合数学的基准,包含100个人工标注的竞赛级别问题,分为分析型(侧重严谨数学论证)和构造型(需要明确构造及正确性证明)。评估结合评分指南的证明评分与确定性构造验证,揭示证明质量与构造有效性的差异。前沿模型在该基准上远未饱和:最强模型整体平均分65.4%,Best@4达75.3%。Kimi-K2.6在分析型证明评分上落后于GPT-5.5,但在构造型Best@4上反超;存在性和构造类问题对所有代表性模型始终最难。

arXiv推理论文/研究评测/基准
04:32
swyx@swyx
62
Cognition 推出 FrontierCode 编码评估基准,聚焦代码可维护性

Cognition 发布 FrontierCode 编码评估,每任务由顶级开源维护者花费 40+ 小时编写。METR 发现 SWEBench 超一半结果为不可合并的垃圾代码。FrontierCode 含 3000+ 评分标准,首次衡量代码是否可合并。最高难度 FC Diamond 上,Opus 4.8 仅得 13.8%。在 FC Extended 最易任务中,Opus 在 2025 年底 4 个月内从 41% 提升至 74%,标志 AI 编码进入"可维护代码"时代。

Cognition: Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...

智能体编码评测/基准
‹ 上一页
1…678910…22
下一页 ›