6月11日

00:44

Chubby♨️@kimmonismus

一个更现实的单次生成游戏的例子。要求Fable 5以《上古卷轴5：晨风》的风格重新创建一个游戏。它一次性生成了任务、货币、战斗、日志和小地图。而且它成功了。

编码评测/基准

6月10日

22:08

Berryxia.AI@berryxia

Fable 5 VS Opus 4.8 VS Gemini 3.1 Pro VS GPT 5.5 只有Google 还拿着去年的模型在玩儿~

Anthropic OpenAI 评测/基准

18:46

MarkTechPost（RSS）

2026 年顶级 AI 编程智能体与开发平台对比：Atoms、Devin、Windsurf、Cursor、Warp 等

软件开发的模式已然改变——工程师不再手动输入大部分代码，而是描述意图，由 AI 智能体规划任务、跨文件编辑、运行测试并提交 Pull Request。许多工具已能在有限监督下直接部署到生产环境。这篇指南对比了 Atoms、Devin、Windsurf、Cursor、Warp 等主流 AI 编码代理与开发平台，帮助开发者选择最适合需求的工具。

智能体编码评测/基准

17:11

Chubby♨️@kimmonismus

Matt Shumer 用 Fable 5 在 three.js 中制作了这个，让人不禁期待《上古卷轴6》完全由提示词生成。太疯狂了。

Chubby♨️: So we can expect The Elder Scrolls VI to be fully prompt-generated, right? Matt Shumer made this with Fable 5 in three.j...

多模态评测/基准

12:20

歸藏(guizang.ai)@op7418

Fable 5 漏洞分析强但写代码偏科

用户在 26 万行代码的 CodePilot 代码库中测试 Fable 5，发现其在漏洞分析和 bug 寻找方面表现出色，能找出大量问题。但在代码生成上，Fable 5 并非万能，写出的代码常有明显 bug，需要多次修复才能完成，属于偏科严重的模型。与之前的版本 4.8 相比，Fable 5 某些方面提升巨大，另一些方面虽更好但提升有限。

歸藏(guizang.ai): 在我 26 万行代码的 CodePilot 代码库中尝试 Fable 5,看一下它能找出多少问题

推理编码评测/基准

11:31

数字生命卡兹克@Khazix0918

Anthropic发布Claude Fable 5与Mythos 5：安全版免费至6月22日，价格公布

Anthropic今日发布Claude Fable 5（加安全限制）与Mythos 5（底层相同），价格每百万输入token $10、输出$50。即日起至6月22日，Pro/Max/Team/企业版订阅用户可免费使用Fable 5，之后仅API可用。跑分全面碾压，三方基准达SOTA。案例：Stripe用Fable 5一天迁移5000万行Ruby代码；纯视觉通关宝可梦火红；自建3D CAD编辑器并设计可打印模型；Mythos 5加速药物设计10倍，基因组学自主训练模型超越Science论文成果。

Anthropic 大佬观点安全/对齐编码

关联讨论 31 条

10:56

HuggingFace Daily Papers（社区热门论文）

Workflow-GYM：面向真实世界专业领域长周期GUI智能体任务的基准

Workflow-GYM是专门评估AI智能体在专业领域和专用软件环境下执行长周期GUI任务的基准。实验表明，即使是最强模型，成功率也仅略高于30%，凸显出专业长周期GUI工作流对当前智能体的巨大挑战。进一步分析发现，智能体难以维持工作流一致性，频繁出现阶段遗漏、错误传播、目标漂移以及对专业软件环境理解不足等问题。这些发现揭示了当前智能体的局限性，并为下一代GUI智能体研究指明了关键方向。

智能体 arXiv 论文/研究评测/基准

10:20

歸藏(guizang.ai)@op7418

在我 26 万行代码的 CodePilot 代码库中尝试 Fable 5，看一下它能找出多少问题

编码评测/基准

09:17

meng shao@shao__meng

博主对比Claude Fable 5与Step 3.7 Flash官方API价格：输入/输出约50倍，缓存命中输入约100倍；开启Fast Mode（速度×3，价格×6）后分别升至约300倍、300倍、600倍。作为实例，用Step 3.7 Flash完成真实Coding Agent任务：将Agent Memory运行痕迹（含memory events、structured facts、memory chunks等）生成为单文件HTML工具agent_memory_inspector.html，可查看8条事件、9条事实、8个chunk、9/9测试通过等信息，展示了模型将混乱Agent traces转化为可用检查工具的能力。

meng shao: 我这次用 Step 3.7 Flash 测了一个真实 Coding Agent 任务: 把一组 Agent Memory 的运行痕迹,做成本地可检查的 Memory Inspector。输入不是干净需求文档,是一个已有 Local Age...

智能体 Anthropic 编码评测/基准

08:25

karminski-牙医@karminski3

Anthropic Fable 5 测试：光追代码出现变量声明错误

用户测试 Anthropic Fable 5，使用 xhigh 模式让其从零编写光追渲染器。生成的 PBR 与 BRDF 代码质量出色，但出现变量声明晚于引用的错误，导致代码直接报错。推测模型过度关注核心算法逻辑，忽略了变量声明等细节。此外，成本高昂，仅生成该网页就花费 2 美元。作者调侃 AI 超越人类还为时尚早——因为自己的工资负担不起。

Anthropic 编码评测/基准