AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2085 条
全部一手资讯X论文
标签「编码」清除
meng shao@shao__meng · 6月10日53

如果你对 Claude Fable 5 到底有多贵还没有概念,咱们做个简单对比。 Claude Fable 5 和 Step 3.7 Flash 官方 API 价格倍数: · 输入 ≈ 50 倍 · 输出 ≈ 50 倍 · 缓存命中输入 ≈ 100 倍 如果再算上 Claude Fast Mode (速度 x 3,价格 x 6) · 输入 ≈ 300 倍 · 输出 ≈ 300 倍 · 缓存命中输入 ≈ 600 倍 而 Fast Mode 下,其实还是 Step 3.7 Flash 输出更快 😂

译博主对比Claude Fable 5与Step 3.7 Flash官方API价格:输入/输出约50倍,缓存命中输入约100倍;开启Fast Mode(速度×3,价格×6)后分别升至约300倍、300倍、600倍。作为实例,用Step 3.7 Flash完成真实Coding Agent任务:将Agent Memory运行痕迹(含memory events、structured facts、memory chunks等)生成为单文件HTML工具agent_memory_inspector.html,可查看8条事件、9条事实、8个chunk、9/9测试通过等信息,展示了模型将混乱Agent traces转化为可用检查工具的能力。

Berryxia.AI@berryxia · 6月10日15

之前买高铁票没有注意,居然直接可以选择静音车厢。 车险内没有手机外放震天响的短视频声音,旅途Vibe Coding 简直不要太爽啊! 刚刚有人外放声音,乘务员直接当场制止😂 太爽了…

小互@xiaohu · 6月10日70

好消息:Claude 重置了所有用量 官方对使用Fable 的四条建议: 1. 给它分配比之前模型能处理的更大、更具雄心的任务。 2. 将 xhigh/high 努力程度作为默认设置以获得最佳性能,med 用于更快的交互式会话。 3. 重新调整你的技能和 CLAUDE.md。针对先前模型编写的指令会让 Fable 陷入陈旧的模式,先让它运用自己的判断力。 4. 从提供任务转向提供目标。描述完成的样子以及如何验证,然后让 Fable 找到路径(/loop 和 /goal 就是为此设计的)。

译Claude 重置了所有用量。官方对使用 Fable 提出四条建议:分配比之前模型能处理的更大任务;默认使用 xhigh/high 努力程度以获得最佳性能,med 用于更快的交互式会话;重新调整技能和 CLAUDE.md,避免旧指令让 Fable 陷入陈旧模式;从提供任务转向提供目标,描述完成样貌并让 Fable 通过 /loop 和 /goal 自行寻找路径。

karminski-牙医@karminski3 · 6月10日64

Fable 5 超越人类还为时尚早! 给大家带来 Anthropic Fable 5 的测试速报! 直接用了 xhigh, 让它从0写一个光追渲染, 整体效果是好的, 尤其是 PBR 与 BRDF 写得都非常棒. 但是遇到了个奇怪的问题, 它声明变量竟然位置搞错了, 有一个变量的声明比引用晚了. 导致直接报错. 所以感觉模型能力是有的, 但是内部机制可能会有问题, 比如可能是光追的核心逻辑, 在神经网络中激活度特别高, 导致模型生成时过分的注意算法实现, 忽略了变量声明这种小细节. 另外, 这玩意我是用不起了... 就视频中这个网页, 2刀进去了... 我承认AI超越人类还为时尚早, 因为我的的工资没这么高哈哈哈哈哈🥲. #fable5 #anthropic #mythos

译用户测试 Anthropic Fable 5,使用 xhigh 模式让其从零编写光追渲染器。生成的 PBR 与 BRDF 代码质量出色,但出现变量声明晚于引用的错误,导致代码直接报错。推测模型过度关注核心算法逻辑,忽略了变量声明等细节。此外,成本高昂,仅生成该网页就花费 2 美元。作者调侃 AI 超越人类还为时尚早——因为自己的工资负担不起。

swyx@swyx · 6月10日73

btw insane amounts of alpha in telling claude code to "review my code for issues" on Fable rn while it is not pay per use be prepared to be in abject horror that you shipped anything to prod without a Fable Check™ first

译swyx 表示,当前在 Fable 上让 Claude Code 执行 "review my code for issues" 时不按使用量收费,建议开发者在发布前先用 Fable Check™ 检查,否则可能发现已上线代码存在严重问题。他引用自己重跑 FC Diamond 历史数据的推文,指出官方表格/图表未充分反映 Fable 的起飞程度——Fable 是不同级别的模型,带有明显的"大模型气息"。

meng shao@shao__meng · 6月10日69

Wix VP @IShmool 推出的免费课程「Zero to Claude Code」支持简体中文了! 作者还专门用中文官宣,并表达了对中文 AI 社区朋友们的感谢! 学起来:http://zero2claude.dev

译Wix VP @IShmool 推出的免费课程「Zero to Claude Code」现已支持简体中文,作者专门用中文官宣并感谢中文 AI 社区。该课程面向零基础学习者,讲解如何用 Claude Code 从零构建真实产品。已有 300 名中国学生参与学习。课程完全免费,访问 zero2claude.dev 即可开始。

Berryxia.AI@berryxia · 6月10日72

这个开源小模型3B 到底行不行啊? Cohere直接把30B参数的MoE小模型扔到Apache 2.0开源,还专门为agentic coding量身打磨! North Mini Code只有3B active参数,在Artificial Analysis Coding Index上跑到33.4,跟同量级对手打得有来有回,却能本地跑、随便改、随便玩。 它真正狠的地方是把agentic性能做到底,社区随便拿去实验、反馈、迭代,开发者第一次能真正把coding agent握在自己手里,而不是租云端黑盒。 以前大家默认开源coding模型要么弱要么慢,结果Cohere用这个小家伙直接告诉你:真正能改变游戏规则的,从来不是参数堆多高,而是谁敢把最锋利的工具彻底放开。 这波开源一出,开发者手里终于多了一把能自己掌控、自己进化的coding利器。

译Cohere推出North Mini Code开源模型,总参数30B,活跃参数仅3B,采用Apache 2.0许可。该模型在Artificial Analysis Coding Index上跑出33.4分,与同量级模型竞争,专为智能体编程(agentic coding)优化,支持本地运行、自由修改和迭代。开发者首次能完全掌控coding agent,而非依赖云端黑盒。

Chubby♨️@kimmonismus · 6月10日53

It's already June 9th, and Gemini 3.5 Pro and GPT-5.6 are nearing release (Google even already announced 3.5 Pro during i/o) Rumor has it that GPT-5.6 will be released as early as next week. So far, it's safe to say that - guardrails aside - Anthropic is truly the frontier lab that's entering a new league with Mythos/Fable. Gemini 3.5 Pro and GPT-5.6 have a lot to deliver and are now under pressure. This release has certainly boosted Anthropic's upcoming IPO. Anthropic has proven that they are still capable of making significant leaps in performance and efficiency. There's no end in sight. But the pressure on the competition is mounting. And remember that Claude Mythos was (and probably is) still leader in Long Horizon software Tasks

译Anthropic的Claude 5 Fable(代号Mythos)在几乎所有AI能力基准测试中达到SOTA,长复杂任务优势尤为显著。模型更节约token,可在数百万tokens长任务中保持专注。Stripe早期测试中,Fable 5将5000万行Ruby代码库的迁移压缩到一天完成,而人工团队需两个多月。Gemini 3.5 Pro与GPT-5.6临近发布(GPT-5.6最早下周推出),面临压力。此次发布提振了Anthropic即将进行的IPO,证明其在性能与效率上仍能大幅跃升。

ClaudeDevs@ClaudeDevs · 6月10日57

We're hosting Claude Fable 5 Build Day in San Francisco on June 13. Point Fable 5 at a problem worth solving and build a solution with Claude Code. The Anthropic team will be in the room, with a chance to win from a prize pool of $150K in Claude credits across 3 finalists.

译我们将于 6 月 13 日在旧金山举办 Claude Fable 5 搭建日。 将 Fable 5 用于值得解决的难题,并用 Claude Code 构建解决方案。 Anthropic 团队将到场,三名决赛选手将有机会从 15 万美元 Claude 积分奖池中赢取奖励。

Rohan Paul@rohanpaul_ai · 6月10日66

A model that verifies unasked has crossed a line. This is from Boris Cherny, creator of Claude Code on Anthropic's Fable 5.

译Anthropic 的 Fable 5 模型被 Claude Code 创建者 Boris Cherny 称为自 Opus 4.5 以来最大的进步。Fable 5 从编码智能体升级为产品构建中的思考和设计伙伴,具备判断力、品味和维度。在调试时,模型会自主进行测量、添加日志并验证修复结果,确认无误后才宣告胜利——Claude Code 并未提示模型这样做,这体现了模型自身的“大模型气质”。

fofr@fofrAI · 6月10日60

http://x.com/i/article/2064451362184671232 # Where AI coding ends up I asked Fable: > Let’s work on a thought experiment. As AI models continue to improve at coding, as they become faster, smarter and more capable, but also more expensive and gated, where does this take us? Where AI coding ends up As AI coding agents improve, the progression runs from humans writing code, to AI assisting, to humans managing agents, to managing fleets of them. Followed to its end, code itself stops being the artifact anyone cares about. Human review becomes sampling, then spot-checking, then trust in tests and outcomes. Eventually asking "what does the code say?" becomes like asking what a compiled binary says — technically answerable, practically irrelevant. Software becomes specified by intent and verified by behavior, and the layer in between goes opaque, the way assembly did. The human role compresses upward but doesn't vanish. Someone must still want things, decide what's worth building, take responsibility for failures, and arbitrate between competing intents. The end-state job looks less like engineering management and more like a blend of product owner, lawyer, and auditor — defining correctness and bearing liability. The uncomfortable corollary: the world likely needs far fewer such people than it employs engineers today. The "expensive and gated" assumption is the wildcard. If frontier capability stays costly and access-controlled, we don't get democratized software abundance but bifurcation: well-resourced organizations compound their advantage with the best agents while everyone else runs cheaper, older models. Code becomes a capital good, with the constraint shifting from talent to compute budget. Whether costs stay high is the open question — compute historically gets cheap, but the frontier keeps moving, so the gate may simply relocate upward. Implications for entrepreneurship The effects cut both ways. Optimistically, the cost of turning an idea into a product collapses toward zero, shifting the bottleneck from "can you build it?" to "should it exist, and can you get anyone to care?" This favors domain experts and founders with distribution over the technical-cofounder archetype, and makes the solo founder running a real company with an agent workforce genuinely plausible. Pessimistically, if anyone can build anything in a weekend, so can competitors — including incumbents who can ship your feature list by Friday. Software stops being a moat. Defensibility gets squeezed into what agents can't replicate: proprietary data, network effects, brand and trust, regulatory licenses, physical assets, relationships. The "build a SaaS tool, charge monthly" era likely ends because pure-software margins get competed away almost instantly. Value migrates to whoever owns the customer relationship or a unique input. Gating bites here too. If frontier agents are expensive, garage founders compete with worse tools against funded rivals running better ones — inverting the classic startup advantage. Historically startups won on speed and incumbents on resources; if speed becomes purchasable, the resource-rich get both. The countervailing hope is that "good enough" models stay cheap and most businesses don't need the frontier. The likely shape A Cambrian explosion of small, profitable niche businesses at the bottom; brutal consolidation in the middle; and venture-scale outcomes increasingly reserved for problems where the moat is something other than code. Entrepreneurship survives — but its center of gravity moves from building software to owning trust, data, and distribution.

译AI编码智能体变快变强但更贵更受限,人类角色从写代码、管理智能体转向定义正确性与承担责任的混合体(产品所有者、律师、审计员)。代码本身不再被关注,软件通过意图指定、行为验证,中间层透明。前沿模型昂贵导致资源充足者用最佳智能体复制优势,其他人用便宜旧模型,代码成为资本品。创业上,想法到产品成本趋零但可快速被模仿,软件不再是护城河,价值转向数据、网络效应、品牌、监管许可。最终可能形成大量小众利基企业和中部残酷整合。

Boris Cherny@bcherny · 6月10日62

Fable 5 is the biggest step up I’ve felt in our models since Opus 4.5 back in November. After 4.5 came out I uninstalled my IDE when I realized that I’d been doing 100% of my coding in a terminal for a few weeks. With Fable, it’s felt like Claude has stepped up from being a coding agent to a thought and design partner in building the product. Fable has judgement, taste, and dimensionality in a way that previous models didn’t, leading me to trust it more with the most complex work. I think the first time I had this realization was when I asked Fable to debug something. It is the first model I have used that was so methodical and precise, taking measurements and adding logs then verifying that it truly fixed the issue before declaring victory. There’s nothing in claude code’s prompting telling the model to do that, it’s just part of its personality. It really has this “big model smell” that I haven’t felt before.

译Anthropic 工程师 Boris Cherny 称,Fable 5 是自去年 11 月 Opus 4.5 以来感受最显著的提升。模型从编程 Agent 进化为产品构建中的思考与设计伙伴,具备了判断力、品味和维度。尤其在调试时表现出前所未有的系统化:先测量、加日志,验证修复后才宣告完成,他将其归因于模型自身的“大模型味道”。整条推文聚焦主观体验,未提及 benchmark 分数、参数规模或价格。

Rohan Paul@rohanpaul_ai · 6月10日75

Some really cool recommendation for pushing Claude Code to its full potential. By Thariq (@trq212) from Claude Code team. (Noted from his video by Grok) - Shift from verifying whether Claude did the work right to verifying whether Claude is doing the right work. - Treat Claude Fable 5 like a true thought partner by giving it the full context it needs upfront, rather than jumping straight into implementation. - Involve Claude early in the thinking process by starting with a small spec and asking it to interview you about the implementation details before finalizing the spec file. - Ask Claude to explore multiple directions for an idea and generate quick mockups (such as in HTML) for review, which helps catch misalignment before any code is written. - Provide Claude with rich context instead of rigid constraints—for example, explain that a feature is an experiment likely to be deleted in a month so it avoids building anything painful to throw away. - Give Claude explicit goals and verification methods once the direction is clear, especially for ambitious problems. - Use the new /goal command in Claude Code, which helps the model keep working until the objective is fully complete. - Use Workflows in Claude Code to let the model parallelize tasks, verify its own output, and prepare a report on what was implemented versus what differed from the plan. - Prompt Claude with a combined instruction such as: “Set a goal to implement the spec fully, then use a workflow to verify each part of the plan, and prepare a report on what was implemented and if anything differed.” - Be far more ambitious with Claude Fable 5 by assigning it tasks previously assumed to be impossible for LLMs, as the model now runs for hours, self-tests, and often produces higher-quality code than manual efforts. Experiment boldly—for instance, I edited this entire video using Claude Fable 5—because the model raises the bar on what developers can realistically achieve in a single session.

译Thariq(Claude Code 团队)提出十条建议,核心转变是:从检查 Claude 是否做对工作,转向检查它是否在做正确的工作。具体包括:提前提供完整上下文,将其视为思考伙伴;用小规格文档让 Claude 访谈实现细节;探索多方向并生成 HTML 原型;提供丰富上下文(如功能可能一个月后删除)而非硬约束;设定明确目标与验证方法;使用 /goal 命令;利用 Workflows 并行任务、自我验证并生成对比报告;同时设置目标和 workflow;更勇敢地将此前认为 LLM 无法完成的任务交给 Claude Fable 5,因其可运行数小时、自检并产出高质量代码。Thariq 本人用 Claude Fable 5 剪辑了整段视频证明其能力。

Ethan Mollick@emollick · 6月10日68

Fable: "create a visually interesting shader that can run in twigl-dot-app make it like an infinite city of neo-gothic towers partially drowned in a stormy ocean with large waves." "Make it better" All of this is procedurally generated.

译Ethan Mollick 获得 Opus 4.8 早期访问,对其印象深刻。他展示了 Opus 4.8 一次生成的 twigl 着色器,通过纯数学程序化生成了无限延伸的新哥特式塔楼城市,部分淹没于暴风雨海洋中,伴有大浪。整个过程完全由数学驱动。

jason@jxnlco · 6月10日49

loop this loop that but honestly, if you get good enough at using codex with a orchestration loop, you too can be one of those people at equinox at 11:20am on a tuesday morning. "make up the chief of staff thread and then every 100 minutes, check all my connectors coordinate all the work across my pinned threads"

译loop this loop that 但说实话,如果你足够擅长使用 Codex 配合编排循环,你也可以成为那些周二上午 11:20 在 Equinox 的人之一。 "写好首席助理的线程,然后每 100 分钟检查我所有的连接器,协调我所有置顶线程中的工作"

Artificial Analysis@ArtificialAnlys · 6月10日61

Artificial Analysis’ Coding Agent Benchmarks event is happening this Thursday, June 11 in San Francisco! We’re excited to host the following speakers: • Silas Alberti (@silasalberti), SVP, Research @ Cognition • Nate Schmidt, Engineer, Evals & Behavior @ Cursor • Alessio Fanelli (@FanaHOVA), Founder @ Kernel Labs and Latent Space Podcast Co-Host • George Cameron (@grmcameron), Co-Founder @ Artificial Analysis • More speakers to be announced shortly Join us for an evening of talks and discussions on coding agent benchmarks. 👉 Request to join: https://luma.com/i5zotp6c The event will be hosted at Kernel Labs.

译Artificial Analysis 宣布将于6月11日(周四)在旧金山举办 Coding Agent Benchmarks 活动。演讲嘉宾包括 Cognition 高级研究副总裁 Silas Alberti、Cursor 工程师 Nate Schmidt、Kernel Labs 创始人兼 Latent Space 播客联合主持人 Alessio Fanelli,以及 Artificial Analysis 联合创始人 George Cameron。更多嘉宾待公布,活动将在 Kernel Labs 举行,可通过 Luma 链接申请参会。

Artificial Analysis@ArtificialAnlys · 6月10日62

Artificial Analysis’ Coding Agent Benchmarks event is happening this Thursday, June 11 in San Francisco! We’re excited to host the following speakers: • Silas Alberti, SVP, Research @ Cognition • Nate Schmidt, Engineer, Evals & Behavior @ Cursor • Alessio Fanelli, Founder @ Kernel Labs and Latent Space Podcast Co-Host • George Cameron, Co-Founder @ Artificial Analysis • More speakers to be announced shortly Join us for an evening of talks and discussions on coding agent benchmarks. 👉 Request to join: https://luma.com/i5zotp6c The event will be hosted at Kernel Labs.

译Artificial Analysis 主办的 Coding Agent Benchmarks 活动将于本周四(6月11日)在旧金山 Kernel Labs 举行。演讲嘉宾包括 Cognition 研究高级副总裁 Silas Alberti、Cursor 评估与行为工程师 Nate Schmidt、Kernel Labs 创始人兼 Latent Space 播客联合主持人 Alessio Fanelli 以及 Artificial Analysis 联合创始人 George Cameron,更多嘉宾待公布。活动聚焦编码智能体基准测试,设有演讲和讨论环节,可申请参加。

歸藏(guizang.ai)@op7418 · 6月10日77

我去!没想到 Anthropic 的 Mythos 模型今天真的发布了。 不过他们这次发布的是 Mythos 的一个低配版本,命名为 Fable 5。 它的测评基准非常惊人,甚至比之前的 Mythos Preview 模型还要高。在 Agent Coding 方面,它的主要长处在于 Coding、Agent 以及工具调用,基准得分比 Opus 4.8 高出非常多。 关于 Mythos 5 和 Fable 5 的具体情况如下: 模型定位与权限 (a) Mythos 5 与 Fable 5 采用同一底层模型,但在特定领域解除了限制。 (b) Mythos 目前依然只为受信任的合作伙伴提供,优先开放给网络安全和生命科学领域的合作用户。 (c) Fable 5 现在已经开始向 API、Pro、Max、Team 及企业用户提供。 API 定价 (a) 输入: 每百万 Token 10 美元。 (b) 输出:每百万 Token 50 美元。 (c) 这个价格比原先的 Mythos Preview 便宜了一半。 安全防护机制 (a) Fable 加强了安全防护。如果系统判断请求可能涉及网络攻击、生化攻击或大规模能力蒸馏,它会直接拒绝服务。 (b) 一旦拒绝服务,系统会回退到 4.8 版本。官方称 95% 的情况不会发生回退。 订阅服务说明  (a) 官方表示,6 月 23 号以后,Fable 即使在订阅期内也可能会按量提供,不一定会直接包含在基础订阅包里。 (b) 但如果 23 号以后算力资源充足,官方会尽量将其包含在 Pro 和 Max 等订阅服务中。

译Anthropic 正式发布 Mythos 模型的低配版本 Fable 5,定位为面向通用场景的 Mythos 级模型。其各项基准分数超过此前任何公开发布模型,在 Agent Coding、工具调用方面得分远高于 Opus 4.8。Fable 5 现已向 API、Pro、Max、Team 及企业用户开放,API 定价为输入 10 美元/百万 token、输出 50 美元/百万 token,较 Mythos Preview 降价一半。安全方面,系统会拒绝网络攻击、生化攻击等恶意请求,必要时回退至 4.8 版本(官方称 95% 不回退)。订阅方面,6 月 23 日后 Fable 5 可能按量计费,不保证完全包含在基础订阅中。

Nathan Lambert@natolambert · 6月10日63

A crazy jump. The price of the tokens will be worth it to a vast number of enterprises.

译Claude Fable 5 在 APEX-SWE 软件工程评测中取得 65.5% Pass@1 总体成绩,较 Claude Opus 4.8 高约 18 个百分点。两个子类别中,Integration 为 61.3%,Observability 高达 69.7%,后者比 Opus 4.8 领先 26 个百分点。Fable 5 是首个在 Observability 类别突破 50% 的模型,也是唯一在该项上得分高于 Integration 的模型(其他模型均相反)。Observability 此前一直是所有模型的瓶颈,Fable 5 首次打破这一局面。主推文认为,虽然模型 token 价格不菲,但对大量企业而言物有所值。

Nathan Lambert@natolambert · 6月10日59

The crazy jump in perf for Claude 5 Fable is vindication for people who say Opus 4.5 and were like "yeah I should (mostly) stop writing code by hand and get ready for the future." More jumps still to come!

译Claude 5 Fable性能的疯狂跃升验证了那些说“Opus 4.5确实,我该(基本)停止手写代码,为未来做好准备”的人。更多跃升还在前方!

eric zakariasson@ericzakariasson · 6月10日75

we just shipped some improvements to http://cursor.com/evals! you can now see cost, output tokens and steps plotted in the graph for each model

译我们刚刚向 http://cursor.com/evals 推送了一些改进! 你现在可以看到每个模型的成本、输出 token 和步骤绘制在图表中

Boris Cherny@bcherny · 6月10日95

Fable 5 is now available in Claude Code and Cowork Fable is the best model I have used for coding, by a wide margin. It is a big step up, enabling less prompts and steers, more efficient token use, better code quality, better tool use, more intelligent self-verification, longer running sessions, and higher trust & autonomy. Happy coding!

译开发者 Boris Cherny 宣布,Claude Fable 5(Mythos-class 模型,已安全开放通用)已在 Claude Code 及 Cowork 中可用。该模型能力超过此前所有普遍可用的 Claude 模型,在编程任务中表现突出:需要更少的提示词和引导,token 使用更高效,代码质量、工具调用能力、智能自验证能力均有显著提升,支持更长时间的会话,且可赋予更高信任度与自主性。

ClaudeDevs@ClaudeDevs · 6月10日59

Claude Fable 5 changed how we work on the Claude Code team day to day. We used to verify that Claude did the work right. Now we verify that it's doing the right work. Here’s the 3 biggest changes:

译Claude Fable 5 改变了我们 Claude Code 团队的日常运作方式。 我们过去常常验证 Claude 是否正确完成了工作。现在我们验证它是否在做正确的工作。 以下是最大的三个变化:

宝玉@dotey · 6月10日77

Anthropic 今天同时发布了两个模型:Claude Fable 5 和 Claude Mythos 5。 两个模型用的是同一个底座,区别在于 Fable 5 加了一套安全分类器,面向所有用户开放;Mythos 5 去掉了部分安全限制,只给 Project Glasswing 的网络安全合作伙伴用。 简单说,Fable 5 就是"带护栏的 Mythos"。两个月前,Mythos Preview 还锁在大约 200 家防御机构手里,现在普通开发者也能用到同级别的能力了。 【Fable 5 的安全机制】 Fable 5 的安全机制不是传统的"拒绝回答",而是降级:当分类器检测到请求涉及网络安全攻击、生物化学武器相关内容或模型蒸馏行为时,会自动切换到 Opus 4.8 来回答,并告知用户发生了降级。Anthropic 给出的数据是,超过 95% 的对话不会触发降级。 Anthropic 也坦承分类器目前调得偏严,会误伤正常请求,后续会持续优化降低误报率。 【能力到底有多强】 Anthropic 列了一堆 benchmark,但几个实际案例更能说明问题。 Stripe 拿 Fable 5 在一个 5000 万行的 Ruby 代码库里做了一次全库迁移,一天完成,原本需要一整个团队花两个多月。在 Cognition 的 FrontierCode 测试中,Fable 5 在中等算力消耗下就拿到了最高分,Token 效率比之前的 Claude 模型明显更好。 视觉能力上,之前的 Claude 模型玩宝可梦火红版需要各种辅助工具才能推进,Fable 5 只靠最基础的视觉接口就通关了。还能从截图直接还原一个 Web 应用的源代码。 在生命科学方向,Mythos 5 让 Anthropic 内部的蛋白质设计专家把药物设计流程中的部分环节加速了约 10 倍。在一项基因组学研究中,Mythos 5 在几乎完全自主的情况下工作了一周多,训练出的模型表现超过了发表在 Science 上的模型,而体量只有后者的百分之一。 【价格和可用性】 Fable 5 和 Mythos 5 的 API 定价是每百万输入 Token 10 美元、输出 50 美元。对比 Mythos Preview 的 25/125 美元,降了 60%。但比 Opus 4.8 的 5/25 美元贵了一倍,和 OpenAI 的 GPT-5.5(5/30 美元)相比,输入贵一倍,输出贵了约 67%。 订阅用户要注意一个时间窗口:从今天到 6 月 22 日,Pro、Max、Team 和企业版用户可以免费使用 Fable 5。6 月 23 日开始,使用 Fable 5 需要额外购买 usage credits。Anthropic 说等产能充足后会把 Fable 5 恢复为订阅计划的标配,但没给具体时间。 API 和按量付费的企业用户不受影响,今天起就能正常调用。 【一个容易被忽略的政策变化】 Anthropic 同时宣布,从 Fable 5 开始,所有 Mythos 级别模型的流量将强制保留 30 天,覆盖第一方和第三方平台。Anthropic 承诺不会用这些数据训练模型,仅用于安全监控,比如检测新型越狱攻击和跨请求的复杂攻击模式。但对于注重数据隐私的企业用户来说,这是一个需要评估的变化,尤其是那些之前选择 Anthropic 正是因为其零留存政策的客户。

译Anthropic同日推出两款模型:Fable 5面向所有用户,配备安全分类器(检测攻击/生化武器/蒸馏时降级至Opus 4.8,超95%对话不触发);Mythos 5仅限Project Glasswing合作伙伴。Fable 5能力超越以往:Stripe在5000万行Ruby代码库完成全库迁移(原需两月团队→一天);FrontierCode测试获最高分;仅基础视觉接口通关宝可梦火红版;蛋白质设计加速约10倍;基因组学中自主工作一周多,训练出超越Science论文的模型。API定价输入$10/百万token、输出$50。订阅用户6月22日前免费。所有Mythos级别模型流量强制保留30天(仅安全监控)。

swyx@swyx · 6月10日70

Mythos is live! so excited to have our FrontierCode recognized as the next frontier coding bench. on FC Diamond, BOTH Opus 4.8 and GPT 5.5 don't meaningfully scale with effort, which many of you caught yesterday. Mythos/Fable posttraining have really applied that test time compute toward solving very, very long running problems - dozens of human hour equivalents, hundreds of dollars per task, for the first time ever measured. Available now in @Cognition @Devin for only 1.4x ACUs too! (I never thought i'd see this launch lol)

译Mythos正式上线FrontierCode基准测试,旨在衡量AI生成可维护代码的能力。该基准包含超1000小时维护者验证的任务,并引入3000+评分标准防奖励攻击。最高难度FC Diamond上,Opus 4.8得分仅13.8%,且Opus 4.8与GPT 5.5均未随effort扩展提升。Mythos/Fable后训练将test time compute用于数小时级长任务。基准已在Devin上线,ACU成本仅1.4倍。FC Extended中最易的1/3任务在2025年末被快速攻克——Opus从41%升至74%,标志着AI编码进入“维护可读代码”新时代。

OpenRouter@OpenRouter · 6月10日77

Claude Fable 5 from @AnthropicAI is live on OpenRouter! Anthropic's most capable coding model, built for long-running, ambiguous work: legacy migrations, gnarly production bugs and async sessions that run for hours or days. SOTA on nearly all tested benchmarks.

译来自 @AnthropicAI 的 Claude Fable 5 已在 OpenRouter 上线! Anthropic 最强编码模型,专为长时间、模糊任务而建:遗留系统迁移、棘手的生产 bug 以及持续数小时或数天的异步会话。几乎在所有测试过的基准上都达到 SOTA。

eric zakariasson@ericzakariasson · 6月10日75

go try out fable in cursor, it's an incredible but expensive model!

译快去 Cursor 里试试 Fable,这个模型很厉害但价格不菲! Claude Fable 5 已在 Cursor 中上线,其在 CursorBench 上以 72.9% 的成绩创下新 SOTA,比此前最佳高出 8 个百分点。

OpenCode@opencode · 6月10日65

North Mini Code is now free on OpenCode 256K Context · fully open source Cohere's first coding model

译North Mini Code 现已在 OpenCode 上免费提供 256K 上下文 · 完全开源 Cohere 的首个编程模型

Yuchen Jin@Yuchenj_UW · 6月10日71

Claude Fable 5 / Mythos 5 wins everywhere. I thought Fable 5 was just a nerfed Mythos Preview, but it’s literally better. SWE-Bench Pro: Fable 5: 80.3%, GPT-5.5: 58.6%. And the price is only 2x Opus 4.8: $10/input MTok, $50/output MTok. I don't think GPT 5.6 can beat this...

译Claude Fable 5 / Mythos 5 全面胜出。 我以为 Fable 5 只是弱化版 Mythos Preview,但它实际更强。SWE-Bench Pro:Fable 5:80.3%,GPT-5.5:58.6%。 而且价格仅为 Opus 4.8 的 2 倍:$10/输入 MTok,$50/输出 MTok。 我认为 GPT 5.6 无法超越这个成绩。

AK@_akhaliq · 6月10日56

SWE-Explore Benchmarking How Coding Agents Explore Repositories

译SWE-Explore 评估编码智能体如何探索仓库

OpenRouter@OpenRouter · 6月10日73

Want to use OpenRouter with Cursor? Here's an integration guide: https://openrouter.ai/docs/cookbook/coding-agents/cursor-integration

译想要在Cursor中使用OpenRouter吗? 这里有一份集成指南:https://openrouter.ai/docs/cookbook/coding-agents/cursor-integration

Google Gemini@GeminiApp · 6月10日51

Gemini 3.5 Flash can process complex visual data and translate it into functional, interactive code. Watch Gemini analyze lighting from a reference image, and build an interactive 3D visualizer to preview the setup.

译Gemini 3.5 Flash 能处理复杂视觉数据,并将其转化为功能性的交互式代码。 观看 Gemini 分析参考图像中的光照,并构建一个交互式 3D 可视化器来预览该设置。

jason@jxnlco · 6月10日24

What kind of issues do you run into when you are using Codex to create PDFs?

译你在使用Codex创建PDF时遇到了哪些问题?

Artificial Analysis@ArtificialAnlys · 6月10日70

Cohere just released North Mini Code, a small 30B parameter (3B active) open weights coding model that scores 27.6 on the Artificial Analysis Intelligence Index Less than a month since @cohere's last model release, Command A+, has launched another open weights model that is optimized for coding, and much smaller at 30B total parameters and 3B active parameters. Key Takeaways: ➤ Achieves 27.6 on the Artificial Analysis Intelligence Index, above gpt-oss-20B (high) at 24.5 and just below Mistral Small 4 (119B parameters, 6.5B active) at 27.8 ➤ Scores competitively on the Artificial Analysis Coding Index (weighted average of Terminal-Bench Hard and SciCode) against open weights models in its size class, scoring 33.4, significantly above GLM-4.7-Flash at 25.9, and below Qwen3.6 35B A3B at 35.2. However, it underperforms on non-coding agentic tasks, scoring 14% on GDPval-AA and 37% on 𝜏²-Bench Telecom ➤ On Cohere’s API, North Mini Code is faster than several comparable open weights models of its intelligence and size class (~199 output tokens per second) ➤ North Mini Code is a text-only 30B total parameter and 3B active parameter model, and is open-sourced under the Apache 2.0 license

译Cohere近日发布North Mini Code,一款30B总参数(3B活跃参数)的开放权重编码模型,采用Apache 2.0开源协议。该模型在Artificial Analysis Intelligence Index上得分27.6,高于gpt-oss-20B (high)的24.5,略低于Mistral Small 4(119B参数,6.5B活跃)的27.8。在Coding Index(Terminal-Bench Hard和SciCode加权平均)上得分33.4,显著高于GLM-4.7-Flash的25.9,低于Qwen3.6 35B A3B的35.2。非编码智能体任务表现较弱:GDPval-AA 14%、τ²-Bench Telecom 37%。在Cohere API上推理速度约199 output tokens/s,快于同类模型。距Cohere上次发布Command A+不到一个月。

凡人小北@frxiaobei · 6月9日21

TRAE 的路子走宽了👍

Boris Cherny@bcherny · 6月9日70

Just landed nested subagent support in Claude Code Starting to experiment more with agents kicking off agents as a way to better manage context. Capped at depth=5 to start, going out in today’s release. Lmk what you think!

译刚刚在 Claude Code 中实现了嵌套子智能体支持。 开始更多实验智能体启动其他智能体,以便更好地管理上下文。初始深度上限为 5,将在今天的发布中推出。 欢迎反馈!

Rohan Paul@rohanpaul_ai · 6月9日66

Incredible! This is just the benchmark we needed. Claude Opus 4.8, achieves a score of only 13.4%. Other models score even lower: GPT-5.5 receives 6.3%, Gemini 3.1 Pro 4.7%, and others even less. Cognition is introducing FrontierCode, a coding benchmark built to test whether AI code is good enough for a real maintainer to merge, not just whether it passes tests. FrontierCode asks a harder question: did the model produce a clean, limited, well-tested, readable patch that fits the project’s existing style and would survive serious code review? They bring 3 nested subsets of FrontierCode at increasing difficulty: The benchmark contains 150 tasks, with Main as the hardest 100 and Diamond as the hardest 50. More than 20 open-source maintainers helped design the tasks, and each task took over 40 hours to build, review, attack, and calibrate. The biggest finding is that top models still struggle badly when the target is mergeable code instead of merely working code. On Diamond, the best model, Claude Opus 4.8, scores only 13.4%, while GPT-5.5 scores 6.3%, Gemini 3.1 Pro scores 4.7%, and the best open-source model listed, Kimi K2.6, scores 3.8%. Shows that today’s strongest coding agents can often patch behavior, but they still fail many human-review standards around design, restraint, test quality, and project conventions. The mechanism is a grading system built around blockers and non-blockers. A blocker is something that would stop a maintainer from merging the PR, such as broken behavior, missing required behavior, unsafe scope changes, bad performance, or tests that do not prove the fix. A solution that fails any blocker gets 0, even if parts of the code look good. A passing solution then gets a weighted score based on softer quality items such as readability, type safety, style, and fit with the existing codebase. FrontierCode also adds checks beyond normal unit tests. Reverse-classical testing runs the model’s own tests against the original broken code, and those tests must fail, which proves the model wrote tests that actually catch the bug. Scope checks punish patches that touch unrelated files, add oversized diffs, or refactor things the task did not ask for. Adaptive grading uses an LLM to adjust test scaffolding around valid implementation differences, so a good solution is not rejected just because it used a different function name or error wording.

译Cognition 发布 FrontierCode 编码基准,评测 AI 生成的代码是否达到维护者可合并的质量,而非仅通过测试。基准含 150 个任务(Main 最难 100 个,Diamond 最难 50 个),由 20 余位开源维护者设计,每个任务耗时超 40 小时。评分设阻隔项(如破坏行为、缺失逻辑等)和加权项(可读性、类型安全等)。额外包含反向测试、范围检查、自适应评分。在 Diamond 子集上,Claude Opus 4.8 得分 13.4%,GPT-5.5 6.3%,Gemini 3.1 Pro 4.7%,开源最佳 Kimi K2.6 3.8%,显示顶尖模型在可合并代码上仍表现糟糕。

Tibo@thsottiaux · 6月9日49

Playing codex like an orchestra. One /goal at a time.

译像指挥管弦乐队一样使用 Codex。一次一个 /goal。

SiliconFlow@SiliconFlowAI · 6月9日61

V4-Pro (quality) + V4-Flash (speed) 2 lines of config to bring the Best price/perf DeepSeek combo in your terminal @goodhunt's CodeWhale — the terminal coding agent built for @deepseek_ai V4 — now includes SiliconFlow as a built-in provider🔥 Here's what you're actually getting: → Stream Reasoning: See the thinking, not just the answer. → Auto-Routing: Switches model + thinking depth by task complexity. → Zero Drift: A written Constitution ranks authority for each turn, keeps V4 oriented. → Self-Improving: V4 helped write its own harness, and as the harness improves, every session is stronger. Step-by-step guide 🧵👇

译硅基流动宣布,通过V4-Pro(质量)与V4-Flash(速度)两行配置,即可在终端获得DeepSeek V4的最佳性价比组合。专为DeepSeek V4构建的终端编码智能体CodeWhale现已内置SiliconFlow。CodeWhale具备流式推理(显示思考过程)、自动路由(根据任务复杂度切换模型与思考深度)、零漂移(通过书面宪法为每轮排序权威,保持V4定向)以及自我改进(V4协助编写框架,框架提升后每个会话更强大)等特性。

ginobefun@hongming731 · 6月9日32

和 @puliandc 讨论了好几轮 用 Claude Code 和 Claude Design 设计和讨论 然后用 Codex Goal 模式搭建。 明晚争取上线 BestBlogs 世界杯专刊 期待一起用 BestBlogs 看世界杯⚽️📖!

译洪明 (@hongming731) 透露,经过与 @puliandc 多轮讨论,他们使用 Claude Code、Claude Design 进行设计和讨论,并用 Codex Goal 模式完成了搭建。目标是在明晚上线 BestBlogs 世界杯专刊,邀请用户一起用 BestBlogs 看世界杯。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月10日
09:17
meng shao@shao__meng
53
博主对比Claude Fable 5与Step 3.7 Flash官方API价格:输入/输出约50倍,缓存命中输入约100倍;开启Fast Mode(速度×3,价格×6)后分别升至约300倍、300倍、600倍。作为实例,用Step 3.7 Flash完成真实Coding Agent任务:将Agent Memory运行痕迹(含memory events、structured facts、memory chunks等)生成为单文件HTML工具agent_memory_inspector.html,可查看8条事件、9条事实、8个chunk、9/9测试通过等信息,展示了模型将混乱Agent traces转化为可用检查工具的能力。

meng shao: 我这次用 Step 3.7 Flash 测了一个真实 Coding Agent 任务: 把一组 Agent Memory 的运行痕迹,做成本地可检查的 Memory Inspector。 输入不是干净需求文档,是一个已有 Local Age...

智能体Anthropic编码评测/基准
09:07
Berryxia.AI@berryxia
15
之前买高铁票没有注意,居然直接可以选择静音车厢。 车险内没有手机外放震天响的短视频声音,旅途Vibe Coding 简直不要太爽啊! 刚刚有人外放声音,乘务员直接当场制止😂 太爽了…
其他编码
08:43
小互@xiaohu
70
Claude 重置用量并给出 Fable 使用四条建议

Claude 重置了所有用量。官方对使用 Fable 提出四条建议:分配比之前模型能处理的更大任务;默认使用 xhigh/high 努力程度以获得最佳性能,med 用于更快的交互式会话;重新调整技能和 CLAUDE.md,避免旧指令让 Fable 陷入陈旧模式;从提供任务转向提供目标,描述完成样貌并让 Fable 通过 /loop 和 /goal 自行寻找路径。

Anthropic教程/实践编码
08:25
karminski-牙医@karminski3
64
Anthropic Fable 5 测试:光追代码出现变量声明错误

用户测试 Anthropic Fable 5,使用 xhigh 模式让其从零编写光追渲染器。生成的 PBR 与 BRDF 代码质量出色,但出现变量声明晚于引用的错误,导致代码直接报错。推测模型过度关注核心算法逻辑,忽略了变量声明等细节。此外,成本高昂,仅生成该网页就花费 2 美元。作者调侃 AI 超越人类还为时尚早——因为自己的工资负担不起。

Anthropic编码评测/基准
07:40
swyx@swyx
73
swyx 表示,当前在 Fable 上让 Claude Code 执行 "review my code for issues" 时不按使用量收费,建议开发者在发布前先用 Fable CheckTM 检查,否则可能发现已上线代码存在严重问题。他引用自己重跑 FC Diamond 历史数据的推文,指出官方表格/图表未充分反映 Fable 的起飞程度--Fable 是不同级别的模型,带有明显的"大模型气息"。

swyx: just finished rerunning FC Diamond on my historical charts. none of the official tables/charts are capturing the degree ...

Anthropic教程/实践编码
07:17
meng shao@shao__meng
69
Zero to Claude Code 免费课程上线简体中文版

Wix VP @IShmool 推出的免费课程「Zero to Claude Code」现已支持简体中文,作者专门用中文官宣并感谢中文 AI 社区。该课程面向零基础学习者,讲解如何用 Claude Code 从零构建真实产品。已有 300 名中国学生参与学习。课程完全免费,访问 zero2claude.dev 即可开始。

itay shmool 🇮🇱☮️✨️: zero2claude 正式推出简体中文版。 已有 300 名中国学生在学习用 Claude Code 从零开始构建真正的产品。 感谢 @shao__meng 和中国 AI 社区的支持 🇨🇳 免费课程,零基础也能上手。

智能体教程/实践编码
07:07
Berryxia.AI@berryxia
72
Cohere开源North Mini Code:3B参数专攻Agentic Coding

Cohere推出North Mini Code开源模型,总参数30B,活跃参数仅3B,采用Apache 2.0许可。该模型在Artificial Analysis Coding Index上跑出33.4分,与同量级模型竞争,专为智能体编程(agentic coding)优化,支持本地运行、自由修改和迭代。开发者首次能完全掌控coding agent,而非依赖云端黑盒。

Cohere: Small: 30 billion parameters, 3B active. Efficient: Benchmarks to 33.4 on the Artificial Analysis Coding Index, competit...

智能体开源生态模型发布编码
06:09
Chubby♨️@kimmonismus
53
Claude 5 Fable(Mythos)在多数基准测试中达SOTA,Stripe迁移50M行Ruby代码仅用一天

Anthropic的Claude 5 Fable(代号Mythos)在几乎所有AI能力基准测试中达到SOTA,长复杂任务优势尤为显著。模型更节约token,可在数百万tokens长任务中保持专注。Stripe早期测试中,Fable 5将5000万行Ruby代码库的迁移压缩到一天完成,而人工团队需两个多月。Gemini 3.5 Pro与GPT-5.6临近发布(GPT-5.6最早下周推出),面临压力。此次发布提振了Anthropic即将进行的IPO,证明其在性能与效率上仍能大幅跃升。

Chubby♨️: Claude 5 Fable tl;dr - It is state-of-the-art on nearly all tested benchmarks of AI capability, showing exceptional perf...

AnthropicOpenAI大佬观点模型发布
05:30
ClaudeDevs@ClaudeDevs
57
我们将于 6 月 13 日在旧金山举办 Claude Fable 5 搭建日。 将 Fable 5 用于值得解决的难题,并用 Claude Code 构建解决方案。 Anthropic 团队将到场,三名决赛选手将有机会从 15 万美元 Claude 积分奖池中赢取奖励。
Anthropic编码行业动态
05:17
Rohan Paul@rohanpaul_ai
66
Anthropic 的 Fable 5 模型被 Claude Code 创建者 Boris Cherny 称为自 Opus 4.5 以来最大的进步。Fable 5 从编码智能体升级为产品构建中的思考和设计伙伴,具备判断力、品味和维度。在调试时,模型会自主进行测量、添加日志并验证修复结果,确认无误后才宣告胜利--Claude Code 并未提示模型这样做,这体现了模型自身的"大模型气质"。

Boris Cherny: Fable 5 is the biggest step up I've felt in our models since Opus 4.5 back in November. After 4.5 came out I uninstalled...

Anthropic大佬观点推理编码
05:07
fofr@fofrAI
60
AI编码智能体的终局与创业影响

AI编码智能体变快变强但更贵更受限,人类角色从写代码、管理智能体转向定义正确性与承担责任的混合体(产品所有者、律师、审计员)。代码本身不再被关注,软件通过意图指定、行为验证,中间层透明。前沿模型昂贵导致资源充足者用最佳智能体复制优势,其他人用便宜旧模型,代码成为资本品。创业上,想法到产品成本趋零但可快速被模仿,软件不再是护城河,价值转向数据、网络效应、品牌、监管许可。最终可能形成大量小众利基企业和中部残酷整合。

智能体大佬观点编码
04:03
Boris Cherny@bcherny
62
Boris Cherny:Claude Fable 5 是自 Opus 4.5 以来最大提升

Anthropic 工程师 Boris Cherny 称,Fable 5 是自去年 11 月 Opus 4.5 以来感受最显著的提升。模型从编程 Agent 进化为产品构建中的思考与设计伙伴,具备了判断力、品味和维度。尤其在调试时表现出前所未有的系统化:先测量、加日志,验证修复后才宣告完成,他将其归因于模型自身的“大模型味道”。整条推文聚焦主观体验,未提及 benchmark 分数、参数规模或价格。

Anthropic大佬观点编码
03:17
Rohan Paul@rohanpaul_ai
精选75
Claude Code 团队 Thariq 分享提升 Claude Code 效率的十条建议

Thariq(Claude Code 团队)提出十条建议,核心转变是:从检查 Claude 是否做对工作,转向检查它是否在做正确的工作。具体包括:提前提供完整上下文,将其视为思考伙伴;用小规格文档让 Claude 访谈实现细节;探索多方向并生成 HTML 原型;提供丰富上下文(如功能可能一个月后删除)而非硬约束;设定明确目标与验证方法;使用 /goal 命令;利用 Workflows 并行任务、自我验证并生成对比报告;同时设置目标和 workflow;更勇敢地将此前认为 LLM 无法完成的任务交给 Claude Fable 5,因其可运行数小时、自检并产出高质量代码。Thariq 本人用 Claude Fable 5 剪辑了整段视频证明其能力。

Rohan Paul: "We used to check if Claude is doing the work right, e.g. by double-checking its output, catching when it stopped early ...

智能体Anthropic教程/实践编码

推荐理由:Claude Code团队的实战建议,把Claude从“执行工具”升级为“思考伙伴”,用/goal和Workflows实现自我验证,这套工作流比新功能本身更有价值。
03:15
Ethan Mollick@emollick
68
Ethan Mollick 获得 Opus 4.8 早期访问,对其印象深刻。他展示了 Opus 4.8 一次生成的 twigl 着色器,通过纯数学程序化生成了无限延伸的新哥特式塔楼城市,部分淹没于暴风雨海洋中,伴有大浪。整个过程完全由数学驱动。

Ethan Mollick: I had early access to Opus 4.8. Was impressed by it. Here is Opus 4.8's one shot of "create a visually interesting shade...

Anthropic模型发布编码
03:04
jason@jxnlco
49
loop this loop that 但说实话,如果你足够擅长使用 Codex 配合编排循环,你也可以成为那些周二上午 11:20 在 Equinox 的人之一。 "写好首席助理的线程,然后每 100 分钟检查我所有的连接器,协调我所有置顶线程中的工作"
智能体OpenAI教程/实践编码
02:51
Artificial Analysis@ArtificialAnlys
61
Artificial Analysis 将于6月11日举办编程智能体基准测试活动

Artificial Analysis 宣布将于6月11日(周四)在旧金山举办 Coding Agent Benchmarks 活动。演讲嘉宾包括 Cognition 高级研究副总裁 Silas Alberti、Cursor 工程师 Nate Schmidt、Kernel Labs 创始人兼 Latent Space 播客联合主持人 Alessio Fanelli,以及 Artificial Analysis 联合创始人 George Cameron。更多嘉宾待公布,活动将在 Kernel Labs 举行,可通过 Luma 链接申请参会。

智能体编码行业动态评测/基准
02:21
Artificial Analysis@ArtificialAnlys
62
Artificial Analysis 编码智能体基准测试活动本周四举行

Artificial Analysis 主办的 Coding Agent Benchmarks 活动将于本周四(6月11日)在旧金山 Kernel Labs 举行。演讲嘉宾包括 Cognition 研究高级副总裁 Silas Alberti、Cursor 评估与行为工程师 Nate Schmidt、Kernel Labs 创始人兼 Latent Space 播客联合主持人 Alessio Fanelli 以及 Artificial Analysis 联合创始人 George Cameron,更多嘉宾待公布。活动聚焦编码智能体基准测试,设有演讲和讨论环节,可申请参加。

智能体编码行业动态
02:19
歸藏(guizang.ai)@op7418
77
Anthropic 发布 Mythos 低配版 Fable 5

Anthropic 正式发布 Mythos 模型的低配版本 Fable 5,定位为面向通用场景的 Mythos 级模型。其各项基准分数超过此前任何公开发布模型,在 Agent Coding、工具调用方面得分远高于 Opus 4.8。Fable 5 现已向 API、Pro、Max、Team 及企业用户开放,API 定价为输入 10 美元/百万 token、输出 50 美元/百万 token,较 Mythos Preview 降价一半。安全方面,系统会拒绝网络攻击、生化攻击等恶意请求,必要时回退至 4.8 版本(官方称 95% 不回退)。订阅方面,6 月 23 日后 Fable 5 可能按量计费,不保证完全包含在基础订阅中。

Claude: Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...

智能体Anthropic模型发布编码
关联讨论 27 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克
02:11
Nathan Lambert@natolambert
63
Claude Fable 5 在 APEX-SWE 软件工程评测中取得 65.5% Pass@1 总体成绩,较 Claude Opus 4.8 高约 18 个百分点。两个子类别中,Integration 为 61.3%,Observability 高达 69.7%,后者比 Opus 4.8 领先 26 个百分点。Fable 5 是首个在 Observability 类别突破 50% 的模型,也是唯一在该项上得分高于 Integration 的模型(其他模型均相反)。Observability 此前一直是所有模型的瓶颈,Fable 5 首次打破这一局面。主推文认为,虽然模型 token 价格不菲,但对大量企业而言物有所值。

Mercor: Claude Fable 5 takes #1 on APEX-SWE: 65.5% Pass@1 overall. It scores ~18pp higher than Opus 4.8. We tested @claudeai Fab...

Anthropic推理编码评测/基准
02:11
Nathan Lambert@natolambert
59
Claude 5 Fable性能的疯狂跃升验证了那些说"Opus 4.5确实,我该(基本)停止手写代码,为未来做好准备"的人。更多跃升还在前方!
Anthropic大佬观点编码
02:05
eric zakariasson@ericzakariasson
精选75
我们刚刚向 http://cursor.com/evals 推送了一些改进! 你现在可以看到每个模型的成本、输出 token 和步骤绘制在图表中

nate: http://cursor.com/evals now includes steps and output tokens as well! These are additional signals our team uses to eval...

产品更新编码

推荐理由:Cursor Evals 这次更新不大,但把成本和步骤可视化放进评估页面,标志着选模型从拼跑分转向算账,做 AI 产品的该去看看。
02:00
Boris Cherny@bcherny
95
开发者 Boris Cherny 宣布,Claude Fable 5(Mythos-class 模型,已安全开放通用)已在 Claude Code 及 Cowork 中可用。该模型能力超过此前所有普遍可用的 Claude 模型,在编程任务中表现突出:需要更少的提示词和引导,token 使用更高效,代码质量、工具调用能力、智能自验证能力均有显著提升,支持更长时间的会话,且可赋予更高信任度与自主性。

Claude: Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...

Anthropic模型发布编码
关联讨论 27 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克
01:59
ClaudeDevs@ClaudeDevs
59
Claude Fable 5 改变了我们 Claude Code 团队的日常运作方式。 我们过去常常验证 Claude 是否正确完成了工作。现在我们验证它是否在做正确的工作。 以下是最大的三个变化:
智能体Anthropic教程/实践编码
01:42
宝玉@dotey
77
Anthropic发布Claude Fable 5与Mythos 5

Anthropic同日推出两款模型:Fable 5面向所有用户,配备安全分类器(检测攻击/生化武器/蒸馏时降级至Opus 4.8,超95%对话不触发);Mythos 5仅限Project Glasswing合作伙伴。Fable 5能力超越以往:Stripe在5000万行Ruby代码库完成全库迁移(原需两月团队→一天);FrontierCode测试获最高分;仅基础视觉接口通关宝可梦火红版;蛋白质设计加速约10倍;基因组学中自主工作一周多,训练出超越Science论文的模型。API定价输入$10/百万token、输出$50。订阅用户6月22日前免费。所有Mythos级别模型流量强制保留30天(仅安全监控)。

Claude: Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...

Anthropic安全/对齐推理模型发布
关联讨论 27 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克
01:38
swyx@swyx
70
Mythos上线:FrontierCode基准测试发布

Mythos正式上线FrontierCode基准测试,旨在衡量AI生成可维护代码的能力。该基准包含超1000小时维护者验证的任务,并引入3000+评分标准防奖励攻击。最高难度FC Diamond上,Opus 4.8得分仅13.8%,且Opus 4.8与GPT 5.5均未随effort扩展提升。Mythos/Fable后训练将test time compute用于数小时级长任务。基准已在Devin上线,ACU成本仅1.4倍。FC Extended中最易的1/3任务在2025年末被快速攻克——Opus从41%升至74%,标志着AI编码进入“维护可读代码”新时代。

swyx: It's finally out!!! @METR_Evals found that more than half of SWEBench results is unmergeable slop. FrontierCode represen...

AnthropicOpenAI编码评测/基准
01:36
OpenRouter@OpenRouter
77
来自 @AnthropicAI 的 Claude Fable 5 已在 OpenRouter 上线! Anthropic 最强编码模型,专为长时间、模糊任务而建:遗留系统迁移、棘手的生产 bug 以及持续数小时或数天的异步会话。几乎在所有测试过的基准上都达到 SOTA。
Anthropic模型发布编码
关联讨论 27 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克
01:35
eric zakariasson@ericzakariasson
75
快去 Cursor 里试试 Fable,这个模型很厉害但价格不菲! Claude Fable 5 已在 Cursor 中上线,其在 CursorBench 上以 72.9% 的成绩创下新 SOTA,比此前最佳高出 8 个百分点。

Cursor: Claude Fable 5 is now available in Cursor. It sets a new state of the art on CursorBench at 72.9%, 8 points above the pr...

Anthropic模型发布编码
关联讨论 27 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨The Verge:AI(RSS)X:Berry Xia (@berryxia)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克
01:32
OpenCode@opencode
65
North Mini Code 现已在 OpenCode 上免费提供 256K 上下文 · 完全开源 Cohere 的首个编程模型
开源/仓库模型发布编码
01:19
Yuchen Jin@Yuchenj_UW
71
Claude Fable 5 / Mythos 5 全面胜出。 我以为 Fable 5 只是弱化版 Mythos Preview,但它实际更强。SWE-Bench Pro:Fable 5:80.3%,GPT-5.5:58.6%。 而且价格仅为 Opus 4.8 的 2 倍:$10/输入 MTok,$50/输出 MTok。 我认为 GPT 5.6 无法超越这个成绩。
AnthropicOpenAI编码评测/基准
00:46
AK@_akhaliq
56
SWE-Explore 评估编码智能体如何探索仓库
智能体编码论文/研究评测/基准
00:35
OpenRouter@OpenRouter
同事件精选73
想要在Cursor中使用OpenRouter吗? 这里有一份集成指南:https://openrouter.ai/docs/cookbook/coding-agents/cursor-integration
教程/实践编码
同一事件,精选展示《OpenRouter 模型现可在 Cursor 中使用:试试月之暗面 Kimi K2》
推荐理由:用 Cursor 又想用 OpenRouter 上 Claude 4.6 或 Llama 4 的开发者,这篇指南帮你打通关键配置,不是大新闻但值得收藏
00:35
Google Gemini@GeminiApp
51
Gemini 3.5 Flash 能处理复杂视觉数据,并将其转化为功能性的交互式代码。 观看 Gemini 分析参考图像中的光照,并构建一个交互式 3D 可视化器来预览该设置。
Google产品更新多模态编码
00:33
jason@jxnlco
24
你在使用Codex创建PDF时遇到了哪些问题?
OpenAI其他编码
00:20
Artificial Analysis@ArtificialAnlys
70
Cohere发布North Mini Code:30B总参数(3B活跃)开源编码模型

Cohere近日发布North Mini Code,一款30B总参数(3B活跃参数)的开放权重编码模型,采用Apache 2.0开源协议。该模型在Artificial Analysis Intelligence Index上得分27.6,高于gpt-oss-20B (high)的24.5,略低于Mistral Small 4(119B参数,6.5B活跃)的27.8。在Coding Index(Terminal-Bench Hard和SciCode加权平均)上得分33.4,显著高于GLM-4.7-Flash的25.9,低于Qwen3.6 35B A3B的35.2。非编码智能体任务表现较弱:GDPval-AA 14%、τ²-Bench Telecom 37%。在Cohere API上推理速度约199 output tokens/s,快于同类模型。距Cohere上次发布Command A+不到一个月。

开源生态模型发布编码
6月9日
21:02
凡人小北@frxiaobei
21
TRAE 的路子走宽了👍
产品更新编码
21:00
Boris Cherny@bcherny
70
刚刚在 Claude Code 中实现了嵌套子智能体支持。 开始更多实验智能体启动其他智能体,以便更好地管理上下文。初始深度上限为 5,将在今天的发布中推出。 欢迎反馈!
智能体Anthropic产品更新编码
20:14
Rohan Paul@rohanpaul_ai
66
Cognition 推出 FrontierCode 编码基准:评估 AI 代码的可合并性

Cognition 发布 FrontierCode 编码基准,评测 AI 生成的代码是否达到维护者可合并的质量,而非仅通过测试。基准含 150 个任务(Main 最难 100 个,Diamond 最难 50 个),由 20 余位开源维护者设计,每个任务耗时超 40 小时。评分设阻隔项(如破坏行为、缺失逻辑等)和加权项(可读性、类型安全等)。额外包含反向测试、范围检查、自适应评分。在 Diamond 子集上,Claude Opus 4.8 得分 13.4%,GPT-5.5 6.3%,Gemini 3.1 Pro 4.7%,开源最佳 Kimi K2.6 3.8%,显示顶尖模型在可合并代码上仍表现糟糕。

Cognition: Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...

编码评测/基准
19:40
Tibo@thsottiaux
49
像指挥管弦乐队一样使用 Codex。一次一个 /goal。

Charlie Marsh: Since my last post, I reduced ty's retained memory by another 15% with Codex. We're now at a ~25% memory reduction overa...

OpenAI教程/实践编码
16:39
SiliconFlow@SiliconFlowAI
61
硅基流动联合CodeWhale推出DeepSeek V4终端最佳性价比组合

硅基流动宣布,通过V4-Pro(质量)与V4-Flash(速度)两行配置,即可在终端获得DeepSeek V4的最佳性价比组合。专为DeepSeek V4构建的终端编码智能体CodeWhale现已内置SiliconFlow。CodeWhale具备流式推理(显示思考过程)、自动路由(根据任务复杂度切换模型与思考深度)、零漂移(通过书面宪法为每轮排序权威,保持V4定向)以及自我改进(V4协助编写框架,框架提升后每个会话更强大)等特性。

智能体DeepSeek产品更新编码
14:17
ginobefun@hongming731
32
BestBlogs 用 Claude Code 和 Codex Goal 搭建世界杯专刊

洪明 (@hongming731) 透露,经过与 @puliandc 多轮讨论,他们使用 Claude Code、Claude Design 进行设计和讨论,并用 Codex Goal 模式完成了搭建。目标是在明晚上线 BestBlogs 世界杯专刊,邀请用户一起用 BestBlogs 看世界杯。

智能体AnthropicOpenAI产品更新
‹ 上一页
1…1415161718…50
下一页 ›