AI编码智能体变快变强但更贵更受限,人类角色从写代码、管理智能体转向定义正确性与承担责任的混合体(产品所有者、律师、审计员)。代码本身不再被关注,软件通过意图指定、行为验证,中间层透明。前沿模型昂贵导致资源充足者用最佳智能体复制优势,其他人用便宜旧模型,代码成为资本品。创业上,想法到产品成本趋零但可快速被模仿,软件不再是护城河,价值转向数据、网络效应、品牌、监管许可。最终可能形成大量小众利基企业和中部残酷整合。
AI编码智能体变快变强但更贵更受限,人类角色从写代码、管理智能体转向定义正确性与承担责任的混合体(产品所有者、律师、审计员)。代码本身不再被关注,软件通过意图指定、行为验证,中间层透明。前沿模型昂贵导致资源充足者用最佳智能体复制优势,其他人用便宜旧模型,代码成为资本品。创业上,想法到产品成本趋零但可快速被模仿,软件不再是护城河,价值转向数据、网络效应、品牌、监管许可。最终可能形成大量小众利基企业和中部残酷整合。
Cohere发布North Mini Code,一款30B参数MoE模型(3B活跃参数),Apache 2.0开源。在Artificial Analysis Coding Index上得分33.4,超越Qwen3.5、Gemma 4等同类模型。后训练采用两阶段SFT和RLVR,在SWE-Bench Verified上pass@10达80.2%,Terminal-Bench v2上达55.1%。支持64K/128K上下文长度,专为智能体编码任务优化。
Anthropic 发布 Claude Fable 5,可一键生成古怪好玩的视频游戏,预计将在网页 vibe coders 中广受欢迎。
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》Nextdoor 工程师利用 Codex 搭配 GPT-5.5 调查难以复现的问题、实现跨平台构建,并集中精力于产品成果。
Anthropic 工程师 Boris Cherny 称,Fable 5 是自去年 11 月 Opus 4.5 以来感受最显著的提升。模型从编程 Agent 进化为产品构建中的思考与设计伙伴,具备了判断力、品味和维度。尤其在调试时表现出前所未有的系统化:先测量、加日志,验证修复后才宣告完成,他将其归因于模型自身的“大模型味道”。整条推文聚焦主观体验,未提及 benchmark 分数、参数规模或价格。
Thariq(Claude Code 团队)提出十条建议,核心转变是:从检查 Claude 是否做对工作,转向检查它是否在做正确的工作。具体包括:提前提供完整上下文,将其视为思考伙伴;用小规格文档让 Claude 访谈实现细节;探索多方向并生成 HTML 原型;提供丰富上下文(如功能可能一个月后删除)而非硬约束;设定明确目标与验证方法;使用 /goal 命令;利用 Workflows 并行任务、自我验证并生成对比报告;同时设置目标和 workflow;更勇敢地将此前认为 LLM 无法完成的任务交给 Claude Fable 5,因其可运行数小时、自检并产出高质量代码。Thariq 本人用 Claude Fable 5 剪辑了整段视频证明其能力。
"We used to check if Claude is doing the work right, e.g. by double-checking its output, catching when it stopped early ...
I had early access to Opus 4.8. Was impressed by it. Here is Opus 4.8's one shot of "create a visually interesting shade...
Artificial Analysis 宣布将于6月11日(周四)在旧金山举办 Coding Agent Benchmarks 活动。演讲嘉宾包括 Cognition 高级研究副总裁 Silas Alberti、Cursor 工程师 Nate Schmidt、Kernel Labs 创始人兼 Latent Space 播客联合主持人 Alessio Fanelli,以及 Artificial Analysis 联合创始人 George Cameron。更多嘉宾待公布,活动将在 Kernel Labs 举行,可通过 Luma 链接申请参会。
Anthropic 推出 Claude Fable 5 和 Mythos 5 两款新模型,声称全面超越当前 Opus 代,尤其在编程与科研方面。Fable 5 一天内完成 Stripe 的代码迁移,原需团队两个月工作量;Mythos 5 可自主设计候选药物,但因具备进攻性网络能力,目前仍保持封闭不开放。
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克Artificial Analysis 主办的 Coding Agent Benchmarks 活动将于本周四(6月11日)在旧金山 Kernel Labs 举行。演讲嘉宾包括 Cognition 研究高级副总裁 Silas Alberti、Cursor 评估与行为工程师 Nate Schmidt、Kernel Labs 创始人兼 Latent Space 播客联合主持人 Alessio Fanelli 以及 Artificial Analysis 联合创始人 George Cameron,更多嘉宾待公布。活动聚焦编码智能体基准测试,设有演讲和讨论环节,可申请参加。
Anthropic 正式发布 Mythos 模型的低配版本 Fable 5,定位为面向通用场景的 Mythos 级模型。其各项基准分数超过此前任何公开发布模型,在 Agent Coding、工具调用方面得分远高于 Opus 4.8。Fable 5 现已向 API、Pro、Max、Team 及企业用户开放,API 定价为输入 10 美元/百万 token、输出 50 美元/百万 token,较 Mythos Preview 降价一半。安全方面,系统会拒绝网络攻击、生化攻击等恶意请求,必要时回退至 4.8 版本(官方称 95% 不回退)。订阅方面,6 月 23 日后 Fable 5 可能按量计费,不保证完全包含在基础订阅中。
Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克Claude Fable 5 takes #1 on APEX-SWE: 65.5% Pass@1 overall. It scores ~18pp higher than Opus 4.8. We tested @claudeai Fab...
http://cursor.com/evals now includes steps and output tokens as well! These are additional signals our team uses to eval...
Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克Anthropic同日推出两款模型:Fable 5面向所有用户,配备安全分类器(检测攻击/生化武器/蒸馏时降级至Opus 4.8,超95%对话不触发);Mythos 5仅限Project Glasswing合作伙伴。Fable 5能力超越以往:Stripe在5000万行Ruby代码库完成全库迁移(原需两月团队→一天);FrontierCode测试获最高分;仅基础视觉接口通关宝可梦火红版;蛋白质设计加速约10倍;基因组学中自主工作一周多,训练出超越Science论文的模型。API定价输入$10/百万token、输出$50。订阅用户6月22日前免费。所有Mythos级别模型流量强制保留30天(仅安全监控)。
Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克Mythos正式上线FrontierCode基准测试,旨在衡量AI生成可维护代码的能力。该基准包含超1000小时维护者验证的任务,并引入3000+评分标准防奖励攻击。最高难度FC Diamond上,Opus 4.8得分仅13.8%,且Opus 4.8与GPT 5.5均未随effort扩展提升。Mythos/Fable后训练将test time compute用于数小时级长任务。基准已在Devin上线,ACU成本仅1.4倍。FC Extended中最易的1/3任务在2025年末被快速攻克——Opus从41%升至74%,标志着AI编码进入“维护可读代码”新时代。
It's finally out!!! @METR_Evals found that more than half of SWEBench results is unmergeable slop. FrontierCode represen...
Claude Fable 5 is now available in Cursor. It sets a new state of the art on CursorBench at 72.9%, 8 points above the pr...
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克Anthropic 发布 Claude Fable 5,称其为迄今广泛可用的最强模型。该模型在软件工程、知识工作与视觉任务中表现突出,且随着任务变长、变复杂,领先优势进一步扩大。Fable 5 是 Anthropic 首次大规模发布的 Mythos 类 AI 模型,此前该公司因该类模型在网络安全任务中能力过强、风险过高而未公开。此次发布得益于新增的安全措施,可在特定高风险领域阻止模型生成响应。
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克Anthropic 今日推出 Claude Fable 5(通用安全版)和 Claude Mythos 5(受限安全版)。Fable 5 在软件工程、知识工作、视觉、科研等几乎所有测试基准上达到 SOTA,Stripe 称其将数月工程压缩至数天,FrontierCode 评分居前沿模型之首,可仅凭截图重建网页应用源码。Mythos 5 在药物设计中实现约 10 倍加速,其分子生物学假说盲测获科学家偏好的概率约 80%。两模型售价均为 $10/百万输入 tokens、$50/百万输出 tokens,较 Claude Mythos Preview 降价过半。Fable 5 在部分敏感主题上回退至 Claude Opus 4.8,安全触发率低于 5% 的会话。Mythos 5 通过 Project Glasswing 向网络安全防御者开放。
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克Cohere近日发布North Mini Code,一款30B总参数(3B活跃参数)的开放权重编码模型,采用Apache 2.0开源协议。该模型在Artificial Analysis Intelligence Index上得分27.6,高于gpt-oss-20B (high)的24.5,略低于Mistral Small 4(119B参数,6.5B活跃)的27.8。在Coding Index(Terminal-Bench Hard和SciCode加权平均)上得分33.4,显著高于GLM-4.7-Flash的25.9,低于Qwen3.6 35B A3B的35.2。非编码智能体任务表现较弱:GDPval-AA 14%、τ²-Bench Telecom 37%。在Cohere API上推理速度约199 output tokens/s,快于同类模型。距Cohere上次发布Command A+不到一个月。
GitHub Copilot CLI 新增自定义 AI 智能体功能,使 CLI 能够理解开发者的技术栈和团队工作流,将一次性终端提示转变为可重复、可审查的流程。
文章探讨AI明星开发者在快速推进项目后,留下的混乱需要由团队或后续开发者清理的现象,聚焦于技术债务与协作困境。
Apple 在 WWDC 上展示的大部分 AI 功能与竞争对手雷同:可提问的聊天机器人、文本生成/摘要工具以及图像生成。Siri 的新功能已在 Android 手机及 Claude、ChatGPT 应用中存在。作者下载了 iPadOS 26 首个开发者测试版,认为 Apple 真正有想法的方向是 vibe coding——一种更贴近自然交互的编程方式。
Cognition 发布 FrontierCode 编码基准,评测 AI 生成的代码是否达到维护者可合并的质量,而非仅通过测试。基准含 150 个任务(Main 最难 100 个,Diamond 最难 50 个),由 20 余位开源维护者设计,每个任务耗时超 40 小时。评分设阻隔项(如破坏行为、缺失逻辑等)和加权项(可读性、类型安全等)。额外包含反向测试、范围检查、自适应评分。在 Diamond 子集上,Claude Opus 4.8 得分 13.4%,GPT-5.5 6.3%,Gemini 3.1 Pro 4.7%,开源最佳 Kimi K2.6 3.8%,显示顶尖模型在可合并代码上仍表现糟糕。
Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...
Since my last post, I reduced ty's retained memory by another 15% with Codex. We're now at a ~25% memory reduction overa...
该教程基于 NVIDIA cuTile Python 实现了分块 GPU 内核编程工作流,在 Colab 环境中配置 GPU、驱动、CUDA 及 cuTile 可用性后,分别构建了 tiled 向量加法、矩阵加法和矩阵乘法核函数,并以 PyTorch 作为回退保持 notebook 可执行。每一步均通过 PyTorch 验证结果正确性,并基准测试了各阶段的中位运行时间。
硅基流动宣布,通过V4-Pro(质量)与V4-Flash(速度)两行配置,即可在终端获得DeepSeek V4的最佳性价比组合。专为DeepSeek V4构建的终端编码智能体CodeWhale现已内置SiliconFlow。CodeWhale具备流式推理(显示思考过程)、自动路由(根据任务复杂度切换模型与思考深度)、零漂移(通过书面宪法为每轮排序权威,保持V4定向)以及自我改进(V4协助编写框架,框架提升后每个会话更强大)等特性。
Cursor 将欧洲总部设在伦敦,计划招聘约 200 名员工,并在巴黎、慕尼黑等地开设小型办事处。SpaceX 拥有以 600 亿美元收购 Cursor 的选择权,或支付 100 亿美元开展全新合作。Cursor 目前 B2B 年化营收约 26 亿美元,客户包括英国航空、英国石油、诺基亚等。公司强调数据留存欧洲本地以满足监管合规,其平台支持用户用自然语言生成代码,主打模型中立,竞争对手包括 GitHub Copilot、OpenAI 和谷歌的同类产品。
关联讨论 12 条TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:阿易 AI Notes (@AYi_AInotes)X:Michael Truell (@mntruell)The Decoder:AI News(RSS)X:宝玉 (@dotey)X:歸藏 (@op7418)Hacker News 热门(buzzing.cc 中文翻译)The Verge:AI(RSS)IT之家(RSS)X:Emad Mostaque (@EMostaque)Ars Technica:AI(RSS)