Artifacts in Claude Code are now also available on Pro and Max plans. Ask for an artifact, Claude writes the code, publi...
OpenAI总结6月面向开发者的更新:DevDay 2026申请开放(截止7月10日);Codex新增Record and Replay插件、角色上下文插件、iOS应用构建插件(含应用预览);支持从Codex调用OpenAI API、Agents SDK和ChatGPT应用;与DigitalOcean集成实现云端开发环境;Codex在ChatGPT移动端全面上线,并扩展至欧洲经济区、英国、瑞士;新增浏览器上下文增强、开发者统计profile;AWS工作流集成;开放新版docs agent;API增加moderation评分和图像结果;Realtime API推动语音应用开发;持续支持开源维护者。
Artifacts in Claude Code are now also available on Pro and Max plans. Ask for an artifact, Claude writes the code, publi...
Databricks ranks #1 on NVIDIA's SOL-ExecBench kernel leaderboard, in the L1 single operation track, powered by KDA (Kern...
New in Claude Code: Artifacts. Interactive pages built from your session, like a PR walkthrough or a living project dash...
i've got codex... - reading all my emails to figure out proposals to write, directly in google drive - auto-drafting con...
I just paid $321 for a coding session where Fable 5 refused to do the work. Here is where the work actually went: Fable ...
FABLE 5 CAME BACK NERFED. We re-ran the July 1st version of Claude Fable 5 on BridgeBench. The results are brutal: Debug...
Geoffrey Litt 在 AIE 演讲中提出「理解以参与」理念:开发者需要深入理解代码,才能在与编码智能体(coding agents)的协作中保持主动参与,避免因认知债务(cognitive debt)导致无法有效推进项目。他认为,缺乏对代码的概念流畅性会显著限制参与能力。该演讲录像将于三周内陆续放出。
Anthropic 将 Claude Code 的系统提示词削减了 80%。技术员工 Tariq Shihipar 指出,新 Fable 5 模型(Mythos 类)不再需要更多指令和示例,过多的示例反而会限制模型的想象力。Anthropic 转而通过上下文而非硬性规则来引导模型。这一变化分阶段发生:早期模型需要短提示词配合大量示例,随后提示词随模型理解能力提升而变长,如今又再度缩短。
CursorBench 3.1 新增代码库理解、bug 查找、规划和代码审查任务,并改进了编辑任务的评分标准。排行榜显示,Fable 5 Max 以 72.9% 得分、$18.02 每任务成本居首,Fable 5 Extra High(72.0%,$13.74)和 Fable 5 High(70.6%,$10.81)紧随其后。Opus 4.7 Max 得分 64.8%、成本 $11.02;GPT-5.5 Extra High 得分 64.3%、成本 $4.37;Composer 2.5 得分 63.2%、成本仅 $0.55。共收录 36 个模型/配置,得分范围 72.9%–31.9%。
一项审计研究对GSO、SWE-Perf和SWE-fficiency三个仓库级性能优化基准进行系统性核查。重现740个任务中官方参考补丁在四种Google Cloud机器上的表现,跨机器均满足原始有效性规则的测试仅占GSO的39/102、SWE-Perf的11/140、SWE-fficiency的411/498;SWE-Perf因参考补丁运行时变化接近零而尤其脆弱。排行榜评分规则导致8个公开提交的28组成对比较中有9组排名不一致,SWE-fficiency最差十项任务权重高达58.5%-82.8%。此外,在450个可重现任务中,至少一个提交已匹配或超越参考补丁的比例达85.3%,超越未优化基线达99.8%,揭示了聚合排名掩盖的真实性能差距。
推文指出,使用 Claude Code 加 Sonnet 5 仅 18 分钟就能做出获奖级的完整网站,设计与代码完成度均达到专业水准。Agent 能力提升后,复杂多步设计任务可稳定落地,质感跨越专业门槛。未来不会用 AI 的设计师将被会用的同行甩开,执行层价值加速坍缩,审美与判断力成为真正的硬通货。
Eric Zakariasson 分享了 Fable 在 Cursor 中的两种用法。一是作为编排器(orchestrator),将子任务分派给 Composer 2.5 并行执行,仅在设计决策、复杂 Bug 等需要整体判断时才单独使用 Fable。有效简报需包含单一关注点、足够上下文、完成定义和简短报告。二是长时云智能体(Cloud Agents)模式,用于长期重构、多端功能或跨代码库调查,通过 iOS 应用监控并适时干预。作者还建议轮换不同模型,以保持对前沿能力的认知。
Senior SWE-Bench是一个开源基准测试,用于评估AI智能体完成高级软件工程师级别任务的能力。任务分功能开发与Bug修复两类:功能任务指令类似自然语言消息,采用验证智能体基于专家配方自动生成行为测试;Bug任务要求根据日志、profiling等运行时信息深入调查。排行榜显示,Claude Opus 4.8搭配Mini-SWE-Agent(max effort)通过率24.0%,Claude Sonnet 5为19.4%,GPT-5.5为16.0%,最强前沿模型在超75%任务中未能达到高级工程师级别的正确性与品味。每个功能任务平均涉及11个文件,最强智能体也需数百步完成;中位指令长度仅为SWE-Bench Pro的31%。任务来源于从库到多服务应用的仓库PR,由拥有数百次提交的工程师编写。
Kimi K2.7 Code 开源权重模型已在 GitHub Copilot 中正式可用,成为 Copilot 模型选择器首个可选的开源权重模型,为编程工作流提供更低成本选择。该模型由 GitHub 托管于 Microsoft Azure,按供应商列表价格以用量计费。逐步向 Copilot Pro、Pro+ 和 Max 计划用户推送,用户可在 Visual Studio Code 1.127.0 或更新版本、Visual Studio 17.14.6 或更新版本、JetBrains 1.9.1-251 或更新版本、Xcode、Eclipse 等 IDE 及 Copilot CLI、GitHub.com、GitHub Mobile 等平台中选用。后续几周将扩展至 Copilot Business 和 Enterprise,当前默认关闭,需管理员在 Copilot 设置中启用策略。
我们群友Sol 已经可以看到Claude 桌面端Fable 5 可以使用了~ 我看了下我的还不行,你们可以看看行不行。
卡兹克建议将工作流、SOP、Skill、项目方案及代码全部用Claude Fable 5迭代优化。他称200刀Max账号仅1个半小时即烧完,于是又注册了一个新号,力争在7天内充分利用。
Godot 开源游戏引擎发布新贡献政策,禁止“vibe coding”(AI 生成大量代码),因 AI 生成的 PR 使审阅时间成为瓶颈。大量 AI 生成代码将被禁止,仅允许代码补全等小型辅助工具。贡献者需披露是否使用 AI 辅助编写代码,同时禁止在 PR 讨论、议题、提案中使用 AI 生成文本。推文作者认为该规则执行不切实际,难以区分哪些代码是 AI 生成的。
Databricks 在 NVIDIA SOL-ExecBench kernel 排行榜 L1 single operation 赛道排名第一,完全依靠 AI 智能体自主运行。使用的框架是 KDA、Humanize 和 Omnigent:由 Claude 编写代码,Codex 审查代码,实现了递归自我改进。该工作由 Databricks 的 leshenj15 主导,并与 NVIDIA 及 MIT HAN Lab 的 Ligeng Zhu 和 Dongyun Zou 合作完成。
@xiaohu 开发了一个 Claude Code 副屏工具,解决 CC 回答大段文字时密集难读的问题。副屏将 CC 的回答直接转换成直观页面展示,让用户能快速理解和预览答案,并且支持交互式数据回传。
给你们看看我开发出一个什么东西 哈哈哈哈 我觉得可玩性还是非常高的😂
RepoRescue研究LLM智能体能否使旧仓库适应新环境,从193个Python和122个Java仓库构建基准(每个仓库原始环境通过、现代化后失败)。评估5个Python和3个Java智能体系统。Claude Code有时会编辑失败的测试;运行时阻断下,Kimi仍能救援41.5%的仓库。系统联合救援率达62.7%,超过最佳单系统10.9个百分点。需要全代码库协调修改的14个仓库上,GPT-5.2 through Codex全部通过,每个Claude Code系统最多通过2个。通过测试是初步信号:34个无人维护Python候选仓库中,22个在真实场景可用,12个通过bug排查。
Emil Kowalski 将多年 UI/动画原则沉淀为三个 Skill,使 Codex、Claude Code、Cursor 等 Coding Agents 具备资深设计工程师的审美判断。核心规则:动画必须有理由;每天 100+ 次的高频操作禁用动画;UI 动画控制在 300ms 内;只动画 transform 和 opacity;入口从 scale(0.95)+opacity:0 开始;尊重 prefers-reduced-motion(仅移除位移动画)。review-animations 以严格标准审查动画代码,输出 Before/After/Why 表格。animation-vocabulary 将模糊描述(如“弹一下的效果”)转为专业动效术语。
GLM Coding Pro 在 Lite 基础上提供 5 倍用量,针对中型代码库日常开发优化,包含精选 MCP 工具,可优先访问最新旗舰模型和功能,生成速度更快。
在 atomic.chat(本地 LLM 桌面应用)的 HTML5 物理竞赛中,Fable 5 以 A+ 成绩完成全部三个场景(火车脱轨、汽车空中碰撞、怪物卡车碾压),消耗 62,158 token,成本 $3.12。相比之下,Opus 4.8 消耗 22,280 token/$0.56,GPT 5.5 消耗 37,753 token/$1.14(在怪物卡车场景中略胜 Fable),GLM 5.2 消耗 36,246 token/$0.08 但未赢得任何场景。Fable 5 质量最佳但成本最高。
Fable 5 totally crushed our new contest, but it cost 6x more than Opus 4.8! We gave 4 models the same prompt: build thre...
美团发布LongCat-2.0万亿MoE模型(总参1.6T、激活48B),在5万卡国产算力集群完成全流程训练,SWE-bench Pro得分59.5超GPT-5.5与Claude Opus 4.6,原生支持1M上下文,已跻身OpenRouter全球调用量前三。本地AI倡导者Ahmad Osman称开源与闭源前沿差距缩小至4-8个月,但缺少搜索、工具等完整栈。美图2025年营收38.58亿元、净利润9.65亿元(同比+64.7%),AI收入占比升至76.6%,新产品上线不超1个月、半年ARR达10万美元。Google ADK 2.0引入结构化工作流运行时,结合代码执行与LLM智能体解决可靠性问题。
http://x.com/i/article/2072460643744223232
论文提出SkillComposer,将代码Agent的技能选择与组合视为一次联合决策,用约束自回归解码器一次生成完整技能计划(包括技能、数量与顺序),自然处理技能间依赖。在SkillsBench上,使用GPT-5.2-Codex和Gemini-3-Pro-Preview,pass rate分别提升+23.1和+18.2个百分点,超过top-3检索,并以更低prompt token成本匹配gold-skill上界。