With Design Mode, you can now point, draw, or talk to update your UI.
With Design Mode, you can now point, draw, or talk to update your UI.
i'm obsessed with AI DIY projects. my favorite one right now is this broccoli farmer in hokkaido, japan using Codex to r...
用户反映GitHub Copilot自6月1日实施新计费价格后,额度消耗极快,但额度刷新需等到月底(周期长达一个月),呼吁改为按周刷新。
Your Codex activity now has a home, and an easier way to share it. Codex profiles show your activity graph, streaks, lif...
本周BestBlogs梳理20篇内容,聚焦Agent时代的三层爆发:模型层OpenAI升级ChatGPT“梦境”记忆架构、MiniMax M3开源(1M上下文+稀疏注意力)、Gemma 4 12B端侧Agent工作流;产品层Kimi Work Beta面向知识工作者、微软开源SkillOpt(3300 star,含文本学习率与拒绝编辑缓冲区)、扣子3.0升级为AI团队;工程层Anthropic发布Claude Code动态工作流(子代理编排)及其内部AI原生工程实践。
Anthropic 披露,Claude 现已编写超过80%的合并生产代码。2025年2月 Claude Code 研究预览前,该比例仅有个位数,而工程师产出升至2024年基线的8倍。智能体可编辑文件、运行测试、检查失败、生成辅助智能体并在长任务中持续工作。可靠任务长度约每4个月翻倍,Mythos Preview 达至少16小时,开放式 Claude Code 成功率达76%。Claude 训练代码加速从3倍升至52倍,有经验工程师在相同设置下4-8小时仅约4倍。人类剩余优势在于研究判断。
阿里云推出Qwen3.7-Max,定位为最通用的智能体基础模型,专为编码、业务自动化和长时间运行的AI工作流设计。支持工具调用、跨框架协作与复杂任务稳定执行。限时提供50%折扣及1百万免费token,开发者可免费试用。
DGrid 🤝 @MiniMax_AI MiniMax M3 is now live on http://dgrid.ai. Enjoy 50% off through June 7th. ⚡️ With frontier coding ...
Bug fixes shipping to Grok Build 0.2.20 (release notes will be available in the TUI and on change-log website) • Elimina...
Grok Build tip of the day: worktrees! If you're unfamiliar with worktrees, they're essentially lightweight copies of you...
@op7418 发布 CodePilot v0.55.0 正式版,新增多执行引擎(Claude Code / 自建 Native / OpenAI Codex)、上下文用量可视化及 Codex 账号原生能力。作者分享实践:当前代码库有 26 万行代码与 5.6 万行文档(占比 21%),文档体系对 bug 修复和功能实现至关重要。作者称从未手写一行代码,但能修复所有已知 bug 并实现所有想要能力。原本预期两周的重构持续超过一个月零三周。
CodePilot v0.55.0 正式版已经更新! 重构完成的正式版: 多执行引擎(Claude Code / 自建 Native / OpenAI Codex)、上下文用量可视化、Codex 账号原生能力全部落地为稳定版,并集中修复了 ...
有用户观察到Claude 4.8和GPT 5.5的写作能力不如Claude 4.6系列,推测原因是Anthropic与OpenAI正全力聚焦编程能力,训练数据偏向编程任务,导致写作表现下降。发问者质疑为何两大模型无法兼顾编程与写作,并询问其技术难点。
Anthropic设计负责人Meaghan在NYC Dive Club Live展示团队已验证的Claude Code工作流。现场演示用/prototype Skill为Excalidraw生成5个方案,让AI选择并解释,然后实现、验证、开PR(含录屏)。她强调三大原则:LLM做设计还很糟,人必须留审美环;自动化不应限于写代码;人人都能ship不等于什么都该ship。并行工作流包括云端批量UI修复、自动Code Review与PR合并、定时巡检无设计师参与的改动并生成草案。验收单位从聊天文字变为带视觉证据的Pull Request。建议使用claude-worktree、Opus加百万上下文、Auto模式。
~12 min of Claude Code tips for designers (straight from the design lead @meaghaneschoi) here's her demo from Dive Club ...
月之暗面旗下Kimi Code完成架构重构并开源。开发团队在一个月内进行封闭开发,频繁在白板前争论迭代,实现集体主义远胜个人英雄主义的工程效率。作者强调,AI Agent不会替代所有程序员,但会让顶级程序员生产力提升20倍,同时淘汰其他程序员。重构过程中,作者花数千美元token进行架构分析与验证,开源后因皮质醇过度分泌病倒。一周消耗整箱红牛,且感性上感觉时间已过一个月,实际仅开源一周多。
过去一个月是疯狂的一个月 大概一个月前,我下定决心重构 kimi-code,开始设计新的架构。 我大概抱着电脑和便携屏在汤泉卷了两整天,花了几千刀的 token 去做架构分析、设计和验证,最终得到了一份我认为最优的架构方案。 我觉得在 vi...
We're doing a live walkthrough of MeDo 3.0 this Friday at 9:00 AM UTC+8! @Medo_CodeFree will cover what's changed, how i...
Nemotron 3 Ultra performed GPT 5.5 level 10× cheaper We gave three same prompts to build HTML5 canvas with real physics....
OpenAI Codex 推出“Build iOS Apps”官方插件,将 iOS 应用开发闭环引入 Codex 工作流。用户可在 Codex 内直接查看和测试 iOS 应用、打开 SwiftUI previews 并进行代码热重载,无需切换到 Xcode 或模拟器。底层基于 XcodeBuildMCP 构建自动化工作流,支持构建、测试、模拟器运行、UI 检查、日志与调试状态采集。值得关注的两个开源项目:serve-sim(提供 streaming simulator 能力)和 SnapshotPreviews(用于提取 SwiftUI previews 集成工具链)。
More of the iOS app loop, now inside Codex. The Build iOS Apps plugin lets Codex view and test your iOS app in the in-ap...
Cursor 也发布了类似 Codex Sites 的「Canvases」 这个方向就对了,Coding Agent 本来就能完全吃掉 Lovable、v0、http://bolt.new 的 AI 建站功能,再结合在 Coding 和 Design、Debug、Deploy 等方面的闭环能力,从产品定义、设计、开发、测试到部署运维,完整覆盖。
With canvases, Cursor can create apps like dashboards, reports, and internal tools. Now you can publish a canvas and sha...
We're doing a live walkthrough of MeDo 3.0 this Friday at 9:00 AM UTC+8! @Medo_CodeFree will cover what's changed, how i...
OpenAI Developers 推出 Build iOS Apps 插件,使 Codex 能直接在 in-app browser 中查看和测试 iOS 应用、打开 SwiftUI 预览、热重载编辑,无需离开 Codex。底层依赖两个开源项目:Evan Bacon 的 serve-sim(流式模拟器)和 Sentry 的 SnapshotPreviews(提取 SwiftUI 预览)。该插件完全开源,将“写—跑—看—改”反馈闭环集成在同一对话界面,使 iOS 开发者可将模拟器、预览、热重载与 AI 对话融合,不再需要在 Xcode、浏览器、终端间反复跳转。
More of the iOS app loop, now inside Codex. The Build iOS Apps plugin lets Codex view and test your iOS app in the in-ap...
Building apps has never been easier. With Sites, Codex can turn your work, ideas, and plans into an interactive website ...
同一事件,精选展示《Codex 赋能每一种角色、工具和工作流》Anthropic内部数据显示,AI模型可自主完成任务时长加速增长:Opus 3(2024年3月)约4分钟,Sonnet 3.7(2025年3月)约90分钟,Opus 4.6(2026年3月)12小时,翻倍周期从7个月缩至4个月。Claude Mythos Preview在METR中可连续工作至少16小时。工程师季度代码产出是2021–2025年均值8倍,Claude代码占代码库80%+,单个AI曾一次性修复800+API错误(相当于人力四年)。最难开放任务成功率6个月内从低点升至76%。Anthropic强调,即使模型能力冻结,100人公司通过智能体即可完成1000人工作;实际发展已超越自身指数假设,递归自我改进虽未实现,但可能比预期更快到来。
Holy moly, Anthropic is getting very serious about recursive self-improvement! One word: acceleration. Insane blog artic...
关联讨论 12 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)X:小互 (@xiaohu)公众号:数字生命卡兹克The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)前OpenAI技术主管Justin Lebar以访问学者身份加入SemiAnalysis,通过投入1万美元在3小时内进行编译器模糊测试(compiler fuzzing),发现了AMD GPU LLVM、x86 LLVM及NVPTX编译器中的数十个bug。该项目揭示了GPU vs CPU编译器测试的巨大差距,并展示了如何利用LLM阅读代码来发现漏洞。此外,UltraCode模式对代码审计效率影响显著。
OpenAI Codex 推出 Build iOS Apps 插件,让用户在不离开 Codex 的情况下查看、测试 iOS 应用,预览 SwiftUI 并热重载。原理:借助第三方 npm serve-sim 将 iOS Simulator 画面截取为视频流显示在浏览器中,同时建立控制通道将浏览器的点击、拖动等操作转换为模拟器触摸或键盘事件。插件读取 iOS App 的 Accessibility 信息,在浏览器画面上覆盖透明 HTML 按钮,使 Codex 能选择原生 UI 元素。SwiftUI 预览和热重载通过临时生成预览小 App,仅重新编译相关动态库,无需完整重装应用。
More of the iOS app loop, now inside Codex. The Build iOS Apps plugin lets Codex view and test your iOS app in the in-ap...
Cognition发布企业级AI代码评估(eval),支持长达100小时深度测试(METR仅约16小时),并附带财务担保:若Devin产出价值低于费用,Cognition将补贴至达标,最高1000万美元。METR数据集覆盖ML工程、GPU内核、网络安全,使用GPT-4o和GPT-5从Claude Code转录估算人类时间,rlog=0.83。Cognition数据集来自126位Devin用户的258个真实会话(Java/TS/Python/C#功能开发、bug修复、迁移),保留集rlog=0.74。
AI should earn its keep. Introducing the AI Productivity Guarantee. If Devin delivers less engineering value than you're...
@jiadana2520 我没截图,简单给你画一下。codex 就很醒目。qodex一愣神就点错了
CodePilot v0.55.0 正式版发布,核心新增三大功能:多执行引擎支持 Anthropic Claude Code、CodePilot 自建 Native、OpenAI Codex 三种引擎,可设全局默认或按会话临时切换;上下文用量可视化,实时显示占用与剩余,并按系统提示/工作区规则/技能/记忆/工具/MCP 分解;OpenAI Codex 账号原生能力打通,助理记忆、Widget、定时任务、Dashboard、CLI 等可用,不支持的功能如实标注。同时修复 macOS 视觉与托盘、Windows 安装与交互、服务商型号映射等问题。
Anthropic is shipping 3.2x more code per person with Mythos nowadays than with Opus 4.5 around half a year ago
neolab 推出 Nex-N2-Pro,基于 Qwen3.5-397B-A17B,总参数 397B 的 MoE 推理模型,支持 262K 上下文与多模态(VLM),性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度,减少 30-50% 思考 token 且无性能折损,在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用,兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持,前两周免费使用。
after watching @brian_lovin and @wjosephflynn talk about vibe coding, this was the idea i couldn't shake: vibe coding ca...