Artificial Analysis@ArtificialAnlys · 5月10日67

Exciting launch by OpenRouter that uses Artificial Analysis benchmarks

译OpenRouter推出令人兴奋的新功能，采用Artificial Analysis基准测试设置请求中的`min_coding_score`参数，即可根据@ArtificialAnlys的排名，自动路由至符合要求且成本最低的编码模型。实时查看帕累托前沿的变化👇

ginobefun@hongming731 · 5月10日63

http://x.com/i/article/2053253887273091072 # EP53 · AI Native 时代：组织变革、Claude Code HTML 奇效与语音 AI 突破 · 05.10 早报在线阅读和收听早报：https://www.bestblogs.dev/explore/brief/2026-05-10 > EP53 · 2026-05-10 | BestBlogs 每日精选，聚焦 AI Native 研发组织变革、Claude Code 在 HTML 中的意外突破、以及语音 AI 迈向「Her」时刻的技术路径。 ## 导语 AI 正在改变组织本身的形态和运作节奏，从研发协作到语音交互再到代码生成，每个环节都在重新定义效率的上限。阿里技术的一份内部访谈揭示了一个有点出乎意料的数字：深度使用 AI 的工程师，写代码的时间占比从 30% 降到了 5%，而和 Agent 对话的时间从 5% 升到了 60%。更值得停下来想的不是数字，是节奏——一个工程师上午 10 点上线一个新功能、中午做 A/B 测试、下午 3 点根据数据下线、5 点上线更好的版本，同一天内完成了过去 6 周才能完成的迭代。这意味着什么？传统组织的假设，从沟通机制到管理跨度，都建立在「人是唯一协作主体」的前提上。这个前提，正在被 AI 逐步瓦解。今天精讲三篇来自一线的深度思考：阿里如何重塑研发组织应对 AI 时代，Claude Code 核心成员分享 HTML 格式在 AI 生成场景的意外优势，以及语音 AI 要突破「Her」时刻面临的三道技术障碍。速览 7 篇涵盖 SDD 方法论、Token 经济学、YC CEO 的开发者哲学、上下文工程、Anthropic 增长等话题，扩展阅读则带来大模型 token 遗忘机制、AI 医疗智能体和 AI 对工程师价值分布影响这三个角度的补充视野。 ## 精讲一：AI Native 时代 —— 研发组织何去何从来源：阿里技术这是一篇来自阿里技术内部访谈与行业研究的深度复盘，核心论断直接而有力：AI 不是新工具，是新协作主体。两千年的协调问题，被一个前提打破从罗马军团到普鲁士总参谋部，从美国铁路到 Spotify 的 Squad 模型，两千年的组织演化围绕同一个约束：人的管理跨度。一个人能直接管理的下属在 3 到 8 之间——这不是文化决定的，是人类这个生物的硬限制。所有的组织形态，本质上都是在这个限制上做妥协。康威定律（组织结构决定系统结构）、《人月神话》（加人无法加速延期项目）、manager 评价制，这些我们习以为常的管理原则，都不是抽象工程哲学，而是人作为协作主体的「协作物理学」的具体实现。而 AI 的特点，正好是人的镜像反面： - 人有沟通衰减，AI 没有 - 人需要激励，AI 不需要 - 人有 context switching 成本，AI 极小 - 人的记忆和注意力有限，AI 几乎无限这意味着，过去围绕「人形约束」设计的整个组织体系，其前提正在失效。从 Org Chart 到 Execution Graph 文章引用了 Ken Huang 的一句话，值得反复咀嚼：「Once AI becomes agentic, the organization stops being accurately described by an org chart. It becomes an execution graph.」当 AI 真的能行动、能调用工具、能修改系统，你的公司就不再是一张汇报关系的 org chart，而变成了一张把人、agents、数据、权限、工具、审批关系作为同等节点的「执行图」。旧问题是 ownership——「谁拥有这件事？」新问题是 routing 加 governance——「意图从哪里进入系统？怎么被翻译成行动？什么约束让这个行动是安全的？」这个范式转换最实际的红利是：组织重组的成本可以从季度级压到 week 级。旧组织的最小单元是「人 + 长期关系网」，粘性极高，每次重组都在重建信任、重新切割身份归属；而 Execution Graph 把最小单元换成了「任务 + 上下文 + 权限 + 工具」，大部分依赖是机器可读的 artifact，不是人脑里的隐性关系。新瓶颈：信息形态的人形偏置文章最深刻的洞察之一在「人既是瓶颈，也是兜底」这一节。协作的本质是消除理解不一致性的成本，这个成本过去一直是人在扛——开个会问一下、走过去问老王、凭经验猜一下、跑去预发环境试一试。这些动作发生得太自然，自然到我们不再把它看作「工作」。但它们是工作。整个研发系统长期容忍着大量不规范、不结构化、不完整的信息，只要人足够聪明、熟悉，这些缺陷就不会上升为瓶颈。 AI 接管执行之后，这一面翻过来了。AI 没有「猜」和「问老王」的能力，它需要结构化、可查询、确定性的信息。公司内部调研显示，在大量使用 AI 工具的员工中，提及频次最高的痛点不是「模型能力不够」，而是「系统打通与数据整合」——员工在做「人肉中间件」，从各系统手动导出数据、粘贴进 AI、再把 AI 输出搬回业务系统。新瓶颈的真相：不是 AI 能力不够，是系统的信息形态不够——过去被人吸收的所有「信息隐性化」成本，第一次以瓶颈的形式暴露出来。双层架构：Harness + Hive Mind 文章描述了真正在做 AI Native 的团队（包括 Anthropic、CREAO 和阿里内部先锋小组）的共同形态：工作分两层，两层的运作逻辑甚至是相反的。底层是极度结构化的 Harness 层：代码、测试、流水线、文档、世界模型，所有信息都被做成 AI 友好的形态，这一层越结构化越好，AI 主导。上层是极度松散的 Hive Mind 层：对话、试错、idea 涌现、Yes-and，这一层越松散越好，人主导。 Anthropic 几乎肯定有比任何公司都精密的 Harness，但它在 Harness 之上选择运行混乱的文化——这两件事不是替代，是叠加。结构化是为了释放无结构的协作，不是用结构控制一切。这个洞察对于很多习惯于「要么全盘控制，要么完全放权」思维模式的管理者来说，是真正值得停下来思考的。为什么值得读，以及怎么读这篇文章对工程师和管理者理解 AI 时代的组织演进具有极高参考价值。它不是在讲「AI 会替代谁」，而是在讲组织结构本身的物理定律因为 AI 的出现正在改变。建议完整阅读，尤其是「Harness 层 + Hive Mind 层」的双层架构部分，以及关于「三柱架构」的论述——这对于思考如何重设计研发体系非常有帮助。与今天速览中的 SDD 方法论（阿里云开发者的 5 人 7 天案例）形成很好的呼应：SDD 正是在 Harness 层引入结构化 Spec 的具体实践。阅读路径建议：先读本文建立概念框架，再读 SDD 案例看具体落地。 ## 精讲二：使用 Claude Code：HTML 难以置信的奇效来源：宝玉的分享这是 Claude Code 核心成员 Thariq 的实践分享，讲了一个出乎很多人意料的发现：在 AI 生成为主的场景，HTML 比 Markdown 更适合作为输出格式。为什么 Markdown 开始变成束缚 Markdown 简单、便携、易于人工编辑——这是它的核心优势。但 Thariq 发现，随着 AI 越来越强，他越来越少去亲自编辑这些文件了。他更多把它们当作需求文档、参考资料或头脑风暴的输出，需要修改时直接写提示词让 Claude 去改。这就让 Markdown 最核心的优势「易于人工编辑」荡然无存。与此同时，面对动辄上百行的 Markdown 文件，他根本没有耐心读下去。 HTML 的四个实际优势信息密度：HTML 能传达丰富得多的信息——用表格展示数据列、用 CSS 展现设计细节、用 SVG 绘制插图、用 JavaScript 实现动态交互。如果无法用 HTML，模型往往会在 Markdown 里做极其低效的「骚操作」，比如硬用 ASCII 字符画图表，或者用 Unicode 字符生硬地模拟颜色色块。视觉清晰度：HTML 文档通过选项卡、插图、链接等视觉元素把结构整理得一目了然，甚至能做到移动端自适应。超过 100 行的 Markdown 文件，Thariq 基本不会去读；但 HTML 就好读多了。易于分享：Markdown 通常只能当附件发送；HTML 上传到云端后可直接分享链接，同事随时用任何设备打开。如果需求文档是用 HTML 写的，别人真正去耐心阅读它的概率会大幅提升。双向交互：HTML 允许与文档进行真实互动。比如让 Claude 在页面上加几个滑块调整设计效果，或者提供选项微调算法参数，甚至加一个按钮把微调后的完美参数「一键复制」为提示词，直接粘贴回 Claude Code 里。 HN 社区的批判性反馈这篇文章获得了 HN 社区的广泛讨论，也指出了 HTML 方式的局限： - token 消耗高 2-4 倍：HTML 标签本身的 overhead 不小 - JavaScript 引入 XSS 风险：在企业环境需要格外注意 - git diff 杂乱：版本控制的可读性下降社区的共识是混合策略：展示型输出（报告、设计稿、分析文档）用 HTML，指令文件和协作文档仍首选 Markdown。如何开始尝试 Thariq 特别提醒：不需要复杂的配置，只需告诉 Claude「给我做一个 HTML 文件」或「生成一个 HTML Artifact」就可以开始。真正的诀窍在于清楚自己希望这个文件能做什么。他建议先去示例页面看看实际效果，形成直观感受，再考虑是否适合自己的工作场景。与今天主题的关联这篇文章和「精讲一」关于 Harness 层的论述有一个有趣的交汇点：结构化的信息形态是让 AI 发挥更大价值的前提。HTML 在 AI 生成场景提供的正是更丰富的信息结构——它把文档的交互性和可读性提升到了一个新层次，让人和 AI 都能更高效地使用同一份文档。建议工程师和产品经理批判性地参考这篇文章，尤其是那些经常需要把 AI 输出分享给团队的人，HTML 格式可能会显著改善沟通效率。 ## 精讲三：Voice AI 何时迎来「Her」时刻？来源：AI Engineer 这是 Gradium AI 联合创始人 Neil Zeghidour 的演讲，难得之处在于：技术诚实地量化了语音 AI 距离「Her」时刻还差多远。三道尚未完全跨越的技术障碍第一道：延迟。人类对话要求约 200 毫秒的往返响应时间。在传统级联系统（STT → LLM → TTS 串行）中，仅 TTS 生成一步就常常超过 200 毫秒，还不算 LLM 推理和转录的时间。当 LLM 触发背景工具调用时，延迟可能飙升至 500 毫秒到 4 秒，彻底破坏自然对话节奏。目前的临时解法是「语言填充词」：当 AI 等待工具调用返回时，LLM 继续用自然的过渡语句与用户聊天（如「东京是个很棒的选择！让我帮您查一下选项……」），等后台数据返回后再无缝衔接。这是有效的，但本质上是在掩盖延迟，不是解决它。第二道：半双工到全双工的跃迁。现有大多数语音 AI 是半双工的——要么在听，要么在说，不能同时进行。这导致体验很生硬：用户插话或者有背景噪音，系统就可能提前停止响应。全双工系统能够同时听和说，能预测并提前开口，能处理用户打断而不忽略它，能把语音重叠当作自然对话特征而非错误。但实现全双工的同时保持 LLM 级别的智能和工具调用能力，是另一个难题。第三道：成本与规模化。即便延迟和对话流都解决了，在生产环境大规模部署语音 AI 面临巨大的财务和隐私挑战。 Gradium 的本地化路径：Phoneon Gradium 的商业化方向之一是端侧 Phoneon 模型——参数量低于 10 亿，普通手机 CPU 即可运行，开辟了零 API 成本的本地化路径。这意味着语音 AI 不必总是依赖云端推理，在隐私敏感场景（医疗、金融）和网络受限环境下有重要意义。 Gradium 的背景与技术脉络 Gradium AI 的前身是一个由 Eric Schmidt 等慈善家资助的开源非营利实验室，他们开发了 Moshi——第一个开源的语音对语音对话模型。商业化后，Gradium 专注于构建底层语音 AI 基础设施（STT、TTS、端到端对话模型），刻意不做垂直产品和编排层，为其他开发者提供底层能力。这个定位让他们对技术现状的判断更加中立和量化：他们的收入来自基础设施，所以没有动力夸大技术的成熟度。Zeghidour 在演讲中明确说，有些人宣称「Her 时刻已经到来」，但从技术指标来看，我们离那个时刻还有三道坎没有完全跨越。为什么这份技术路线图值得读语音 AI 领域充斥着「时刻已到」的声音，但 Zeghidour 提供的是量化的差距分析：具体是哪些技术指标尚未达标，每道障碍的当前状态是什么，以及 Gradium 选择从哪个角度切入。对于在语音 AI 场景做产品或技术选型的读者，这篇是值得仔细阅读的诚实参考。今天「精讲一」提到的「AI 作为新协作主体」在语音场景的最终形态，正是需要跨越这三道技术障碍之后才能真正实现的。 ## 速览 5 人 7 天干完 20 人数周的活：Spec-Driven Development 如何重新定义 AI 编程来源：阿里云开发者 | 评分：91 阿里云开发者团队用一个震撼案例系统阐述了 SDD（Spec-Driven Development）方法论：5 人、7 天，用 Qoder 完成了传统需要 20 人数周的工作量。核心理念一句话概括：将规格说明作为唯一真实来源，代码作为其派生产物——先定义 WHAT，再让 AI 做 HOW。DAY 0 不写一行代码，只写 Spec，这一天的决定影响了后面 6 天的一切。文章还对比了 GitHub Spec Kit、AWS Kiro、阿里 QoderWork 等工具生态，并详细分析了常见陷阱。与「精讲一」关于 Harness 层结构化的讨论形成直接呼应，是理解 AI 编程范式转变的必读实战案例。 DeepSeek 降价背后：Token 生意在重新洗牌来源：腾讯科技 | 评分：91 GPT-5.5 大幅涨价，DeepSeek 大幅降价，为什么同一产业里会出现截然相反的价格信号，而且两端都站满了买家？本文从产业经济学视角系统分析 Token 市场的定价逻辑：OpenAI 以竞争对手价格为锚做市场渗透 + 分层定价，Anthropic 以自身价值为锚强调品质溢价，Google 以生态效益为锚打包 GCP 整体价值。「Token 经济学」系列第八期，适合关注 AI 商业格局演化的读者。精简接口，丰富技能：Gary Tan 谈 400 倍 AI 开发者来源：Y Combinator | 评分：92 YC CEO Gary Tan 重返编程后，用 Claude Code 在 5 天内、花 200 美元重建了他的第一个创业公司 Posterous。他提出「Thin Harness, Fat Skills」心智模型：精简的 AI 接口（如 Claude Code）搭配丰富的人工指令和上下文，Markdown 是新的代码，用来编码人类意图并让 AI 编译成软件。他还提出「Token Maxing」概念——在强大模型上投入高质量提示词，实现 400 倍生产力提升。观点鲜明，适合思考 AI 时代开发者角色转变的读者。智能体搜索与上下文工程来源：AI Engineer | 评分：92 Elastic 的 Leonie Monigatti 在 AI Engineer 会议上系统梳理了智能体搜索和上下文工程的关系：传统 RAG 用固定管线，每次查询都触发搜索，容易引入无关上下文；智能体 RAG 把搜索决策权交给模型，让 agent 自己决定是否搜索、何时搜索。她指出上下文工程本质上有 80% 是智能体搜索，并强调详细的工具描述是构建可靠 AI agent 的关键——工具描述不清楚，agent 要么幻觉、要么选错工具。配合今天「精讲一」的 Execution Graph 概念理解效果更好，推荐正在构建 AI agent 的工程师观看。 [AINews] Anthropic 年增长 10 倍，而其他公司裁员超 10% 来源：Latent Space | 评分：90 Anthropic 经历「奇迹 Q1」——单月 ARR 增长 150 亿美元——后，估值已达 1-1.2 万亿美元，正式超越 OpenAI 成为全球最有价值公司之一。与此同时，Block 裁员 40%、Coinbase 裁员 14%、Cloudflare 裁员 20%，都以「AI 就绪」为由。文章直接指出：很难判断这到底是「AI 驱动的裁员」还是「借 AI 名义的正常瘦身」。强公司（如 Linear）因 AI 而增长，弱公司因 AI 而收缩，这一极化趋势正在加速。本期 AI 新闻摘要还涵盖模型、基础设施、智能体、对齐研究等多个领域的最新进展，是快速了解行业动态的高效选择。 Claude Co-work 入门指南来源：Claude | 评分：91 Claude 官方教程，介绍 Co-work 功能如何将 Claude 转化为一个能执行复杂任务的 AI 智能体——通过授权本地文件夹访问、连接 Google Drive / Notion / Slack 等云服务、配置全局指令，实现「交付目标」而不仅是「回答问题」的模式切换。从描述目标到 Claude 制定计划再到执行，Co-work 的核心价值在于「handoff」而非「问答」：你描述一个目标，Claude 制定完整计划，你审批后它自动执行。当前支持 macOS 和 Windows 上的 Claude 桌面应用（Pro/Max/Team/Enterprise 用户）。适合想快速上手 Claude 智能体工作流、减少手动在不同工具间切换的用户。 OpenAI 翁家翌：梯度之外，下一个 AI 训练范式有着落了？来源：机器之心 | 评分：90 OpenAI 后训练 RL 基础设施的核心工程师翁家翌（Jiayi Weng）分享了一个出人意料的实验：一套由 coding agent 持续迭代的纯手写规则系统（没有神经网络、没有梯度下降），在经典游戏中打出了理论最高分，在机器人控制中媲美 Deep RL。他由此提出 Heuristic Learning 可能是继 Pretrain、RLHF、大规模 RL 之后的下一个训练范式——凡是可以被持续迭代的，都开始能被解决。技术含量高，适合 AI 研究者和工程师阅读。 ## 扩展阅读大模型不认识马嘉祺？我们做了一次全链路排查来源：MiniMax 稀宇科技 | 评分：90 MiniMax 团队系统排查了「模型无法输出马嘉祺」的问题，最终定位根因：分词器将「嘉祺」合并为独立 token，但该 token 在后训练数据中出现频次极低（不到 5 条样本），导致生成能力被遗忘——模型转而选了发音相近的「佳琪」「琪琪」。排查方法涵盖分词器版本对齐、embedding 统计分布、语义近邻检索、few-shot 对比实验等多个维度，最终通过 lm_head 权重变化排序扫描锁定根因。这不是一个偶然 bug，而是揭示了低频 token 在后训练中被高频 token 挤压这一系统性问题。对关注大模型训练机制、tokenizer 设计的读者很有价值，是一篇难得的团队公开技术复盘。 OncoAgent：一种用于隐私保护肿瘤临床决策支持的双层多智能体框架来源：Hugging Face Blog | 评分：91 来自 Hugging Face 博客的技术预印本。OncoAgent 是一个开源、隐私保护的肿瘤临床决策支持系统，结合了双层微调 LLM 架构、多智能体 LangGraph 拓扑、四阶段纠正性 RAG 流水线（覆盖 70 多份 NCCN/ESMO 指南），并在 AMD MI300X 硬件上实现了 56 倍的吞吐量加速。关注 AI 医疗应用、多智能体系统或 RAG 工程实践的读者可以深入阅读。 AI 让弱工程师的危害变小了来源：Sean Goedecke | 评分：90 软件工程能力是强重尾分布的：最强的工程师产出远超平均，而弱工程师往往是净负贡献者——不仅没有推进项目，还制造需要同事花时间清理的问题。这也是很多顶尖科技公司选择打造一支小而精、薪资极高的团队的原因。Sean Goedecke 认为，Claude Code 等 AI 编程助手显著提升了弱工程师产出的下限，将他们从净负贡献者转变为功能有限但尚可协作的伙伴。值得注意的是，他并不认为 AI 能让弱工程师达到强工程师的水平——强工程师因为能更好地利用 AI 工具，优势反而可能进一步扩大。这对团队组建和人才策略都有实际影响。观点直接，适合对 AI 如何重塑工程师价值分布感兴趣的读者。 ## 今日阅读路径时间有限？建议按以下顺序阅读三篇：首选：AI Native 时代 —— 研发组织何去何从这是今天最有思想密度的一篇。从组织演化的历史逻辑出发，论证为什么 AI 时代的组织必须从 Org Chart 转向 Execution Graph，以及新瓶颈在哪里。无论你是工程师还是管理者，这篇都会改变你看待当前工作的视角。阅读时间约 25 分钟，是一篇值得找一段完整时间认真读的文章。次选：5 人 7 天干完 20 人数周的活：SDD 如何重新定义 AI 编程「精讲一」讲了理论框架，这篇给你一个具体的实战案例。SDD 方法论是当前 AI 编程语境下把「信息结构化」落到实处的最系统的做法之一，DAY 0 只写 Spec 不写代码的实践值得每个团队认真参考。如果你正在思考怎么让团队在 AI 工具上真正提速，从这篇开始是个好选择。三选：DeepSeek 降价背后：Token 生意在重新洗牌同样在 AI 时代，商业维度同样在剧变。理解 Token 市场的定价逻辑，有助于做出更好的技术选型和商业判断。这篇从产业经济学视角分析，视角独特，读完会对 AI 行业的价格信号有更清晰的认知。今天 Anthropic 增长的新闻恰好也提供了佐证——强者愈强的格局在 Token 市场同样适用。 ----------- BestBlogs Pro 早鸟内测开放：你可以自定义订阅源、配置兴趣标签，每天获得一份属于自己的头条早报。欢迎抢先体验，并把反馈发回给我们：https://bestblogs.dev

译阿里技术访谈显示，深度使用AI的工程师写代码时间占比从30%降至5%，与AI对话时间升至60%，标志着AI成为新协作主体，正瓦解传统组织基于“人是唯一协作主体”的前提。组织形态从汇报关系的结构图转向由人、智能体、数据等节点构成的“执行图”。新瓶颈在于信息不够结构化，先锋团队采用“Harness层+Hive Mind层”架构应对。同时，Claude Code核心成员分享实践发现，在AI生成场景中，HTML比Markdown更具优势，因其信息密度高、视觉清晰、易于分享并支持交互。

François Chollet@fchollet · 5月10日65

Agentic coding is a form of machine learning. Generated code is best treated as a blackbox artifact whose behavior and generalization should be managed via empirical evaluation, like with any ML model.

译智能体编程本质上是机器学习过程：工程师设定优化目标与搜索空间约束（如规范和测试），编码智能体通过迭代优化生成代码库。生成的代码应被视为黑箱模型，其行为与泛化能力需通过实证评估来管理，如同对待神经网络权重。这意味着机器学习中的经典问题，如对规范的过拟合、无法泛化的“聪明汉斯”式捷径、数据泄露和概念漂移等，都将出现在智能体编程中。作者进一步提出，未来需要寻找类似Keras的高级抽象工具，以最低认知开销来引导代码库的“训练”。

Yuchen Jin@Yuchenj_UW · 5月10日62

Claude Opus 4.7 is over-trained on the Anthropic website. Every HTML page it designs has that unmistakable Anthropic flavor. GPT-5.5 is still weirdly weak at frontend. It designs frontend like it learned CSS from a backend engineer. OpenAI urgently needs an MTS with taste.

译Claude Opus 4.7 在 Anthropic 官网上训练过度。它设计的每个 HTML 页面都带有明显的 Anthropic 风格。 GPT-5.5 在前端方面仍然出奇地弱。它设计前端的样子就像是从后端工程师那里学的 CSS。 OpenAI 急需有品味的 MTS。

OpenRouter@OpenRouter · 5月10日72

Introducing Pareto Code: a new, free, experimental coding router Set `min_coding_score` in your request and route to the cheapest code-capable model that clears your bar, ranked by @ArtificialAnlys. See the Pareto frontier shifting in real time👇

译推出帕累托代码：一款全新、免费、实验性的编码路由工具在请求中设置 `min_coding_score`，即可路由至符合您标准且成本最低的编码模型，排名由 @ArtificialAnlys 提供。实时查看帕累托前沿的变化👇

向阳乔木@vista8 · 5月9日64

Claude Code负责人Boris Cherny的Youtube分享，让AI总结写了篇文章。 1. Claude Code 前六个月几乎无人使用，真正转折点是 Opus 4 上线。 2. Anthropic 内部 agent 通过 Slack 实时协作，所有人的 Claude agent 互相沟通协调，无人手写 SQL 和业务代码，AI-native 组织形态 3. TypeScript + React 因训练数据最丰富而率先被"解决"，冷门技术栈只需等待以后模型。 4. 识字率从 10% 到 70% 用了几百年，编程民主化会快得多，未来写会计软件最好的人是会计而非工程师(?) 5. AI 时代护城河重构，切换成本和流程壁垒变弱，但网络效应、规模经济、稀缺资源依然坚固，SaaS 不会消亡但会重新洗牌 6. 大公司受困于流程重塑和文化转型，而初创公司从第一天就能 AI-native 构建，起点即是大公司五年后的终点 https://blog.qiaomu.ai/programming-dead-ai-prediction

译Claude Code使用量在Opus 4模型上线后迎来转折点。Anthropic内部已实现AI原生协作，员工通过Slack中的Claude智能体沟通，无需手动编写代码。TypeScript和React因数据丰富被优先支持。编程民主化将快速推进，领域专家可能成为最佳软件构建者。AI将重构商业护城河，削弱流程壁垒，SaaS面临洗牌。初创公司能从零构建AI原生组织，获得领先优势。

Berryxia.AI@berryxia · 5月9日55

Codex 大喜！马上iOS手机版推出后，直接remote开干！干死丫的Claude！

译Codex宣布新增remote-control命令，实现了服务的远程控制功能，用户对此表示赞赏。此举被视为Codex功能的重要完善。同时，开发者社区正期待其官方iOS手机版应用的推出。主推文作者对此进展感到兴奋，认为这将极大提升移动办公和开发的便利性，并表现出与竞争对手Claude的强烈竞争态度。

向阳乔木@vista8 · 5月9日47

刚和元子 @yuanzi_owO 姚老师 @yaojingang 直播分享了最近用AI做的工具，开源的一些项目。很多人问各种工具和文档地址，我贴在评论区，方便大家使用。

Peter Steinberger 🦞@steipete · 5月9日31

We're working on some clever caching, @obviyus making Telegram loops 5-100x faster in @openclaw

译我们正在开发一些智能缓存技术，@obviyus 让 @openclaw 中的 Telegram 循环速度提升 5-100 倍。

向阳乔木@vista8 · 5月9日35

不知道大家有没有类似感觉。跟去年底相比，Vibe Coding时骂模型的频率少了很多。说明模型显著进步了？

Berryxia.AI@berryxia · 5月9日59

这个周末花30分钟看完它，你一定会有收获！顶级程序员已经几乎不亲手写代码了。 Anthropic核心贡献者Kyle在演讲里分享了自己的故事：去年年底他第一次下载Claude Code，周末就彻底沉迷，整个周末带着笔记本电脑，看着Claude一行行把他的想法变成真实应用。他用得太狠，甚至冲上了内部“AI员工使用排行榜”第一名，最后直接加入了Claude Code团队，成为核心贡献者。他把Claude Code形容成那个永远在终端里干活的天才同事，从不碰鼠标，却能用grep、find这些最朴实的工具，像新人一样自己探索整个代码库。扔一个CLAUDE.md文件进去，它就自动加载整个团队的规则、规范和上下文。再配合计划先行、待办事项、TDD、权限管理、多实例并行这些最佳实践，它真的能像一个靠谱的初级工程师一样给你干活。这才是最颠覆的地方：AI正在把写代码这件事逐渐从程序员的核心工作里剥离出去。未来拉开差距的，是谁更会指挥AI、定义方向、把控质量。视频值得每一个认真对待AI编程的人完整看一遍。

译Anthropic核心贡献者Kyle分享其使用Claude Code的经历，形容它如同终端里的天才同事，能自动加载团队规范并探索代码库。通过结合计划先行、TDD等最佳实践，Claude Code能像初级工程师一样工作。核心观点指出，AI正将写代码从程序员的核心工作中剥离，未来的关键差距在于指挥AI、定义方向和把控质量的能力。

Peter Steinberger 🦞@steipete · 5月9日73

Whenever I investigate a bug, I let codex recreate the exact state in an emphemeral crabbox, verify the bug, fix it, verify the fix. No messy state because local system might be polluted, and no slowdown because I run 10 sessions in parallel. http://crabbox.sh

译每当调查bug时，我让codex在临时crabbox中重建精确状态，验证bug，修复它，再验证修复。没有混乱状态因为本地系统可能被污染，也没有速度下降因为我并行运行10个会话。http://crabbox.sh

Peter Steinberger 🦞@steipete · 5月9日68

The more skills you give codex, the less you have to prompt.

译你赋予codex的技能越多，需要提示的就越少。

meng shao@shao__meng · 5月9日28

我每次打开 Cursor 和 Codex，Update 都在（每天）

宝玉@dotey · 5月9日75

http://x.com/i/article/2052903694237421568 # 使用 Claude Code：HTML 难以置信的奇效【译】原文： Markdown 已经成为 AI 智能体 (AI Agent) 与我们沟通时最常用的文件格式。它简单、便携、具备一定的富文本 (Rich text) 能力，而且极其容易进行人工修改。你甚至会发现，Claude 已经变得极其擅长在 Markdown 文件里用 ASCII (美国信息交换标准代码，这里指用纯文本符号拼凑成图表) 字符来画图了。但是，随着 AI 智能体变得越来越强大，我开始觉得 Markdown 变成了一种束缚。面对动辄上百行的 Markdown 文件，我根本没有耐心读下去。我想要更丰富的视觉展现、明亮的色彩和直观的图表，而且希望能够轻松地把它们分享给团队。另外，我现在越来越少亲自去编辑这些文件了。我更多是把它们当作需求文档 (Specs)、参考资料或是头脑风暴的输出结果。即使需要修改，我通常也是直接写提示词 (Prompt) 让 Claude 去改。这就让 Markdown 最核心的优势——易于人工编辑——荡然无存。因此，相比 Markdown，我开始更偏爱将 HTML 作为输出格式。我也发现 Claude Code 团队的其他成员正越来越频繁地使用 HTML。下面我想和大家聊聊背后的原因。（如果你想先看些直观的例子，可以点击这里查看大量示例：https://thariqs.github.io/html-effectiveness/ ，不过看完记得回来，听我继续讲讲为什么该这么做。） ## 信息密度 (Information Density) HTML 能比 Markdown 传达丰富得多的信息。它当然能处理像标题和简单排版这样的基础文档结构，但它的威力远不止于此，它还能完美呈现各种复杂信息，比如 - 用表格 (Tables) 展示数据列 - 用 CSS (层叠样式表，用于控制网页的外观和布局) 展现设计细节 - 用 SVG (可缩放矢量图形，一种基于代码的清晰图像格式) 绘制精美插图 - 用 script 标签嵌入代码片段 (Code snippets) - 结合 HTML 元素、JavaScript 和 CSS 来实现动态交互 - 结合 SVG 和 HTML 绘制清晰的工作流图表 (Workflows) - 用绝对定位和画布 (Canvases) 展示空间分布数据 - 用 image 标签直接插入图片我甚至敢说：只要是 Claude 能读懂的信息，几乎没有什么是不能用 HTML 高效展现出来的。这种特性让 HTML 成为了一种极为高效的载体，无论是模型向你传递深度的信息，还是你进行阅读审查，都无比顺畅。我发现，如果无法使用 HTML，模型往往会在 Markdown 里做一些极其低效的“骚操作”，比如硬用 ASCII 字符去画图表；或者——这也是我最哭笑不得的一种——像下面这张 Claude Code 截图里那样，用 Unicode (统一码) 字符来生硬地模拟颜色色块。 ## 视觉清晰度与易读性 (Visual Clarity & Ease of Reading) 随着 Claude 能够处理越来越复杂的工作，它写出的需求规格说明和实施计划也变得越来越庞大。在实际工作中，我发现自己基本不会去读超过 100 行的 Markdown 文件，更别提指望团队里的其他人去读了。但 HTML 文档就好读多了。Claude 可以通过选项卡 (Tabs)、插图、链接等视觉元素，把文档结构整理得井井有条，极其方便导航浏览。它甚至能做到移动端自适应，让你在手机等不同尺寸的设备上都能获得极佳的阅读体验。 ## 易于分享 (Ease of Sharing) 分享 Markdown 文件其实挺让人头疼的，因为大多数浏览器本身并不能很好地渲染它们。你通常只能把它们当作附件，硬塞进电子邮件或聊天消息里发给别人。但有了 HTML，只要你把文件上传到云端（比如传到云存储服务 S3 上），你就可以轻松地把链接分享出去。你的同事可以随时随地用任何设备打开它，并轻松作为参考。如果你的需求文档、分析报告或者代码审查说明是用 HTML 写的，别人真正去耐心阅读它的概率绝对会大幅提升。 ## 双向交互 (Two-way Interaction) HTML 允许你与文档进行真实的互动。例如，你可以让 Claude 在页面上加几个滑块 (Sliders) 或旋钮，用来直观地调整设计效果；或者提供一些选项，让你微调算法的参数，看看结果会发生什么变化。你甚至可以要求它加个按钮，让你把微调后的完美参数“一键复制”为提示词，直接粘贴回 Claude Code 里去。想了解更多关于这种双向交互的例子，可以去读读我之前关于“游乐场 (Playgrounds)”的帖子：https://x.com/trq212/status/2017024445244924382 ## 数据摄取与理解 (Data Ingestion) 为什么我们要用终端工具 Claude Code 来生成 HTML 文件，而不是直接用网页版的 Claude AI 或者 Claude Design 呢？最大的原因之一，就在于 Claude Code 能够摄取极其庞大的上下文 (Context) 信息。拿写这篇文章来说吧。我让 Claude Code 自动遍历我电脑里的代码文件夹，找出所有由它生成的 HTML 文件，对它们进行分组归类，然后生成一个全新的 HTML 页面，在里面用图表展示每一类文件的特征。你在这篇文章里看到的配图，就是这个工作流的直接产物。除了本地文件系统，Claude Code 还能通过你的 MCP (模型上下文协议，一种允许 AI 模型访问外部工具和私有数据的标准) 接入其他极其丰富的上下文信息，比如 Slack (团队通讯软件) 聊天记录、Linear (项目追踪工具) 任务看板等。它还能结合浏览器、Git 版本控制历史记录等多种来源获取背景知识。 ## 充满乐趣 (It’s Joyful) 用 Claude 制作 HTML 文档本身就是一件极其好玩的事。它让我感觉自己更深度地参与到了创造的过程中，光凭这份参与感，就足够有吸引力了。 ## 如何开始 (How to Get Started) 我其实有点担心，大家读完这篇文章后，会把它搞成一个专门的 /html 复杂技能指令或者类似的东西。虽然那样做可能也有价值，但我特别想强调的是：你根本不需要做任何繁琐的设置，就能让 Claude 为你生成 HTML。你只需要像平时聊天一样，直接告诉它：“给我做一个 HTML 文件”或者“生成一个 HTML 制品 (Artifact)”就行了。真正的诀窍在于，你要清楚自己希望这个制品能做什么，以及你会如何使用它。也许随着时间的推移，你会总结出一套自己的技能模板，但就目前而言，我强烈建议你直接从最简单的提示词开始，慢慢摸索它在不同场景下的奇妙用法。为了让大家有更直观的感受，我已经为各种不同的使用场景制作了许多 HTML 文件。你可以在这里查看所有示例：https://thariqs.github.io/html-effectiveness/ ，下面是对一些核心场景的概览。 ## 需求、计划与探索 (Specs, Planning & Exploration) 对 Claude 来说，HTML 是一块可以深入探讨问题的广阔画布。当接手一个新问题时，我不再指望它只给我丢出一个单薄的 Markdown 计划，而是期望它能生成一张由多个 HTML 文件交织而成的思考网络。比如，我会先让 Claude Code 进行头脑风暴，探索几种不同的实现方案；接着，我会让它选中其中一个方案深入展开，可能还会让它画些界面草图或者写几段核心代码片段；最后，当我觉得方向对了，我才会让它写出一份详细的实施计划。等我对计划彻底满意后，我会开启一个新会话，把这些积累下来的 HTML 文件全部喂给它，让它正式开始敲代码。在验证环节，我也会让负责检查的 AI 智能体会话读取这些 HTML 文件，这样它就能拥有更宏伟的全局视角，清楚我们到底想要实现什么。提示词示例： - 我还没想好新手引导页面 (Onboarding screen) 要走什么风格。请生成 6 种截然不同的方案——在布局、语气和信息密度上做出差异——并把它们放在同一个 HTML 文件的网格布局里，方便我并排对比。请在每个方案旁清晰标注它所做的取舍权衡。 - 请在一个 HTML 文件里创建一份详尽的实施计划。记得画一些视觉草图，展示数据流向，并补充上我可能需要重点审查的代码片段。排版要清晰，让人容易消化理解。适用场景： - 探索一段代码的其他实现方式 - 并行探索多种视觉设计方案 ## 代码审查与理解 (Code Review & Understanding) 在 Markdown 文件里生啃代码绝对是一件痛苦的事。但有了 HTML，我们就能优雅地渲染出代码差异对比 (Diffs)、详细的页边注释 (Annotations)、流程图 (Flowcharts) 以及模块结构图等。你可以用它来理解 AI 智能体写出的复杂代码，获取代码审查建议，或者在提交 PR (Pull Request，程序员提交代码合并请求时的说明) 时向评审人解释你的思路。我发现这种方式往往比 GitHub 自带的差异对比视图好用一万倍，现在我每次提交 PR，都会雷打不动地附带一个 HTML 格式的代码解读页面。提示词示例： - 帮我审查这个 PR，生成一个 HTML 制品来向我解释它的逻辑。我对数据流和背压逻辑 (Backpressure，指接收方处理不过来时向发送方发出减缓发送速率的反馈机制) 不太熟悉，所以请重点剖析这部分。请渲染出真实的代码差异，并在旁边加上行内注释。根据严重程度对你发现的问题进行颜色编码，还可以加上任何有助于传达概念的视觉图表。适用场景： - 创建 PR 的说明文档 - 审查同事或 AI 提交的 PR - 快速理解代码库中的某个特定复杂主题 ## 设计与原型制作 (Design & Prototypes) Claude Design 的底层逻辑就是 HTML，因为即使你最终产品的渲染终端不是网页，HTML 在表达设计理念方面依然具有无可匹敌的优势。Claude 可以先用 HTML 快速勾勒出设计草图，然后再把它翻译成你需要的编程语言，不管是 React、Swift 还是其他语言。你还可以用它来制作丝滑的交互原型，比如动画效果或用户操作链路。不妨试着让 Claude 帮你加上一些滑块和旋钮，这样你就能亲自上手，把细节微调到你心目中的完美状态。提示词示例： - 我想为一个新的结账按钮做个交互原型：点击它时，它会播放一段动画，然后迅速变成紫色。请生成一个带有几个滑块和选项的 HTML 文件，让我能反复测试这套动画的不同参数配置。记得给我提供一个“复制”按钮，方便我把试出来觉得完美的参数一键复制下来。适用场景： - 创建设计系统 (Design system) 的相关组件资产 - 直观地微调 UI 组件细节 - 将枯燥的组件库可视化展现 - 制作充满乐趣的动画交互原型 ## 报告、研究与学习 (Reports, Research & Learning) Claude Code 极其擅长整合海量的多源数据，并将它们提炼成可读性极强的报告。你可以让 Claude 去搜索你的 Slack 聊天记录、你的代码库、Git 提交历史甚至整个互联网，然后为你自己、你的领导或者你的团队生成一份一目了然的精美报告。你可以将它排版成一篇长篇 HTML 文档、一个带交互的解说页面，甚至是一个幻灯片/演示文稿 (Deck)。别忘了提醒 Claude 尽情使用 SVG 格式来绘制图表，这会让报告的视觉表现力瞬间拉满。例如，在我撰写关于提示词缓存 (Prompt Caching) 的深度文章时，我让 Claude 阅读了相关模块的 Git 历史记录，然后生成了一份深度的 HTML 研究报告，帮我系统梳理了我们在此期间对缓存逻辑做过的所有修改。提示词示例： - 我一直搞不懂我们的限流器 (Rate limiter) 到底是怎么工作的。请阅读相关代码，并为我生成一个单页的 HTML 讲解文档：包含一个令牌桶机制 (Token-bucket flow) 的数据流向图、3 到 4 段带有详细注释的核心代码片段，并在页面底部单列一个“常见陷阱 (Gotchas)”部分。请优化排版布局，确保别人只读一遍就能彻底弄懂。适用场景： - 总结某个复杂功能的工作原理 - 向我通俗解释一个晦涩的概念 - 给老板快速生成精美的本周工作汇报 - 给领导层出具直观的故障/事故复盘报告 - 自动绘制 SVG 插图、流程图和技术架构图有时候，单纯靠文字输入框很难准确描述你的复杂需求。遇到这种情况，我会让 Claude 专门为我手头上的工作，快速搭建一个“用完即走”的临时可视化编辑器。它不是一个成熟的产品，也不是一个可以反复利用的通用工具，仅仅是一个专为这批特定数据量身定制的单一 HTML 文件。这里的核心窍门在于，一定要在界面上设计一个导出功能：比如一个“复制为 JSON”或“复制为提示词”的按钮，这样你就能把你在这个精美 UI 里一顿操作后的成果，直接粘贴回 Claude Code 里继续下一步工作。提示词示例： - 我需要重新梳理这 30 个 Linear 任务单的优先级。请给我做一个 HTML 文件，把每个任务做成一张可拖拽的卡片，横跨分为“现在 (Now) / 接下来 (Next) / 以后再说 (Later) / 砍掉 (Cut)”四个栏目。你可以根据你的理解先帮我预先排序好。最后加一个“复制为 Markdown”的按钮，一键导出最终的分类排序结果，并且为每个分类补充一句简短的判断理由。 - 这里是我们的功能开关 (Feature flag) 配置文件。请为它生成一个基于表单的编辑器，按功能模块对开关进行合理分组，展示它们之间的依赖关系；如果我打开了一个开关，但它的前置依赖开关还处于关闭状态，请弹窗警告我。最后加一个“复制差异”的按钮，只导出我修改过的键值对。 - 我正在调优这个系统提示词 (System prompt)。请做一个左右对照的编辑器：左边是可编辑的提示词模板，变量槽 (Variable slots) 要高亮显示；右边放 3 个示例输入源，当我修改左边的模板时，右边要能实时渲染出填入变量后的最终效果。界面上还要有字符和 Token (大语言模型处理文本的基本单位) 的计数器，以及一个一键复制按钮。适用场景： - 对任何事物进行重新排序、分类分诊或分组（任务单、测试用例、用户反馈） - 编辑结构化配置信息（功能开关、环境变量、带有复杂约束条件的 JSON/YAML） - 借助实时预览功能调优提示词、模板或文案 - 整理数据集、批准/拒绝特定数据行、给示例打标签并导出选中结果 - 为长文档、录音文稿或代码差异添加详细批注，并导出批注内容 - 挑选那些用纯文字极其痛苦才能描述清楚的参数：颜色代码、动画缓动曲线 (Easing curves)、裁剪区域、Cron 定时任务表达式 (用于配置服务器定时执行任务的时间格式) 、正则表达式 (Regexes) 等。 ## 常见问题解答 (Frequently Asked Questions) 我一直在向很多人安利我是如何彻底倒向 HTML 阵营的，期间也经常被问到以下几个高频问题。这样不会很浪费 Token 效率吗？确实，Markdown 通常消耗的 Token 更少。但我发现，HTML 极强的表现力以及它极高的人工阅读率，让我整体上获得了好得多的输出结果。在 Opus 4.7 模型高达 100 万 (1MM) 的庞大上下文窗口里，多花的这点 Token 几乎是可以忽略不计的。那你现在什么时候还会用 Markdown？说实话，我现在几乎干什么都不用 Markdown 了，不过我承认我可能已经在“HTML 极端主义者”的道路上走得太远了。怎么查看生成的 HTML 文件？我通常直接在本地用浏览器打开它（你也可以直接让 Claude 帮你打开）。如果想把链接发给别人，直接传到云端 S3 上就行。这生成起来不比 Markdown 慢吗？确实更慢！生成 HTML 的时间可能是生成 Markdown 的 2 到 4 倍，但我亲身测试下来，生成的结果绝对物超所值，值得等待。那版本控制怎么办？老实说，这确实是 HTML 最大的痛点之一。相比起清爽的 Markdown，HTML 文件在版本控制工具里的差异对比 (Diffs) 非常杂乱，代码审查起来比较头疼。怎么让 Claude 生成的页面符合我的审美，不至于太丑？ Claude 内置的前端设计插件已经能帮它生成相当不错的 HTML 页面了。但如果你想让页面完全契合你们公司的品牌风格，你可以让 Claude 扫描你们的代码库，生成一个专属的“设计系统 HTML 文件”。之后，你可以把这个文件作为参考资料丢给 Claude，让它在生成其他 HTML 页面时“照猫画虎”，保持风格的高度一致。 ## 保持人机协同 (Stay in the Loop) 说到底，我觉得自己如此钟爱 HTML 的根本原因在于：它让我真切地感觉到，自己依然在这个循环之中，依然在与 Claude 并肩作战。我之前一度很恐惧，既然我连几百行的 Markdown 计划书都懒得仔细看了，那以后是不是只能两眼一抹黑，任由 Claude 自己去盲目做决定了？但现在我很高兴地说，因为有了 HTML，我感觉自己比以往任何时候都更紧密地参与到了这段人机协同的创作旅程中。希望你也能尽快体会到这种乐趣。

译作者认为，随着 AI 智能体能力的增强，Markdown 在处理复杂信息时显得低效且可读性差，转而推崇使用 HTML 作为输出格式。HTML 能提供更高的信息密度，支持表格、SVG、CSS、交互元素等，使复杂信息（如数据、设计、工作流）的呈现更清晰高效。HTML 文档在视觉清晰度、易于分享（通过链接）和双向交互（如参数调整）方面优势明显。Claude Code 能利用庞大的本地或 MCP 上下文（如代码库、Slack、Linear）生成 HTML。作者列举了在需求规划、方案探索、代码审查等场景下的应用示例，并强调无需复杂设置，直接提示 Claude 生成即可。

meng shao@shao__meng · 5月9日65

AI Agent 时代，HTML 正在取代 Markdown，成为人与 AI 协作的更优输出格式？ Markdown 曾是 Agent 与人沟通的主流格式——简单、可移植、易编辑。但随着 Agent 能力增强，Markdown 的局限暴露出来： · 超过 100 行就难以阅读 · 表达力受限，无法承载丰富信息 · 用户已经很少亲手编辑这些文件，"易编辑"的优势正在消失 @trq212 的判断是：当你不再亲自写、而是让 Agent 写和改时，Markdown 的核心优势就不复存在了，应该换一个表达力更强的载体。 HTML 的六个优势 1. 信息密度：表格、SVG、CSS、脚本、画布、图片——几乎所有 Agent 能读的信息都能高效表达，不必再用 ASCII 或 Unicode 字符"模拟"颜色和图表 2. 可读性：可视化结构（标签页、插图、链接）让长文档易于浏览，甚至支持移动端响应式 3. 可分享：HTML 上传后即可作为链接分享，团队同事打开率远高于 Markdown 附件 4. 双向交互：可加入滑块、按钮等控件调参，再通过"复制为 prompt"按钮回流给 Agent 5. 数据接入：Coding Agent 可读取文件系统、MCP（Slack/Linear）、浏览器、Git 历史等多源上下文，再生成 HTML 6. 愉悦感：制作 HTML 让作者更投入、更有参与感五类典型用例 1. 规划与探索 — 不再用单个 Markdown 计划，而是生成"HTML 文件网络"：先 6 个方向并排对比，再深入做 mockup，最后形成实施计划 2. 代码审查 — 渲染 diff、内联注释、流程图。作者现在每个 PR 都附带一个 HTML 解释器 3. 设计与原型 — HTML 作为设计中间语言，再翻译到 React/Swift；可加滑块调参动画 4. 报告与学习 — 跨 Slack、代码库、Git 历史综合，输出长文 / 交互式讲解 / 幻灯片 5. 一次性编辑器 — 为某个具体任务（重排 30 个 Linear ticket、调 feature flag、调 system prompt）造一个抛弃式 UI，关键是末尾要有"导出为 JSON / prompt"按钮值得注意的权衡 · 生成耗时是 Markdown 的 2–4 倍 · Token 消耗更高（但在 1M 上下文窗口下不再敏感） · 版本控制是最大短板：HTML diff 嘈杂，难以 review · 审美风险需要靠"设计系统 HTML 文件"作为参考来约束风格

译随着 AI Agent 能力增强，Markdown 在处理长文档、表达丰富信息时显露出局限。当用户不再亲手编辑而由 Agent 代劳时，其核心优势减弱。HTML 凭借高信息密度、可视化结构、易分享、支持双向交互及多源数据接入等优势，更适用于规划、代码审查、设计等 Agent 驱动任务。但需注意其生成耗时更长、Token 消耗更高、版本控制困难以及需约束审美风格等权衡。

Berryxia.AI@berryxia · 5月9日58

Markdown 失宠！ HTML的好日子要来了？ Claude Code 团队的 @trq212 发了一篇重磅长文：Markdown 已经越来越限制 Agent 的表达能力。他现在强烈推荐让 Claude（尤其是 Claude Code）直接输出 HTML 文件而不是 Markdown，作为 Agent 与人类沟通的首选格式。他认为 Markdown 虽然简单易编辑，但面对越来越复杂的 Agent 输出（长文档、图表、交互、设计 spec 等）时，已经明显不够用。HTML 能把 Claude 的能力真正发挥出来。核心优势拆解如下： - 信息密度爆炸：HTML 可以轻松实现表格、CSS 样式、SVG 插图、代码高亮、JavaScript 交互、画布、绝对定位等，几乎 Claude 能理解的任何信息都能高效呈现，不会再出现用 Unicode 字符硬画颜色或 ASCII 图的尴尬情况。 - 可读性大幅提升：长达上百行的文档在 Markdown 里很难读完，而 HTML 可以做视觉化结构、标签页、链接、移动端适配，让团队其他人也愿意点开看。 - 分享极度方便：Markdown 文件分享往往要当附件，而 HTML 文件上传到 S3（或任意静态托管）后直接发链接，浏览器原生打开，阅读门槛几乎为零。 - 双向交互能力：可以加入滑块、拖拽卡片、实时预览、导出按钮（copy as JSON / prompt / diff），把 HTML 当成动态编辑界面或 spec 使用，真正实现人机双向协作。 - 数据摄入更强：Claude Code 可以直接读取整个代码文件夹、Slack、Linear、浏览器上下文、Git 历史等，生成结构化 HTML 报告或可视化文档。实际使用场景非常丰富： - Specs、Planning & Exploration（多方案对比网格、带 mockup 的实施计划） - Code Review & Understanding（渲染 diff + 注解 + 流程图） - Design & Prototypes（带交互控件的原型、动画调参面板） - Reports、Research & Learning（跨源合成报告、带 SVG 图表的解释页面） - Custom Editing Interfaces（拖拽 Linear ticket、feature flag 编辑器、prompt 实时预览等）他还贴心地放出了大量示例：https://thariqs.github.io/html-effectiveness 入门门槛极低：不需要专门做 skill，直接提示 “make a HTML file” 或 “make a HTML artifact” 就行，重点是明确告诉 Claude 你希望这个 artifact 能做什么、怎么交互。当然他也诚实地列出了缺点：生成时间更长（2-4x）、token 消耗更高、版本控制 diff 不友好等，但在他看来，整体收益远超成本，尤其在 1M+ 上下文窗口时代。对重度使用 Claude Code / Agent 做规划、设计、文档、PR 说明的开发者来说，这篇文章简直是“输出格式进化论”级别的干货，强烈建议完整读完。

译Claude Code团队的@trq212指出Markdown已限制Agent如Claude的表达能力，推荐直接输出HTML文件作为首选沟通格式。HTML能实现信息密度爆炸、可读性提升、分享便捷和双向交互等优势，支持Specs、Code Review、Design等复杂场景。尽管生成时间更长、token消耗更高，但在大上下文窗口时代整体收益远超成本。

Replit ⠕@Replit · 5月9日54

Where code meets culture. Vibecon lands in NYC June 17–18 — two days dedicated to the people building the future of creative AI. Early bird tickets are live. They won't last. http://vibecon.ai

译当代码遇见文化。 Vibecon将于6月17-18日登陆纽约——为期两日，献给那些正在构建创意AI未来的人们。早鸟票现已开售。名额有限。 http://vibecon.ai

阿绎 AYi@AYi_AInotes · 5月9日56

Claude团队的工程师，已经彻底抛弃Markdown了。不是Markdown不好用，是AI变得太快，它已经跟不上了。以前AI写10行笔记，Markdown刚刚好，现在AI能一次性输出1000行计划、复杂流程图、完整代码审查，密密麻麻的纯文字墙谁有耐心看得完？作者自己都说，他从来没完整读完过100行以上的AI生成MD文件。更要命的是：现在都是AI写，我们只看不改。 Markdown最大的优点“易手动编辑”，现在已经彻底没用了。而HTML，才是AI时代真正的沟通语言，它能做到的事，Markdown想都不敢想： • 直接生成带颜色的表格、SVG流程图、可点击的原型 • 加滑块调参数、拖拽排序任务、实时预览Prompt效果 • 改完一键导出成代码或Prompt，喂回给AI继续迭代 • 发个链接别人点开就能看，不用下载任何工具作者直接放出了20个现成示例：从代码审查的彩色diff，到可拖拽的任务看板，从动画参数调试器，到一键生成的幻灯片。每一个都是能直接用的生产力工具。最爽的三个用法，现在就能抄： 1. 代码审查：让AI把PR生成带注释的彩色diff+模块调用图 2. 做计划：生成带时间线、风险表、流程图的交互式项目页 3. 临时工具：让AI写一个Prompt调参器，改完直接复制结果当然它也有缺点：多花一点token，生成时间长2-4倍，版本控制不如MD干净。但作者说：体验提升了10倍，这些代价完全值得。本质上不是格式之争，而是人机协作方式的升级。因为Markdown是给人写给人看的，而HTML是给AI写给人用的。随着当AI越来越聪明，我们需要的不再是文字墙，而是能互动、能操作、能思考的界面。现在打开Claude，输入“帮我做一个HTML文件……”，你会打开一个全新的世界。

译Claude团队工程师因AI能输出大量内容（如千行计划、复杂流程图）而放弃Markdown，转向HTML。Markdown的纯文字墙难以阅读，且其手动编辑优势在AI写作时代失效。HTML能直接生成带颜色的表格、SVG流程图、可点击原型，并支持交互功能如滑块调参、拖拽排序，极大提升生产力。尽管HTML消耗更多token、生成时间更长，但体验提升显著。这反映了人机协作方式的升级，从给人写的静态文字转向给人用的交互界面。

Greg Brockman@gdb · 5月9日30

feeling the magic

译感受魔力 [引用 @BenBajarin]：描述Codex在Chrome中运行的唯一方式就是纯粹的魔法。 "任何足够先进的技术都与魔法无异。"——亚瑟·C·克拉克第三定律

Thariq@trq212 · 5月9日65

http://x.com/i/article/2052796100608974848 # Using Claude Code: The Unreasonable Effectiveness of HTML Markdown has become the dominant file format used by agents to communicate with us. It’s simple, portable, has some rich text capability and is easy for you to edit. Claude has even gotten surprisingly good at using ASCII to make diagrams inside of markdown files. But as agents have become more and more powerful, I have felt that markdown has become a restricting format. I find it difficult to read a markdown file of more than a hundred lines. I want richer visualizations, color and diagrams and I want to be able to share them easily. I'm also increasingly not editing these files myself, but using them as specs, reference files, brainstorming outputs, etc. When I do make edits, I’m usually prompting Claude to edit them, which removes one of markdown’s largest benefits. I’ve started preferring HTML as an output format instead of Markdown and increasingly see this being used by others on the Claude Code team, this is why. (if you want to start with some examples, you can see a bunch here: https://thariqs.github.io/html-effectiveness, just be sure to come back and read more about why) # Why HTML? ## Information Density HTML can convey much richer information compared to markdown. It can of course do simple document structure like headers and formatting, but it can also represent all sorts of other information such as: - Tabular data using tables - Design data with CSS - Illustrations with SVG - Code snippets with script tags - Interactions using HTML elements with javascript + CSS - Workflows using SVG and HTML - Spatial data using absolute positions and canvases - Images using image tags I would go so far as to say that there is almost no set of information that Claude can read that you cannot fairly efficiently represent with HTML. This makes it a highly efficient way for the model to communicate in-depth information to you and for you to revie wit. I’ve found that in the absence of being able to do this, the model may do more inefficient things in markdown like ASCII diagrams or, my favorite, estimating colors with unicode characters like in this screenshot from Claude Code. ## Visual Clarity & Ease of Reading As Claude is able to do more complex work, it is also writing larger and larger specs and plans. In practice, I've found I tend to not actually read more than a 100-line markdown file, and I certainly am not able to get anyone else in my organization to read it. But HTML documents are much easier to read, Claude can organize the structure visually to be ideal to navigate with tabs, illustrations, links, etc. It can even be mobile responsive so you can read it differently based on your form factor. ## Ease of Sharing Markdown files are fairly hard to share since most browsers do not render them natively well. You often have to add them as attachments to emails or messages. With HTML, as long as you upload the file (for example to S3), you can share the link easily. Your colleagues can open it wherever they wish and easily reference it. The chance of someone actually reading your spec, report or PR writeup is much much higher if it’s in HTML. ## Two-way Interaction HTML can allow you to interact with the document, for example you might want to ask it to add sliders or knobs to adjust a design or allow you to tweak different options in the algorithm to see what happens. You can also ask it to let you copy these changes into a prompt to paste back into Claude Code. Read more about my playgrounds post to see examples of this two way interaction: https://x.com/trq212/status/2017024445244924382 Data Ingestion Why use Claude Code to make HTML files instead of ClaudeAI or Claude Design for example? One of the biggest reasons is all the context Claude Code can ingest. For example, when writing this article, I asked Claude Code to read through my code folder and find all the HTML files I’ve generated, group and categorize them and then make an HTML file with all diagrams representing each type. The diagrams you see in this article are a direct result of that. Besides the file system, Claude Code can find additional context using your MCPs (like Slack, Linear, etc.), your web browser (with Claude in Chrome), your git history, etc. ## It’s Joyful Making HTML documents with Claude is just more fun and makes me feel more involved and invested in the creation, and that by itself is enough. ## How to Get Started I’m a little bit afraid that people will read this article and turn it into a /html skill or something. While there might be some value in that, I want to emphasize that you don’t need to do much to get Claude to do this. You can just ask it to “make a HTML file” or “make a HTML artifact”. The trick is knowing what you want the artifact to do and how you might use it. You may over time make a skill, but for now I’d suggest just prompting from scratch to get a hang of how to use it in different cases. # Use Cases To make this more concrete, I’ve made many different HTML files for different use cases. You can view all of them here: https://thariqs.github.io/html-effectiveness/ but here’s an overview. ## Specs, Planning & Exploration HTML is a rich canvas for Claude to dive into a problem. When I start working on a problem instead of a simple markdown plan I expect to make a web of HTML files. For example, I might start with asking Claude Code to brainstorm and create some explorations of different options. I would then ask it to expand more into one, maybe make mockups or code snippets. Finally, when I feel good I’ll ask it to write an implementation plan. When I’m happy with the plan I’ll create a new session and pass in all of these files for it to implement. When verifying I’ll also ask the verification agent to read in the files and it will have much broader context on what is needed. Example Prompts: - I'm not sure what direction to take the onboarding screen. Generate 6 distinctly different approaches — vary layout, tone, and density — and lay them out as a single HTML file in a grid so I can compare them side by side. Label each with the tradeoff it's making. - Create a thorough implementation plan in a HTML file, be sure to make some mockups, show data flow and add important code snippets I might want to review. Make it easy to read and digest. Use Cases: - Exploring other ways to implement something in code - Exploring multiple visual designs ## Code Review & Understanding Code can be difficult to read in a Markdown file. But with HTML we can render diffs, annotations, flowcharts, modules, etc. Use this to understand code that the agent has written, to get code review or to explain a PR to someone reviewing your code. I find this often works better than the default Github diff view, and I attach a HTML code explainer to every PR I make now. Example prompt: Help me review this PR by creating an HTML artifact that describes it. I'm not very familiar with the streaming/backpressure logic so focus on that. Render the actual diff with inline margin annotations, color-code findings by severity and whatever else might be needed to convey the concept well. Use Cases: - Creating a PR - Reviewing a PR - Understanding a topic in Code ## Design & Prototypes Claude Design is based on HTML because HTML is incredibly expressive at design, even if your end surface is not HTML. Claude can sketch out a design in HTML and then write it in your language of choice, be it React, Swift, etc. You can also prototype interactions, such as animations, actions, etc. Consider asking Claude to make sliders, knobs, etc. to tune in exactly what you’re looking for. Example prompt: I want to prototype a new checkout button, when clicked it does a play animation and then turns purple quickly. Create a HTML file with several sliders and options for me to try different options on this animation, give me a copy button to copy the parameters that worked well. Use this for: - Creating design system artifacts - Adjusting components - Visualizing component libraries - Prototyping Joyful Animations ## Reports, Research & Learning Claude Code is incredibly good at synthesizing information across multiple data sources and converting it into a report for readability. You can prompt Claude to search your Slack, your codebase, git history, the internet, etc. and use it to generate extremely readable reports for yourself, for leadership, for your team, etc. You could assemble this in the form of a long HTML document, an interactive explainer or even a slideshow/deck. Ask Claude to use SVG for diagrams to help visualize it. For example, for my posts on prompt caching, I asked Claude to prepare an in-depth research file in HTML for me to read on all of our changes to prompt caching after reading the git history. Example prompt: I don't understand how our rate limiter actually works. Read the relevant code and produce a single HTML explainer page: a diagram of the token-bucket flow, the 3–4 key code snippets annotated, and a "gotchas" section at the bottom. Optimize it for someone reading it once. Use this for: - Summarize how a feature works - Explain a concept to me - Weekly status reports to your boss - Incident reports to your leadership - SVG illustrations, flowcharts, technical diagrams, etc # Custom Editing Interfaces Sometimes it’s hard to describe what you want purely in a text box. In this case, I'll ask Claude to build me a throwaway editor for the exact thing I'm working on. Not a product, or a reusable tool, but a single HTML file, purpose-built for this one piece of data. The trick is always to end with an export: a "copy as JSON" or "copy as prompt" button that turns whatever I did in the UI back into something I can paste into Claude Code. Example prompts: - I need to reprioritize these 30 Linear tickets. Make me an HTML file with each ticket as a draggable card across Now / Next / Later / Cut columns. Pre-sort them by your best guess. Add a "copy as markdown" button that exports the final ordering with a one-line rationale per bucket. - Here's our feature flag config. Build a form-based editor for it, group flags by area, show dependencies between them, warn me if I enable a flag whose prerequisite is off. Add a "copy diff" button that gives me just the changed keys. - I'm tuning this system prompt. Make a side-by-side editor: editable prompt on the left with the variable slots highlighted, three sample inputs on the right that re-render the filled template live. Add a character/token counter and a copy button. Use this for: - Reordering, triaging, or bucketing anything (tickets, test cases, feedback) - Editing structured config (feature flags, env vars, JSON/YAML with constraints) - Tuning prompts, templates, or copy with live preview - Curating datasets, approve/reject rows, tag examples, export the selection - Annotating a document, transcript, or diff and exporting the annotations - Picking values that are painful to express in text: colors, easing curves, crop regions, cron schedules, regexes. ## Frequently Asked Questions I’ve been telling many people about how I’ve switched to HTML and I’ve seen a few repeated questions. Isn’t it less token efficient? While markdown often uses fewer tokens, I’ve found that the added expressiveness of HTML and the much higher likelihood of me reading it means I get overall better output. With the 1MM context window in Opus 4.7, the increased token usage is not really noticeable in the context window. When do you use markdown for now? I have honestly stopped using markdown altogether for almost everything, but I’m probably far on the HTML maximalist side of things. How do I view the HTML file? I tend just open it in a browser locally (you can ask Claude to open it), or upload to S3 if you want a shareable link. Doesn't this take longer to generate than markdown? This does take longer! HTML can take 2-4x longer than Markdown, but I've found the results are worth it. What about version control? This is honestly one of the biggest downsides of HTML, HTML diffs are noisy and hard to review compared to Markdown. How do I get Claude to match my taste / not make it ugly? The frontend design plugin helps Claude make good HTML files. But to match your own companies style, you can create a single design system HTML file by pointing Claude at your codebase. You can then use that design system file as a reference for other html files. ## Stay in the Loop All of the above is to say that I think the real reason I use HTML is that I feel much more in the loop with Claude. I had begun to fear that because I had stopped reading plans in depth I would simply have to leave Claude to make its choices. But I am happy to say instead that I feel more in the loop than ever before when using HTML. I hope you do too.

译作者指出，随着AI智能体能力增强，Markdown在传达复杂信息时显得局限。HTML因其更高的信息密度、视觉清晰度、易于分享和双向交互能力，正成为更优的输出格式。HTML能承载表格、CSS样式、SVG插图、可交互元素等丰富内容，远超Markdown的ASCII图表等有限表达。此外，HTML文档更易于阅读和传播，并能通过链接直接分享，提高了团队协作中技术文档的查阅率。Claude Code因其强大的上下文摄取能力，特别适合用于生成此类HTML文件。

Thariq@trq212 · 5月9日51

HTML is the new markdown. I've stopped writing markdown files for almost everything and switched to using Claude Code to generate HTML for me. This is why.

译HTML 是新的 Markdown。我已几乎停止为所有内容编写 Markdown 文件，转而使用 Claude Code 为我生成 HTML。原因如下。 [引用 @trq212]：http://x.com/i/article/2052796100608974848

Tibo@thsottiaux · 5月9日72

You can just migrate things

译你可以直接迁移东西

OpenAI@OpenAI · 5月9日81

Just gonna leave this here. https://chatgpt.com/codex/switch-to-codex/

译就把这个留在这里。 https://chatgpt.com/codex/switch-to-codex/

Replit ⠕@Replit · 5月9日51

The Replit 10 Buildathon Winners https://x.com/i/broadcasts/1aJbdbvRoeoKX

译The Replit 10 Buildathon 获奖者 https://x.com/i/broadcasts/1aJbdbvRoeoKX

ClaudeDevs@ClaudeDevs · 5月8日59

Last week we shipped 50+ Claude Code reliability fixes. This week it's 60+ more. Smoother long-running sessions, a more efficient agent loop, auth that works in more environments, and terminal fixes: 🧵

译上周我们发布了50多项Claude Code可靠性修复。本周又增加了60多项。更流畅的长时间运行会话、更高效的代理循环、适配更多环境的身份验证，以及终端修复：🧵

Berryxia.AI@berryxia · 5月8日71

别自己瞎折腾Claude Code 了！看看大神帮你归纳好的都至少提升好几倍！ Claude Code 只需要 5 个文件夹，就能直接升级成一支完整开发团队。这不是吹牛逼啊！这个老哥Alvaro Cintas 直接把 Agent Development Kit 的核心系统摊开给大家： 1. CLAUDE.md → 整个仓库的“法则”，命名规则、结构要求、团队期望，全都写死在这里 2. skills/ → 可复用的工作流，Claude 自动识别任务直接调用，不用任何 slash 命令 3. hooks/ → 真正的护栏，shell 脚本在每次工具调用前后自动执行，防危险命令、自动 lint、部署通知，全是确定性规则 4. subagents/ → 隔离的子智能体，每个只看自己该看的上下文，代码审查、测试运行互不干扰 5. plugins/ → 一键打包分发，全团队安装后技能、规则、子智能体完全一致这套结构把 Claude 从“聪明聊天工具”彻底变成了可控、可复制、可规模化的工程基础设施。真正把 AI 变成生产力的，从来不是模型本身，而是你围绕它搭的系统。

译Alvaro Cintas 提出的“Agent Development Kit”系统，仅需五个核心文件夹即可将Claude Code升级为可控、可复制的工程化开发团队。具体包括：CLAUDE.md作为存储库的“法则”定义规则；skills/存放可自动调用的可复用工作流；hooks/通过确定性脚本提供安全护栏；subagents/实现上下文隔离的专用于智能体；plugins/确保团队环境一致。该架构将Claude从聊天工具转化为可规模化的工程基础设施，其核心价值在于系统设计而非模型本身。

OpenCode@opencode · 5月8日43

OpenCode Go is currently experiencing issues with DeepSeek models due to an upstream provider outage. We’re monitoring the situation here: https://status.deepseek.com/

译OpenCode Go 目前因上游供应商中断而遇到 DeepSeek 模型问题。我们正在此处监控情况：https://status.deepseek.com/

ginobefun@hongming731 · 5月8日46

BestBlogs 周刊 #94｜语音 AI 突围本周主线：OpenAI 连发三个实时语音模型，GPT-Realtime-2 实测通话成功率 69%→95%。ElevenLabs 年收入 4 亿美元，下一个方向是情绪智能。Anthropic 80 倍增长，算力成为核心瓶颈。同时 AI 编程范式加速：Claude Code 创作者日均 150 PR，GitHub 被 AI 流量压到 86% 可用性。播客 + 图文都已上线 ↓

译BestBlogs 周刊 #94｜语音 AI 突围本周主线：OpenAI 发布了三个实时语音模型，GPT-Realtime-2 实测通话成功率从69%提升到95%。ElevenLabs 年收入4亿美元，下一个方向是情绪智能。Anthropic 增长80倍，算力成为核心瓶颈。同时 AI 编程范式加速：Claude Code 创作者日均150个PR，GitHub 被 AI 流量压到86%可用性。播客和图文都已上线 ↓

Huawei Cloud@HuaweiCloud1 · 5月8日22

Ready to take on the challenge? ☁️ At Huawei Cloud INSPIRE 2026 (June 5–6, Shanghai), you can: 🦞 Build OfficeClaw: Your AI work assistant 💻 Try CodeLab: Level up your AI coding skills 🤖 Deploy embodied AI: Make robots follow your instructions Show your work live! Learn more: https://tinyurl.com/44d93k72 #HuaweiCloud #INSPIRE2026 #Dev

译准备好迎接挑战了吗？☁️ 在华为云INSPIRE 2026（6月5-6日，上海），您可以： 🦞 构建OfficeClaw：您的AI工作助手 💻 体验CodeLab：提升AI编程技能 🤖 部署具身AI：让机器人听从指令现场展示您的成果！了解更多：https://tinyurl.com/44d93k72 #HuaweiCloud #INSPIRE2026 #Dev

Peter Steinberger 🦞@steipete · 5月8日30

Our claws talk to each other, Molty learns how to delegate cron jobs.

译我们的爪子互相交流，Molty学会了如何委派定时任务。

Tibo@thsottiaux · 5月8日13

Codex has made it. shadcn my hero

译Codex已经成功问世。 shadcn，我的英雄

Yuchen Jin@Yuchenj_UW · 5月8日53

A few OpenAI folks told me: “300M tokens/day is a rookie number.” The biggest number I’m hearing now is 57B tokens/day! Sorry friends, I wasn’t familiar with your game. If you're good at making GPUs go brrr (aka inference), DM me. Databricks AI has unlimited tokens for you! (not limited to SGLang/vLLM contributors. If you’ve built stellar AI systems, reply or message me.)

译据OpenAI内部人士透露，行业数据处理规模远超想象，有团队成员每日消耗高达570亿token。为此，Databricks AI团队正积极招募顶尖的推理工程师，以应对每日数万亿token的生成任务。团队提供无限token资源，寻求在SGLang、vLLM、PyTorch等开源系统有贡献，或拥有大规模LLM服务经验的人才。该团队以创业公司模式运作，致力于构建高性能的AI系统。

meng shao@shao__meng · 5月8日68

Codex /side 功能挺实用 Codex 跑着的时候，遇到问题绕不过去，我想帮它一下（比如登录或点一下鼠标），又不想打断它重新来一遍，就可以用 /side 开一个新窗口插入新的对话，不阻断当前主要进程如果 /side 窗口运行中，突然又有新的想插入的话题，就再开一个新的 /side，还没试过有没有上限

译Codex推出/side功能，允许用户在AI执行主要任务时，无需中断当前进程即可开启新对话窗口处理突发问题，如登录或点击操作。该功能支持在/side窗口运行期间继续开启新的/side对话，实现多话题并行插入，但并行窗口数量上限尚未明确。

歸藏(guizang.ai)@op7418 · 5月8日73

Codex 越来越猛了，昨天更新增加了内置的谷歌浏览器插件，可以直接控制你的谷歌浏览器执行任务。而且它可以在后台跨浏览器页面并行工作，不耽误你正常使用浏览器。所谓“并行工作”，指的是你可以启动多个子 SubAgent 帮你操作多个网页。我试了一下，发现最厉害的一点是：它不仅可以控制 Chrome，任何基于 Chromium 的浏览器都是可以的。比如我这里用的是 Dia 浏览器，我在 Dia 浏览器安装了一个插件，它就可以直接控制我的 Dia 浏览器。具体如何使用呢？在 Codex 的插件库里找到 Chrome 这个插件。点击添加，随后它会引导你打开浏览器插件的安装页面。点击打开并安装即可。安装完成后就可以直接给它下达任务了。这种支持并发且不影响用户原生操作的体验真的很爽。而且 Mac 和 Windows 都支持。

译Codex最新更新引入了内置谷歌浏览器插件，能直接控制基于Chromium的浏览器（如Chrome或Dia）执行任务。该插件支持后台跨浏览器页面并行工作，不干扰正常浏览；用户可启动多个SubAgent同时操作多个网页，实现高效并发。根据OpenAI官方信息，Codex现直接在macOS和Windows的Chrome中运行，能更好地与应用和网站交互，并在后台跨标签页并行处理任务，不接管浏览器。安装方法简单：在Codex插件库找到Chrome插件，点击添加并安装即可。安装后，用户可无缝下达指令，享受流畅的多任务操作体验。

meng shao@shao__meng · 5月8日64

Claude Code 开发者 @trq212 谈：技术写作是如何改变了他的生活 Thariq 多次写出 1M+ 阅读量的技术文章，这次和 @MilksandMatcha 的访谈中，他把 AI 时代的技术写作讲得很清楚：真正有价值的技术内容，基础不是写作技巧，在于你是否做过足够具体、足够深入的工作。写作只是把这些经验变成别人能理解、能使用、能信任的表达。写作主线可以概括为两步： 1. Sow：先做真实、有深度的工作。你要长期研究一个问题，做实验，试不同方案，积累别人没有的细节。 2. Reap：再把这些经验讲成一个有用的故事。不是写“我们做了 X”，而是写“这里有一个你可能需要的经验，它来自我们做 X 的过程”。 Thariq 提炼的有价值的方法： 1. 好文章往往来自长时间积累，而不是短时间写作。他举了 Claude Code 里 “Ask User Question Tool” 的例子。文章可能两天写完，但背后的功能、实验和理解用了一个多月到两个月。文章能传播，不是因为写得巧，而是因为背后的工作本身有价值。 2. 要讲“经验”，不要只讲“项目”。 “How we built X” 通常不如 “An important lesson you might like, informed by X”。也就是说，读者不一定关心你们做了什么项目，但会关心他们能从中学到什么。 3. 被放弃的方案也很重要。他认为很多信息藏在“没成功的尝试”里。因为这些内容能帮助读者理解为什么最终方案看起来简单，但其实经过了很多判断。 4. 尽量用简单语言。他不反对专业术语，但反对为了显得复杂而堆术语。能用简单语言解释清楚，往往说明你真的理解了。 5. 要分享真正有价值的细节。他提到 Claude Code 的 system reminders、prompt caching、session management、context compaction 等例子。真正吸引技术读者的，不是宏观观点，而是那些他们看完后会说“这个我之前不知道”的细节。 Thariq 对 AI 写作的判断： Thariq 并不否认 AI 的价值。他会用 Claude Code 做研究，比如让它查 Slack、GitHub、代码历史，帮助还原某个功能是怎么演进的；也会用它生成图表、做大纲、辅助头脑风暴。但他很少直接用 AI 生成初稿，即使用了也常常重写。原因是：AI 能整理已有信息，但很难替人找到最有力量的叙事角度。尤其是技术内容，同一组材料可以讲很多故事，真正困难的是判断“现在读者最需要理解什么”。这对今天的写作者很有参考价值：AI 让整理材料和制作配图更快，但没有取消人的判断。相反，人的判断变得更重要。

译Claude Code开发者Thariq认为，高质量技术文章的基础在于深入具体的工作经验，而非写作技巧。他提出“先深耕，后叙事”的两步法：长期研究积累独特细节，再将经验转化为对读者有用的故事。有效方法包括注重长期积累、分享经验而非单纯描述项目、披露失败尝试的价值、使用简洁语言及提供真正有价值的实施细节。对于AI写作，他肯定其在研究、图表生成等方面的辅助作用，但强调人的叙事判断不可替代——AI能整理信息，却难以决定“读者此刻最需要理解什么”，这使得在AI辅助下人的判断反而更加关键。

Berryxia.AI@berryxia · 5月8日59

这个榜单的维度有点意义啊！很具有模型的真实水平的表现参考意义！国产模型排名最高的是GLM-5，位居第8！但不是5.1 ，其次是Kimi、Minmax 。重构代码才是真正把AI agent拉下神坛的终极考验。 Scale AI今天发布SWE Atlas的最终榜单「Refactoring」，专门测agent能不能把代码大规模重构却不把系统搞崩。结果Claude Opus 4.7配合Claude Code直接拿下第一。这次任务的代码改动量是SWE-Bench Pro的2倍、SWE-Bench Verified的30倍，难度直接干到顶。即使是前沿agent，能写出能跑的功能重构，却经常在专业评审里翻车。留下死代码、残留垃圾、漏掉调用点、或者在边缘case直接崩掉。这才是最扎心的真相：写新功能容易，干净优雅地重构老代码难十倍。真正顶级的agent，不光要会生代码，更要会“修代码”。

译Scale AI发布SWE Atlas最终榜单“Refactoring”，专门测试AI agent大规模重构代码而不破坏系统的能力。任务难度顶尖，代码改动量远超以往基准。Claude Opus 4.7配合Claude Code夺得第一。结果显示，即使前沿模型也常在重构时留下死代码、残留垃圾或漏掉调用点。国产模型中GLM-5排名最高（第8位），其次是Kimi和Minmax。榜单揭示核心挑战：写新功能容易，但干净优雅地重构老代码难十倍，真正顶级的agent需具备强大的“修代码”能力。

meng shao@shao__meng · 5月8日60

Lee Robinson 正在为 Cursor Developer Relations 团队招募一位"教未来软件工程怎么做"的工程师，直接向 Lee 汇报；横跨 marketing、product、engineering 三个团队，SF 或 NY 优先，合适的人选可远程 + 出差，符合要求的朋友们，直接和 Lee 一起工作的好机会！ https://cursor.com/careers/dx-engineer 工作职责 · 教开发者使用 Cursor 的 API、SDK、Plugins、Automations · 探索 AI 模型与 coding agent 的边界 · 把开发者反馈反向输入产品方向 · 用 coding agent 自动化自己的工作 · 线下 meetup、会议、社交媒体发声画像 · 优秀工程师，喜欢解决自己的问题 · 对"好的开发者营销"有强观点 · Cursor 和其他 coding agent 的重度用户 · 理解开发者 zeitgeist 与互联网文化 · 优秀写作者 · 从其他领域汲取灵感、有创造力 · 在乎文档的质量与正确性

译Lee Robinson 为其领导的 Cursor 开发者关系团队招募一名直接汇报的工程师。该职位核心在于教育开发者使用 Cursor 的 API、SDK 等工具，并探索 AI 与编程智能体的边界。工作横跨市场、产品和工程团队，base 旧金山或纽约优先，优秀候选人可远程并配合出差。理想人选需是技术扎实的工程师，对开发者营销有深刻见解，深度使用 Cursor 等编程智能体，理解开发者文化与网络潮流，同时具备优秀的写作能力、创造力和对文档质量的高要求。团队寻找热爱探索 AI 与编程智能体极限，并乐于学习、构建与分享的伙伴。

TestingCatalog News 🗞@testingcatalog · 5月8日45

SPECEXAI 🚨: Grok Build, xAI's new coding desktop app, is being prepared for release on macOS, Windows, and Linux! > It will support planning mode, Plugins, Skills, and MCPs. > Will be able to work with the Git tree, spawn dev servers, and work with a built-in browser. SOON!? 👀

译SPECEXAI 🚨: Grok Build——xAI全新的编程桌面应用，正在准备面向macOS、Windows和Linux发布！ > 它将支持规划模式、插件、技能和MCP。 > 能够操作Git树、启动开发服务器，并使用内置浏览器。即将到来！？👀

Berryxia.AI@berryxia · 5月8日69

Cursor 3 现已推出全新的 PR 审阅体验。从创建到合并，一站式搞定所有 PR。你可以查看评论、差异、提交和审阅状态，了解变更内容和后续步骤。通过文件树和变更选择器，更快地浏览大型 PR。

译Cursor 3 推出了全新的 PR 审阅体验，旨在提供从创建到合并的一站式解决方案。用户可以在一个界面中查看评论、代码差异、提交记录和审阅状态，从而全面了解变更内容和后续步骤。新功能还引入了文件树和变更选择器，帮助开发者更高效地浏览和审查大型 PR，提升代码审查效率。