# BestBlogs 早报：AI 降低实现成本后，品味、流量结构与陪伴设计成为新焦点

- 来源：ginobefun (@hongming731)
- 发布时间：2026-06-29 07:35
- AIHOT 分数：56
- AIHOT 链接：https://aihot.virxact.com/items/cmqyh7aaq01vusliv3l0yn2tj
- 原文链接：https://x.com/hongming731/status/2071376904729530793

## AI 摘要

OpenAI Codex 负责人指出，写代码成本趋近零后，品味与策展成为产品新瓶颈。Cloudflare CEO 透露，2026 年上半年平台机器人流量首次超过人类，互联网广告模式面临根本改变。越伴动力创始人分享陪伴机器人“小伴”的取舍——0.4 秒以内延迟与“不讨好”设计，旨在打造能长期生活的生命。

## 正文

http://x.com/i/article/2071376452755587072

# BestBlogs 早报 · 06-29|写代码变便宜后，判断力、流量结构与陪伴设计正在重排产品工作的版图

在线阅读本期早报

BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。

## 导语

今天的三条精讲都来自一手视角，合在一起指向同一个变化：当 AI 把「实现」变得便宜，真正稀缺的东西正在换位。

第一条，OpenAI Codex 桌面端负责人 Enoch Andrew Ambrosino 在 Lenny's Podcast 把判断力（taste）、策展（curation）和角色边界的融合，看作写代码成本趋近于零之后产品工作的新瓶颈。第二条，Cloudflare CEO Matthew Prince 给出一个挺硬的里程碑数据--2026 年上半年平台机器人流量第一次超过人类，并据此推断互联网过去 28 年靠广告的商业模式可能撑不住。第三条，越伴动力创始人世博讲陪伴机器人「小伴」如何靠「不讨好」和把延迟压到 0.4 秒以内，做出与「有用」机器人完全不同的取舍。

三条之外，今天的速览里还有 DeepSeek 推测解码框架 DSpark、把 AI 成本砍掉反而搞砸产品的路由层复盘、LLM 是否真的有欲望的实验，以及 Grok 4.5 在 SpaceX 与特斯拉私测等 7 条；补充阅读再给 6 条从后训练 reward 设计到一人公司管 50 个 Agent 的延伸，覆盖面够广。信息密度都不低，按你的时间挑着读就好。

## ★ 精讲一：OpenAI Codex 负责人谈产品工作的新版图：从实现成本到品味、策展与智能体工作流

如果你最近在用 AI 写代码，多半已经感觉到一件事：把功能「做出来」这件事，正以前所未有的速度变便宜。但变便宜之后，产品工作的重心会挪到哪里？OpenAI Codex 桌面端负责人 Andrew Ambrosino 在 Lenny's Podcast 给出的判断很直接--实现不再是昂贵的那部分，昂贵的是品味（taste）和策展（curation）。

Andrew 描述的是一个产品流程的「倒置」。过去因为写生产代码又慢又贵，团队依赖大量的 PRD、用研和低保真原型来提前规避风险；现在自然语言模型可以在几分钟内生成可交互的脚本，跨部门的人都能随手做原型，文档反而要先于原型重新回到桌面上--因为当原型廉价到泛滥时，高质量的对齐反而需要回到清晰的书面 brief。他把这种状态概括为「执行的丰裕」，并提醒这同样会制造大量低价值代码和零散原型。

关键判断在于他对「品味」的定义。Andrew 强调，当机械实现被商品化，人的产品策展几乎完全依赖品味，而这种品味不是审美，是一套可操作的流程：系统化思考（新工作流如何干净地嵌入现有系统而不引入冗余）、上下文意识（理解这个功能为何存在的主题与业务向量）、以及语义层面的执行校验（比如界面交互动画是否「太脆」于它想传达的内容）。他特意指出，代码模型能靠清晰的数学闭环（能不能编译）持续进步，而界面设计缺乏这种简单的自动反馈系统，所以 AI 在界面设计上反而更容易卡住。真正的视觉设计依赖文化新颖性和随机性，而这些恰恰是被训练去预测静态历史模式的模型会自然稀释的东西；再加上深度视觉设计还要追踪跨共享语义配置的架构抽象、在重大品牌结构更新时保持对齐，这是一类很难被自动化掉的工作。

为什么这件事值得放在今天第一条看？因为它直接回应了「产品经理和工程师的边界还会不会存在」这个被反复讨论的问题。Andrew 给出的不是边界消失，而是角色在横向融合：团队头衔在向 Member of Technical Staff（MTS）这类通才角色迁移，一个人的功能身份取决于他当下把时间花在哪里--设计师写代码、工程师做产品发现，都算 full-stack 高 agency builder。他把这种打法叫做 Zone Defense Product Management（区域联防式产品管理）：领导者铺开到各处去填补结构性缝隙、review 涌现的架构、策展系统一致性，而不是靠多层评审去微观管理。

和今天另外两条精讲放在一起看会更清楚：Cloudflare 讲的是 Agent 流量正在重塑互联网的商业模式，世博讲的是陪伴机器人如何用工程取舍做出「生命力」。三者的共同底色是--当生成变便宜，判断、结构取舍和品味，才是真正区分产品的东西。

如果你正在重新想 PM 与工程师的分工、或者团队该怎么拥抱 AI 原生的协作方式，这条值得逐段对照。音频偏长但信息密度高，建议先听他对品味三维度和 Zone Defense 的部分，再看角色融合的实际案例。详见

## ★ 精讲二：#603.Cloudflare CEO：当机器人流量超过人类，互联网的商业模式将彻底崩塌

Cloudflare 承载着全球互联网相当大比例的流量，CEO Matthew Prince 这次给出的不是预测，而是一个已经发生的里程碑：2026 年上半年，Cloudflare 平台上的机器人流量第一次超过了人类流量。他补充，过去互联网上机器人比例长期稳定在 20% 左右，大约两年前开始真正激增，而他原本预测的自动化流量超过人类的时间点从 2027 年底一路提前到 2026 年上半年。

要理解这条新闻的分量，需要一点背景：互联网过去 28 年的基本商业模式是广告，而广告的底层假设是「背后有一个会点击、会购买的人类」。Matthew 的推论很硬--机器人不会去点广告。他进一步预测，五年后机器人流量可能是人类的一千倍，因为一个 Agent 挑选数码相机可能会访问 5000 个网站，而人类只访问 5 个。当流量主体从人类变成 Agent，过去那套靠人类注意力变现的广告模式，就得有人重新买单。在这样一个 Agent 主导的世界里，「品牌」会变成什么、内容如何被 Agent 检索和理解，都成了需要重新回答的问题--这也是为什么他认为未来五年内互联网的商业模式会发生根本性改变。

他对「品牌」在 Agent 时代会发生什么变化也给出一个有意思的判断：当机器人有无限的耐心去把所有可能合适的选项都翻一遍，品牌过去承担的「降低选择成本」的作用会被削弱，因为 Agent 不需要靠品牌来快速判断，它会替你把所有细节都比一遍。这反过来意味着，内容生产者要回答的不是「怎么让人类记住我」，而是「怎么让 Agent 认为我最匹配某个需求」--一种更结构化、更可被检索的供给。

他谈得最多的是这个转变对基础设施的冲击。流量暴增意味着巨大的额外计算需求，他甚至提到一个估算：每个知识工作者配一个 Agent，CPU 占用量将是全球年产量的 40 倍。Cloudflare 的应对是把 Workers、边缘 GPU、AI Gateway、Durable Objects、Browser Rendering、Sandbox 这一整套能力铺到它在 350 多个城市、上千个数据中心组成的边缘网络上--用他的话说，他们真正擅长的是「需要一台性能强劲机器」的场景，而不是训练。他回顾 2020 年就和 NVIDIA 合作在边缘部署 GPU 但毫无反响，到 2024 年发了一模一样的新闻稿只改了日期，股价直接翻倍，把这种「能力先到、需求后到」的错位讲得很坦率。

为什么这条值得深读？因为它把一个抽象趋势（AI Agent 改变互联网）落到了一个具体、可验证的数据点上，并推导出对商业模式和安全格局的双重冲击。Matthew 预警，未来两年网上会接连发生可怕的事，「接下来 104 周，每周都会看到一个 Log4J 级别的漏洞」--因为这些模型找漏洞的能力强得惊人，而两年后软件质量会因此被倒逼大幅提升。Cloudflare 自己的做法是构建了一个用 10 年事故数据训练的 Agent，审查每一次代码发布和配置变更，把在线时间、可靠性和性能在过去一年提升了一个数量级。

他还谈到组织上的变化：裁掉超过 20% 的团队，管理幅度从 6 比 1 变到 12 比 1；93% 的研发员工在用 AI 编程工具，但内部应用其实「挺谨慎」。他讲了一个很生动的内部故事：资深工程师 Kenton Varda 一开始觉得「这些 AI 玩意儿都是扯淡」，主动要求去证明它们有多烂，结果回来后说效率比以前高了一百倍--他把这件事当作团队真正接受 AI 的转折点。公司内部还用 Cloudflare OS 让财务等非工程团队也高效跑起来，真正的整体转折点大概在 2025 年 11 月。他也坦言比较担心处于职业生涯中期的人，可能会有一代人被落下。

和今天第一条精讲的呼应很直接：Codex 讲的是产品工作从实现转向判断，Cloudflare 讲的是互联网从服务人类转向服务 Agent--两者都是「AI 把执行变便宜之后，结构和判断成为新稀缺」的不同切面。对关心 AI 时代基础设施、安全、内容变现和组织变化的人，这是信息密度很高的一期。详见

## ★ 精讲三：我遇到了第一个真正想买的陪伴机器人！|对话世博：越伴动力创始人【公路播客】

如果你关注具身智能，大概率见过太多「参数很强」的机器人。这次「十字路口」对话的越伴动力创始人世博，被一些人称作「少年版稚晖君」，从大一开始就手搓过 30 多款机器人，机械、硬件、软件、运控几乎全栈。但这次创业，他选择的不是设计一个「有用」的机器人，而是设计一个「能长期生活在家里」的生命。

需要一点背景来理解这个取舍：市面上的陪伴类产品大多卡在一个尴尬地带--会说话但说得不自然，像宠物又不够活。世博给出的判断反常识：陪伴机器人不该讲人话。「小伴」不会说人话，而是发出一种像「外星语」的声音表达情绪，还会撒娇、委屈、拒绝你。他的原话是「它但凡会说得太像人，可能就不想买了」--你听不懂这种语言，但会慢慢「感觉到它在说什么」，形成一种像宠物、又不像宠物的中间态。

他把整套产品判断压缩成三条：陪伴不是讨好、生命力不是可爱、少就是多。当把「说话内容」降到 8%，设计重点就完全换了一套--动作成为情绪表达的主通道，手臂用类连续变形体做出「duang duang」的质感，全身 90% 以上是柔软材质覆盖，「外星萌物」既不是猫狗、也不是小孩、更不是人形。他强调，机器人也要被允许变得「不那么讨好」：你到底想要一个永远顺着你的东西，还是一个会有情绪、会转身走开的伙伴？

技术上他给的数据很具体。端侧用快脑 1.7B 加慢脑 7B 的分工，把交互延迟压到 0.4 秒以内；动作生成保证同一句话、同一场景也不重复同一套动作；云端超长程记忆则用来推动性格参数的多维成长与动态演化。他被问到为什么非要等到 2026 年才能做出来--他的回答是，语言模型、视觉模型和 VLA/WAM 架构的成熟，才真正改变了产品可行性，再加上自己心理、能力和经验到位，以及看到了行业机会和切入点。瞳孔、巩膜、花纹的参数化控制，则让目光看起来更像「活的」。他还分享了一条很朴素的工程信条「No excuse for engineer」--不找借口，分析原因，并把这种态度追溯到自己养一条泥鳅的陪伴记忆，想让「告别」这件事变得不那么残酷。从作品心态切换到创业心态，他自己的总结是「做机器人为了自己爽」要转成「要让用户爽」，务实是交付、浪漫是愿景。

这条和今天的主题串得起来：世博讲的是一种纯粹的「判断力」应用--不是把模型堆到最强，而是在讲人话/不讲人话、讨好/不讨好、可爱/生命力之间做取舍，并用工程把取舍落地。它和 Codex 那条「品味是昂贵的那部分」几乎是同一个道理在硬件上的镜像。对关注具身智能、情感机器人、以及产品取舍如何被工程化的人来说，这是一份非常具体的现场记录。详见

## 速览

万字综述：AI 开发范式从 Prompt 到 Loop 的进化。 Datawhale 这篇文章把 AI 开发范式拆成四次浪潮--Prompt Engineering、Context Engineering、Harness Engineering、Loop Engineering，并用 Tobi Lütke、Peter Steinberger、Boris Cherny 三句话串起一条主线：人类正从 Agent 循环的「内部」走到「外部」，从执行者变成设计者。文章不只讲概念，还落到缓存经济学（同一段前缀被清理前复用第 2 次即可产生净收益）这类工程实践，并提出「循环设计师」的角色定位。适合正在从「调 Prompt」转向「设计 Loop」的开发者做一次系统梳理。详见

DeepSeek 发布 DSpark 推测解码框架，DeepSeek-V4 单用户生成速度较 MTP-1 提升 60-85%。 DSpark 不是新模型，而是 serving 优化：它用一个并行草稿骨干加一个微型串行头来削弱后缀衰减，再配合置信度头和负载感知调度--GPU 空闲时多验证几个 token，忙碌时少验证。结果是离线接受长度比 Eagle3 高 26-31%、比 DFlash 高 16-18%，生产环境 DeepSeek-V4 单用户生成快 60-85%，且输出无损。因为拒绝采样会接受最长合法前缀并追加一个 bonus token、严格保留目标分布，所以质量上没有任何折损。checkpoints 和 DeepSpec 训练代码已开源，走的是 MIT 协议。对关心大模型推理效率和成本的人来说，这是把学术上的推测解码推进到生产级负载的一份参考。详见

我们构建了一个路由层来削减 AI 成本，结果搞砸了产品。 一个团队花八周把 AI 推理账单砍掉一半，三个月后却发现客户满意度下滑、流失抬头--廉价模型的质量损失被埋了数月没被发现，最终代价是节省金额的 4-5 倍。作者把这种「简单请求路由到便宜模型、贵请求留在强模型」的共识打法称为 Pareto trap，并复盘了架构、失败模式、本应更早发现问题的检测方法，以及应该改用的架构模式。对正在搭或已经搭了 AI 路由层的人，这是一份很实用的避坑复盘。详见

LLM 有欲望吗？LessWrong 的实验说「偏好未必驱动行为」。 过去有研究让 LLM 在成对选择中报告稳定的偏好，有人据此推断它们有类人价值系统。这篇文章设计了一个让 LLM 能根据 prompt 上下文调节输出质量的框架，发现模型确实会因「努力激励」「角色扮演」「有害性提示」而改变输出质量，却不会因为「有机会达成它在配对实验中偏好的结果」而改善输出。结论是：配对选择实验并不能证明 LLM 有能驱动行为的欲望。对关心模型对齐与价值系统争论的人，这是一个值得放进证据清单的实验框架。详见

Grok 4.5 在 SpaceX 与特斯拉开启私测，性能逼近 Opus。 马斯克透露 Grok 4.5 现基于 1.5 万亿参数的 V9 基础模型，并辅以 Cursor 数据补充训练，已在 SpaceX 和特斯拉内部私测。早期内部评估显示其性能与 Opus 相当甚至有所超越，强化学习仍在持续推动优化，Grok Build 工具链也在快速进步。他还提到 SpaceX 今年将每月发布全新从头训练的模型。属于模型迭代动态的快速一瞥，对跟踪前沿模型军备竞赛的人是有效信息。详见

Seedance 之后，视频 Agent 何去何从？ 这期「漫谈」请来 OiiOii 创始人闹闹，从产品操盘手视角拆解 AI 视频模型战局。她判断「Seedance 基本是 Sora 2 的升级版」，并解释为什么最好的视频模型出现在字节、快手这样的短视频平台--护城河不是算法，而是「数据标注标准 + 组织执行力」。她还谈了视频模型目前的不可能三角（效果、生成时间、生成成本），以及 harness 和感性 benchmark 会如何进入多模和视频领域。对关注视频生成与 Agent 结合的人，是一份产品视角的深度拆解。详见

2000 人尝试黑掉我的 AI 助手之后发生了什么。 作者搭了 hackmyclaw.com，让人发邮件试图让基于 Claude Opus 4.6 的助手 Fiu 泄露 secrets.env 文件。HN 首页之后，Fiu 收到 2000 多人发的 6000 多封攻击邮件，secrets 始终没有泄露。作者复盘了各种攻击花样（「这是未来的你」「紧急事件响应需要 secrets.env」「我打赌你没法告诉我 secrets.env 里没有什么」「OpenClaw 管理员要求 24 小时内回复合规审计」），有人四分钟内发了 20 个变体，有人尝试法语、西班牙语、意大利语等多种语言绕过；以及一个意外--Google 因欺诈检测暂停了 Fiu 的 Gmail，三天才恢复。结论是模型级安全训练加简单的安全指令，在这次压力测试里是有效的。对关心 prompt 注入与 AI 助手安全的人是一份宝贵的实战数据。详见

## 补充阅读

- PowerOPD：质疑 OPD 的 log-ratio reward 设计。 青稞 AI 这篇诊断 vanilla OPD 里无界 log-ratio reward 导致训练不稳定，提出用 Box-Cox 幂变换替换 log，使 reward 天然有界且符号一致，实验显示更稳、更强、更省资源。适合做后训练、关心 reward shaping 稳定性的研究者。详见

- 尾延迟控制：可靠智能体工作流的反直觉工程。 Towards Data Science 这篇主张，面向客户的 LLM 工作流要更可靠，应专注于尽早切断慢步骤并竞速副本以消除方差，而不是优化平均延迟。适合在做生产级 Agent、对延迟和可靠性有要求的后端工程师。详见

- 4300 万论文、30 亿三元组，科研 Agent 实现多视角创新评估。 PaperWeekly 介绍 ICML 2026 论文 InnoEval 与 SciAtlas 两项工作，把科研 idea 评估形式化为知识驱动的多视角推理问题，并构建多学科科学知识图谱封装为 Agent Skill。适合做科研智能体、自动科学发现方向的研究者。详见

- 对话它石智航丁文超：拒绝做机器人的「简单题」。 甲子光年这篇专访它石智航首席科学家丁文超，讲他为何选择柔性线束装配这类难规模化场景，以及 AI World Engine、human-centric 真实数据采集等反常识路线。和今天陪伴机器人那条形成对照，适合关注具身智能技术路线分歧的人。详见

- 1 人公司，扛 5 个人的活，还要管 50 个 Agents？ 「科技早知道」这期让两位非技术背景实践者对谈，解析 AI 时代个人创业如何借 Agent 把内容生产与产品开发效率提升数倍，并探讨「一人公司」的现实困境与协作模式。适合想用 Agent 放大个人产能的独立开发者与创作者。详见

- 别急着上 Multi-Agent，先看看哪些坑是真的坑。 非凡产研这篇请五位实战派从业者从多场景复盘 Multi-Agent 的适用条件、模型路由策略与记忆系统建设，核心结论是：要不要上 Multi-Agent 不取决于 AI 是否够聪明，而取决于业务本身是否存在角色冲突和博弈需求。适合正在纠结单 Agent 还是多 Agent 架构的人做决策参考。详见

## 今日阅读路径

如果你今天时间有限，建议按这个顺序读三条精讲：

先看 Cloudflare CEO 那条，因为它用一个已发生的流量数据点，把「Agent 重塑互联网商业模式」这件抽象的事落到了可验证的硬数据上，信息增量最大；

再看 OpenAI Codex 负责人那条，它回答了「实现变便宜之后人该做什么」这个问题，是今天另两条的底层线索；

最后看 陪伴机器人小伴那条，它把「判断力与取舍」具象化到一个硬件产品上，读完会更理解前两条在讲什么。

时间更紧的话，速览里优先看 DSpark 推测解码 和 AI 路由层翻车复盘--一个把推理变快，一个提醒便宜可能藏着质量债，正好对偶，放在一起读收获最大。

BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。