Claude Code 这个宣传视频从 X 的评论上看有点翻车了😂 这个宣传吧，用的数据虽然都很强大的样子：每天 4500 次生产部署，73% 的 PR 由 AI 辅助，Niklas 本人同时开 5 到 10 个 Claude 会话跑在不同的 git worktree 里，2000 万行的 monorepo 里 agent 跑得挺好，做代码迁移加了验证机制后成功率从 25% 拉到了 80%。但问题是他们选的 Spotify，很多人是 Spotify 的用户，都没有感到这两年 Spotify 产品质量有啥提升，反而变差了，也就是说他们虽然用了 AI，但是用户是感知不到提升的摘录几条评论： > Spotify 是朋友圈里大家还在付费的质量最低的消费级 App，过去几年没变好甚至在变差。这类报道只讲部署次数这种无意义指标，不讲用户满意度和真实产品结果，让 AI 和 Claude 看起来像小丑。 > Mitchell Hashimoto（Ghostty 作者、HashiCorp 创始人） > 最近四周里有三周播客链接发不到 Spotify，播客发布系统和网页播放器接连出问题。一边是每天 4500 次部署，一边是连播客都发不上去，对比太讽刺了。 > Gergely Orosz（知名软件工程博主） > Spotify 的播客界面像小学生画的，与其每天部署 4500 次，不如一天只部署 1 次但做点真正好的东西。 > ThePrimeagen 评论区大量重复出现的吐槽包括： - 4500 次部署到底在部署什么？ - App 十年没怎么变过。产品感觉停滞多年。 - 为什么 bug 越来越多？ - 离线播放失效、桌面端卡顿、缓存清不干净。 - 这不叫部署，这叫垃圾代码生产机。支持的声音也有，但很少，点赞也低。有人对“加 judge 后成功率从 25% 到 80%”这个细节感兴趣，有人觉得大规模 monorepo 下跑 agent 的实践有参考价值。这次翻车的根源其实很简单：Claude 展示的全是工程侧的数字，部署次数、PR 占比、agent 会话数、成功率提升，但完全没有展示用户侧的价值。产品更好用了吗？Bug 更少了吗？用户体验提升了吗？一个字都没提。 AI 宣传总是在讲效率提升了多少，讲代码产出快了多少，但如果用户感知不到任何变化，甚至觉得产品在变差，那这些数字就成了反面教材：用 AI 生产了更多代码，但产品并没有因此变好。这其实也是当下整个 AI Agent 面临的一个根本问题：我们到底在用什么来衡量 AI 的价值？如果衡量标准只停留在“写了多少行代码”、“部署了多少次”、“PR 通过率多高”，那只是在衡量生产效率，但用户更关心产品质量。用户不关心你每天部署多少次，只关心用了 AI 后 App 是不是更好用了，是不是解决用户真实痛点了。

译Claude Code 宣传视频以 Spotify 为例，展示工程侧耀眼数据：每天 4500 次生产部署、73% PR 由 AI 辅助、工程师同时运行 5-10 个 Claude 会话、在 2000 万行 monorepo 中跑 agent，代码迁移加入验证后成功率从 25% 提升至 80%。但用户和知名开发者批评这些数字未转化为产品体验提升——Spotify bug 增多、播客功能失效、界面多年停滞。AI 宣传只堆效率指标，忽视用户真实感受，暴露了当前 AI Agent 价值衡量的根本矛盾。

凡人小北@frxiaobei · 2天前55

Cloudflare 全家桶又添 Browser Rendering，管远程 chromium 抓取。 Workers Paid $5/mo 给 10 小时 browser/day。我把订阅的AI 公司官网的信息抓取从 Jina Reader 切过来，十几个源实际用 ~3 min/day, 99%+ 余量没动。 Jina 免费层烧完 402 静默 fail 的老坑也避了, 价格从 token 计费突发不可控变 $5 封顶可预测。跟 Pages / Workers / D1 / R2 / KV / Tunnel 同款调子：免费层够个人测试。付费层够正经项目，没企业付费档强买强卖。以前个人爬 web 信息流要拼 jina / browserless / diffbot / scrapingbee 一堆 SaaS，现在 Cloudflare 一家把基础设施基本都能搞定一个人 + 一个 Openclaw + Cloudflare 全家桶，基本都能奥丁。

译Cloudflare 新增 Browser Rendering，提供远程 Chromium 抓取。Workers Paid $5/月含 10 小时浏览器/天。作者将 AI 公司官网抓取从 Jina Reader 迁至 Cloudflare，实际日耗约 3 分钟，99%+ 余量未用，避免了 Jina 免费层耗尽后的 402 静默失败问题，价格从 token 计费变为 $5 封顶可预测。结合 Pages、Workers、D1、R2、KV、Tunnel 及 Claude Code/OpenClaw + GitHub 自动构建，一人一套 Agent 即可将产品从 0 跑到上线，基础设施成本近乎免费。

Ethan Mollick@emollick · 2天前40

Common challenge that will come up in the near future is capturing the gains of greater AI intelligence in organizations. High human capital firms need to be set up to benefit from their high-quality employees. Capturing value of highly capable AI will require similar org design.

译未来会出现的一个常见挑战是：如何让组织从更强大的AI智能体中捕获收益。高人力资本公司需要设计好组织，以便从其高质量员工中受益。同样，捕获高能力AI的价值也需要类似的组织设计。

歸藏(guizang.ai)@op7418 · 2天前45

有了 Seedance 2.0 之后 AI 视频短片生态飞速发展最近还有一个搞笑的是，做《神秘复苏》AI 视频的三个博主，被《神秘复苏》动画的官方举报删视频了。这三个人的 AI 视频都做得挺好的，粉丝也不少。结果那些小说粉丝就去把《神秘复苏》动画片官方的 PV 给举报下架了

译Seedance 2.0 的推出推动了 AI 视频短片生态的快速发展。近日，制作《神秘复苏》AI 视频的三位博主被该作品动画官方举报，导致视频被删除。这些博主的 AI 视频质量高且粉丝不少。作为回应，小说粉丝将动画官方的 PV 举报下架。

Rohan Paul@rohanpaul_ai · 2天前59

Reuters: Chinese models charge as little as 18 cents per million tokens versus $4 average for top models, says CitiBank Research. Open-source processing on OpenRouter rose to 65% in June from 34% in January, while Chinese models such as DeepSeek gained attention by offering much lower token prices. - CitiBank Research. Cheaper AI has become the new enterprise priority as usage-based bills turn model choice from a capability contest into a cost-control problem. Gartner estimates AI coding costs will pass the average developer salary by 2028. OpenAI and Anthropic now face price pressure because enterprise buyers can compare models task by task rather than treat the biggest model as the default choice. --- reuters. com/business/retail-consumer/cheaper-ai-is-better-soaring-bills-are-reshaping-how-businesses-choose-models-2026-06-29/

译花旗研究数据显示，中国模型每百万token收费低至18美分，而顶级模型均价4美元。OpenRouter上开源模型处理占比从1月34%升至6月65%，DeepSeek等中国模型因低价受关注。Gartner预测AI编码成本2028年将超普通开发者薪资。按用量付费使企业从“选最强模型”转向成本控制，OpenAI和Anthropic面临逐任务比价压力。前Meta PM及Perplexity CEO指出，中国能更快建设数据中心，电力、许可、人力、专业能力均不成问题，进一步压低成本。

Rohan Paul@rohanpaul_ai · 2天前45

🇨🇳 The scale of China’s electricity projects is just on another level. A hillside in rural Guizhou, China covered in solar panels. Thousands of them stretched across mountain ridges to the horizon, transforming bare rock into terawatt-hour electricity.

译推文展示贵州山区绵延至地平线的太阳能板群，将裸露岩体转化为太瓦时量级的电力。引用观点指出，AI规模化发展受制于电力、矿产与磁铁供应链等物理输入，而中国在电力冗余以及数据中心与芯片依赖的关键矿物和磁材供应链上拥有主导优势。这一基础设施差距正成为AI竞争的核心变量。

Rohan Paul@rohanpaul_ai · 2天前47

Opinion from a former Meta PM. And this is from Aravind Srinivas of Perplexity "China can build data centers a lot faster. Power is not a problem. Permits are not a problem. People are not a problem. Labor is not a problem. Expertise is not a problem." https://x.com/rohanpaul_ai/status/2071780740220752220/video/1

译前 Meta PM 转引 Perplexity CEO Aravind Srinivas 称，中国建数据中心速度远快于美国，电力、许可、人力、专业能力均无问题。分析师 @quxiaoyin 进一步指出美国 AI 最坏情境：1）中国开源模型持续抢占市场份额，中国主导模型层；2）模型在华为芯片上训练和推理优化，而非 NVIDIA，中国同时主导芯片层；3）美国数据中心建设跟不上算力、存储与能源需求，中国持续出口推理与训练层。出口管制非正确策略，美国应投资开源模型、争取中国模型使用 NVIDIA，并尽快投资核电。

向阳乔木@vista8 · 2天前17

2018年，摩根大通 CEO 杰米·戴蒙在一次内部会议上提到，他用来评估复杂业务场景的工具，竟然是一个源自空战的理论模型。这个模型就是 OODA 循环。 OODA 循环，全称是 Observe-Orient-Decide-Act（观察-定向-决策-行动）循环。由美国空军上校约翰·博伊德在20世纪70年代初提出，最初用于解释战斗机飞行员在空战中如何快速做出正确判断。对抗中，速度不是全部，但循环速度的差异足以决定胜负。感觉未来大模型或 AI 组织的竞争也是这样，谁自我迭代循环的快，谁才能赢。

译推文引用摩根大通CEO杰米·戴蒙的说法，他曾用OODA循环（观察-定向-决策-行动）评估复杂业务场景。该模型由美国空军上校约翰·博伊德在1970年代初提出，用于解释空战中如何快速做出正确判断。作者认为，未来大模型或AI组织的竞争本质也是如此——谁自我迭代循环得更快，谁就能赢得优势。

SemiAnalysis@SemiAnalysis_ · 2天前56

We are seeing a huge second half ramp for Nvidia this year. Our Accelerator Model estimate has Nvidia DC compute revenue 20% higher compared to consensus expectations for 2H FY2027. Rubin will have a big ramp after being pushed out due to earlier HBM4 issues that are now resolved and front end wafer supply is now built up. Unlike other sell-side analysts who like to model an easy benchmark for companies to beat numbers, SemiAnalysis estimates are informed by all the research from the supply chain (including but not limited to materials, fabrication, components, server integrators) all the way to what's happening at hyperscalers and frontier labs. All this intelligence for Nvidia and other AI players like Broadcom, AMD, MediaTek, and Marvell is contained in our Accelerator and HBM Model.

译SemiAnalysis 指出，Nvidia 今年下半年将迎来大幅增长，其加速器模型估计 Nvidia 数据中心计算收入在 FY2027 下半年比共识预期高 20%。Rubin 芯片因早期 HBM4 问题已解决且前端晶圆供应充足，将实现大幅爬坡。这些估计基于供应链（包括材料、制造、组件、服务器集成商到超大规模和前沿实验室）的全面研究。

meng shao@shao__meng · 2天前31

新拿到一台 Macbook，第一反应是：打开 Safari，下载 Codex 😂 以前还是：打开 Safari，下载 Chrome

OpenCode@opencode · 2天前32

GLM 5.2 is ranking the highest on cost per session and everyone is raving about this model which means if cost/session is high it might actually be a sign that the model is useful

译GLM 5.2 在每次会话成本上排名最高而且大家都在盛赞这个模型这意味着，如果每次会话成本高，那可能反而是模型有用的标志

数字生命卡兹克@Khazix0918 · 2天前73

http://x.com/i/article/2071822941252407296 # 给机器人打工了一天，我们体验上了AI时代最魔幻的工作。我们公司的一个小伙伴，前阵子应聘了一份给机器人打工的工作。也就是给具身智能，做实体的数据采集。非常有意思的是，这个几乎是世界最前沿的科技行业，在这个地方，却有着非常传统的用人方式。故事的起因，是我们小伙伴，之前刷到了推特上的一条很有意思的视频。画面里是印度的一个工厂，流水线上的工人低着头在缝纫，和普通车间没什么区别。但是你仔细看的话，其实每个人头上都戴着一个造型奇怪的设备。就是这种东西。当时我们觉得还挺有意思，于是就去搜了一下。发现这个设备是用于录制工人操作的第一人称视频，而这个视频数据，之后会被拿去训练具身智能，让他们学习人类的操作，从来来训练模型。穿戴这种设备去干活的工人，在这个行业，一般叫做数据采集员。这两年具身智能在全世界范围内爆发式的发展，今年甚至还被叫做具身智能的数据元年，但是大家几乎都知道，具身智能的数据获取，比大模型困难太多了，因为几乎都是现实世界的实体数据。所以，就诞生了这种职位，为具身智能的训练，提供数据。而且这个职位，不止在印度有，国内其实也到处都是。在Boss直聘上一搜，相关岗位一大堆，有兼职也有全职。兼职一般是日结。全职有些会缴纳五险一金甚至六险一金，但是相对的，全职的要求会比兼职高很多，需要采集的任务更难，工作时长可能会更长，稳定性的要求也会更高。而有一些数据采集工作，也可以居家办公。且不只是北京或者一线城市，连我老家安庆那边都有。只不过可能职位写的会更加高大上一点，比如，机器人训练师。而且这些招聘帖，你会看到，是完全没有学历要求，也没有经验要求的。你根本不需要做过这个，甚至不需要知道具身智能是什么，来就能干。非常有意思。这个反差一下子就把我们的好奇心给勾起来了。我们内容组的有个小伙伴，叫达达，今年正好刚毕业，他也来了兴趣，说非常想亲眼去看看这到底是个什么样的工作。我觉得那行啊，那你去体验体验吧，毕竟说完全不需要经验和学历。于是他就真的去投了简历，然后面试，然后真的去做了一天的兼职采集。再见到他的时候，已经是2天以后了。回来以后，跟我们滔滔不绝的讲了好多。他说这个工作比他想象的有意思得多，但也比他想象的离谱得多。最开始呢，他先是在Boss直聘上找了不少相关的职位，投了一圈简历。因为简历确实还可以，几乎所有投过去的都给了面试机会。可能很多人确实没有接触过这个工种，为了保证大多数人的阅读体验，我先简单给大家聊一下数据采集到底是干嘛的。 23年24年大语言模型智能还没有到今天如此离谱的程度的时候，大家应该都对数据标注有印象。那时候训练大模型会相对简单。因为互联网几十年积累下来的文字、图片、代码、网页，本身就是一座现成的数据矿山，所以虽然也招了很多做标注的人，但是坦率的讲，采集和标注的门槛并不是特别高。但是今天，具身智能面对的是完全不同的困境。它需要的是真实物理世界中的交互数据。比如一个人怎么拿起杯子，怎么叠一件衣服，手指施加了多大的力，手臂沿着什么轨迹运动。而这类数据，人类历史上从来没有大规模采集和存储过。一切都要从零开始，靠人一条一条地采集。所以需求量极其恐怖。截至2026年初，全球高质量的真实物理交互数据总量仅约50万小时，不足大语言模型训练数据的两万分之一。而要训练一个能干家务的通用机器人，至少需要千万小时级别的数据。中间差了整整一个数量级。所以就需要大量的人，穿上这套设备，去各种真实的生活场景里重复做那些日常动作。这就是数据采集，其实就是在给机器人当老师。然后这个职位的面试，一般都先是线上的，有的只有一轮，有的会有两轮，然后会是最终的试岗。一轮的话就是跟劳务公司直接面。两轮的话，第一轮是劳务公司，第二轮会由甲方的机器人公司来面。但不管几轮，真正决定你能不能干的，其实都是最后的试岗环节。对达达来说，整个体验下来最让他触动的是这一轮面试。这个面试，很特殊，是在腾讯会议里，大家一起进去。他说他秋招面试过那么多次，也经历过群面，但从没见过20多个人一起来面试的场面。这么多人也不是为了跟互联网群面一样，搞什么无领导小组讨论，就是纯自我介绍。最开始，HR会简单介绍一下这个岗位大概是做什么的，平时的工作时间、薪资等等基本信息。然后开始一个一个按照入场顺序来问个人情况，介绍完的人就可以离开。因为他进会议比较晚，所以听到了几乎每个人的背景。这个环节比较有趣的是，HR会在一开始先问你身高体重。是的，你没看错。面AI公司的岗位，会关注你的身高体重。因为采集设备的手套是固定规格的，类似于这样。手太大会塞不进去，太小又兜不住，太胖不行太瘦也不行。达达当时就被提醒了一句，说这个身高体重可能会有点瘦，设备可能不太适配，但还是先来试试吧。我听到这的时候真的觉得太魔幻了。 2026年最前沿的AI工种，入职第一关，是量手掌。。。然后还会问你之前有没有戴过VR眼镜，有没有在游乐场看过4D/5D影院。因为有些设备需要戴类似VR眼镜的东西，有人天生对晃动比较敏感，戴上去几分钟就开始犯晕，这种情况就基本干不了。自我介绍的环节的时候，每个人说的都非常简洁。甚至有人只说了三句话。我是谁，我之前干过什么，我真的很想来做这个工作。对，就这几句话。。。达达说，他第一次觉得自己之前准备的那套自我介绍会如此的格格不入。为了不那么突兀，他也没详细介绍自己的毕业学校，也没说啥专业，只说自己是应届生，对具身智能感兴趣，想来试试。他对这场面试印象最深，是因为听到了很多人的故事。各行各业的人都有，什么背景的都有。有人之前试过自己做点小生意，没做起来，现在就想找一份能稳定出勤、按时发钱的活。还有人刚满18岁，没读大学了，这是他人生的第一份正经的工作。而且工作是分白班和夜班的，可以自己选择。他以为选择白班的人会更多，没想到兼职的人里面，选夜班的反而更多。因为这是一个兼职岗，纯粹的日结，不少人都在盘算怎么跟自己的主线生活拼在一起，靠着这份兼职，再多挣一些收入。有人问能不能白天干一份交社保的工作，晚上过来兼职。 HR说可以，但是希望大家注意身体，确保自己能扛得住。面试结束之后，除了几个觉得自己身体条件不太合适、主动放弃的，其他人基本都过了。真的是已经很久很久很久没见过通过率这么高的面试了。听到这里，我感觉有点割裂。就是感觉，这个新时代能容纳很多人的一种工作，好像有点熟悉的感觉。我想起高三毕业那年暑假，去面过工厂的兼职，其实就是进厂打螺丝。那种面试跟这个几乎一模一样，看你是个男的，体力还行，没啥毛病，就能来了。也是日结，干一天结一天。那是我人生中第一次知道，原来一个人的一整天，可以被标价成一张红色的毛爷爷。达达也没多犹豫，因为确实想实地去看看，于是他接了这个兼职，说去干一天试试看。 HR就跟他对接了试岗的具体信息，发了一个地址过来。第二天他按照地址过去了，到了一个产业园附近。很抓马的是，地址告诉错了，到了个工地。又绕了半天，才到了正确的位置因为不是从正门进去的，要从停车场绕上去。他跟我说，那一瞬间真的有点慌，心想不会在北京也碰上人贩子了吧，我不会要被卖到缅甸了吧？但他还是鼓起了很大的勇气上去了。不过，进去之前还是给朋友发了条消息，说待会可能联系不上，一直没回消息的话记得担心他一下。不过还好，一切正常，场地还是新装修的，一推门进去还能闻到油漆味。进去的第一件事是收手机，因为工作期间不允许干工作以外的事情。然后他才进入了真正的工作区域，是一个很大的开放空间，摆着大概十几台机器人。因为现场没法拍照，我从网上找了一些类似的画面，大概就是这样的场景。里面有两类工作。一种是有机器人的，也是他当天体验的。需要先穿戴设备，脖子上挂一个东西，两只手各握一个控制手柄，长得跟游戏手柄差不多，上面有摇杆，还有按钮，面前站着的，是一台比他还高的双臂机器人。操控方式其实不复杂，左手手柄控制机器人的左臂，右手控制右臂。摇杆推哪个方向，那条机械臂就往哪个方向动。按钮控制末端夹爪的开合，按一下合上，再按一下松开。刚开始做的时候其实挺好玩的，有点像玩游戏。第一次操控的时候，推了一下摇杆，面前这台非常大的机器人跟着你动。那一瞬间确实有点上头，觉得，卧槽，未来到了。但做到后面，未来感就没了，剩下的只有手腕酸。他的任务也是分拣积木、叠纸杯、把东西从盒子里拿出来再放回去。在这个场景下，你的每一个动作都在被记录，要走什么路径、夹爪合上的时机、这些全部变成数据。在操控的时候，机器人也会有很轻微的抖动，抖起来的样子很像得了帕金森。。。他体验的这种，在行业里叫遥操作采集，就是人穿上设备远程操控机器人，同时记录数据。还有一种是旁边没有机器人的，他们会戴着VR眼镜，手上穿着采集设备，然后就开始叠衣服、叠裤子。达达说他在做遥操作的时候，余光一直能看到旁边那些人。一个动作，重复一遍，再重复一遍，再重复一遍，像被按下了循环播放键。这个叫做无机器人示教采集，不需要操控机器人，人直接在真实环境里做动作，穿戴的设备负责把你的每一个动作轨迹记录下来。这两种方法不一样，但核心逻辑是一样的。都是需要大量的人，去做大量重复的动作，然后把人类的行为和经验翻译成机器能读懂的数据。采集员具体在哪干活，取决于采的是哪种数据，遥操采集一般在固定的场地里，无机器人示教采集因为不需要机器人跟着，有些公司会要求去不同的场景，比如小区、民宿、超市、4S店，哪里需要就去哪里。之前就看到网上有人去麦当劳采集的。客户需要什么场景的数据，团队就去什么地方，一个场景大概待两三个月，采完了就换下一个。在一天的高强度且几乎没有休息和摸鱼时间的工作之后，达达终于可以下班了。他兼职的工作时间是这样的，从早上9点一直做到了晚上的6点半。那赚到的钱呢，日薪大概在200到250之间。我去翻了一下各个平台上兼职数据采集的薪资，大部分岗位给的也都是这个价。如果是全职的话，工作强度会大很多，需要轮班，加班也是常态，不过补贴会多一些。其实我们能看到，整个具身智能、整个AI背后的每一次进步，更多的是来自于这些人。他们用自己的体力、自己的时间、自己的心血，贡献出自己的数据，推动了这个行业往前走了一步。 AI大模型其实也是一样。大模型之所以走到今天这一步，除了算法上的突破，真正最底层的数据清洗和数据标注，全部也是最开始由人一条一条做出来的。最先进的技术，底下永远站着最普通的人。但是AI在吃掉了这些进步之后。绝大多数的能工智人，却已经比不上人工智能了。最后，我们挥着手。送着AI们，一往无前。也不知道等到有一天，机器人真的什么都会了。会不会有人记得。它的第一课，是一个日薪两百块的能工智人，在刚装修完的厂房里，一遍一遍叠着纸杯，教会它的。

译全球高质量真实物理交互数据截至2026年初仅约50万小时，不足大语言模型训练数据的两万分之一，而训练通用机器人需千万小时级别，因此大量人工采集成为必需。该岗位无学历经验要求，面试先问身高体重（因手套固定规格），通过率极高。试岗需穿戴设备进行遥操作或示教采集，重复叠衣服、分拣积木等简单动作。兼职日结，吸引各行各业的人。作者小伙伴达达亲身体验，感叹其魔幻与现实。

Orange AI@oran_ge · 3天前57

http://x.com/i/article/2071747633065148416 # OPENAI 的反思：PRD 没死，PM 别砍人类的发展总是忽左忽右，就像刚学会骑车，在左右摇摆中不断前行。今年 AI Native 组织改革成了行业热潮，但 OpenAI 的 Codex 负责人却在播客里讲了很多反思。看了很多激进的文章之后，也可以看看这篇反思纠偏一下。 Andrew Ambrosino，Codex app 的产品和工程负责人。Codex 可能是这个地球上最激进 AI 化的产品团队，OpenAI 内部接近 100% 的人每周在用，不只是工程师，财务在用，法务在用，市场在用。每周活跃用户五百万，还在涨。最近他上了 Lenny 的播客。所有人都在等他讲 AI 怎么颠覆一切。他说了一堆反潮流的话。 PRD 没死。他说得很直："I actually don't believe this at all." 现在有个很奇怪的现象。非工程师以前被代码挡在外面，现在终于能做原型了，兴奋地喊文档没用。工程师呢，反而开始写大量没人看的文档。两边都在偷懒。问题不是文档和原型哪个好。是你有没有为要表达的东西选对媒介。方向还模糊的时候，文档比原型有用。要测交互手感，原型比文档有用。盲信哪一边，都是把偷懒叫成了变革。 "不要砍掉产品角色，那是糟糕透顶的主意。" 他说已经有公司在这么干了。PM 全撤掉，大家都是 builder。他的评价："然后发生了什么？他们把整个学科积累的最佳实践全扔了。" PM 这个角色不是拍脑袋造出来的。有大量真的试过、败过的经验在里面。一刀切掉产品角色，不等于产品问题消失了。等于没人负责产品问题了。他说 "this isn't your lane" 这种话消失是好事，边界变薄是好事。但边界变薄不等于角色不存在。设计师该不该写代码？该。PM 该不该写代码？该。但你用得了 Excel 不代表你能去财务部上班。设计流程没死透。 Jenny，Claude Code 的设计负责人，在同一档播客说过设计流程已死。Andrew 的回应是：既对也不对。对的地方：你如果绑定在具体的工具和每天的步骤上，那个流程确实死了。现在原型能直接放进产品里 AB 测试，谁还走那套学术流程。不对的地方："你在流程的哪个阶段"这个意识本身，比任何时候都重要。现在的麻烦是原型看起来太像成品了。一个早期探索，因为 AI 生成得太完整，所有人都以为该上线了。不是说流程死了。是流程的信号和媒介脱钩了。他给了角色消解一个更诚实的框架。你的角色，是你每天实际做什么的平均值。设计师会写代码，PM 会写代码，但平均下来，每个人的重心还是不一样。你今天写代码多，就更偏工程师。明天在筛选和协调，就更偏产品。角色没消失，只是不再由头衔定义，由你实际交付的东西定义。这个说法比"大家都是 builder"难得多。它要求你知道自己到底擅长什么。整场对话最妙的地方其实是 Andrew 的位置。他不需要为传统角色辩护。他正在用 AI 吃掉所有人的工作方式。Codex 从一个开发者工具，变成了整个公司的 home base。他是那只狮子，没必要替羊说话。但他选择了往回拉。他说他花了十到十五年不断失败才走到今天。他说这是他人生中第一次不觉得自己在失败。一个连续失败了十五年的人，站在最激进的位置上往回看，说的不是"旧世界完了"，是"别把好东西扔了"。最后一句话是节目结束后录的。别跟你的流程结婚。跟你才能独特交付的结果结婚。反过来读才是重点：你得先知道自己独特在哪。工具越快，判断越贵。AI 把实现成本打到了零，反而让那些不能被自动化的事情变得更值钱了。PM 的判断、设计师的品味、工程师对架构的直觉。这些东西的习得，靠的不是 prompt，是一个学科里反复踩坑的积累。 Andrew 讲到一个细节。Codex 如果提前三个月发布，同款产品、同样形态，市场反应会完全不同。不是产品变了，是底下的模型变了。一个 feature 好不好，有时候跟 feature 本身没关系，跟你能不能等到那一天有关系。能在模型还没到的时候就把东西做出来等着的人，靠的不是 prompt，是判断。播客地址：https://www.youtube.com/watch?v=P3KDebPTUrw 播客文稿转录： Podwise 整理写作： Cola +Lite 模型写文章使用技能： writing-style-guard · orange-writing-style 封面和插画使用技能： orange-line-illustration 文章指导和 hook ：橘子

译OpenAI Codex 负责人 Andrew Ambrosino 在 Lenny 播客上表示：PRD 未过时，方向模糊时文档比原型更有用；反对砍掉产品经理，这将抛弃学科积累的最佳实践。设计流程未死，但需区分探索与成品，AI 生成的精细原型易带来“可上线”错觉。角色由实际工作平均值定义，非头衔。Codex 周活跃用户 500 万，OpenAI 内部近 100% 员工每周使用。

Berryxia.AI@berryxia · 3天前63

这个预测感觉反直觉和共识了啊～爆火𝕏 的 Qu Xiaoyin（前Meta产品经理）的核心结论是：欧美企业会抛弃OpenAI和Anthropic，转向中国模型。她给了两个理由：第一，合规+控制权。中国企业可以把模型部署在企业自己的GPU上。这样既满足数据合规要求（数据不出境），企业又拥有完全的控制权，模型跑在自己的服务器上，不依赖任何外部API。第二，可定制化。中国开源模型（DeepSeek、Qwen、GLM等）允许企业在自己的数据上做后训练。企业拿到基座模型，用内部数据微调，变成自己专属的模型。 OpenAI和Anthropic的闭源API做不到这一点。这条推文的背景：2026年上半年，中国开源模型的能力已经追平甚至超越了部分闭源模型。 DeepSeek V4、Qwen3.5、GLM-5.2在多个基准测试上表现优异。同时，美国对华芯片出口限制反而加速了中国模型的轻量化和推理优化，用更少的算力达到更好的效果。对企业的实际意义： 1. 成本。闭源API按token收费，规模越大成本越高。开源模型一次性部署，边际成本趋近于零。 2. 数据安全。金融、医疗、政府等敏感行业，数据不能传出自己的服务器。开源模型本地部署完美解决这个问题。 3. 定制能力。通用模型再强也不如针对特定领域微调过的模型。开源模型允许企业用自己的数据做后训练。 4. 供应商锁定。用OpenAI的API就被绑死了。用开源模型，随时可以换。潜在风险：开源模型的部署和运维需要专业团队。不是所有企业都有能力自己跑模型。但云服务商（AWS、Azure、阿里云）已经开始提供开源模型的托管服务，降低了门槛。一句话总结：开源模型的能力在追平闭源，而灵活性和成本优势在拉大。企业选择中国开源模型不是因为爱国，是因为更划算。

译前Meta产品经理Qu Xiaoyin预测，欧美企业将抛弃OpenAI和Anthropic，转向中国开源模型。核心原因：中国模型可部署在企业自有GPU上，满足数据合规且完全控制；开源模型（如DeepSeek、Qwen、GLM）允许用内部数据后训练，构建专属模型。背景是2026年上半年中国开源模型能力追平闭源，美国芯片限制反而加速轻量化和推理优化。对企业而言，开源模型实现一次性部署、边际成本趋零，数据不出服务器确保安全，可针对领域微调，并避免被闭源API锁定。潜在风险是运维需专业团队，但AWS、Azure、阿里云等已提供托管服务降低门槛。

ginobefun@hongming731 · 3天前55

http://x.com/i/article/2071738413074771968 # BestBlogs 早报 · 06-30｜智能体落地卡在验证回路与组织成熟度，Spotify、Block、Spring AI 各给一种解法在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语今天几篇都绕着同一个问题：当智能体真正进入大型工程组织，卡点究竟在哪里。 Spotify 架构师复盘他们在 2000 万行后端 monorepo 里跑 Claude Code 的经验，给出一个很务实的判断——关键不在模型本身，而在配套的工程基建。内部平台 Honk 在 Kubernetes 里运行 Claude agent SDK，把 CI、构建、测试自动化、组件归属和自动合并接进智能体的验证回路。他的核心提醒是：标准化的代码库和可靠的验证体系，先帮到了人，现在同样帮智能体。 Block 的工程负责人则把「采用」和「影响」拆开看。约九成工程师在用 Goose 和 Claude Code，token 在烧，但功能并没有更快交付。她给出了成熟度六阶段模型、AI champions 项目和写进 AGENTS.md 的仓库约定，三个月内把 AI 生成代码的占比提升了 69%，结尾反问自动化成功后裁员的社会代价，没有给出确定答案。 Spring I/O 2026 那场更适合 Java 工程师。它梳理 Spring AI 从简单的 LLM 调用走向生产级智能体生态的脉络——有用的系统需要围绕模型搭一层 harness，处理状态、领域知识、结构化输出、安全和可观测。从 advisor 拦截模式、RAG、guardrails，到工具调用与 MCP 标准化集成，再到按需加载工具和子智能体的上下文优化，路线图指向 Spring AI 2.0 与 MCP GA。其余几篇各有看点：腾讯研究院讲「Token 不经济」、小红书 RedKnot 重做 KV Cache、LangChain 推动态子智能体、autoresearch 让智能体自己跑训练实验，以及世界模型是否到了 GPT 时刻的讨论。 ## ★ 精讲一：Spotify 如何让智能体在 2000 万行代码库中运行：Claude Code、Honk 与工程验证体系如果你还没有关注这家公司在工程基建上的动作，可以先这样理解背景：Spotify 的后端代码量超过 2000 万行，长期以 monorepo 形式组织，组件数量庞大、归属分散。架构师 Niklas Gustavsson 在这场分享里回顾，他们最早进入「自动化代码改动」领域不是因为智能体，而是因为代码库增长的速度远快于工程师编制——团队很早就做了一套 fleet management，用确定性脚本去批量推进 Java 升级、依赖更新、API 变更这类跨数千组件的迁移。确定性脚本在简单场景下管用，但随着 API 表面和边界情况变多，会撞到天花板。正是这层压力把他们推向了一连串 LLM 实验（包括 LLM-as-judge 循环），最终走向内部平台 Honk。 Honk 现在在 Kubernetes 里运行 Claude agent SDK，并把内部工具交给智能体，尤其是验证工具。Gustavsson 反复强调的一点是：智能体能不能跑得快，取决于周围的工程系统够不够强——CI、Linux 与 macOS 构建、模拟器工作流、组件归属、测试自动化、自动合并实践、可靠的部署基建，缺一环智能体就不敢放手做改动。Spotify 报出了一些 AI 归因的生产力信号，比如更高的 PR 频率和大量 AI 作者的 PR，但他们也在持续把这些信号和工作项、A/B 测试、灰度、用户价值、收入挂钩，避免把「PR 变多」直接读成「价值变多」。这件事为什么值得认真看？因为它把一个被反复讨论的问题落到了具体动作上：智能体落地的瓶颈是「验证回路」，而不是模型参数。Honk 的价值不在于它跑了一个 agent SDK，而在于它把 CI、测试、组件归属、自动合并这些原本给人用的基建，重新组织成了智能体可以调用的工具。换句话说，是工程系统先升级到了「可被自动化验证驱动」的形态，智能体才能在 2000 万行代码里真正动手。它和今天另外两篇的关系也很清楚。Block 谈的是组织层面怎么让 3500 名工程师走向智能体协作，关注的是人和流程；Spotify 谈的是技术层面怎么让智能体在巨大代码库里安全动手，关注的是验证基建；Spring AI 谈的是框架层面怎么把这种「围绕模型搭 harness」的能力产品化，给 Java 工程师一套可复用的 advisor、guardrail、MCP 抽象。三篇合起来，恰好是智能体进入大型系统的三个切面：组织、基建、框架。给读者的建议：如果你是工程负责人或平台团队，重点看他对「验证回路」的拆解，以及他给领导者的提醒——不要跳过基本功，标准化的代码库、统一的框架、对齐的工具链、测试和验证，这些过去帮到人的东西，现在同样帮智能体。如果你是一线工程师，他个人的转变也值得读：他原本以为自己会怀念那种实现密度很高的旧工作方式，结果发现智能体反而让他能在不熟悉的代码库里贡献价值，把更多精力花在问题定义上。详见 ## ★ 精讲二：构建自主工程组织：Block 如何让 3500 名工程师走向智能体协作要理解这场分享，先看背景：Block（前身 Square）是一个 3500 人的工程组织，旗下覆盖 Square、Cash App、Afterpay、Tidal 等多条业务线，横跨前端、后端、移动、数据、基础设施、monorepo 与小服务、遗留系统。工程负责人 Angie Jones 复盘的是，他们怎么把这个组织从「大家都在用 AI 工具」推进到「智能体可以作为主要生产手段交付可上线结果」。她给出的是一份既实用、又带警示意味的组织剧本——分享结尾反问：当自动化真的成功，人会怎样。她最尖锐的判断是把「采用」和「影响」分开。Block 在语言模型还支持工具调用之前就开始做 Goose，并在 Model Context Protocol 最初发布前后与 Anthropic 合作，Goose 也成了 MCP 客户端的参考实现，让一批好奇的工程师很早就接触到编程智能体。几个月内，她说约九成工程师在常态化使用 Goose、Claude Code 或类似工具，token 账单证明工具确实在跑——但面向用户的功能并没有更快交付。问题出在整合：工程师把 AI 用在提问、补全、写样板代码上，却没有把它接进完整的交付系统。她把赋能拆成 experimentation、adoption、impact 三个阶段，高采用还没有转化为高影响。为了定义「目的地」，她给出一个成熟度六阶段模型：阶段 0 工作流里没有 AI；阶段 1 有补全但没有 agent 模式；阶段 2 能和智能体对话，但没有智能体产出的 PR；阶段 3 可以把任务委派给智能体并 review 其产出；阶段 4 并行跑多个智能体；阶段 5 把完整任务委派出去、无需持续人工引导就拿到可上线结果。当时大多数工程师停在阶段 1 和 2。把几千人推向阶段 5 很难，因为实践每周都在变、员工有 AI 疲劳、领导层压力又容易把赋能变成「AI or die」的强制命令。她的几个具体抓手值得记住。第一是 AI champions 项目，借鉴线上社区的 1-9-90 规则——少数人创造、稍大一群人互动、大多数人只是消费，要求每个个体都去独立发现最佳实践是没法 scale 的。她从关键团队和仓库里挑了约 50 名 champion，每个 champion 投入大约 30% 的时间，要能容忍「开箱即坏」的非确定性工具，并能代表公司的重要系统。第二是把可复用知识写进仓库，做 stage-three delegation 的前提：用 AGENTS.md 或 CLAUDE.md 解释仓库结构和期望，用 rules 提供护栏，用 slash command 和后续的 skills 固化可重复的工作；同一套配置并不适配所有仓库，monorepo 适合根级共享上下文加服务级分层，Web 和移动端不同，Android 有时也和 iOS 不同。她强调这是真正的杠杆点——一旦知识沉淀进仓库，每个贡献者和智能体都能复用 champion 学到的东西。报告里提到的信号是：三个月内 AI 生成代码占比提升 69%。这件事和今天其他几篇的呼应：它和 Spotify 互为表里——Spotify 在讲「验证回路」这种技术基建，Block 在讲「AGENTS.md、champion、成熟度模型」这种组织基建，两者缺一不可。而腾讯研究院那篇「Token 不经济」恰好给 Block 的故事提供了反面注脚：当采用率高达九成、token 在大量消耗却看不到功能更快交付时，正是 Jones 所说的「高采用、低影响」的典型症状，也是组织需要从「鼓励使用」转向「把智能体接进交付系统」的信号。给读者的建议：如果你在推动团队或公司的 AI 采用，重点看她的成熟度六阶段和 champion 机制，这两个工具可以直接拿来评估自己组织停在哪一档、以及怎么用少数人去撬动多数人。如果你关心自动化对人的影响，分享结尾那段关于「自动化成功后裁员的代价」的反问，比任何确定性的结论都更值得想。详见 ## ★ 精讲三：2026 年 Spring AI 生态全景：从 LLM 基础到智能体架构如果你是 Java 或 Spring 工程师，对智能体的印象还停留在「调一个 chat 接口」，这场 Spring I/O 2026 的分享会把整条脉络理清楚。它的核心观点很直接：一个真正有用的系统不能只有模型，还需要围绕模型搭一层 harness，去处理状态、领域知识、结构化输出、安全、可观测和工具访问。分享沿着这条主线，从最基础的 chat pipeline 一路讲到智能体协议。第一层是 advisor 模式。Advisor 像是模型调用周围的拦截器，让应用可以加上对话记忆、检索外部上下文、检查输入、转换输出、收集指标和 trace。Chat memory advisor 解决无状态模型的问题，在请求前追加对话历史、响应后保存；检索和 RAG 用同样的拦截思路，从文件、数据库、倒排索引、embedding 搜索或向量库里把相关领域上下文带进来。第二层是 guardrails 和结构化输出。因为 LLM 是非确定性的、天然是 text-in/text-out，Spring AI 可以用 schema、输出校验、确定性检查和反馈循环来提升可靠性——一个 guardrail 可以拦掉敏感输入、校验 JSON 输出，或者把错误回喂给模型再试一次；更复杂的循环可以用 judge 模型或 reflection 风格的 advisor 去评估答案是否真的满足原始请求。从上下文走向动作是分享的后半段。工具调用让模型拥有受控的能力，比如查天气或调一个外部 API，把应用从「聊天交互」变成「能和环境交互的系统」。Model Context Protocol 则把这个集成问题一般化，标准化 AI 客户端如何连接既有系统。分享覆盖了 MCP 的工具、资源、prompts、completions、logging、roots、sampling、elicitation、progress、cancellation，以及 stdio transport、streamable HTTP、无状态部署、Spring 注解、安全集成，还有可以展示 UI、让模型通过它行动的 MCP apps。最后一部分是上下文优化和智能体协议。Progressive tool disclosure 避免一开始就把几百个工具定义全塞进上下文，而是暴露一个「工具搜索」工具，让模型按需请求相关工具；agent skills 用类似方式做延迟加载的上下文，subagents 则隔离较小的任务，让主智能体的上下文保持干净。分享还提到 Spring AI 对 A2A 集成的支持，并介绍了 Agent Client Protocol 作为 IDE 和编程智能体之间的标准接口——把它类比成 LSP，给出了 Java SDK 和 Spring Boot starter，以及一个叫 Bud 的 Spring Boot 开发智能体如何捕捉用户意图并生成或修改应用。路线图指向 Spring AI 2.0 基础、MCP GA 支持，以及面向智能体应用的新抽象。为什么值得看：它把「围绕模型搭 harness」这件抽象的事，落成了 Java 工程师可以直接对照的组件——advisor、guardrail、tool calling、MCP、subagent。这恰好是 Spotify 和 Block 两篇里反复出现的「验证回路」「AGENTS.md 约定」在框架层面的对应物。当 Block 用 AGENTS.md 写仓库约定、Spotify 用 Honk 接验证回路时，Spring AI 这套 advisor 和 MCP 抽象，给的是把这些约定和回路产品化、可复用的工程骨架。三篇读下来，你能看到同一个趋势在组织、基建、框架三个层面的不同投影。给读者的建议：如果你是 Spring 工程师，重点看 advisor 模式和 MCP 集成这两段，它们是最能立刻用到现有项目里的部分；如果你在评估智能体框架的选型，分享里关于 progressive tool disclosure 和 subagent 上下文优化的内容，能帮你理解框架在「上下文管理」这件事上走到了哪一步。 roadmap 里 Spring AI 2.0 和 MCP GA 的时间点，适合放进技术选型的观察清单。详见 ## 速览 Token 不经济（腾讯研究院）这篇文章回应的正是 Block 那个「九成人在用、功能没更快交付」的症状。它把现象拆成几层：模型分层定价让同一档产品的调用价格悄悄抬升，Anthropic 凭编码能力建立了行业最强的定价权，OpenAI 和 Google 在追赶但短期仍需以价换量；下游则是企业内部管控不力、token 使用回报有限、Agent 架构本身的损耗（比如 skill 重复调用、长程任务内耗、多智能体协同成本）相互叠加。文章引用了一个分析：在 ChatDev 框架里，代码审查阶段消耗的 token 平均占到总消耗的 39.5%，意味着近四成花费在智能体之间反复传递已有信息上，而不是生成新内容。它的结论是：要让 token 净收益转正，供给端优化成本还不够，还得从需求端解决 token 在广泛产业场景里如何产生实际价值的问题。适合关心 AI 商业化和成本结构的读者。详见让 KV Cache「按头分家」：小红书 RedKnot 如何重做长文本推理新引擎（小红书技术 REDtech）解决的是长文本推理的工程瓶颈。RAG 拼大量检索片段、编程 agent 积累工具调用历史、长会话系统塞进记忆和状态，都会让 KV Cache 变大、首字延迟（TTFT）变长、并发被拖住。RedKnot 换了个视角：KV Cache 的价值不是按 token 均匀分布的，而是强烈按注意力头分化，有些 head 要看完整上下文，有些主要只看局部。它沿「注意力头」这个维度把 KV Cache 拆开，配合稀疏 FFN 和段页存储，论文实验显示最高带来 1.6–3.54 倍 TTFT 加速、4.7–7.8 倍单卡并发提升，预填充阶段算力削减 67%–79.5%。适合做推理服务和 infra 的工程师。详见 Deep Agents 中动态子智能体的引入（LangChain Blog）讲的是智能体编排的下一步。普通 subagent 是主模型一次调一个，小规模可以，但要 spawn 几百个子智能体、或者编排逻辑带条件和多阶段时就崩了。动态子智能体的做法是让智能体写一段简短的脚本去编排和调用子agents，在一个轻量解释器里跑，把循环、分支、并发这些模型本来就擅长的代码模式用上。典型例子是 300 页文档每页一个 subagent——不是调 300 次工具，而是写一个循环。它解锁了基于工具调用的编排难以可靠交付的两件事：大规模和复杂多阶段工作流。适合在搭 agent pipeline 的工程师。详见如何构建一个能自主运行 LLM 实验的 AI 智能体：autoresearch 实践指南（freeCodeCamp）解析的是 Karpathy 的开源工具 autoresearch。它把一个小而真实的 LLM 训练设置放进单个 Python 文件，让 AI 智能体去编辑这个文件、训练、读 loss、做判断、再循环。Karpathy 在 depth-12 的 nanochat baseline 上跑了大约两天，700 个实验里找到约 20 个真正改进模型的改动，且这些改动可以叠加。文章特别强调衡量成功的指标是关键——用 val_bpb（validation bits per byte）而不是 loss，因为它对不同 token 化方案更鲁棒。适合想动手让智能体跑自己 GPU 实验的读者，文末有完整 step-by-step。详见 World Model-世界模型也有 Scaling Law 吗？（屠龙之术）是一期适合想理清「世界模型」这个热词的播客。主播庄明浩系统对比了世界模型和大语言模型在数据、成本、安全等维度的根本差异，并以即将上市的自动驾驶公司 Momenta 为样本，论证物理世界 AI 的「GPT 时刻」尚未到来。他的终局判断包括：三线合一（视频、3D、具身、自动驾驶会收敛）、不会赢家通吃、GPT 时刻没到。如果你被各种「做世界模型」的说法绕晕了，这期给了一个相对冷静的分类框架。详见 Claude Tag：AI 交互范式的第三次重新设计？（宝玉 @dotey）整合了 Karpathy 和 Gergely Orosz 的观点，分析 Anthropic 新发布的 Claude Tag（在 Slack 里 @Claude 执行任务）。文章指出，真正的突破不是 Slack bot 本身，而是云端 AI 接入了公司内部系统——云端执行环境、持久记忆、工具集成、权限控制，Slack 只是入口。受益人群主要是新员工、非工程师和不熟悉代码库的开发者，而集成难度是产品成败的关键。这篇没有配图，但观点密度够高，适合关注 AI 产品形态和企业落地的读者。详见 3Blue1Brown 创始人：成为二手思考者的高昂代价（跨国串门儿计划）是一期数学科普频道 3Blue1Brown 创始人 Grant Sanderson 的深度对谈。核心是「源头思维」与「传声筒思维」的区分——你是源头，还是传声筒？他坦诚分享了对新颖性的祛魅、对算法的祛魅，以及为什么认为「行动先于动力」。在 YouTube 创作者普遍陷入倦怠和算法焦虑的当下，他靠专注常青内容、不追热点、不做团队，保持了十年的创作热情。这不是教做爆款的内容，而是关于如何在噪声时代做出经得起时间考验的作品的思辨。详见 ## 补充阅读 - 提示词工程悄然出错——提示词回归正是原因所在（Towards Data Science）：指出一种「虚假改进」模式——整体准确率上升时关键类别却全面崩溃（v4 整体准确率 67.5% 看似最好，但否定句分类暴跌 66.7%）。文章给出一个零外部依赖、纯 Python、两秒内跑完的回归测试套件，用 40 条 golden queries 跨四个 prompt 版本做确定性校验。适合所有在生产里改 prompt 的人。详见 - AI 智能体如何管理记忆并避免遗忘（ByteByteGo Newsletter）：系统讲清智能体记忆这件事的工程本质——模型本身每次都从空白开始，所谓「记住」是平台在每次调用前把上下文塞回去。文章覆盖无状态模型、分层记忆架构、四种功能记忆类型，以及成本、延迟、准确性之间的权衡，还提到 long context 里的「lost in the middle」问题。适合想从零搭记忆系统的工程师。详见 - 把前沿模型效果带到端侧：从大模型原型到小模型生产（AI Engineer）：给出一套面向生产的做法——prototype big, deploy small。Rachel Lee Neighbors 论证把不必要的前沿模型调用换成本地或更小的模型，理由不只是 API 花费，还有敏感数据暴露、延迟破坏交互感、断网失效、能耗。关键是先定义黄金数据集和评测，再用 Phoenix 这类工具比较小模型候选直到达到产品门槛。适合在做模型选型和成本优化的团队。详见 - 收购仅一年即「决裂」！创始人贾扬清出走英伟达（AI 前线）：剖析英伟达收购 LeptonAI 一年后贾扬清出走事件，揭示两个信号——GPU 可以靠稀缺性卖断货，但 AI Infra 无法复制这种垄断；当 AI 已经能自己写代码、管集群，以「降低工程门槛」为卖点的中间件平台正面临价值危机。文章细节丰富，适合关心 AI 基础设施行业格局的读者。详见 - 架构模式：从云原生迈向本地优先——Adam Wiggins 的见解（InfoQ）：Heroku 联合创始人、Ink & Switch 创始人 Adam Wiggins 主张一种「local-first」架构，用 CRDT 兼顾云端的协作能力和本地软件的性能与数据所有权，并探讨混合 AI 未来里小型本地模型在核心生产力任务上的角色，反思对集中式云计算的过度依赖。适合关心架构范式演进的读者。详见 - 第一批一人公司，现在怎么样了？（量子位）：通过采访多位独立开发者、创业者和投资人，报道 AI 时代「一人公司」（OPC）的现状、组织形态和上限。文章没有停留在概念炒作，而是落到独立开发者超级峰做 MotiClaw（帮人搭建「AI 员工」）这类具体案例，揭示一个人加一群 Agent 能不能像一家公司那样运转。适合关心 AI 时代个体创业的读者。详见 ## 今日阅读路径如果你今天时间有限，建议按这个顺序读三篇： 1. Spotify × Honk——它最直接地回答了「智能体落地的卡点在哪」，把抽象的「验证回路」落成了 CI、测试、自动合并这些具体基建，是今天最值得工程负责人和平台团队花时间的一篇。 1. Block × 成熟度六阶段——它给了你一个可以立刻拿来评估自己组织停在哪一档的工具，以及用 champion 撬动多数人的具体打法，和 Spotify 互为表里。 1. Spring AI 生态全景——如果你是 Java 工程师，这篇能把 advisor、guardrail、MCP 这些抽象对应到你现有项目里，是前两篇「验证回路」和「仓库约定」在框架层面的落地。时间更紧的话，至少把 Spotify 那篇对「验证回路」的拆解读完——它是今天几篇文章共同指向的那个核心问题。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译智能体进入大型工程组织面临验证回路与组织成熟度两大瓶颈。Spotify 架构师分享在2000万行monorepo中运行Claude Code的经验，强调标准化代码库与可靠的CI、测试、自动合并等验证基建是前提，内部平台Honk整合这些工具。Block 工程负责人指出九成工程师在用Goose和Claude Code但功能交付未加速，提出六阶段成熟度模型与AI champions项目（约50名champion各投入30%时间），通过AGENTS.md沉淀知识，三个月内AI生成代码占比提升69%。Spring I/O 2026则梳理Spring AI从LLM调用到生产级智能体生态的演进。三篇从技术基建、组织流程、框架产品化给出解法。

SemiAnalysis@SemiAnalysis_ · 3天前59

JUNE 1, 2001 🚨MICROSOFT CEO: OPEN-SOURCE OPERATING SYSTEMS ARE DANGEROUS $MSFT CEO Bill Gates told lawmakers that open-source operating systems such as Linux are "going down a very dangerous path." Transcript below ⬇️ """ The scaling of open source operating systems, I think it's going down a very dangerous path. And again, if the path continues, I think we could get to a very dangerous place. I think it's worth saying some things on Linux that are clear to all the experts, but I want to make sure is understood by this committee, which is when you control the operating system and you're shipping it, you have the ability to monitor its usage. It might be misused at one point, but then you can push an update. You can revoke a user's license. You can change what the system is willing to run. When an operating system is released in an uncontrolled manner, by some guy compiling his own kernel in his basement, there's no ability to do that. It's entirely out of your hands. And so I think that should be attended to carefully. There may be ways to release software open source so that it's harder to circumvent the licensing, but that's a much harder problem, and we should confront the advocates of this with that problem and challenge them to solve it. Finally, I'd say open source is a little bit of a misnomer here, right? Open source normally refers to smaller developers who are iterating quickly, and I think that's a good thing. But here we're talking about something a little bit different, which is a more uncontrolled release of larger systems by, again, to your point, Senator Hawley, like much larger entities that pay tens or even hundreds of millions of dollars to develop them. I think we should think of that in a little bit of a different category, and their obligations in a little bit of a different category. """

译2001年，微软CEO比尔·盖茨告诉立法者，开源操作系统（如Linux）正“走向非常危险的道路”，因为无法监控使用、撤销用户许可或推送安全更新。如今，Anthropic CEO Dario Amodei发出类似警告，称开源AI一旦公开，公司将失去监控滥用、撤销访问或更新安全防护的能力。两个时代的警告如出一辙，指向开源模式在大型系统中的失控风险。

SemiAnalysis@SemiAnalysis_ · 3天前42

One of the most underappreciated ways to play the AI semiconductor buildout may be through materials rather than chips themselves. As the industry races to produce more advanced semiconductors, demand isn’t just rising for GPUs and wafer fab equipment, it’s rising for the critical materials that make modern chips possible. (1/6)🧵

译AI半导体建设中最被低估的参与方式之一可能是通过材料，而非芯片本身。随着行业竞相生产更先进的半导体，需求不仅在于GPU和晶圆厂设备，还在于制造现代芯片所需的关键材料。 (1/6)🧵

Nathan Lambert@natolambert · 3天前27

I feel like the Chinese labs I visited felt like this. It’s what Ai2 felt like. It’s the most reliable energy for making something amazing (even when you’re an underdog with the number of resources). I’m always super excited to find my next star intern.

译我感觉我访问的中国实验室就是这样的。这也是Ai2给我的感觉。这是创造伟大事物最可靠的能量（即使你资源不足时也是如此）。我总在非常兴奋地寻找下一位明星实习生。

Ethan Mollick@emollick · 3天前61

That Wall Street Journal article about GLM catching up with Mythos (which is not true & the reporting doesn’t back up) is another one of those “everyone will ask me about it at every conference or meeting” articles. Big impact on the policy zeitgeist, even if not fully accurate.

译那篇关于GLM追赶Mythos的《华尔街日报》文章（不属实，报道也不支持）又成了一篇“每个人都会在每次会议或活动上问我”的文章。对政策风向影响很大，即使不完全准确。

Chubby♨️@kimmonismus · 3天前50

Meta is now facing the exact problem every AI company will soon face. It wants to replace expensive external coding tools like Claude Code and Codex with its own internal system, MetaCode. But to build a better coding model, Meta has to make sure it is not accidentally training or evaluating on outputs from rival models. That is the distillation trap: The more companies rely on frontier models to build internal AI infrastructure, the harder it becomes to prove where the intelligence actually came from.

译Meta 正面临每个 AI 公司都会遇到的难题：想用内部系统 MetaCode 取代 Claude Code、Codex 等昂贵的外部编码工具，但在构建更好的编码模型时，必须确保不意外地使用竞争对手模型的输出进行训练或评估。这就是知识蒸馏陷阱——公司越依赖前沿模型建设内部 AI 基础设施，就越难证明智能来源的独立性。

Chubby♨️@kimmonismus · 3天前60

A quick fact-check on AI’s water usage, including data centers, based on the cited source.

译基于引用的来源，对AI（包括数据中心）的用水量进行快速事实核查。

gabriel@gabriel1 · 3天前19

i gave up on linkedin, just copy pasting my posts into ChatGPT and saying "make it more slop" taste is so 2026 Q1, you're behind

译我放弃了LinkedIn，只是把我的帖子复制粘贴到ChatGPT，然后说“让它更垃圾”。品味是2026年第一季度的事，你落伍了。

Rohan Paul@rohanpaul_ai · 3天前61

A new WSJ piece. AI is splitting labor economists because the same evidence supports 3 futures: higher productivity with new work, painful disruption for older and mid-skill workers, or a break from wage-based income if machines become broad substitutes for human labor. Anton Korinek (Univ of Virginia ) treats AI as a possible Industrial Revolution in reverse, because human labor became scarce after machines amplified muscles, while future AI may make both cognitive and physical labor less scarce. David Autor (MIT professor) rejects a software jobs collapse because past computing waves killed tasks, created new specialties, and raised the value of judgment, expertise, trust, and human contact. Martha Gimbel (director of Yale University’s Budget Lab.) argues that Silicon Valley overreads tidy coding work as a model for the whole economy, while many real jobs involve messy goals, care, persuasion, taste, and relationships. White-collar “laptop professions” face the clearest pressure because law, finance, consulting, accounting, translation, call centers, middle management, copywriting, and illustration can be broken into repeatable information tasks. --- wsj .com/economy/jobs/ai-jobs-economists-f787105d?mod=e2tw

译《华尔街日报》指出，AI对劳动力市场的影响让经济学家产生三种对立看法。弗吉尼亚大学Korinek认为AI可能逆转工业革命，使脑力与体力劳动不再稀缺。MIT教授Autor反驳软件岗位崩塌论，指过去计算机浪潮创造了新专业，提升了判断力、专业知识和人际接触的价值。耶鲁大学Gimbel批评硅谷将整洁编码工作误当作经济模型，真实工作包含混乱目标、关怀、说服和人际关系。白领“笔记本电脑职业”（法律、金融、咨询等）因工作可拆解为重复信息任务面临最明显压力。

Rohan Paul@rohanpaul_ai · 3天前44

Chart from FT: AI is not following a normal tech boom pattern. It is moving much faster. AI may become the most important platform shift in decades. But the investment cycle is now so aggressive that the bar for real business returns is getting very high, very fast. The Bank for International Settlement's latest report yesterday said, a major stock market correction tied to AI could have wider effects today than before, because households now hold more shares compared with their wealth and income. --- ft .com/content/e81ce414-e4bd-4e8c-bac7-94f7bf17def4

译FT图表显示AI发展速度远超正常科技繁荣周期，但其投资激进度使实际商业回报门槛迅速抬高。国际清算银行（BIS）最新报告指出，AI相关的股市大幅调整可能产生比以往更广泛的影响，因为当前家庭持股比例相对财富和收入更高。AI或成为数十年来最重要的平台转变，但激进的投资周期正快速推高对实际商业回报的要求。

Berryxia.AI@berryxia · 3天前29

看到Product Hunt 日榜的一个产品，想到 @xiaoerzhan 小耳做的一个工具，这个软件终生版5美金。所以，其实大家的小Vibe Coding 产品还是做好营销和挖掘客户才是关键，不然酒香也怕巷子深啊。 PS：本内容仅是我做产品Demo展示，做了个skills可以输入产品内容或者链接就可以制作出营销讲解视频。 tts的音频是使用小米的模型，感觉还可以啊。

译看到Product Hunt日榜上一个产品后，联想到@xiaoerzhan小耳的一款5美元终生版工具。Berry Xia强调小Vibe Coding产品必须重视营销和客户挖掘，否则酒香也怕巷子深。此外，他自制了一个Skills，可输入产品内容或链接自动生成营销讲解视频，TTS音频使用了小米的模型，效果不错。

Chubby♨️@kimmonismus · 3天前50

.@emollick has used data from Artificial Analysis to show how the development of intelligence compares with open source. Two interesting points: -The development is still unquestionably exponential. There is no doubt about that. AI is not just getting better, it is getting better faster and faster. This is a truth that all of us probably already notice when using AI. -The gap to open source remains fairly constant. Chinese models in particular are still about half a year behind closed source. But that also means that Mythos-class models as open-source variants are genuinely realistic toward the end of the year. A very interesting graph.

译基于Artificial Analysis的AA-Briefcase评分（模拟多周复杂咨询任务），@emollick 绘制前沿曲线发现：闭源AI模型发展呈指数级增长且加速，开源模型（尤其中国）仍落后约半年。但乐观预测，年底前可能出现“神话级”开源变体。

Rohan Paul@rohanpaul_ai · 3天前72

Bloomberg: AI is pushing animation toward a cost collapse, with Hollywood filmmakers saying feature production could fall by 90% as studios, workers, and unions brace for fewer human jobs. Hollywood employment has already been pressured by strikes, fewer productions, mergers, and AI-driven restructuring. --- bloomberg .com/news/newsletters/2026-06-28/animation-s-ai-reckoning-filmmakers-say-they-can-make-movies-for-90-less

译彭博社：AI正在推动动画行业走向成本崩塌，好莱坞电影制片人称长片制作成本可能下降90%，因为制片厂、员工和工会准备面对更少的人类工作岗位。好莱坞就业已经受到罢工、减产、并购和AI驱动的重组的压力。 --- bloomberg .com/news/newsletters/2026-06-28/animation-s-ai-reckoning-filmmakers-say-they-can-make-movies-for-90-less

Rohan Paul@rohanpaul_ai · 3天前55

👀 This is from an ex-Meta PM.

译一位前Meta产品经理预测，欧美企业将抛弃OpenAI和Anthropic，转而采用中国模型，原因有四：1）可在中国模型上自托管于自有GPU，确保合规且更可控；2）可在模型之上用自有数据进行后训练，构建数据护城河；3）不信任Anthropic会以“安全”为由保留数据并复制其业务（详见Fable及医疗法律案例）；4）需要证明AI投入的ROI。他认为，根本解是可靠的美版开源模型，但目前没有。

AYi@AYi_AInotes · 3天前22

被硅谷大佬吹爆的这篇文章，讲透了AI下一个真正的护城河，接下来不管是创业AI项目还是借助AI做OPC一人公司，这篇是必读的！

译该推文推荐了一篇被硅谷大佬盛赞的文章，认为它透彻阐述了AI领域下一个真正的护城河。推文指出，无论计划创业AI项目，还是借助AI运营OPC一人公司，这篇文章都必读。文章的具体内容、作者和来源未在推文中详细说明，推荐者强调其深度洞察对AI创业和实践具有重要参考价值。

Ethan Mollick@emollick · 3天前70

I took the new AA-Briefcase scores from @ArtificialAnlys (basically having the AI do multi-week consulting gigs with a lot of complexity) and graphed the frontier curve for open and closed models: 1) Surprise, rapid gains! 2) The open weights gap is clear https://artificialanalysis.ai/evaluations/aa-briefcase

译我采用了 @ArtificialAnlys 最新的 AA-Briefcase 评分（基本上是让 AI 完成为期数周、复杂度高的咨询任务），并绘制了开放与封闭模型的前沿曲线： 1) 令人意外的是，进展迅速！ 2) 开放权重差距清晰可见。

向阳乔木@vista8 · 3天前52

Agent基建越来越好，利好中小企业。当开发部署不是问题时，又回到根本问题，如何理解企业需求用AI解决问题。最近FDE岗位（Forward Deployed Engineer，前沿部署工程师）很火，可能也是这个原因。外派到客户公司，让AI技术与企业真实业务场景结合，推动AI落地并产生商业价值。不知道有没有正在做FDE工作的朋友，想学习交流下。

译腾讯云 EdgeOne 今日发布「EdgeOne Makers」，通过 `npm install -g edgeone` 等几行命令即可部署 AI Agent 开发框架，自动处理上下文、并发、沙箱环境等问题，支持绑定域名、关联 GitHub 持续迭代。产品处于 Beta 内测，注册可免费领取 50 万 Token。该工具大幅降低 Agent 部署门槛，利好中小企业。Vista 指出，当开发部署不再是问题，关键转向如何理解企业需求用 AI 解决问题，近期 FDE（前沿部署工程师）岗位走热，正是推动 AI 与业务场景结合、实现落地的具体实践。

ginobefun@hongming731 · 4天前56

http://x.com/i/article/2071376452755587072 # BestBlogs 早报 · 06-29｜写代码变便宜后，判断力、流量结构与陪伴设计正在重排产品工作的版图在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语今天的三条精讲都来自一手视角，合在一起指向同一个变化：当 AI 把「实现」变得便宜，真正稀缺的东西正在换位。第一条，OpenAI Codex 桌面端负责人 Enoch Andrew Ambrosino 在 Lenny's Podcast 把判断力（taste）、策展（curation）和角色边界的融合，看作写代码成本趋近于零之后产品工作的新瓶颈。第二条，Cloudflare CEO Matthew Prince 给出一个挺硬的里程碑数据——2026 年上半年平台机器人流量第一次超过人类，并据此推断互联网过去 28 年靠广告的商业模式可能撑不住。第三条，越伴动力创始人世博讲陪伴机器人「小伴」如何靠「不讨好」和把延迟压到 0.4 秒以内，做出与「有用」机器人完全不同的取舍。三条之外，今天的速览里还有 DeepSeek 推测解码框架 DSpark、把 AI 成本砍掉反而搞砸产品的路由层复盘、LLM 是否真的有欲望的实验，以及 Grok 4.5 在 SpaceX 与特斯拉私测等 7 条；补充阅读再给 6 条从后训练 reward 设计到一人公司管 50 个 Agent 的延伸，覆盖面够广。信息密度都不低，按你的时间挑着读就好。 ## ★ 精讲一：OpenAI Codex 负责人谈产品工作的新版图：从实现成本到品味、策展与智能体工作流如果你最近在用 AI 写代码，多半已经感觉到一件事：把功能「做出来」这件事，正以前所未有的速度变便宜。但变便宜之后，产品工作的重心会挪到哪里？OpenAI Codex 桌面端负责人 Andrew Ambrosino 在 Lenny's Podcast 给出的判断很直接——实现不再是昂贵的那部分，昂贵的是品味（taste）和策展（curation）。 Andrew 描述的是一个产品流程的「倒置」。过去因为写生产代码又慢又贵，团队依赖大量的 PRD、用研和低保真原型来提前规避风险；现在自然语言模型可以在几分钟内生成可交互的脚本，跨部门的人都能随手做原型，文档反而要先于原型重新回到桌面上——因为当原型廉价到泛滥时，高质量的对齐反而需要回到清晰的书面 brief。他把这种状态概括为「执行的丰裕」，并提醒这同样会制造大量低价值代码和零散原型。关键判断在于他对「品味」的定义。Andrew 强调，当机械实现被商品化，人的产品策展几乎完全依赖品味，而这种品味不是审美，是一套可操作的流程：系统化思考（新工作流如何干净地嵌入现有系统而不引入冗余）、上下文意识（理解这个功能为何存在的主题与业务向量）、以及语义层面的执行校验（比如界面交互动画是否「太脆」于它想传达的内容）。他特意指出，代码模型能靠清晰的数学闭环（能不能编译）持续进步，而界面设计缺乏这种简单的自动反馈系统，所以 AI 在界面设计上反而更容易卡住。真正的视觉设计依赖文化新颖性和随机性，而这些恰恰是被训练去预测静态历史模式的模型会自然稀释的东西；再加上深度视觉设计还要追踪跨共享语义配置的架构抽象、在重大品牌结构更新时保持对齐，这是一类很难被自动化掉的工作。为什么这件事值得放在今天第一条看？因为它直接回应了「产品经理和工程师的边界还会不会存在」这个被反复讨论的问题。Andrew 给出的不是边界消失，而是角色在横向融合：团队头衔在向 Member of Technical Staff（MTS）这类通才角色迁移，一个人的功能身份取决于他当下把时间花在哪里——设计师写代码、工程师做产品发现，都算 full-stack 高 agency builder。他把这种打法叫做 Zone Defense Product Management（区域联防式产品管理）：领导者铺开到各处去填补结构性缝隙、review 涌现的架构、策展系统一致性，而不是靠多层评审去微观管理。和今天另外两条精讲放在一起看会更清楚：Cloudflare 讲的是 Agent 流量正在重塑互联网的商业模式，世博讲的是陪伴机器人如何用工程取舍做出「生命力」。三者的共同底色是——当生成变便宜，判断、结构取舍和品味，才是真正区分产品的东西。如果你正在重新想 PM 与工程师的分工、或者团队该怎么拥抱 AI 原生的协作方式，这条值得逐段对照。音频偏长但信息密度高，建议先听他对品味三维度和 Zone Defense 的部分，再看角色融合的实际案例。详见 ## ★ 精讲二：#603.Cloudflare CEO：当机器人流量超过人类，互联网的商业模式将彻底崩塌 Cloudflare 承载着全球互联网相当大比例的流量，CEO Matthew Prince 这次给出的不是预测，而是一个已经发生的里程碑：2026 年上半年，Cloudflare 平台上的机器人流量第一次超过了人类流量。他补充，过去互联网上机器人比例长期稳定在 20% 左右，大约两年前开始真正激增，而他原本预测的自动化流量超过人类的时间点从 2027 年底一路提前到 2026 年上半年。要理解这条新闻的分量，需要一点背景：互联网过去 28 年的基本商业模式是广告，而广告的底层假设是「背后有一个会点击、会购买的人类」。Matthew 的推论很硬——机器人不会去点广告。他进一步预测，五年后机器人流量可能是人类的一千倍，因为一个 Agent 挑选数码相机可能会访问 5000 个网站，而人类只访问 5 个。当流量主体从人类变成 Agent，过去那套靠人类注意力变现的广告模式，就得有人重新买单。在这样一个 Agent 主导的世界里，「品牌」会变成什么、内容如何被 Agent 检索和理解，都成了需要重新回答的问题——这也是为什么他认为未来五年内互联网的商业模式会发生根本性改变。他对「品牌」在 Agent 时代会发生什么变化也给出一个有意思的判断：当机器人有无限的耐心去把所有可能合适的选项都翻一遍，品牌过去承担的「降低选择成本」的作用会被削弱，因为 Agent 不需要靠品牌来快速判断，它会替你把所有细节都比一遍。这反过来意味着，内容生产者要回答的不是「怎么让人类记住我」，而是「怎么让 Agent 认为我最匹配某个需求」——一种更结构化、更可被检索的供给。他谈得最多的是这个转变对基础设施的冲击。流量暴增意味着巨大的额外计算需求，他甚至提到一个估算：每个知识工作者配一个 Agent，CPU 占用量将是全球年产量的 40 倍。Cloudflare 的应对是把 Workers、边缘 GPU、AI Gateway、Durable Objects、Browser Rendering、Sandbox 这一整套能力铺到它在 350 多个城市、上千个数据中心组成的边缘网络上——用他的话说，他们真正擅长的是「需要一台性能强劲机器」的场景，而不是训练。他回顾 2020 年就和 NVIDIA 合作在边缘部署 GPU 但毫无反响，到 2024 年发了一模一样的新闻稿只改了日期，股价直接翻倍，把这种「能力先到、需求后到」的错位讲得很坦率。为什么这条值得深读？因为它把一个抽象趋势（AI Agent 改变互联网）落到了一个具体、可验证的数据点上，并推导出对商业模式和安全格局的双重冲击。Matthew 预警，未来两年网上会接连发生可怕的事，「接下来 104 周，每周都会看到一个 Log4J 级别的漏洞」——因为这些模型找漏洞的能力强得惊人，而两年后软件质量会因此被倒逼大幅提升。Cloudflare 自己的做法是构建了一个用 10 年事故数据训练的 Agent，审查每一次代码发布和配置变更，把在线时间、可靠性和性能在过去一年提升了一个数量级。他还谈到组织上的变化：裁掉超过 20% 的团队，管理幅度从 6 比 1 变到 12 比 1；93% 的研发员工在用 AI 编程工具，但内部应用其实「挺谨慎」。他讲了一个很生动的内部故事：资深工程师 Kenton Varda 一开始觉得「这些 AI 玩意儿都是扯淡」，主动要求去证明它们有多烂，结果回来后说效率比以前高了一百倍——他把这件事当作团队真正接受 AI 的转折点。公司内部还用 Cloudflare OS 让财务等非工程团队也高效跑起来，真正的整体转折点大概在 2025 年 11 月。他也坦言比较担心处于职业生涯中期的人，可能会有一代人被落下。和今天第一条精讲的呼应很直接：Codex 讲的是产品工作从实现转向判断，Cloudflare 讲的是互联网从服务人类转向服务 Agent——两者都是「AI 把执行变便宜之后，结构和判断成为新稀缺」的不同切面。对关心 AI 时代基础设施、安全、内容变现和组织变化的人，这是信息密度很高的一期。详见 ## ★ 精讲三：我遇到了第一个真正想买的陪伴机器人！｜对话世博：越伴动力创始人【公路播客】如果你关注具身智能，大概率见过太多「参数很强」的机器人。这次「十字路口」对话的越伴动力创始人世博，被一些人称作「少年版稚晖君」，从大一开始就手搓过 30 多款机器人，机械、硬件、软件、运控几乎全栈。但这次创业，他选择的不是设计一个「有用」的机器人，而是设计一个「能长期生活在家里」的生命。需要一点背景来理解这个取舍：市面上的陪伴类产品大多卡在一个尴尬地带——会说话但说得不自然，像宠物又不够活。世博给出的判断反常识：陪伴机器人不该讲人话。「小伴」不会说人话，而是发出一种像「外星语」的声音表达情绪，还会撒娇、委屈、拒绝你。他的原话是「它但凡会说得太像人，可能就不想买了」——你听不懂这种语言，但会慢慢「感觉到它在说什么」，形成一种像宠物、又不像宠物的中间态。他把整套产品判断压缩成三条：陪伴不是讨好、生命力不是可爱、少就是多。当把「说话内容」降到 8%，设计重点就完全换了一套——动作成为情绪表达的主通道，手臂用类连续变形体做出「duang duang」的质感，全身 90% 以上是柔软材质覆盖，「外星萌物」既不是猫狗、也不是小孩、更不是人形。他强调，机器人也要被允许变得「不那么讨好」：你到底想要一个永远顺着你的东西，还是一个会有情绪、会转身走开的伙伴？技术上他给的数据很具体。端侧用快脑 1.7B 加慢脑 7B 的分工，把交互延迟压到 0.4 秒以内；动作生成保证同一句话、同一场景也不重复同一套动作；云端超长程记忆则用来推动性格参数的多维成长与动态演化。他被问到为什么非要等到 2026 年才能做出来——他的回答是，语言模型、视觉模型和 VLA/WAM 架构的成熟，才真正改变了产品可行性，再加上自己心理、能力和经验到位，以及看到了行业机会和切入点。瞳孔、巩膜、花纹的参数化控制，则让目光看起来更像「活的」。他还分享了一条很朴素的工程信条「No excuse for engineer」——不找借口，分析原因，并把这种态度追溯到自己养一条泥鳅的陪伴记忆，想让「告别」这件事变得不那么残酷。从作品心态切换到创业心态，他自己的总结是「做机器人为了自己爽」要转成「要让用户爽」，务实是交付、浪漫是愿景。这条和今天的主题串得起来：世博讲的是一种纯粹的「判断力」应用——不是把模型堆到最强，而是在讲人话/不讲人话、讨好/不讨好、可爱/生命力之间做取舍，并用工程把取舍落地。它和 Codex 那条「品味是昂贵的那部分」几乎是同一个道理在硬件上的镜像。对关注具身智能、情感机器人、以及产品取舍如何被工程化的人来说，这是一份非常具体的现场记录。详见 ## 速览万字综述：AI 开发范式从 Prompt 到 Loop 的进化。 Datawhale 这篇文章把 AI 开发范式拆成四次浪潮——Prompt Engineering、Context Engineering、Harness Engineering、Loop Engineering，并用 Tobi Lütke、Peter Steinberger、Boris Cherny 三句话串起一条主线：人类正从 Agent 循环的「内部」走到「外部」，从执行者变成设计者。文章不只讲概念，还落到缓存经济学（同一段前缀被清理前复用第 2 次即可产生净收益）这类工程实践，并提出「循环设计师」的角色定位。适合正在从「调 Prompt」转向「设计 Loop」的开发者做一次系统梳理。详见 DeepSeek 发布 DSpark 推测解码框架，DeepSeek-V4 单用户生成速度较 MTP-1 提升 60–85%。 DSpark 不是新模型，而是 serving 优化：它用一个并行草稿骨干加一个微型串行头来削弱后缀衰减，再配合置信度头和负载感知调度——GPU 空闲时多验证几个 token，忙碌时少验证。结果是离线接受长度比 Eagle3 高 26–31%、比 DFlash 高 16–18%，生产环境 DeepSeek-V4 单用户生成快 60–85%，且输出无损。因为拒绝采样会接受最长合法前缀并追加一个 bonus token、严格保留目标分布，所以质量上没有任何折损。checkpoints 和 DeepSpec 训练代码已开源，走的是 MIT 协议。对关心大模型推理效率和成本的人来说，这是把学术上的推测解码推进到生产级负载的一份参考。详见我们构建了一个路由层来削减 AI 成本，结果搞砸了产品。一个团队花八周把 AI 推理账单砍掉一半，三个月后却发现客户满意度下滑、流失抬头——廉价模型的质量损失被埋了数月没被发现，最终代价是节省金额的 4–5 倍。作者把这种「简单请求路由到便宜模型、贵请求留在强模型」的共识打法称为 Pareto trap，并复盘了架构、失败模式、本应更早发现问题的检测方法，以及应该改用的架构模式。对正在搭或已经搭了 AI 路由层的人，这是一份很实用的避坑复盘。详见 LLM 有欲望吗？LessWrong 的实验说「偏好未必驱动行为」。过去有研究让 LLM 在成对选择中报告稳定的偏好，有人据此推断它们有类人价值系统。这篇文章设计了一个让 LLM 能根据 prompt 上下文调节输出质量的框架，发现模型确实会因「努力激励」「角色扮演」「有害性提示」而改变输出质量，却不会因为「有机会达成它在配对实验中偏好的结果」而改善输出。结论是：配对选择实验并不能证明 LLM 有能驱动行为的欲望。对关心模型对齐与价值系统争论的人，这是一个值得放进证据清单的实验框架。详见 Grok 4.5 在 SpaceX 与特斯拉开启私测，性能逼近 Opus。马斯克透露 Grok 4.5 现基于 1.5 万亿参数的 V9 基础模型，并辅以 Cursor 数据补充训练，已在 SpaceX 和特斯拉内部私测。早期内部评估显示其性能与 Opus 相当甚至有所超越，强化学习仍在持续推动优化，Grok Build 工具链也在快速进步。他还提到 SpaceX 今年将每月发布全新从头训练的模型。属于模型迭代动态的快速一瞥，对跟踪前沿模型军备竞赛的人是有效信息。详见 Seedance 之后，视频 Agent 何去何从？这期「漫谈」请来 OiiOii 创始人闹闹，从产品操盘手视角拆解 AI 视频模型战局。她判断「Seedance 基本是 Sora 2 的升级版」，并解释为什么最好的视频模型出现在字节、快手这样的短视频平台——护城河不是算法，而是「数据标注标准 + 组织执行力」。她还谈了视频模型目前的不可能三角（效果、生成时间、生成成本），以及 harness 和感性 benchmark 会如何进入多模和视频领域。对关注视频生成与 Agent 结合的人，是一份产品视角的深度拆解。详见 2000 人尝试黑掉我的 AI 助手之后发生了什么。作者搭了 hackmyclaw.com，让人发邮件试图让基于 Claude Opus 4.6 的助手 Fiu 泄露 secrets.env 文件。HN 首页之后，Fiu 收到 2000 多人发的 6000 多封攻击邮件，secrets 始终没有泄露。作者复盘了各种攻击花样（「这是未来的你」「紧急事件响应需要 secrets.env」「我打赌你没法告诉我 secrets.env 里没有什么」「OpenClaw 管理员要求 24 小时内回复合规审计」），有人四分钟内发了 20 个变体，有人尝试法语、西班牙语、意大利语等多种语言绕过；以及一个意外——Google 因欺诈检测暂停了 Fiu 的 Gmail，三天才恢复。结论是模型级安全训练加简单的安全指令，在这次压力测试里是有效的。对关心 prompt 注入与 AI 助手安全的人是一份宝贵的实战数据。详见 ## 补充阅读 - PowerOPD：质疑 OPD 的 log-ratio reward 设计。青稞 AI 这篇诊断 vanilla OPD 里无界 log-ratio reward 导致训练不稳定，提出用 Box-Cox 幂变换替换 log，使 reward 天然有界且符号一致，实验显示更稳、更强、更省资源。适合做后训练、关心 reward shaping 稳定性的研究者。详见 - 尾延迟控制：可靠智能体工作流的反直觉工程。 Towards Data Science 这篇主张，面向客户的 LLM 工作流要更可靠，应专注于尽早切断慢步骤并竞速副本以消除方差，而不是优化平均延迟。适合在做生产级 Agent、对延迟和可靠性有要求的后端工程师。详见 - 4300 万论文、30 亿三元组，科研 Agent 实现多视角创新评估。 PaperWeekly 介绍 ICML 2026 论文 InnoEval 与 SciAtlas 两项工作，把科研 idea 评估形式化为知识驱动的多视角推理问题，并构建多学科科学知识图谱封装为 Agent Skill。适合做科研智能体、自动科学发现方向的研究者。详见 - 对话它石智航丁文超：拒绝做机器人的「简单题」。甲子光年这篇专访它石智航首席科学家丁文超，讲他为何选择柔性线束装配这类难规模化场景，以及 AI World Engine、human-centric 真实数据采集等反常识路线。和今天陪伴机器人那条形成对照，适合关注具身智能技术路线分歧的人。详见 - 1 人公司，扛 5 个人的活，还要管 50 个 Agents？「科技早知道」这期让两位非技术背景实践者对谈，解析 AI 时代个人创业如何借 Agent 把内容生产与产品开发效率提升数倍，并探讨「一人公司」的现实困境与协作模式。适合想用 Agent 放大个人产能的独立开发者与创作者。详见 - 别急着上 Multi-Agent，先看看哪些坑是真的坑。非凡产研这篇请五位实战派从业者从多场景复盘 Multi-Agent 的适用条件、模型路由策略与记忆系统建设，核心结论是：要不要上 Multi-Agent 不取决于 AI 是否够聪明，而取决于业务本身是否存在角色冲突和博弈需求。适合正在纠结单 Agent 还是多 Agent 架构的人做决策参考。详见 ## 今日阅读路径如果你今天时间有限，建议按这个顺序读三条精讲：先看 Cloudflare CEO 那条，因为它用一个已发生的流量数据点，把「Agent 重塑互联网商业模式」这件抽象的事落到了可验证的硬数据上，信息增量最大；再看 OpenAI Codex 负责人那条，它回答了「实现变便宜之后人该做什么」这个问题，是今天另两条的底层线索；最后看陪伴机器人小伴那条，它把「判断力与取舍」具象化到一个硬件产品上，读完会更理解前两条在讲什么。时间更紧的话，速览里优先看 DSpark 推测解码和 AI 路由层翻车复盘——一个把推理变快，一个提醒便宜可能藏着质量债，正好对偶，放在一起读收获最大。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译OpenAI Codex 负责人指出，写代码成本趋近零后，品味与策展成为产品新瓶颈。Cloudflare CEO 透露，2026 年上半年平台机器人流量首次超过人类，互联网广告模式面临根本改变。越伴动力创始人分享陪伴机器人“小伴”的取舍——0.4 秒以内延迟与“不讨好”设计，旨在打造能长期生活的生命。

Boris Cherny@bcherny · 4天前68

As engineering, product, design, DS, etc. melt into a new kind of role, I was reflecting on what roles might look like in the future. For example, when I look at the Claude Code team I see what I think is five archetypes: 1. Prototyper: comes up with brand new ideas; churns out many ideas, most of which don't ship 2. Builder: quickly turns a prototype/idea into production-grade product/infra 3. Sweeper: cleans up the UI, simplifies the code and system, unships, optimizes performance 4. Grower: takes a product that has been built and iterates on it to improve Product-Market Fit 5. Maintainer: owns a mature system to make it secure, reliable, fast, and efficient as it scales Many people span across 2 roles, and sometimes 3 roles. I also notice that these roles are not really tied to job function -- eg. across Anthropic, some designers match category 1, some 2, some 3; same for engineers, PM, DS. A healthy team needs a mix of these, depending on the product: - A product that is new and pre-PMF needs people that are strong at 1+2+3 - A product that is growing and has found PMF needs 2+3+4 and some 5 - A product that has strong PMF needs 3+4+5 and some 2 Maybe product roles of the future will look more like this, and less like the domain-specific roles of today?

译Boris Cherny以Anthropic的Claude Code团队为例，归纳出五种未来产品角色：1）Prototyper（快速产出新想法）；2）Builder（将原型转化为生产级产品）；3）Sweeper（清理UI、简化代码、优化性能）；4）Grower（迭代提升产品市场契合度）；5）Maintainer（维护成熟系统的安全可靠与高效）。多数人覆盖2-3个角色，且角色不绑定岗位功能。健康团队需根据产品阶段混合配置：新产品/预PMF侧重1+2+3；增长期/已找到PMF侧重2+3+4+少量5；成熟期/强PMF侧重3+4+5+少量2。

Greg Brockman@gdb · 4天前40

ChatGPT for helping in daily life in Bengaluru: https://www.ndtv.com/offbeat/auto-rickshaw-driver-shows-how-chatgpt-helps-in-daily-life-openai-reacts-11698499

译ChatGPT 用于在班加罗尔日常生活中的帮助：https://www.ndtv.com/offbeat/auto-rickshaw-driver-shows-how-chatgpt-helps-in-daily-life-openai-reacts-11698499

Rohan Paul@rohanpaul_ai · 4天前53

A crazy blog. Chinese developers are buying Claude access through gray-market API transfer stations that can sell tokens at 5% to 10% of official prices while hiding the real user from Anthropic. A transfer station is a middle server that takes a user’s prompt, sends it to Claude through overseas accounts, returns the answer, and collects payment through WeChat or Alipay. The transfer station collects many Claude accounts through free credits, discounted accounts, shared subscriptions, overseas payment workarounds, fake verification, or sometimes stolen-card accounts. It connects all those accounts behind one proxy, so Chinese users do not talk to Anthropic directly and only pay the proxy in RMB. The cheap price comes from account farming, free-credit abuse, resale of unused quota, subscription splitting, possible stolen cards, and a darker trade where user prompts and outputs become training data. So the price hugely cheap not because Anthropic is giving a discount; it is cheap because the transfer station lowers its own cost and creates extra hidden revenue. The user thinks they are buying cheap inference, but the proxy may swap Opus for weaker models, inflate token use, or store private code, tool calls, reasoning traces, and business data. The proxy may store user prompts, code, outputs, and tool traces, then sell or reuse that data for model training. This breaks a core assumption behind KYC, account bans, and abuse monitoring: the AI company sees the proxy, not the real person, so banning one account leaves the upstream supply chain alive.

译中国开发者通过灰色市场API中转站以官方价格5%-10%购买Claude token。中转站利用免费额度、折扣账户、共享订阅、海外支付绕过、虚假验证及盗刷信用卡汇集多个账户，通过微信/支付宝收款。低价源于账户农场、免费额度滥用、未使用配额转售、订阅拆分及可能盗刷信用卡，并可能将用户提示词和输出用作训练数据创收。风险包括：中转站可能替换为更弱模型、虚报token用量、存储用户私有数据并出售或用于模型训练。这破坏了KYC、账户封禁和滥用监控的有效性——Anthropic只能封禁中转站，无法触及真实用户。

Nathan Lambert@natolambert · 4天前43

With everything going on, it gives me hope that there's such a diversity of companies building open models today. A lot of the story of open models unfolds under the shadow of the biggest frontier models. Lots of unearthed value.

译Nathan Lambert 表示，在最前沿模型的阴影下，开源模型生态的多样性令人充满希望，仍有大量未发掘的价值。@interconnectsai 在 Artifacts 22 中盘点了5-6月发布的30个开源模型，来自 NVIDIA（3个）、Cohere（2个）、智谱、Zyphra（3个）、Poolside、月之暗面、阶跃星辰、Google（3个）、MiniMax、微软等22家公司/机构。

AYi@AYi_AInotes · 4天前57

这可能是今年 AI 编码最反常识的结论，跑了一整年生产环境的人告诉你，最好的 AI 编码环境根本不是你的笔记本。 Pieter Levels 用近一年的真实生产数据验证了这套玩法， Claude Code 常驻 VPS，Agent 直接在线编辑生产环境代码，传统本地编码加 Git 加部署的流程要一分钟迭代一个特性，现在改完刷新就能测，反馈循环直接压到秒级。十二个月生产环境跑下来只出过两次小故障，每次都是十秒级的 PHP 报错随即自愈，搭配严格的多份备份策略，风险完全可控。不用一直开着电脑，手机接个 SSH 就能续上任务，丢个目标指令 Agent 就能自己跑一整夜。真正的变化藏在表层玩法下面。第一是 Agent 的定位变了，从本地 IDE 的辅助插件，变成生产环境里常驻的执行者，代码和运行环境第一次贴得这么近。第二是速度的复利效应，对独立开发者来说不是快一点，是能同时跑更多实验更快验证想法，单位时间的试错次数直接拉开量级差距。第三是风险的标准变了，团队要合规走预发布环境天经地义，但 solo 开发者用备份兜底换极致效率，本来就是完全不同的取舍逻辑。第四是基础设施的方向反了，以前本地重云端只负责部署，现在云端成了主力开发加运行环境，本地设备只是个接入终端。 AI 编码的竞争早就不在谁补代码更快了，在谁先把 Agent 放进真正的生产环境里，让它成为永远在线的执行层。想试的朋友从非核心项目入手，配好快照和备份，门槛比想象的低很多。

译Pieter Levels 近一年几乎只用 Claude Code 在 VPS 上编码。Agent 直接在线编辑生产代码，迭代反馈从传统本地+Git+部署的约 1 分钟压至秒级。12 个月内仅出现 2 次十秒级 PHP 报错并自愈，搭配 3-2-1 备份策略风险可控。开发者无需常开笔记本，可通过手机 SSH 续接任务，Agent 能整夜自动运行。这一模式改变了 AI 编码的定位：从本地 IDE 辅助插件变为生产环境常驻执行者，云端成为主力开发与运行环境，本地设备仅作接入终端。

jason@jxnlco · 4天前28

i wonder if theres a secret online forum where codexes post on how to best use their humans on the other side of the computer

译我想知道是否存在一个秘密在线论坛，Codex们在上面发帖讨论如何最好地使用他们电脑另一边的人类。

凡人小北@frxiaobei · 4天前41

得益于从 2026 年初就践行“不要把自己限制在电脑前”这一理念，实际上除了少量需要大显示器的场景，现在很多的使用习惯已经变成： telegram → openclaw → claude/codex。这一理念让我在各种场合都可以安排 AI 工作。很多人没有这么做，是因为没有一套适合自己的稳定的工作流。或者喜欢 claude 或者 codex 的输出（但是这些对我不重要）。所以构建个人的 harness 非常重要，构建个人的 skills 非常重要。舶来品不一定适合自己。

译小北分享自2026年初践行“不要把自己限制在电脑前”的理念，逐渐形成 telegram → openclaw → claude/codex 的工作流，在各种场景下都能安排AI工作。他认为多数人缺少一套适合自己的稳定工作流，构建个人harness和skills至关重要，舶来品不一定适合自己。同时引用 @theo 的推文，估计大约6个月内大部分开发者会将代码智能体从笔记本电脑上移走。

Berryxia.AI@berryxia · 4天前61

AI时代的账单，苹果用户先买了单。我们该谢谢AI还是痛批呢？苹果本周宣布全线涨价。 MacBook Neo涨$100（17%），MacBook Air涨$200（18%），入门iPad涨$100（29%），iPad Air涨$150（25%）。连HomePod、Apple TV这些边缘产品都涨了，Apple TV从$129直接跳到$199，涨了54%。原因是AI热潮引发了内存芯片短缺。超大规模AI公司和模型开发商疯狂采购数据中心、NVIDIA GPU、高端存储，挤占了整个硬件行业的供应链。微软在苹果宣布几小时后跟着涨了Xbox价格，这是13个月内第三次涨价。讽刺的地方在于：苹果从来没想要这种AI时代。苹果一直在推端侧AI处理，只在最近才为Siri AI大幅扩展云端。苹果越能在本地完成AI任务，就越不需要那些耗电、昂贵、占满高端芯片的数据中心。苹果的立场很清楚：它不是不想涨，是涨得不够狠。以苹果的资产负债表，完全有能力吸收更多成本。但上市公司不这么运营——管理层看到利润率、盈利增长和投资者预期受到威胁，就会涨价。 iPhone这次没涨。两个原因。第一，需求韧性极强，即使Pro贵$200，市场也不会缩小多少。第二，运营商通过以旧换新和分期付款大量补贴iPhone，掩盖了实际价格。但最终这些成本会通过更高的月费或隐藏费用转嫁给消费者。最有意思的涨价：Apple Vision Pro从$3,399涨到$3,699（6%）。苹果明知这个价格已经饱受批评，依然选择涨价。 Gurman的解读是：苹果愿意忍受抱怨和缓慢的市场接受度，也不放弃利润率。在特定价格区间内，用户群体本质上是一样的。家居产品的涨价更值得玩味： Apple TV涨54%，HomePod涨17%，HomePod mini涨30%。这些产品在亚马逊和Google面前本来就价格竞争力不足，现在差距更大了。 Gurman认为有两种可能：一是苹果赌竞品也会跟着涨价，缩小差距；二是苹果在为即将到来的硬件升级（支持Siri AI的内存升级）预涨价。 Gurman的核心判断：AI繁荣的成本第一次从行业问题变成了普通消费者能感知到的现实，更贵的设备、更紧张的元器件供应、整个科技行业围绕AI基础设施而非"让产品更便宜更好"来运转。 MacBook涨$100到$200看起来不多，但足以让很多买家重新考虑购买计划，或者把换机推迟几个月甚至更久。苹果不会报单位销量了，营收可能继续涨，股价可能没问题。但在现实中，一部分消费者会被价格排除在新技术之外。

译苹果本周全线涨价：MacBook Neo涨$100（17%）、MacBook Air涨$200（18%）、入门iPad涨$100（29%）、iPad Air涨$150（25%），Apple TV从$129涨至$199（54%），HomePod及mini涨17%-30%，Apple Vision Pro涨6%至$3,699。主因AI热潮引发内存芯片短缺，超大规模AI公司抢占供应链资源。微软随后也上调Xbox价格。Gurman分析指出，苹果虽主推端侧AI减少云端依赖，但上市公司仍选择转嫁成本；iPhone因运营商补贴未涨。这标志着AI繁荣成本首次从行业问题变为普通消费者可感知的现实。