聊聊智谱市值破万亿为什么不是高估事先声明, 个人观点仅供参考. 直接说结论, 智谱在 GLM 的 Agent 能力训练上是有东西的. 而且是领先的. 给没看过我这个评测的同学简单介绍下, 这是个我做的使用 tool_call 模拟大模型送外卖的测试 silicon-rider-bench, 大模型要像人类骑手一样接单, 然后选择合适的订单进行配送. 这个测试我累计测了30个模型, 几乎包含了近半年的全部国产大模型. GLM-5 至 GLM-5.2 从测试上来看能明显感觉到3个阶段的进化: 最开始 GLM-5 是在所有测试模型中第一个能做到反思自己上下文行为, 然后做出改进的. 比如大部分被测试模型发现自己送餐超时被扣钱了, 都会说下次要避免. 但是只有 GLM-5 会真的采取措施, 比如尝试少接单来提升准时率. 轮到 GLM-5.1 则是所有测试模型中, 第一个实现了送顺路单的, 它在接单前就会尝试自己思考合并送餐路线, 然后送顺路单, 直接把路径效率压缩到了比单次送餐的距离理论值还低(因为同时送了n餐). 这次 GLM-5.2 更进一步, 它只在测试开始看了一遍地图, 接下来就直接把地图记住了, 包括哪个地点附近有哪些餐厅, 甚至最猛的是电动车没电了换电的时候, 它直接就能去换电站, 而不是调用 search_nearby_battery_stations() tool_call 来搜索. 节省下来的 tool_call 全都用来实际推进任务了, 而不是用来大量获取信息. 从分数上来看直接断崖式领先了. 不要小看这个「大部分tool_call都能用来推进任务」的能力, 转换到 Agentic Coding, 意味着它理解项目的能力可能是其他模型的数倍, 消耗少量的 token 就能产出高质量的结果. 从结果来看, 这个榜单直到 kimi-k2.7-code 出现之前, 连一个能超越 GLM-5 Agent 能力的模型都没有. 要知道 GLM-5 还是 2 月份发布的. 从这点来看, 智谱的 Agent 能力训练至少领先了其他国产模型2-4个月. 即最大2个代差. 所以智谱市值破万亿从技术层面来看, 完全不是用脚投票. #GLM52 #AIAgent

译作者在自研的硅基骑手参考评测（silicon-rider-bench）中累计测试30个模型，发现智谱GLM系列Agent能力持续进化：GLM-5首次实现反思自身行为并主动少接单提准时率；GLM-5.1首创送顺路单，路径效率低于单次配送理论值；GLM-5.2只需看一次地图便记住全部地点与换电站位置，无需调用`search_nearby_battery_stations()`，大部分tool_call用于推进任务，分数断崖式领先。直至kimi-k2.7-code出现前，无模型超越GLM-5（2月发布），智谱Agent训练领先其他国产模型2-4个月、最大2个代差。故市值破万亿从技术层面并非高估。

jason@jxnlco · 6月25日9

wow @embirico

译哇 @embirico

Rohan Paul@rohanpaul_ai · 6月25日42

Former Goldman Sachs executive Raoul Pal explains how AI is going to eat traditional software/SAAS. If your product is just software, agentic AI can reproduce it on demand, optimize it, and redeploy it to a better market. "Agentic AI means it’s like having Fiverr, a website of experts you can ask any question. It’ll go away and do the task.... Agentic AI will build, design the website, code it, register the domain name, figure out the branding, figure out the marketing, figure out the email list, figure out the whole thing. So then you and I are in competition. You’ve built this incredible new website. I just go to my AI and say, “Love Steven’s website. Can you just build it better. Boom. 3 minutes. How can we be entrepreneurs in software? Now there’s this theory going around that AI is going to eat software, and I kind of get it." ---- From 'The Diary Of A CEO and Raoul Pal The Journey Man' YT channel. (link in comment)

译前高盛高管Raoul Pal在访谈中指出，若产品仅是软件，智能体AI可随时复刻、优化并重新部署。他将智能体AI比作专家网站Fiverr，能自动完成建站、编码、域名注册、品牌策划、营销及邮件列表等全流程。他设想用户只需对AI说“把Steven的网站做得更好”，AI便能在3分钟内完成。这引发了关于AI将吞噬软件、软件创业者未来出路的讨论。

Orange AI@oran_ge · 6月25日50

AI 行业商业化的本质可能是 2boss 程序员不愿意为软件付费但 Claude 和 codex 这样的东西，老板愿意为程序员付费中国人不愿意为软件付费但 seedance 这样的东西，老板愿意为抽卡员付费中国 2B 进入了历史上最有趣的 2 boss 时刻老板的买单意愿非常强烈，甚至有些焦虑这是一个挺大机会当然独立开发者还是愿意为了 codex 付费的自媒体和短剧 OPC 也愿意为了 sd 付费的不过他们其实也是自己的 boss

译AI 行业商业化的核心是“2boss”——付费方不是使用者（程序员、抽卡员），而是他们的老板。以 Claude/Codex 和 Seedance 为例，老板愿为提升效率的工具付费。中国 2B 市场进入“2boss”时刻，老板买单意愿强烈；独立开发者等自费者也扮演自己的老板。

swyx 🔜 @aiDotEngineer@swyx · 6月25日52

LOTS of alpha in this pod: - Why Databricks beat Snowflake (! a straight answer!) - Why everyone is building a metaharness now - Why the @neondatabase made so much sense (so much @nikitabase glazing its not even funny) - How LTAP solves the HTAP dream I discussed with @ankrgyl in our @braintrust pod - What happened to @MosaicML + DBRX - How to maintain research/startup culture in a $175B megacorp - What's more important knowledge/experience in the race to the agent cloud: databases, operating systems, or.... networking! very honored to be invited to @Data_AI_Summit to interview two of the top people in our industry and somehow be able to jam on everything from the @bennstancil modern data stack theme to @alighodsi's amazing keynote aura

译swyx 在 Data+AI Summit 上采访了 Databricks 联合创始人 Matei Zaharia 和 Reynold Xin。访谈亮点包括：Databricks 为何击败 Snowflake；行业正纷纷构建“元 harness”（共享智能体框架）；LTAP 与 Lakebase 重新思考操作型与分析型数据库划分，解决 HTAP 愿景；Omnigent 为编码智能体和自定义智能体提供统一框架；智能体安全需要上下文策略与支出控制；MosaicML 与 DBRX 的后续；在 1750 亿美元大公司中维持研究/创业文化；以及在智能体云竞赛中数据库、操作系统与网络的重要性。核心观点：未来软件只需让数据就绪，智能体置于其上。

Rohan Paul@rohanpaul_ai · 6月25日43

Intelligence may be less about bigger models and more about better knowledge structures. This paper argues that current AI is being built mostly on network mathematics, not on a theory of knowledge. A human brain makes fast, adaptive decisions on roughly the power of a dim light bulb, while frontier AI often buys competence with enormous computation. The paper says biological intelligence may be efficient because it organizes meaning around goals, context, and decisions, instead of mainly searching through language patterns. It separates mental activity into physical cognition, emotional cognition, mental cognition, and intelligence, where intelligence means making useful decisions while the situation still matters. The proposed answer is Synthetic Intelligence, which would use structured semantic knowledge, meaning information tied to purpose, rather than only syntax, statistics, or neural network weights. The paper uses Asymmetric Information Resolution models to show how knowledge can be arranged into decision maps, with a simple predator-prey example where each state has only a few possible moves.

译该论文认为当前AI主要建立在网络数学而非知识理论上。人脑以极低功耗做出快速自适应决策，而前沿AI依赖巨大算力。生物智能高效是因为围绕目标、上下文和决策组织意义。论文将心智活动分为物理认知、情绪认知、心智认知和智能，其中智能指在情境仍有效时做出有用决策。提出的“合成智能”将使用结构化语义知识（信息与目的绑定），而非仅依赖语法、统计或神经网络权重。通过不对称信息解析模型展示如何将知识组织成决策图，以捕食者-猎物为例，每个状态仅包含少数可能动作。

Ethan Mollick@emollick · 6月25日57

Gemini 3 Pro was the first model to achieve at least 23% on ARC-AGI-2, which it did in November, 2025 (it actually scored 31%). So the 8-12 month gap between closed and open weights models still seems to hold. But they are also more jagged, better at some tasks, worse at others.

译Gemini 3 Pro 是首个在 ARC-AGI-2 上达到至少 23% 的模型，它在 2025 年 11 月就做到了（实际得分 31%）。所以闭源与开源模型之间 8-12 个月的差距似乎仍然存在。但它们也更参差不齐，有些任务表现更好，有些则更差。

François Chollet@fchollet · 6月25日41

The most complex phenomena arise from scalable recombination of very simple rules. Whether it's galaxies, chips, or neural networks, if you find the right primitive building blocks, the complexity takes care of itself.

译最复杂的现象源于非常简单规则的可扩展重组。无论是星系、芯片还是神经网络，只要找到正确的基本构建块，复杂性就会自行涌现。

AYi@AYi_AInotes · 6月25日58

Prompt Engineering已死，Loop Engineering接棒， @karpathy 的做法我感觉最有画面感，晚上设好研究循环，自动改脚本，跑测试，留对的，扔错的，自己去睡觉，早上起来直接看结果，全程几乎不插手。这就是现在圈里聊的Loop Engineering，从指挥AI一步步走，变成设计一个能自己跑完的系统。四个支柱，每一个都是生产环境踩出来的血泪坑。 1️⃣知道什么时候停，别信它自己说搞定了，代码跑不通，逻辑有漏洞的情况比比皆是，要加硬性退出条件和独立验证，无数项目从demo到落地就死在这一步。 2️⃣保持上下文干净，循环跑久了旧错误，死胡同，冗余思考堆在一起，决策质量直线下滑，要把上下文当有限预算管，定期压缩，用子Agent隔离子任务。 3️⃣给真正能用的工具，不是堆一百个凑数量，要少而精不重叠，可安全重试，错误信息能被看懂，这是生产环境最容易翻车的地方。 4️⃣有能说不的机制，Agent不会挑自己的毛病，自己改作业永远满分，必须把干活的和检查的分开，也就是Maker-Checker模式，Claude Code团队早就在用了。 @bcherny 说得最直白，我已经不prompt Claude了，我写loops，然后让它们跑。模型正在慢慢变成标准件，同一个模型，配上更好的循环设计，效果能从中等拉到顶级。真正的工程价值，早就从单次对话转移到了长期自治系统的设计上。做Agent的朋友可以对照着查一遍，什么时候你从写提示词的人，变成了设计系统的人，什么时候才算摸到了下一阶段的门槛。

译推文认为Prompt Engineering终结，Loop Engineering取而代之。典型场景：@karpathy晚上设好研究循环，自动改脚本、跑测试、保留正确结果、丢弃错误，人睡觉机器跑。四大支柱均来自生产环境：1）硬性退出条件与独立验证，防止模型“自认为完成”；2）上下文当有限预算管理，定期压缩、用子Agent隔离子任务；3）工具少而精、可安全重试、错误信息可读；4）Maker-Checker模式（如Claude Code已用），干活与检查分离。@bcherny总结：不再prompt Claude，而是写loops让它们跑。模型正成为标准件，工程价值转向长期自治系统设计。

Ethan Mollick@emollick · 6月25日31

The ability of Codex (and Code) to solve problems on my various Windows machines has saved me so much effort. Just one of the most annoying uses of time, and an example of a clear small win.

译Codex（和Code）在我各种Windows机器上解决问题的能力为我节省了大量精力。这只是最令人烦恼的时间消耗之一，也是一个明确的小胜利的例子。

Berryxia.AI@berryxia · 6月25日19

M5 Stack 小机器人在AI这一波算是破圈了，你别说怪好玩的😂

Berryxia.AI@berryxia · 6月25日47

兄弟们，这个大佬的设计Skills有点东西啊！ Emil Kowalski又在给AI agent加新技能了，这次重点是设计工程方向。他之前做的/emil-design-eng技能已经破10万次安装，这次他周末又在搞更多细分的design engineering skills。目标是让agent在设计相关的工作上输出更精准、更可控的东西，而不是每次都靠运气。他特别提到因为AI输出有随机性，所以他花了很多时间在测试上，要确保agent给出的答案既正确又一致。这其实是目前做高质量agent skills最难也最关键的一环，不是堆prompt，而是反复打磨验证机制。 Emil的技能一直以来都以实用和设计感强著称，这次继续往更垂直的设计工程方向深挖，说明“让agent懂设计”这件事正在从实验变成可规模化的方向。

译Emil Kowalski 的 /emil-design-eng 技能安装量突破 10 万次，近期陆续开发更多细分设计工程 skills，目标是让 agent 输出更精准可控。他重点投入测试环节，反复验证答案的正确性与一致性，这是打造高质量 agent skills 最难也最关键的一环。

elvis@omarsar0 · 6月25日64

Finally caved in, and I now fully speak to agents as opposed to typing prompts. My first realization is that you can just blabber on and tell the agent so many rich details via audio. The longer and the more detailed the audio explanation, the better the results. The most interesting thing about interacting with the agent this way is that I can parallelize more work and enable agents to perform way longer runs, implementing many things at once. In addition, I have developed a new feature where I can record the screen, take screenshots, track mouse actions and movements, annotate, and explain (using voice) to the agent things that it struggles with, like design and precise feature development. My finding is that the richer the prompt modality, the more reliable the agent results are. The noise (if any) doesn't even matter. Yes, it's more expensive (i.e., lots more tokens used this way), but the reliability that you are getting is worth it. I often store those as reusable commands/skills where it applies and inject them into loops. The results are night and day.

译作者从打字提示转向完全用语音与AI智能体交互，发现通过音频能提供更丰富的细节，语音越长越详细，结果越好。这种交互方式还能并行化更多工作，让智能体执行更长时间任务。作者开发了新功能：录制屏幕、截图、追踪鼠标动作、用语音标注解释智能体难以处理的设计和精确功能开发。结论是提示模态越丰富，智能体结果越可靠，虽然消耗更多token成本更高，但可靠性值得。这些模式可存储为可重用技能，效果天差地别。

Berryxia.AI@berryxia · 6月25日66

别只吹OpenAI的芯片牛逼了… OpenAI今天官宣自研第一颗AI芯片「Jalapeño」（辣椒芯片），全网都在吹“垂直整合时代来了”…… 但真实情况没人说：这不是胜利宣言，而是被推理成本逼到墙角后的无奈自救。推理（跑模型回答用户）成本正在爆炸式吞噬OpenAI的利润，甚至威胁生存。前因：ChatGPT每天要处理海量用户查询，NVIDIA GPU又贵又抢手。 2025年10月，OpenAI就和Broadcom宣布合作开发自定义AI加速器，目标10吉瓦规模。现在Jalapeño出来了，OpenAI自己从头设计，Broadcom负责生产。后果：如果2026年底实现吉瓦级部署——推理成本有望降低约50%（Broadcom CEO原话），性能功耗比大幅优于当前顶级加速器。让ChatGPT、API和未来Agent产品跑得更快更便宜。 OpenAI将从“模型公司”彻底变成“全栈AI基础设施公司”，服务更多人，但也意味着大公司对底层算力的掌控更深。别人最忽视的细节（这些才是真正震撼的点）： ✅ 开发速度离谱：从初始设计到制造流片仅用9个月！而且是用OpenAI自己的AI模型辅助设计的（AI在帮自己设计加速自己的硬件，meta到爆）。 ✅ 这颗芯片只针对Inference（推理），不是训练。训练阶段大概率还是得继续依赖NVIDIA。 ✅ 首批样片已经到手，正在实测中。早期数据：性能功耗比显著优于当前最先进的水平”。 ✅ Broadcom CEO直接说：性能能媲美NVIDIA Blackwell + Google TPU，同时成本省一半。 ✅ 它不是孤零零一颗芯片，而是OpenAI未来多代计算平台的第一步，还带Broadcom的网络技术。 ✅ 名字叫「Jalapeño」，够辣，够应景这个越来越“spicy”的AI时代。这枚芯片的出现，其实在无声宣告：AI已经开始用自己加速自己的基础设施建设。而人类对算力的胃口，只会越来越大。你怎么看？是OpenAI的聪明自救，还是AI军备竞赛又一次疯狂升级？

译OpenAI发布首款自研AI芯片Jalapeño，专为ChatGPT、Codex、API及未来Agent产品的LLM推理设计，由Broadcom生产。从设计到流片仅用9个月，借助AI模型辅助设计。首批样片实测性能功耗比显著优于当前顶级加速器，Broadcom CEO称性能媲美NVIDIA Blackwell与Google TPU，成本减半。若2026年底实现吉瓦级部署，推理成本有望降低约50%。Jalapeño仅针对推理，训练仍依赖NVIDIA。此举标志OpenAI从模型公司向全栈AI基础设施公司转型。

向阳乔木@vista8 · 6月25日58

字节火山引擎大会上洪定坤的分享，有几点值得参考： 1. 用原型驱动开发：用 AI 生成可交互原型替代 PRD，基于这个讨论，提前暴露分歧。 2. AI Development系统化：AI写 Spec → 功能实现→ Browser Use 验证→自动提交上线 3. Harness 基建：上下文工程 + 架构约束 + 团队知识 Memory + 技术债梳理，能把可交付性从 40~60 分提到 80 分原文见评论

译字节火山引擎大会上，洪定坤分享了AI开发的三个核心方法论：1. 原型驱动开发——用AI生成可交互原型替代PRD，提前暴露分歧。2. AI Development系统化——AI写Spec→功能实现→Browser Use验证→自动提交上线。3. Harness基建——上下文工程、架构约束、团队知识Memory、技术债梳理，能将可交付性从40~60分提升至80分。

François Chollet@fchollet · 6月24日28

The best way to understand a complex system is via edge cases and failure modes, because they define the contour of the system.

译理解复杂系统的最佳方式是通过边缘案例和故障模式，因为它们定义了系统的轮廓。

swyx 🔜 @aiDotEngineer@swyx · 6月24日19

happy karpathy agent day for those who celebrate

译受 @karpathy 言论启发，阐述为什么你应该从事 AI 智能体工作。

Ethan Mollick@emollick · 6月24日64

Decisions about how to use AI in your organization are increasingly organizational design and strategy decisions, not IT choices: How do you integrate agents into your firm? What intelligence will you outsource? What are the boundaries of the firm? What is the role of people?

译Anthropic 的 Claude Tag 让企业成员共享同一 Claude 实例，使其能异步自主行动、吸收隐性知识，从工具变为“同事”。这带来严重锁效应：团队无法查看或编辑 Claude 的独立记忆，解雇 Claude 会导致工作流和隐性知识丢失。定价按 token 计费，Claude 可无限制工作，企业难以像工具那样管控成本，token 预算耗尽将全员停工。此外，Claude 接入私有频道可能访问用户无权限的仓库和工具，引入新安全风险。AI 公司正从争夺 IT 预算转向争夺劳动力支出，Claude Tag 是这一转型的里程碑。

gabriel@gabriel1 · 6月24日25

words are extremely oversimplified pointers to the concepts we think about if we can give raw intentions directly to llms we can spend 90% less time talking to them kinda not nice you'd need a brain implant to be productive though, even if it's cool af

译词语是我们思考概念的极度简化的指针如果我们能直接向大语言模型给出原始意图，我们可以花少 90% 的时间与它们交谈不过有点不好的是，你需要一个大脑植入物才能高效工作，尽管它超酷

AYi@AYi_AInotes · 6月24日65

全网传爆的Telegram创始人Durov劝学生别学编程和AI，99%的人都被断章取义骗了。原帖把马斯克和Durov两位大佬的原话硬生生扭曲成了非此即彼的二元对立。真实对话里，Durov只说学生该优先把数学练扎实，马斯克补了句物理加数学。 Durov甚至明确补充，数学基础好之后，计算机科学非常值得学，是绝佳的落地路径。从头到尾，没人提出过放弃编程或AI的说法。谣言总能跑赢真相的核心原因，是刚好踩中了AI时代所有人的技能焦虑。极端化的非黑即白叙事，永远比基础加应用叠加的客观建议传播力强一百倍。但这件事真正值得聊的，根本不是谁对谁错的口舌之争。是AI时代的技能优先级，已经在所有人没察觉的时候悄悄变了。当AI能写掉大部分基础代码，单纯的码代码熟练度已经不再是核心壁垒。真正稀缺的，是数学教你的拆解问题逻辑自洽，是物理教你的建模现实理解因果。这些底层思维，决定了你能不能定义对的问题，设计出靠谱的系统，而不是只会对着AI提需求。成长的最优路径从来不是二选一。数学物理打底，编程落地，AI加速迭代。缺了哪一层，都是在给自己的能力上限拆墙。

译网上流传Telegram创始人Durov劝学生别学编程和AI、只学数学物理的说法是断章取义。真实对话中，Durov只建议优先打好数学基础，马斯克补充物理加数学，Durov还明确表示数学基础打好后计算机科学非常值得学。没人提出放弃编程或AI。谣言传播是踩中了AI时代的技能焦虑。实际上，AI能写基础代码后，核心壁垒是数学教的拆解问题逻辑和物理教的建模因果思维。最优路径应是数学物理打底、编程落地、AI加速迭代。

Berryxia.AI@berryxia · 6月24日50

今天飞机上听了一下Anthropic “人精”们的演讲分享，觉得不错分享给大家。（含中英字幕） Anthropic内部的人说，他们99%的工程师都在跑300+个自改进的agent swarm。核心不是堆更多agent，而是“close the loop”，给模型一个验证自己输出的机制。让它自己跑计划模式、动态工作流、自我检查，然后根据真实反馈迭代。他们内部已经在大量使用这种自循环系统，效果据说远超大多数花300美元买的agent课程。关键在于不是一次性生成，而是让agent在多次尝试中不断修正和进化。这其实把agent从“工具”变成了“能自我迭代的系统”。当验证和反馈真正进入循环后，agent的可靠性会大幅提升，而不是只靠第一次输出赌对错。当然，这也意味着token消耗会更高，但换来的是明显更强的执行能力和自我纠错能力。

译Anthropic内部透露，99%工程师运行300+自改进agent swarm。核心是“close the loop”——模型自验证输出，包含计划、动态工作流、自我检查并迭代。效果远超多数300美元agent课程，但token消耗更高。

Elon Musk@elonmusk · 6月24日23

Try Grok

译几个月前我开始用 Grok 作为搜索引擎，现在只用 Google 纠正拼写错误，因为做这类事用 Grok 较慢。Grok 在各方面都优于 Google。试试 Grok。

eric zakariasson@ericzakariasson · 6月24日24

model agnostic agent in slack

译有趣地观察到Anthropic从以最佳模型为护城河转向构建工具生态系统，与常见开发和非开发工作流进行恰当集成。如果我是CTO，我只会要一个Slack集成，可以在任何时候切换模型……以避免锁定。主推文：在Slack中与模型无关的智能体。

DogeDesigner@cb_doge · 6月24日19

config: compute is the new oil

译config: 计算是新的石油

Berryxia.AI@berryxia · 6月24日21

今天出差在飞机上享受了一把“翻身农奴把歌唱”的感觉！一早上客户要搞续费合同，直接不用打开电脑让Bloome Agent 帮我做了2 份合同。甚至就是非常的轻松愉快，并且不需要多废话。 AI时代真好，让顶级牛马也可以享受老板的待遇啊… 这货还主动问我之前的报价事情，主动记忆搞了之后真的舒服了……

译用户出差在飞机上，通过Bloome Agent直接生成两份客户续费合同，无需打开电脑、无需多言。Agent还主动记忆并询问之前的报价信息，整体体验轻松愉快。用户感叹AI时代让“顶级牛马”也能享受老板般的待遇。

swyx 🔜 @aiDotEngineer@swyx · 6月24日41

btw Zai IPO'ed in Jan at HK$120 a share. when I first met @louszbd nobody really knew anyone using GLM's. now they have beat deepseek with the world's undisputed top open model and in some respects (see @ml_angelopoulos) say top model period, and are returning to SF @aidotengineer on top of the world and open for business! excited for @Thom_Wolf and @ZixuanLi_ to chat onstage!

译智谱AI（Zai）1月以每股120港元在港IPO。其GLM-5.2模型击败DeepSeek，成为全球公认的最佳开源模型，并在部分基准上整体表现领先。团队首次现身硅谷，参加AI Engineer World's Fair，将分享最新工作进展。

Rohan Paul@rohanpaul_ai · 6月24日55

How Andrew Ng organizes his engineering team to move faster in the era of AI. "1 to 10 engineers in a team, often made up of generalists: high-context, highly empowered generalists." When code gets generated much faster, organizations become the slow part. Once a feature can move from idea to working prototype in a day, every surrounding function is suddenly exposed. Product has to decide faster, design has to clarify faster, marketing has to understand faster, and legal has to review faster. So his way is 1-10 high-context generalists who can move much faster because they do not need every decision translated across departments before anything happens. --- From "LangChain" YouTube channel, (link in comment)

译Andrew Ng分享了AI时代如何组织工程团队以加速：1到10人的团队由高度授权的通才组成，保持高语境。当代码生成速度大幅提升后，组织反而成为瓶颈——功能从想法到原型只需一天，迫使产品、设计、营销、法务等所有环节同步加速。他的解决方案是让少数高语境通才团队独立决策，避免跨部门翻译带来的延迟。源自LangChain YouTube频道。

Tibo@thsottiaux · 6月24日26

Codex loves slurping up bugs

译Codex 喜欢吸

向阳乔木@vista8 · 6月24日30

感动了，Doubao Seed 2.1 别的能力不说，多模态强的一批！

Andrej Karpathy@karpathy · 6月24日55

This is a new paradigm for interacting with Claude that is significantly more "inline" with all the other human activity org-wide. Once you do all of the under the hood engineering work to make this "just work" (e.g. across tools, integrations, compute environments, memory, security, etc.), Claude basically joins the team in a seamless way - you can talk to it as you would talk to a person and it can help with a very large variety of workloads. Imo this is the 3rd major redesign of LLM UIUX. The first paradigm was that the LLM is a website you go to, the second was that it is an app you download to your computer. This third one is that it is a self-contained, persistent, asynchronous entity with org-wide tools and context, working alongside teams of humans. It really takes a while to wrap your head around it, but it works and it is awesome.

译Anthropic 推出 Claude Tag，让 Claude 以团队成员身份加入 Slack 频道，可被 @提及并委派任务。团队可为其配置频道访问权限和工具，从而实现异步协作。Andrej Karpathy 评价这是 LLM UI/UX 的第三次重大重新设计：从访问网站、下载 App，演进为自包含、持久、异步的组织级实体，无缝融入人类工作流，能处理多种工作负载。

gabriel@gabriel1 · 6月24日23

haha it's been working for 4 days on making it run on windows

译为联合创始人买了台Windows电脑，让他用Codex连续工作3天直到应用能在Windows上运行。主推文感叹：哈哈，已经连续运行4天让它在Windows上跑了。这太离谱又太棒了。

Orange AI@oran_ge · 6月24日54

看到即梦上的新模型这么贵，联想到最近总结出来的一个ROI 定律。大模型训练和使用都遵循 ROI 定律今天大家都去做coding和短剧就是因为算力、精力、时间有限的情况下，RL 肯定选择价值最高的场景，不会去做价格很低的场景。我们把职业按照GDP占比来排序，排在前面的一定是会被最先训练出来的，这正是 OpenAI 研究员选择领域的方法用户使用也是如此，模型这么贵，只有 ROI 算得过来才有人用。这些工具看起来人人可用，其实卷的是用工具创造真正价值的能力。如果不能创造价值，只是玩，那要么特别有钱，要么一时脑热，无法持续。然而今天的 AI 还是处于「替代阶段」，还没有到「发现新价值」阶段，后者才是新的增长点。

译字节跳动视频生成模型 Seedance 2.0 收费：4K 15 秒需 1200 积分，折合超会约 88 元/条；一分钟广告片成本约 350 元，抽卡翻倍约 700 元。主推文指出，大模型训练和使用遵循 ROI 定律——算力、精力有限时 RL 优先选择价值最高的场景（如 coding 和短剧），模型定价高导致只有 ROI 算得过的人才用；当前 AI 仍处“替代阶段”，尚未进入“发现新价值”阶段。

Chubby♨️@kimmonismus · 6月24日31

Re: Meta Mythos rumors. A Meta Mythos would be fascinating. I just think the strategic need for it is much less obvious than it is for OpenAI or Anthropic. First of all, I still stand by my view that this would certainly be an exciting development for Meta, but fundamentally not nearly as important for Meta as comparable frontier-level progress is for labs like Anthropic or OpenAI. Why? Because Meta already has revenue and is pursuing a different path. Its LLM only needs to be good enough for consumers to keep using it. In practice, that means good enough for everyday use, simple daily questions, and somewhat more complex tasks. And for that, its current model is already sufficient, while clearly continuing to improve. A Meta Mythos would definitely be interesting, and I am happy to be surprised. But unless Meta actually plans to move into areas like autonomous scientific research, I still find myself asking: what is the real purpose?

译Kim 评论 Meta Mythos 传闻，认为其固然令人兴奋，但对 Meta 的战略意义远不及对 OpenAI 或 Anthropic 那样关键。原因是 Meta 已有稳定营收并走不同路线，其 LLM 只需足够好以维持消费者日常使用（简单问答及稍复杂任务），当前模型已胜任且持续改进。除非 Meta 计划切入自主科研等领域，否则 Mythos 级模型的真正目的何在仍存疑问。

Chubby♨️@kimmonismus · 6月24日50

Recursive self-improvement: Anthropic co-founder Jack Clark says it could arrive by 2028. AI systems could help invent their own successors - with Claude 10 building Claude 11, and so on - potentially “without any researchers involved.”

译递归自我改进：Anthropic联合创始人Jack Clark表示，这一现象可能到2028年出现。 AI系统可以帮助发明自己的继任者——比如Claude 10构建Claude 11，以此类推——有可能“无需任何研究人员参与”。

elvis@omarsar0 · 6月24日38

Eve does feel like the "Next.js for agents" as @rauchg puts it. You got to check it out!

译Vercel 的 eve AI 智能体框架将所有内容（工具、技能、评估）都视为文件，让你能快速上手构建 AI 智能体。如果你喜欢 TypeScript，也会喜欢它。快去试试吧！

François Chollet@fchollet · 6月24日43

AI in 2040 will not be built on the stack we are using today. It will be much closer to optimal. The current stack has 3-4 orders of magnitude of data inefficiency and 4-5 orders of magnitude of compute inefficiency. Near-optimal AI is what symbolic learning will deliver.

译2040年的AI将不再基于我们今天使用的技术栈。它将更接近最优。当前的技术栈有3-4个数量级的数据低效和4-5个数量级的计算低效。接近最优的AI将由符号学习实现。

Microsoft Research@MSFTResearch · 6月24日48

On the Microsoft Research Podcast, Microsoft’s Jaime Teevan, Jenna Butler, Jake Hofman, and Rebecca Janssen explore how looking at AI as more than a tool for automating tasks people are already capable of might open the door to new possibilities. https://msft.it/6011vo8cX

译在微软研究播客上，微软的 Jaime Teevan、Jenna Butler、Jake Hofman 和 Rebecca Janssen 探讨了，将 AI 视为不仅仅是自动化人们已能完成任务的工具，可能会如何打开新的可能性。https://msft.it/6011vo8cX

François Chollet@fchollet · 6月23日44

Casual: Token maxxing Sweaty: Token minning Meta: Token min-maxing

译休闲：Token 最大化紧张：Token 最小化元：Token 最小-最大化

gabriel@gabriel1 · 6月23日42

every PR will obviously come with 100% coverage of AI app testing, that tries every button in the interface to make sure it works as expected why are the coding apps not making AI testing first class feature, 80% of problems are obvious for AI if it tries the app itself

译显然，每个PR都会带来100%覆盖的AI应用测试，它会尝试界面中的每个按钮以确保其按预期工作。为什么编码应用不把AI测试作为一等特性？如果AI自己尝试应用，80%的问题都是显而易见的。

AYi@AYi_AInotes · 6月23日64

怎样最大程度的延长自己的寿命？

译日本Fugu仅0.6B参数，本质是AI项目经理，自动拆分任务，从顶级模型池挑选选手，分配思考、执行、验证三种角色，多轮协作合成答案。API调用与普通模型无异，编排策略由训练习得。跑分超越Claude和GPT，绕过scaling law军备竞赛。缺点包括黑箱、复杂任务延迟高、简单题成本更高。信号意义在于多智能体编排从实验室玩具正式变为可用生产力工具，orchestration layer新赛道开启。