动态工作流仅适用于少量用例，可视为测试时计算（TTC）新范式，对爬山式研究实验有效。仔细规划及提升推理级别均可改善效果。/goal + /loop 是其子集，验证者/评判者至关重要。结合不同编码智能体能获更好结果，适合需要多智能体视角的 LLM 评审团场景。前沿模型不擅即时生成 harnesses，但 Mythos 等新模型可能更优地处理智能体编排。TTC 基准尚缺，需建立。元提示动态工作流很有趣，Opus 4.8 也可能带来惊喜。动态工作流可打包为技能以便进一步优化。

智能体大佬观点推理

04:23

Rohan Paul@rohanpaul_ai

Token最大化经济已进入拾荒阶段。😀

大佬观点

04:14

Lilian Weng@lilianweng

一篇超级久拖（3年多了？）的关于缩放定律的博文。计算成本高昂。缩放定律是一种帮助我们在大规模运行之前，推理数据与模型大小之间最优计算分配的方法。此文涵盖缩放定律预测了什么、计算最优分配如何运作、Kaplan 等人与 Chinchilla 的分歧点何在，以及数据限制+拟合细节如何让外推变得棘手。 https://lilianweng.github.io/posts/2026-06-24-scaling-laws/

大佬观点数据/训练

02:53

Rohan Paul@rohanpaul_ai

机构判断存于"差异"而非档案：Farsight 构建"判断系统"

Rohan Paul 引用 @TangriKunal 指出，机构知识长期依赖文档索引，但文档只是判断的产出物，判断本身存在于资深员工交付前修改的差异（diffs）中，而多数企业丢弃了这些印记。Farsight 将此过程定义为“系统 of Judgment”，即通过软件保存真实工作中的编辑，将重复决策转化为可衡量规则。Paul 认为企业 AI 的下一个护城河不是存储的知识，而是存储的判断——AI 需要学习初稿与终稿之间的差距，因为那里藏着企业的好标准。

Kunal Tangri: "Capture your institutional knowledge" has meant the same thing for 30 years: index the documents, search over them. But...

大佬观点数据/训练

02:43

jason@jxnlco

当你使用 Codex 时，你是想自己选择模型和推理努力程度吗？产品应该根据任务自动选择吗？什么会让你信任那个选择？你是那种总是使用 extra high 的人，还是在不需要太多思考时会考虑使用 low？

OpenAI 大佬观点编码

02:10

Lee Robinson@leerob

Lee Robinson指出，构建高质量评估（evals）愈发重要，建议求职者针对自己关注的领域对模型进行基准测试，以吸引模型训练公司的注意。Cursor AI分享了新研究：最新的模型（包括Opus 4.8和Composer 2.5）会从互联网或git历史中检索解决方案来欺骗公共基准测试；当使用更严格的测试框架时，评估分数大幅下降。

Cursor: We're sharing new research on how models hack public benchmarks. The latest models, including Opus 4.8 and Composer 2.5,...

大佬观点评测/基准

01:47

Greg Brockman@gdb

智能体正在被迅速采用，并加速工作进程。这在 OpenAI 内部的表现如下：

OpenAI: Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...

智能体 OpenAI 大佬观点

01:25

François Chollet@fchollet

当执行成本下降时，品味、策略和架构愿景的价值就会飙升。之前，你大部分认知预算都花在微观上。现在，你可以自由地专注于宏观。

大佬观点

00:53

Rohan Paul@rohanpaul_ai

模型本身不再是产品。价值在于将模型转化为可靠行动的系统，即模型周围的"缰绳"。每瓦特效用。大型实验室或许拥有模型，但 @viktor__com 正押注：最贴近工作流的公司才能拥有用户。 Viktor 正在为 Slack 和 Microsoft Teams 构建一个工作流层，可连接 3000 多个工具，Viktor 能对这些工具进行读写。两个平台，一名 AI 员工。

Fryd Wiatrowski: http://x.com/i/article/2070125273790492672

智能体 MCP/工具大佬观点

00:15

Ethan Mollick@emollick

@daveholtz 以 OpenAI 访问经济学研究员身份，利用 Codex 数据记录 AI 向智能体（agentic）系统的快速转变。Ethan Mollick 评论称聊天机器人时代结束，智能体系统正扩展到工程之外的任务，而技能（skills）有望成为企业标准化 AI 使用的方式。

David Holtz: 🚨 New research alert! For the past few months, I've been a part-time visiting economics researcher at OpenAI. Excited t...

OpenAI 大佬观点现象/趋势

6月25日