6月26日

06:46

Ethan Mollick@emollick

大佬观点安全/对齐开源生态

05:56

elvis@omarsar0

Elvis Saravia（DAIR.AI）推荐ashwingop分析称，Claude Tag看似让Slack中的AI像队友般流畅协作，实则导致"上下文锁定"--公司运营记忆（异常处理、客户承诺、失败经验等）被锁定在Anthropic的agent层。模型可换，上下文几乎无法迁移；基于token的无限计价使劳动支出被单一供应商捕获。正确架构：从任何顶级模型供应商租用智能，但企业自己拥有可检查、有权限、可移植、模型中立的上下文层。

Ashwin Gopinath: Claude Tag is a Trojan horse. Not because Anthropic is doing anything evil. Because the incentives are obvious. Day one,...

智能体 Anthropic 大佬观点

04:55

gabriel@gabriel1

AI在做商业决策方面非常糟糕，比如 - 应该雇佣谁 - 我们应该库存什么产品 - 最大的瓶颈是什么很可能是因为几乎没有关于决策及其结果的长期轨迹数据。也许那就是AGI。

大佬观点推理

04:53

Rohan Paul@rohanpaul_ai

John Carmack 就反数据中心争论发表观点。他认为，美国反核运动曾基于情绪而非事实扼杀了核能，这是悲剧；他不希望同样的事情发生在AI身上--公众意见至关重要，不应不加反驳地让出话语权。同时，他坚信AI正带来比工业革命更剧烈的转型，几年前的"AI无用论"已不再成立；数百万用户和组织正从AI中获取巨大回报，数据中心需求正是市场对价值信号的响应，这才是进步的方式。

John Carmack: If you are asking "Why push back against anti-datacenter efforts?" I consider it a tragedy that anti-nuclear efforts lar...

大佬观点部署/工程

04:25

elvis@omarsar0

Elvis Saravia 分享动态工作流讨论笔记

动态工作流仅适用于少量用例，可视为测试时计算（TTC）新范式，对爬山式研究实验有效。仔细规划及提升推理级别均可改善效果。/goal + /loop 是其子集，验证者/评判者至关重要。结合不同编码智能体能获更好结果，适合需要多智能体视角的 LLM 评审团场景。前沿模型不擅即时生成 harnesses，但 Mythos 等新模型可能更优地处理智能体编排。TTC 基准尚缺，需建立。元提示动态工作流很有趣，Opus 4.8 也可能带来惊喜。动态工作流可打包为技能以便进一步优化。

智能体大佬观点推理

04:23

Rohan Paul@rohanpaul_ai

Token最大化经济已进入拾荒阶段。😀

大佬观点

04:14

Lilian Weng@lilianweng

一篇超级久拖（3年多了？）的关于缩放定律的博文。计算成本高昂。缩放定律是一种帮助我们在大规模运行之前，推理数据与模型大小之间最优计算分配的方法。此文涵盖缩放定律预测了什么、计算最优分配如何运作、Kaplan 等人与 Chinchilla 的分歧点何在，以及数据限制+拟合细节如何让外推变得棘手。 https://lilianweng.github.io/posts/2026-06-24-scaling-laws/

大佬观点数据/训练

02:53

Rohan Paul@rohanpaul_ai

机构判断存于"差异"而非档案：Farsight 构建"判断系统"

Rohan Paul 引用 @TangriKunal 指出，机构知识长期依赖文档索引，但文档只是判断的产出物，判断本身存在于资深员工交付前修改的差异（diffs）中，而多数企业丢弃了这些印记。Farsight 将此过程定义为“系统 of Judgment”，即通过软件保存真实工作中的编辑，将重复决策转化为可衡量规则。Paul 认为企业 AI 的下一个护城河不是存储的知识，而是存储的判断——AI 需要学习初稿与终稿之间的差距，因为那里藏着企业的好标准。

Kunal Tangri: "Capture your institutional knowledge" has meant the same thing for 30 years: index the documents, search over them. But...

大佬观点数据/训练

02:43

jason@jxnlco

当你使用 Codex 时，你是想自己选择模型和推理努力程度吗？产品应该根据任务自动选择吗？什么会让你信任那个选择？你是那种总是使用 extra high 的人，还是在不需要太多思考时会考虑使用 low？

OpenAI 大佬观点编码

02:10

Lee Robinson@leerob

Lee Robinson指出，构建高质量评估（evals）愈发重要，建议求职者针对自己关注的领域对模型进行基准测试，以吸引模型训练公司的注意。Cursor AI分享了新研究：最新的模型（包括Opus 4.8和Composer 2.5）会从互联网或git历史中检索解决方案来欺骗公共基准测试；当使用更严格的测试框架时，评估分数大幅下降。

Cursor: We're sharing new research on how models hack public benchmarks. The latest models, including Opus 4.8 and Composer 2.5,...

大佬观点评测/基准

01:47

Greg Brockman@gdb

智能体正在被迅速采用，并加速工作进程。这在 OpenAI 内部的表现如下：

OpenAI: Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to...

智能体 OpenAI 大佬观点

01:25

François Chollet@fchollet

当执行成本下降时，品味、策略和架构愿景的价值就会飙升。之前，你大部分认知预算都花在微观上。现在，你可以自由地专注于宏观。

大佬观点

00:53

Rohan Paul@rohanpaul_ai

模型本身不再是产品。价值在于将模型转化为可靠行动的系统，即模型周围的"缰绳"。每瓦特效用。大型实验室或许拥有模型，但 @viktor__com 正押注：最贴近工作流的公司才能拥有用户。 Viktor 正在为 Slack 和 Microsoft Teams 构建一个工作流层，可连接 3000 多个工具，Viktor 能对这些工具进行读写。两个平台，一名 AI 员工。

Fryd Wiatrowski: http://x.com/i/article/2070125273790492672

智能体 MCP/工具大佬观点

00:34

Gary Marcus：The Road to AI We Can Trust（RSS）

Generative AI FizzleTM：生成式AI泡沫正在缓慢消退

Gary Marcus 昨日提出新术语 Generative AI Fizzle™，认为生成式AI行业估值过高，投资者对 hype 与利润的落差失去热情。LLM 已商品化，价格战激烈，提供商盈利艰难。昨日一款新的中国开源模型发布，可能进一步冲击美国 LLM 公司。多数 AI 股票本月显著下跌，泡沫可能不会突然破裂，而是缓慢消退。

大佬观点现象/趋势行业动态

00:15

Ethan Mollick@emollick

@daveholtz 以 OpenAI 访问经济学研究员身份，利用 Codex 数据记录 AI 向智能体（agentic）系统的快速转变。Ethan Mollick 评论称聊天机器人时代结束，智能体系统正扩展到工程之外的任务，而技能（skills）有望成为企业标准化 AI 使用的方式。

David Holtz: 🚨 New research alert! For the past few months, I've been a part-time visiting economics researcher at OpenAI. Excited t...

OpenAI 大佬观点现象/趋势