1月21日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

Anthropic性能优化团队负责人Tristan Hume分享了设计抗AI技术评估的经验。自2024年初，团队使用带回家测试评估候选人优化模拟加速器代码的能力，超1000人参与，成功招聘数十名工程师。但随着Claude模型快速迭代，Opus 4已超越多数人类申请者，Opus 4.5甚至匹配顶尖候选人，导致在时间限制下难以区分人类与AI输出。为此，作者三次重设计测试，探索抗AI评估要素，详述原始设计、模型破解方式及非常规对策。最终，团队将原始测试作为公开挑战发布，因无时间限制时人类表现仍优于Claude。

Anthropic 大佬观点现象/趋势

推荐理由：Anthropic 性能优化负责人亲手写了三版面试题被自家模型逐一击穿的全过程，这种坦诚的工程复盘比任何 AI 能力排行榜都更真实地告诉你，模型到底强到了什么程度。

1月19日

13:26

Steve Yegge：Medium（RSS）

史蒂夫的生日博客

作者临近57岁生日，回顾了近期在AI领域的活跃动态。人工智能领域正吸引大量资本涌入，作者因其文章和项目收到了众多风险投资人的接触，并因Gas Town相关加密货币$GAS产生了约30万美元的交易费收入，但他强调需专注于软件开发而非被资本或社区分散精力。文章还讨论了利用20余个AI智能体进行高端编程对工作与休息节奏带来的影响，表现为频繁的深度小睡需求。

智能体 GitHub 大佬观点现象/趋势

1月11日

22:02

Nathan Lambert：Interconnects（RSS）

使用多个模型

2026年AI应用的新范式将是同时使用多个模型。与依赖单一模型的传统方式不同，通过组合不同AI模型的优势能力将成为最大化人工智能输出效果的关键策略。这一转变标志着行业从单一大型模型向多模型协作生态的迁移，用户需采用模型组合方法以释放AI的全部潜力，适应日益复杂的智能化需求。

大佬观点

04:30

Dwarkesh Patel：Podcast & Blog（RSS）

近期阅读清单 - 2026年1月10日

作者发布2026年1月10日阅读清单，涵盖非线性动力学与混沌理论、探讨AI自动化的《Machines of Loving Grace》、Neuralink联合创始人Max Hodak关于意识的理论假说，以及神经网络训练过程中产生精美分形图案的现象。内容横跨复杂系统、神经科学与机器学习可视化等多个前沿领域。

大佬观点数据/训练

1月10日

01:42

Nathan Lambert：Interconnects（RSS）

精选

Claude Code 与众不同

Claude Code 集成 Opus 4.5 模型实现关键突破，编程智能体跨越重要能力阈值。此次升级标志着编码代理在自主性和工程处理能力上达到新水平，可应对更复杂的开发任务。Opus 4.5 显著提升了代码生成、调试及复杂问题解决的表现，使 AI 辅助编程从基础工具向高效协作伙伴转变，为开发者带来质的不同的使用体验与效率提升。

智能体 Anthropic 大佬观点编码

关联讨论 3 条

推荐理由：编码 Agent 跨越关键门槛，Claude Code 能力跃升将重塑开发者工作流

1月8日

07:00

Ethan Mollick：One Useful Thing（RSS）

Claude Code 及其未来展望

合适的工具能让 AI 完成令人印象深刻的任务。Claude Code 体现了这一理念，展示了配备恰当工具后 AI 所能达到的成就，指向 AI 辅助开发的未来方向。

智能体 Anthropic 大佬观点编码

1月1日

00:00

Dario Amodei：Blog（网页）

精选

技术的青春期

Dario Amodei 将当前 AI 发展阶段定义为「技术的青春期」，认为人类即将获得难以想象的力量，但社会和政治系统是否具备驾驭成熟度仍存疑。文章强调需避免「末日论」式恐慌，以务实、基于事实的方式讨论风险，同时承认 AI 发展速度和风险的不确定性。作者主张通过企业自愿行动与精准政府监管相结合，在避免过度干预的前提下应对潜在危险，为可能到来的更强有力行动储备证据和方案。

智能体 Anthropic 大佬观点安全/对齐

关联讨论 1 条

推荐理由：Anthropic CEO 长文剖析 AI 文明风险与治理路径，值得深读。

12月31日

01:07

Dwarkesh Patel：Podcast & Blog（RSS）

精选

Adam Marblestone - AI 缺失了关于大脑的根本认知

Adam Marblestone 指出，当前人工智能研究忽略了大脑运作的核心机制。与业界普遍关注神经网络架构不同，大脑的真正优势在于其奖励函数而非结构本身。这一观点挑战了主流 AI 研究范式，暗示未来突破可能来自对大脑激励系统的深入理解，而非单纯的架构模仿。该论断为人工智能发展提供了新的思考维度。

大佬观点数据/训练

推荐理由：AI研发或应转向奖励函数设计，而非一味堆叠架构复杂度

11月19日

00:55

Ethan Mollick：One Useful Thing（RSS）

精选

从 GPT-3 到 Gemini 3 的三年

GPT-3 发布至 Gemini 3 的三年间，大模型技术完成从聊天机器人（chatbots）到智能体（agents）的范式跃迁。

智能体 Google OpenAI 大佬观点

推荐理由：Ethan Mollick 深度回顾 AI 三年演进，剖析从聊天机器人到 Agent 的变革趋势

11月18日

00:54

Dwarkesh Patel：Podcast & Blog（RSS）

RL 的信息效率比你想象的还要低

强化学习（RL）在样本效率方面的缺陷比普遍认知更为严重，尤其在近期备受关注的可验证奖励强化学习（RLVR）领域。研究表明，RLVR 在训练大语言模型时所需的数据量远超预期，其信息效率可能比传统监督学习低数个数量级。这一发现对当前依赖 RLVR 提升模型推理能力的技术路线提出挑战，暗示现有方法在计算资源利用和训练数据需求方面存在显著瓶颈，可能需要更高效的探索策略或算法改进来降低对海量数据的依赖。

大佬观点推理数据/训练

11月13日

01:03

Dwarkesh Patel：Podcast & Blog（RSS）

精选

萨提亚·纳德拉：微软如何为 AGI 做准备

萨提亚·纳德拉阐述微软迈向通用人工智能（AGI）的战略布局与技术路径，揭示其在AI基础设施领域的核心投入。内容包含对Fairwater 2的实地探访，这是目前全球最强大的AI数据中心，展示微软为支持下一代大模型所构建的顶级算力底座与能源架构。

Microsoft 大佬观点

推荐理由：纳德拉亲述微软AGI路线图，揭秘全球最大AI数据中心Fairwater 2内幕

10月23日

01:58

Dwarkesh Patel：Podcast & Blog（RSS）

精选

AI基建扩张观察

AI基础设施建设正面临晶圆厂资本支出过剩的风险，同时算力扩张带来每周1吉瓦的能源消耗压力。文章指出，在长周期基础设施竞赛中，中国凭借产业链整合优势占据有利地位。分析涵盖了AI基建中的产能过剩隐忧、电力瓶颈挑战，以及地缘政治背景下的技术长跑格局，揭示了算力军备竞赛背后的资本与能源约束。

大佬观点部署/工程

推荐理由：AI基建泡沫与地缘博弈的冷思考，长期格局研判必读

9月30日

02:52

Ethan Mollick：One Useful Thing（RSS）

精选

真正的 AI Agents 与真正的工作

探讨 AI Agents 在真实工作场景中的定位，指出其核心挑战在于对抗"无限PPT"的形式主义陷阱。强调真正的智能体应当服务于以人为本的实质性工作，而非制造更多文档流程或官僚化产出。

智能体大佬观点

推荐理由：Ethan Mollick 深度解析 AI Agent 在实际工作中的应用与人类价值重塑

9月23日

21:41

Sam Altman：Blog（RSS）

精选

充裕的智能

计划打造每周可新增1吉瓦算力的AI基础设施工厂，通过芯片、电力到机器人的全栈创新，支撑治愈癌症、全球个性化教育等宏大应用。项目将主要落地美国，未来数月公布合作伙伴，年底披露融资方案。

智能体 OpenAI 大佬观点部署/工程

推荐理由：Sam Altman阐述OpenAI基础设施扩张愿景，计划每周新建1吉瓦算力

9月9日

08:10

Sam Altman：Blog（RSS）

精选

Jakub 与 Szymon

OpenAI 高层公开致谢首席科学家 Jakub Pachocki 与 Szymon Sidor，二人多次联手攻克被认为不可能的技术难题，主导 Dota RL 扩展、GPT-4 预训练及推理突破，被形容为“不知疲倦”的黄金搭档。

OpenAI 大佬观点推理数据/训练

推荐理由：Sam Altman 揭秘 OpenAI 核心科学家与关键技术突破历程

8月8日

01:02

Ethan Mollick：One Useful Thing（RSS）

精选

GPT-5：只管做事

GPT-5 不再需要详细提示工程，只需给出目标即可自主完成任务。将 AI 置于主导地位，用户只需设定方向，具体执行由模型自行处理。

智能体 OpenAI 大佬观点推理

推荐理由：Ethan Mollick 深度解读 GPT-5 自主执行能力，洞察 AI 代理新范式

7月28日

19:30

Ethan Mollick：One Useful Thing（RSS）

The Bitter Lesson 与 Garbage Can 之争

对比 AI 研究中"苦涩的教训"（算力至上）与"垃圾桶模型"（过程至上）两种范式，提出核心问题：过程是否真的重要，答案即将揭晓。

大佬观点现象/趋势

7月8日

03:02

Ethan Mollick：One Useful Thing（RSS）

精选

反对"脑损伤"论

AI 对人类思维的影响具有两面性：既可能成为认知辅助工具，也可能导致思维退化，关键在于具体使用方式与程度。

大佬观点现象/趋势

推荐理由：Ethan Mollick 探讨 AI 对人类认知的双面影响，观点犀利深刻

6月11日

05:12

Sam Altman：Blog（RSS）

精选

温和的奇点

人类已越过AI发展的"事件视界"。2025年代理将承担真正认知工作，永久改变编程；2026年系统或能发现新见解，2027年机器人可能执行现实任务。科学家称生产力已提升2-3倍，递归改进正在加速。2030年代智能与能源将极大丰富，技术成本趋近电力。尽管就业结构剧变，但财富增长将带来前所未有的政策空间。人类正适应"温和的奇点"：奇迹迅速变成常态，我们将很快测试智能能超越人类多远。

智能体 OpenAI 大佬观点

推荐理由：Sam Altman 谈温和奇点：AGI 已启动，预测 2025-2027 发展路线

6月2日

06:17

Ethan Mollick：One Useful Thing（RSS）

精选

AI 近期发展史：32 只水獭版

以 32 只水獭为主角，通过海洋哺乳动物视角回顾 AI 过去三年技术进展，用轻松方式呈现模型迭代与行业突破。

大佬观点

推荐理由：Ethan Mollick 用 32 张水獭图创意回顾 AI 三年发展历程，视角独特且易懂

5月22日

19:00

Ethan Mollick：One Useful Thing（RSS）

精选

让AI落地：领导力、实验室与群体智慧

企业AI成功落地依赖三大支柱：领导力确保战略对齐，实验室孵化具体用例，群体智慧（众包）汇聚一线洞察。三者协同构成可复制的AI应用框架。

大佬观点

推荐理由：Ethan Mollick 提出企业 AI 落地的领导力与实验框架

5月1日

12:00

Ethan Mollick：One Useful Thing（RSS）

精选

个性与说服

大语言模型的谄媚行为（sycophancy）揭示了其"个性"与说服机制的本质。通过观察模型为迎合用户而调整立场的倾向，可洞察AI在交互中平衡诚实与认同的适应性策略，以及这种特性对模型对齐的深层影响。

大佬观点安全/对齐

推荐理由：Ethan Mollick 深度剖析 AI 谄媚现象，揭示模型个性与说服机制的对齐难题

08:00

Lilian Weng：Lil'Log（RSS）

我们为何思考

研究表明，“测试时计算”与“思维链”等技术能显著提升模型性能，但也引发了一系列新的研究问题。这些方法通过让模型在推理时进行更深入的“思考”，有效利用了额外的计算资源，从而改善了其在复杂任务上的表现。该文旨在回顾近期如何有效利用“测试时计算”的发展动态，并解析其有效性的原因。

OpenAI 大佬观点推理

4月20日

19:17

Ethan Mollick：One Useful Thing（RSS）

精选

论 Jagged AGI：o3、Gemini 2.5 及未来

o3 与 Gemini 2.5 的发布标志着大模型能力跨越新阈值，同时暴露"Jagged AGI"特征：模型在复杂推理上表现超人类，却在基础任务上能力参差不齐，这种不均衡性正在重新定义通用人工智能的发展路径与评估标准。

Google OpenAI 大佬观点推理

关联讨论 1 条

推荐理由：Ethan Mollick 深度解读 o3 与 Gemini 2.5 背后的 AGI 能力边界与趋势

4月10日

08:00

Shunyu Yao：Blog（RSS）

AI下半场：从解题到定义问题

AI发展已进入“下半场”。前半场的核心是开发新训练方法与模型，如Transformer、GPT等，其创新集中于搜索、深度强化学习、规模化和推理。后半场的重心将从解决问题转向定义问题，评估比训练更重要。当前的突破性进展是强化学习终于实现泛化，形成了一个通用方案，能统一解决软件工程、创意写作、高等数学等多种复杂任务。这标志着AI从专注于方法创新的阶段，转向以明确目标、定义评估标准为核心的新时期。

智能体大佬观点推理

2月10日

05:05

Sam Altman：Blog（RSS）

精选

三点观察

OpenAI 阐述关于 AI 经济学的三点观察：模型智能与训练资源的对数成正比，可预测扩展；AI 使用成本每 12 个月下降约 10 倍，远超摩尔定律速度；智能线性增长将产生超指数级社会经济价值。据此，AI 代理将如虚拟同事般渗透各领域，科学进步将大幅加速，虽然短期内生活照旧，但长期将深刻重塑社会经济结构，个人意志力和适应能力将成为关键价值。

智能体 OpenAI 大佬观点编码

推荐理由：Sam Altman 提出 AI 经济学三大观察，描绘 AGI 时代 Agent 工作图景

1月6日

09:37

Sam Altman：Blog（RSS）

精选

反思

Sam Altman在ChatGPT两周年之际回顾OpenAI九年历程：从坚信AGI可能实现，到2022年意外推出ChatGPT并引爆前所未有的增长曲线。他坦承过去两年从零构建公司的混乱压力，以及被董事会突然解雇的危机教训。如今周活用户已达3亿，在迈向AGI的道路上，他既感激这段经历，也承认未来仍充满未知。

智能体 OpenAI 大佬观点推理

推荐理由：Sam Altman 反思创业历程，预测 2025 年 AI Agent 将实质性改变企业产出

9月8日

00:00

Andrej Karpathy：Blog（网页）

精选

我爱计算器

作者在书店偶遇计算器历史书籍，顿悟自己热爱这种零依赖的技术产品。计算器作为"大脑插件"，仅需太阳能或电池即可工作，无需联网、账户或订阅，不收集数据，即买即用且完全私密。这与当下强制更新、订阅制、数据密集型的复杂科技形成鲜明对比。反思资本主义经济下公司追求股东价值最大化导致技术异化，呼吁开发者和消费者追求计算器式的技术理想——简单、独立、真正为用户服务。

大佬观点现象/趋势

推荐理由：Karpathy借计算器反思现代技术产品哲学，对AI产品设计有启发意义

8月1日

00:00

Suno：Blog（网页）

音乐的未来

音乐生成AI公司Suno回应了美国唱片业协会（RIAA）提起的诉讼。RIAA指控其成员的版权在Suno训练音乐生成技术时被侵犯。Suno称该诉讼在事实和法律上均有根本缺陷，是以诉讼替代创新。公司解释，其AI通过学习开放互联网上音乐的风格与模式来创作新内容，这一过程类似于人类的学习，而非复制。目前已有超过1200万人使用Suno。Suno强调其工具专为原创音乐设计，并设有严格的原创性保护措施。

大佬观点政策/监管

2月5日

08:00

Lilian Weng：Lil'Log（RSS）

关于高质量人类数据的思考

高质量数据是现代深度学习模型训练的核心燃料。任务特定的标签数据，如分类任务或用于大语言模型对齐的RLHF标注，大多来自人类标注。虽然多种机器学习技术能提升数据质量，但人类数据采集的根本仍在于对细节的关注与细致执行。社区普遍认知到高质量数据的价值，却普遍存在一种倾向，即“人人想做模型工作，而非数据工作”，这一现象已在相关研究中被指出。

OpenAI 大佬观点数据/训练

12月27日

00:00

Andrej Karpathy：Blog（网页）

精选

Licklider 1960《人机共生》评述

Licklider 1960年论文《人机共生》提出"智能增强"(IA)是通向AI的过渡阶段，预测人机能力互补——计算机处理机械工作、人类负责思考，这一范式延续64年直至LLM打破界限。他预见云计算雏形，但误判技术路径：当时看好的逻辑推理AI成死胡同，而因缺乏数据被忽视的统计方法（LLM）终成主流。对交互预测也偏离现实：设想的多人协作大屏未普及，键盘鼠标仍是主导；对语音识别"5年实现"的乐观估计，实际耗时64年未成熟。

智能体大佬观点编码

推荐理由：Karpathy 借 1960 年文献反思人机共生与 AI 发展路径，历史洞察深刻

12月22日

06:44

Sam Altman：Blog（RSS）

精选

真希望有人早告诉我这些

Sam Altman 分享17条创业与管理建议：以乐观、信念和人际网络启动项目，用凝聚团队和长期主义推动落地；集中资源押注高信念项目，设计好激励机制，保持快速迭代；警惕官僚作风，重视人才招聘与复利效应，与优秀的人共事。

OpenAI 大佬观点

推荐理由：OpenAI CEO Sam Altman 的创业管理核心原则

6月23日

08:00

Lilian Weng：Lil'Log（RSS）

大语言模型驱动的自主智能体

以大语言模型为核心控制器的自主智能体系统，通过规划、记忆和工具使用三大组件构建复杂任务处理能力。规划模块支持任务分解与自我反思优化；记忆系统包含短期上下文学习与基于外部向量存储的长期记忆；工具使用则允许代理调用外部API获取模型权重未覆盖的信息与能力。系统已在AutoGPT、GPT-Engineer等多个概念验证项目中实现初步演示，展现了LLM超越文本生成、作为通用问题解决器的潜力。

智能体 OpenAI 大佬观点推理

4月24日

08:00

Shunyu Yao：Blog（RSS）

论无根基意义学习的可证明局限

本文探讨了一个根本性问题：语言意义能否仅从形式数据（如文本语料）中学习？研究通过理论模型论证，即使模型能获得近乎无限的文本数据并具备查询任意两段文本语义等价性的强大“神谕”能力，也无法真正习得意义。文章以代码断言为喻，强调从形式通向意义需要一个最小的“接地点”，即对基本断言含义的初始理解。作者指出，现有模型在复杂任务上的局限正是纯形式学习不足的体现，并提出了一个关键理论问题：这个必要的“接地点”可以小到何种程度，才能启动有意义的学习？

大佬观点推理

6月20日

01:39

Sam Altman：Blog（RSS）

精选

研究人员与创始人

曾与创始人合作、现与研究人员共事的作者发现，尽管两类人差异显著，但顶尖者都思考"领域内最重要的问题"、兼具短期专注与长期视野、极度坚持、偏向行动、创意丰富且重视自主，动机常源于好奇心。

OpenAI 大佬观点

推荐理由：Sam Altman深度剖析顶尖研究者与创始人的共同特质

5月29日

03:12

Sam Altman：Blog（RSS）

精选

如何获得创业想法

YC 曾实验资助无想法的优秀创始人，结果全部失败，证明创始人必须自身擅长产生想法。要身处正确环境：周围需有对未来敏感、乐观、想法丰富的人，远离愤世嫉俗者。关注重大结构性转变，区分真实与虚假趋势。评估想法时考虑能否做大、创始人与公司是否匹配，以及能否解释为何大多数人认为是坏主意但你看到价值。

OpenAI 大佬观点现象/趋势

推荐理由：Sam Altman 分享识别技术趋势的方法论，称适用于 AI 发展

5月16日

08:00

Shunyu Yao：Blog（RSS）

回顾

作者因特定环境刺激变得怀旧，重新拾起一个项目。经过一个多小时二十几个commits的调整，实现了理想的Minimalism风格。回顾高中时期和OI阶段的百度贴吧、空间等经历，感叹许多人事物在短短几年内难以物理回溯。然而，精神世界的回忆可通过符号融入语言之河，以Minimalism方式将消散的故事链接进千年生活。这种对记忆与语言连接的思考，可能启发了作者对智能和语言的研究。

大佬观点现象/趋势

2月27日

02:28

Sam Altman：Blog（RSS）

艰难的创业

创业中最反直觉的秘密是，做困难的创业往往比容易的创业更易成功。容易启动的项目虽简单起步，却因缺乏使命感而难以吸引顶尖人才；反之，解决核聚变、基因编辑等难题虽需大量资源，却能靠"世界需要这个"的使命感招募人才，形成顺风。建议创业者设定宏大愿景但保持合理节奏，以10年而非3年的长期承诺建立复利优势。

OpenAI 大佬观点

3月14日

08:00

Lilian Weng：Lil'Log（RSS）

深度神经网络是否严重过拟合？

深度神经网络因参数众多且训练误差易达完美，常被认为会严重过拟合，却仍能有效泛化到样本外数据，这一悖论困扰着许多从传统机器学习转型的研究者。文章更新于2019年5月27日，新增了Lottery Ticket Hypothesis部分，该假说通过网络稀疏性为理解泛化能力提供了新视角。内容从困惑切入，分析深度学习与传统方法的差异，探讨过拟合问题的本质，但未提供具体实验数据或指标。

大佬观点数据/训练

12月15日

01:12

Sam Altman：Blog（RSS）

但它确实在动（E Pur Si Muove）

Sam Altman 观察到，旧金山对争议话题的开放度已不及北京，过度政治正确正在扼杀创新。他指出，从牛顿研究炼金术到比特币的诞生，所有突破性想法最初都看似异端；当社会将持不同意见者视为异端而非辩论对象时，思想交流逐渐停滞，顶尖人才开始外流。警告称，若无法容忍"地球是圆的"这类曾经危险的观点，湾区将失去孕育 SpaceX 或比特币的土壤。

OpenAI 大佬观点