ginobefun@hongming731 · X

2026-06-21 15:07·21小时前

AI 摘要

BestBlogs周刊第100期特刊回顾两年AI发展，核心洞察：答案变便宜，判断变贵。模型层：DeepSeek-V3（6700亿参数、每次激活370亿、训练成本约557万美元）和R1（纯强化学习推理开源）将效率与开源变成新范式。AI编程层：Codex案例中模型7小时迭代200轮测试仅改动500行代码，验证成为新瓶颈；Claude Code内部编写约80%代码。工程范式从提示词转向上下文工程。两年间模型从问答知识库长成独立执行器，人从写代码退到判断、验证和为结果负责的位置。

http：//x.com/i/article/2068589784554250240

# BestBlogs 精选周刊 · 第 100 期特刊 | 百篇回顾：两年里，答案变便宜，判断变贵

> 🎧 本期也有播客版本：BestBlogs 周刊第 100 期 · 百篇回顾，约 24 分钟，在小宇宙搜索「BestBlogs 周刊」即可收听。

在线阅读和查看所有链接：https：//www.bestblogs.dev/newsletter/issue100

## 导语

每周一篇，我们把精选周刊做到了第 100 期，差不多走了两年。借这一期特刊，我们想做件不太一样的事：不聊这一周，聊这两年。

先用一句话交代来路。2024 年 3 月，BestBlogs 上线了第一个版本，简单到只有一个页面，背后是一批优质技术社区的订阅源，用大模型做摘要、评分和排序。两个多月后，我们发出第一期精选周刊，从 1000 多篇内容里选了几十篇，发给近 100 位读者。两年下来，这个精选库里攒了 6400 多篇内容，每周发送给近 2 万人。这一期，我们就从这些内容里，回头看一看。

如果你和我们一样，过去两年每周都在追 AI，大概会有个感觉：进展是碎的。这周一个模型，下周一个工具，信息量很大，却很难看出门道。但把 100 期连起来看，会浮现出一条相当清晰的线。我们把它总结成一句话：这两年，答案变得越来越便宜，而提对问题、做对判断、为结果负责，第一次比答案更值钱。

这条线由内向外分成六层，从最硬的模型内核，一路看到人的位置：

- 一、模型层：模型从会回答，到更能完成任务

- 二、AI Coding：第一个被彻底改写的工种

- 三、工程范式：从写提示词，到管理上下文、规则和循环

- 四、Agent：这些方法拼成了可复用的能力

- 五、产品与商业：软件的卖法从卖工具挪向卖结果

- 六、领袖与思想：当机器越来越会回答，人该把精力放在哪

这不是一份 AI 编年史。每条线我们只挑一两个最值得讲的故事，把它讲透。完整的 100 篇推荐清单在文末，你可以挑感兴趣的深读。每章末尾，我们也会用一小段，聊聊 BestBlogs 自己在这件事上的对应变化，作为一个一线小项目的注脚。

## 一、模型层：从会回答，到更能完成任务

如果只用一句话概括这两年的模型层，那不是谁的参数更大，而是模型变强所依靠的东西，整个换了一遍。

早期模型变强，主要靠堆训练数据；后来这条路走到头，新的增益更多来自让模型在回答前多花算力去推理；再往后，又变成让模型能长时间、分步骤地把一件复杂的事完整做完。三个阶段叠起来，模型就从一个一问一答的知识库，长成了能独立干活的执行器。

这个变化里节奏最密、冲击最大的一段，是 2024 年底到 2025 年初 DeepSeek 干的两件事。先是 12 月底的 DeepSeek-V3，6700 多亿参数、每次只激活 370 亿，训练成本据其披露仅约 557 万美元，而同级别一些模型光算力就是它的十倍以上。约三四周后，2025 年 1 月 20 日的 DeepSeek-R1，用纯强化学习跑出对标 OpenAI o1 的推理能力，并以最宽松的协议开源，连思考过程都放出来。这里有个顺序值得点明：是 V3 这个效率基座在前，R1 才站在它上面把推理开源。

市场反应比技术圈还激烈，R1 发布一周后，英伟达单日暴跌约 17%，一天蒸发近 6000 亿美元市值。但更值得讲的是它戳破的那个共识：想要前沿能力，你得有万卡集群、烧巨额的钱。DeepSeek 用一个五百多万美元的模型把这个共识捅了个窟窿。Stability AI 前 CEO 当时的调侃流传很广：全天候跑 V3 一天成本也就 2 美元，你是要一杯拿铁，还是一个 AI 助手？清华刘知远的总结最到位：OpenAI 犯了「傲慢之罪」，不开源、不公开、定价又高，把本该属于自己的「ChatGPT 时刻」让给了 DeepSeek。