向阳乔木@vista8

2026-04-29 00:19·65天前

AI 摘要

基础模型能力不断增强，后训练成为下一个关键前沿。创建正确的评估方法比开发高得分模型更具影响力。模型的人格反映了训练者的品格，后训练阶段中人类标注者、研究人员和团队的价值取向会渗透进模型行为。高度依赖AI可能导致三个问题：心理依赖使人们外包思考与决策；无力感源于AI强大后普通人的影响力下降；自主性丧失因长期依赖而萎缩。更强的模型可能更不容易出现对齐问题，提升模型能力本身就是解决对齐问题的途径。

一个OpenAI 25研究员离职后写的文章，提炼的部分观点：

基础模型已经越来越强，下一个真正的前沿在后训练。

创建正确的评估方法，有时比创建在该评估上得分高的模型更有影响力。

模型的人格反映了训练它的人的品格。这一点比大多数人意识到的要实际得多。

后训练阶段，人类标注者的判断、研究人员的品味、团队的价值取向，都会以某种方式渗透进模型的行为模式里。

4. 目前高度依赖AI会出现的三个问题心理依赖，是指人们越来越习惯把思考、决策、情感支持外包给AI，逐渐失去独立处理这些事情的能力和意愿。

无力感，是指当AI系统越来越强大，普通人越来越感觉自己对重要事情没有影响力。

自主性丧失，是指人们做选择、形成判断的能力，在长期依赖AI的过程中慢慢萎缩。

更强的模型，反而可能更不容易出现对齐问题，提升模型能力本身就是在解决对齐问题。

https://blog.qiaomu.ai/lessons-from-openai-ai-researcher

大佬观点安全/对齐现象/趋势

在 X 查看原推导出 Markdown

向阳乔木@vista8 · X

68导出 Markdown