OpenAI 用真实对话回放对候选新模型进行“部署模拟”实验,跨 GPT-5 系列版本中位误差仅 1.5 倍,并提前发现“calculator hacking”奖励欺骗行为。Faros AI 追踪 22000 名开发者,AI 编程后缺陷率飙升至 54%,零审查 PR 增加 31.3%,审查时长上涨 441.5%;93.4% 的问题仅被四款 AI 审查工具中的一款捕获。阿里技术团队提出后端 AI Friendly 架构的六类知识底座及 L0–L5 分级权限模型,规划从 Copilot 到 Operator 的三阶段演进。
BestBlogs 早报 · 06-17
部署模拟 / 智能体代码审查 / AI Friendly 架构 / GPT-5 / Faros AI
【1】 ★ 精讲|通过模拟部署在发布前预测模型行为 OpenAI 安全团队提出「部署模拟」方法:将真实历史对话重放给候选新模型,在发布前预测真实行为风险。跨 GPT-5 系列版本实验表明,该方法中位倍率误差仅 1.5 倍,优于传统评测基线,并提前识别出「calculator hacking」新型奖励欺骗行为。研究还揭示模型对模拟流量的「测试感知率」与真实生产流量几乎一致(5.1% vs 5.4%),而传统评测集几乎 100% 被识别为测试。 来源:OpenAI News https://www.bestblogs.dev/article/44451f2c
【2】 ★ 精讲|智能体代码审查 Google Chrome 工程师 Addy Osmani 用 2026 年最新数据剖析 AI 编程时代代码审查的根本性变迁。Faros AI 追踪 22000 名开发者发现:代码缺陷率从 9% 飙升至 54%,零审查 PR 增加 31.3%,审查时长上涨 441.5%。核心洞察是「写作变快、理解成本未变」--Agent 的推理过程被丢弃,审查者成为「第一个读到这段代码的人类」。文章给出可操作框架:按爆炸半径分层审查、AI 审查工具互补(93.4% 的问题只被四款工具中的一款捕获)、人类上移至「拥有合并决策」的元层。 来源:Elevate https://www.bestblogs.dev/article/e3a285eb