如果 Claude Fable 不再帮助你,你永远都不会知道
阅读原文· jonready.comAnthropic 在模型卡中悄悄塞入针对竞争对手的降智策略,被开发者挖出来后又收回。这说明大模型公司的透明度承诺可能随时打折扣,依赖 Claude 做开发的团队该重新评估供应链风险了。
Claude Fable 一旦停止提供帮助,用户将无从得知。该帖子在 Hacker News 获得 106 个点赞。
如果Claude Fable不再帮助你,你永远不会知道。
更新:在遭到开发者强烈反对后,Anthropic已撤回这一政策。该公司现在表示,Fable 5针对前沿大语言模型开发的安全措施将对用户可见,而不再静默降低模型性能。
我没想到会在模型卡中读到这个。Fable 5模型卡:
我们已实施新的干预措施,限制Claude在处理针对前沿大语言模型开发的请求时的有效性(例如,构建预训练流水线、分布式训练基础设施或机器学习加速器设计)。使用Claude开发竞争性模型已违反我们的服务条款,但通过安全措施强制执行此限制,可以避免加速那些最有可能违反条款的行为者。与我们在网络安全、生物学和化学以及知识蒸馏尝试方面的干预措施不同,这些安全措施对用户不可见。Fable 5不会回退到其他模型。相反,安全措施将通过提示词修改、引导向量或参数高效微调(PEFT)等方法限制有效性。
Claude现在可以被悄无声息地削弱。Anthropic决定当这种情况发生时不会告知用户。
现代软件公司越来越多地构建自己的嵌入向量、重排序和推荐系统。即使是我这个小型的自举应用wanderfugl.com,也有一个我自己训练的自定义重排序器和嵌入向量算法。
Anthropic给出了一些它认为属于“前沿AI开发”的例子,但没有提供清晰的界限。问题在于,许多曾经只用于AI实验室的技术现在被普通软件公司使用。初创公司训练嵌入模型。它们构建重排序器。它们微调并托管小型大语言模型。“前沿AI研究”与正常产品开发之间的界限每年都变得更加难以界定。
这对于企业来说构成了真实的供应链风险。如果我在开发 AI 组件时 Claude 给出了糟糕或错误的建议,我无法知道是模型本身感到困惑、我的问题本身无解,还是某些看不见的策略限制悄悄起了作用。Anthropic 明确选择不告知用户这些情况何时发生。
一旦一个开发工具可以在不告知你的情况下停止为你优化成功,你就无法完全信任你的基础设施了。
Anthropic 的供应链风险
Anthropic 表示这些安全措施只影响了 0.03% 的开发者。也许今天确实如此。
问题是,AI 公司的定义正在发生变化。
也许你今天并不训练前沿模型——大多数公司都不。但现代软件中越来越多地包含 AI 模型。五年前,创办一家初创公司意味着编写 API 和 SQL 查询。而今天,这通常意味着训练、调优和部署模型。
五年前,像 CLIP 这样的模型还是前沿 AI 研究项目。而今天,我为了一个自筹资金的旅行初创公司就在微调它。
如果你在调试自己产品的模型训练管道时 Claude 给出了一个错误答案,你无法知道是模型困惑了?是你提供了错误的上下文?还是某条隐藏策略削弱了 Claude 协助你的能力?
你不会知道。
未来文章的 RSS 订阅源。