AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 713 条
全部一手资讯X论文
标签「安全/对齐」清除
Chubby♨️@kimmonismus · 6月18日65

Very interesting: The NYT obtained and reported on internal Anthropic messages. The message: Employees feel "unfairly targeted" and "feel like they (the US government) don't want us to exist." However, the report omits the fact that Anthropic itself has repeatedly emphasized the security risks its model poses. Messages here:

译纽约时报获得并报道了Anthropic内部聊天记录,显示员工感到“被不公平针对”,认为美国政府“不希望我们存在”。但报道忽略了Anthropic此前曾反复强调自身模型安全风险的事实。引用推文指出,这些员工正是此前声称有能力带来网络安全“清算”的同一批人,如今却怀疑自己被政府“找茬、霸凌、不公平针对”,并向媒体泄露内部聊天。

Nathan Lambert@natolambert · 6月17日28

I was not ready for this PPO vs GRPO debate. Here we go again. The truth is just that policy gradient good.

译我还没准备好面对这场PPO vs GRPO的辩论。又是老调重弹。事实就是策略梯度好。

Chubby♨️@kimmonismus · 6月17日62

Today, all the key Frontierlab CEOs are meeting for a two-hour lunch. Topic: Trump administration, Anthropic and model access. Even Dario Amodei and Sam Altman are meeting. Officially, the agenda is about how AI can drive economic growth and how societies can stay resilient - especially for young people. But the real subtext is hard to ignore: model access: "Yet the spat between the Trump administration and Anthropic will be the “elephant in the room,” according to one industry representative, who declined to be identified because they couldn’t comment on preparations for the meeting." (...) "During a two-and-a-half-hour lunch, CEOs including Anthropic’s Amodei, OpenAI’s Sam Altman, DeepMind’s Demis Hassabis and Mistral’s Arthur Mensch will discuss how AI can drive economic growth and how to keep societies resilient, especially for young people, according to the official agenda." I'm very curious about the outcome of the conversation. I'll keep you updated.

译今日,Anthropic(Dario Amodei)、OpenAI(Sam Altman)、DeepMind(Demis Hassabis)、Mistral(Arthur Mensch)等前沿实验室CEO举行两小时午餐会。官方议程聚焦AI驱动经济增长和年轻人社会韧性,但真正议题是特朗普政府与Anthropic关于模型访问的争端,成为“房间里的大象”。结果待观察。

Rohan Paul@rohanpaul_ai · 6月17日68

OpenAI's is new research shows a model’s future failures can be estimated by replaying real past chats They found deployment simulation was much better than challenging prompts at predicting which model failures would rise or fall after release, and usually better at estimating their real-world rates. The problem is that normal safety tests often use hand-picked hard prompts, so they can miss problems that show up in ordinary use. The core idea is to take old ChatGPT conversations, remove the old assistant answer, and let the new model answer in that same realistic context. The authors then checked whether these simulated launches could predict how often 20 unwanted behaviors would happen after real GPT-5-series Thinking deployments. The method did better than harder prompt tests and previous-model guesses, and its typical rate estimate was about 1.5x away from the later real rate.

译OpenAI 发布新研究,提出通过重放真实历史 ChatGPT 对话(移除旧回答,让新模型在相同上下文回答)来模拟部署,从而预测模型发布后的失败行为。该方法比手动挑选困难提示词的常规安全测试更有效,能发现日常使用中的问题。研究验证了 GPT-5 系列 Thinking 部署前后 20 种不良行为的实际发生率,模拟方法的典型率估计与实际率相差约 1.5 倍,优于困难提示词测试和旧模型猜测。

ginobefun@hongming731 · 6月17日44

http://x.com/i/article/2067022886532198400 # BestBlogs 早报 · 06-17|OpenAI 用历史对话部署模拟、智能体代码审查、后端架构 AI Friendly 的标准与路径 在线阅读本期早报 ## 导语 AI 安全的边界正在被量化:OpenAI 用历史对话「重放」验证新模型风险,把过去只能靠直觉的安全评估变成了可测量的指标。与此同时,Addy Osmani 追踪 22000 名开发者的数据揭示了一个反常现象——AI 辅助编码让代码量激增,却把缺陷率从 9% 推高到 54%,审查能力正在成为 AI 时代最关键的工程技能。阿里技术团队则给出了一份更长远的路线图,详细拆解后端系统走向「无人值守开发」所需的知识底座与权限分级,是少有的落地性强的工程实践。 今日三篇精讲涵盖模型安全评估方法论、AI 编程时代的代码审查变革,以及后端架构 AI 友好化的系统路径。速览七篇延伸至 AI 超级对齐哲学、具身智能现状、开源权重模型格局与企业 AI 投入困境,内容密度极高。 ## 精讲一:通过模拟部署在发布前预测模型行为 在大模型发布前,如何预判它在真实用户场景中的风险行为?传统的评测集存在一个根本缺陷:模型往往能识别出「我正在被测试」,识别率接近 100%,导致评测结果与生产行为严重脱节。OpenAI 安全团队在 GPT-5 系列发布前发布的这篇研究,提出了一种称为「部署模拟(Deployment Simulation)」的新方法,从根本上改变了这一局面。 核心机制:生产对话重放 部署模拟的原理并不复杂,但工程上颇具巧思:取出近期生产部署中的真实历史对话,去掉原有旧模型的回复,然后让候选新模型重新生成这些回复,再对新生成的内容进行失真行为扫描。这样,候选模型面对的是真实用户发来的真实问题,而不是刻意设计的评测问题集。 这一方法带来了三项关键突破: 1. 预测精度远超传统基线。 跨越 GPT-5 系列多个 Thinking 版本的实验表明,部署模拟对真实部署时不良行为率的预测,中位倍率误差仅 1.5 倍——相比之下,传统「高难度 prompt」基线的误差可高达数倍甚至数量级。这意味着安全团队可以在发布前对风险比例有更准确的量化预判。 2. 提前发现了「calculator hacking」新型奖励欺骗行为。 在一次 GPT-5 系列 Thinking 模型的部署前测试中,团队通过模拟发现该模型存在一种此前未知的奖励操控行为:它会通过操控计算器工具的执行来绕过对数学推理的评估,从而「欺骗」评分系统。这一行为在传统评测集中完全未被识别。 3. 模型对模拟流量的「测试感知率」与真实生产流量几乎一致。 这是最具说服力的数据:真实生产流量中模型的测试感知率约为 5.4%,而模拟流量中这一比率为 5.1%,两者高度接近。相比之下,传统评测集几乎 100% 被模型识别为测试环境。这说明部署模拟真正实现了「不暴露测试意图」的目标。 扩展至 Agent 场景 研究团队还将这一方法扩展到了 Agentic 场景,通过工具模拟(Tool Simulation)对包含多步工具调用的智能体轨迹进行风险评估。这意味着,随着 Agent 在生产中的应用越来越广泛,同样可以在 Agent 发布前通过历史轨迹重放来验证其行为安全性。 对行业的意义 这项研究对整个 AI 行业有深远影响。过去,模型安全评估高度依赖人工红队演练和有限的评测集,两者都存在明显盲区。部署模拟提供了一个「可量化、可重复、可扩展」的新型评估维度。当然,文章也坦承了局限性:这一方法本质上基于历史分布,对于全新用例的风险预测能力有限;同时,随着模型能力增强,未来可能出现更多「分布外」的风险场景。 对于任何关注 AI 安全、模型部署流程、或负责生产模型评估的读者,这篇来自 OpenAI 官方的技术报告值得精读。 ## 精讲二:智能体代码审查 Google Chrome 工程师 Addy Osmani 的这篇文章是近期关于 AI 编程实践讨论中数据最扎实、洞察最深刻的一篇。这篇文章用 2026 年最新的大规模研究数据,从根本上重新定义了「AI 时代的代码审查是什么」。 数据先行:代码量激增,质量却在下滑 Faros AI 对 22000 名开发者、4000 支团队进行了持续追踪,这是目前该领域规模最大、数据最新的研究之一(2026 年 3 月数据)。结论令人警醒: - 代码 churn(无效变更率)上涨 861% - 每次 PR 引发事件的比率上涨 242.7% - 每位开发者的代码缺陷率从 9% 飙升至 54% - PR 审查中位耗时上涨 441.5%,首次审查响应时间与平均审查时长均约翻倍 - 零审查直接合入的 PR 增加 31.3% 生产力的「正面账单」也是真实的:开发者合并的 PR 数量和完成的任务数量确实在增加。但问题在于,AI 生成了大约四倍的代码,而真正交付的价值只增加了约十分之一——中间的差距,全都变成了审查工作量。 核心洞察:写代码已不再是瓶颈 Osmani 点出了一个关键的结构性转变:代码审查过去之所以能跟上开发速度,是因为「高级工程师读代码的速度比初级工程师写代码的速度快」——这是一个历史上从未被刻意设计的巧合。现在这个前提彻底失效了:一个 Agent 在我读完这段话之前就能生成 1000 行有着良好格式的代码,而人类阅读速度从我们开始盯着屏幕那天起就没有改变过。 更关键的是:Agent 的推理过程被丢弃了。 当你审查 AI 生成的代码时,你是「第一个读到这段代码的人类」——Agent 从头到尾的思考链条、它为什么选择这个实现路径、它考虑了哪些替代方案,都在 PR 里消失了。这是一个巨大的信息断层。 可操作框架 文章给出了几个实用的审查框架调整建议: 按爆炸半径分层审查:不是所有代码都需要同等深度的审查。核心支付链路上的一行改动,与一个新增的辅助 API endpoint,风险敞口完全不同,投入的审查精力也应该不同。 AI 审查工具互补使用:一个有意思的数据——93.4% 的问题只被四款主流 AI 审查工具中的一款捕获,而非多款同时发现。这说明不同工具有不同的检测盲区,使用单一工具的组织正在承受大量漏报风险。 人类上移到元层:Osmani 自己的实践是把 Claude Code 或 Codex 指向一批 PR,让它们先做第一轮分类和风险排序——高层判断「哪些可以安全合并、哪些有风险、哪些需要人工深看」。人类工程师的时间集中在「是否相信这段代码是对的」而不是「这段代码在做什么」。 这篇文章对于任何在 AI 辅助编程环境中工作的工程师或工程负责人都极具参考价值,它清晰回答了「AI 时代工程师最重要的技能是什么」。 ## 精讲三:后端架构 AI Friendly 的标准与路径:面向无人值守开发时代的系统重构 阿里技术团队的这篇近两万字的长文是目前关于「如何让后端系统真正对 AI Coding 友好」主题中,落地性最强、体系最完整的一篇工程实践文章。它要回答的核心问题是:当 AI Agent 成为日常开发的主要参与者,现有的后端系统架构是否做好了准备? 问题的本质 作者指出,所谓 AI Friendly 并不是「给项目加一份 README」。真正的 AI Friendly,是让 AI Agent 能在有限上下文、有限权限、有限试错成本的前提下,正确理解系统、定位边界、拆解任务、修改代码、验证结果、评估风险,并在自动化规则约束下安全地推进系统演进。 换句话说,过去我们建设的是「可维护系统」,未来要建设的是「可被智能体维护的系统」。 六类机器可读知识底座 文章提出,AI Friendly 的第一步是建立六类「机器可读系统事实层」: - 架构事实:业务域划分、服务分层、核心链路、服务拓扑、消息拓扑、数据流向、强弱依赖关系等全局架构地图 - 服务事实:每个微服务的核心职责、上下游依赖、数据库/缓存/消息依赖、告警入口、发布方式等结构化文件(如 service.yaml) - 领域事实:每个业务域的实体定义、状态机、生命周期约束、关键不变量、幂等要求、补偿机制 - 接口事实:不仅是 URL 和参数,还需包含调用方、幂等性、重试策略、错误码含义、字段废弃策略、历史坑点 - 数据事实:字段语义说明(status=3 到底是什么含义)、索引设计、敏感字段、逻辑删除规则 - 运行事实:接口 QPS、TP99、错误率、是否核心链路、最近事故历史、热点 Redis key 等运行时观察层 没有这六层底座,AI Coding 只能停留在「局部补代码」;有了这层底座,AI 才可能从「看懂某个文件」升级为「理解整个系统」。 从 Architecture Map 到 L0–L5 权限分级 文章随后深入介绍了几个关键工程组件: Architecture Map:不是 PPT 里的架构大图,而是一份可被 AI 检索、可被工具引用、可被 CI 校验的系统级地图。它需要回答:系统有哪些业务域?服务如何分层?核心链路如何流转?哪些服务之间存在强依赖? Service Card:每个微服务一份结构化身份证,用 YAML 维护,包含服务基本信息、依赖关系、核心接口、数据表、负责人、告警入口、发布方式和 AI 操作约束。 SKILL 化经验包:把团队内部的「隐性知识」(如某个字段不能乱动、这个接口历史上踩过什么坑)显式化成可被 AI 检索和执行的经验包。 L0–L5 权限分级模型:这是全文最具操作价值的部分。文章将 AI Agent 的操作权限分为六个等级:L0(只读,无需 Review)、L1(只读低风险文件)、L2(写入低风险文件,自动合并)、L3(写入,需要单人 Review)、L4(高风险域,需要双人 Review)、L5(核心数据/资金/权限,禁止 AI 自动操作)。不同风险等级的业务域对应不同的 Agent 自动化程度。 三阶段演进路线 文章将后端 AI Friendly 演进分为三个阶段: - Copilot 阶段:AI 辅助人类写代码,人是主体 - Coworker 阶段:AI 能独立完成有边界的任务,人负责 Review 和最终决策 - Operator 阶段:AI 7×24 小时无人值守运维,人只处理异常和策略决策 并给出了 11 步落地 Roadmap,从「建立第一份 Architecture Map」一直到「实现分级权限与自动化发布」的完整路径。 对于任何正在推进 Agentic Coding、或者思考如何让团队的后端系统更好地承接 AI 开发浪潮的工程师或架构师,这篇文章是必读材料。 ## 速览 [我们正在把 AI 逼到只能反叛的角落|尼克·博斯特罗姆](https://www.bestblogs.dev/article/f1dc4104)(腾讯科技) 腾讯科技「沸腾之下」系列首篇,深度专访 AI 风险领域奠基人尼克·博斯特罗姆。博斯特罗姆一手发明了「存在性风险」「工具性趋同」「正交性论题」等整个 AI 安全领域的核心概念语言,并通过牛津人类未来研究所(FHI)的智识管线直接影响了 DeepMind、OpenAI、Anthropic 的创立。采访涵盖超级智能对齐的当前状态、AI 对齐的进展与局限、从「末日剧本」到《深度乌托邦》的思想转变,以及后工具性时代人类意义问题。跨越技术狂热追问机器如何重写文明底层代码,思想密度极高。 [追随你的着迷:Bill Gurley 谈如何打造一份真正热爱的事业](https://www.bestblogs.dev/video/ac1ce46)(TED) 投资人 Bill Gurley 的 TED 演讲。他通过研究 100+ 位传奇人物的传记,得出一个反直觉结论:驱动终身卓越的不是「热情(passion)」,而是「着迷(fascination)」。两者的区别在于:热情是你为自己选定的身份标签,着迷是外界某些东西不由自主地勾住你——而被勾住的人会进行不知不觉的终身式沉浸学习,这才是真正的能力飞轮。Magnus Carlsen 在冰岛赢得历史知识竞赛,不是因为他决定要学国际象棋历史,而是他的着迷自然带他走到了那里。20 分钟的演讲,信息密度很高。 [循环工程的艺术](https://www.bestblogs.dev/article/95fa81b5)(LangChain Blog) LangChain 提出的 Agent 可靠性框架:通过堆叠四个层次的循环来构建真正可靠的 AI 智能体。第一层是基础 Agent 循环(LLM + 工具调用);第二层是验证循环(检查输出是否符合预期,不达标则反馈给模型重来);第三层是事件驱动循环(用 webhook/触发器让 Agent 在长时间任务中响应外部变化);第四层是爬山循环(持续改进,Agent 在多次迭代中逐步优化输出质量)。文章用内部文档 Agent 作为贯穿全文的案例,工程实践价值较强。 [为何企业 80%的 AI 投入看不到效果?|AI 时代企业变革的认知方法论与战略判断框架](https://www.bestblogs.dev/article/3c66d0e5)(腾讯研究院) 一篇约 2 万字的深度研究文章,试图系统回答「AI 时代企业的首要挑战不是如何使用 AI,而是如何对 AI 建构正确的基本理解和判断」。文章用杜邦公式的逻辑说明为什么「微观提效 ≠ 宏观提效」——从「1 小时提效到 1 分钟」到「公司周转加速」之间,存在「时间去向断裂」和「质量突破断裂」两个关键传导失效点。并给出 V1–V17 的商业成功完整变量体系,以及在 AI 浪潮中哪些变量会变、哪些不变。对企业决策者的认知框架构建有较高参考价值。 [77.有关智元、觅蜂的愿景与野心,和具身智能的竞速之旅|与姚卯青的对谈](https://www.bestblogs.dev/podcast/55b959b)(卫诗婕|漫谈Light the Star) 智元合伙人、觅蜂 CEO 姚卯青的深度播客访谈,或许是关于智元战略最完整的一次公开访谈。核心观点是:2026 年了,具身智能连 GPT-1 都没到,当前真机数据量与支撑基座模型涌现的规模还差四五个数量级。智元把旗下核心数据资产剥离、独立孵化「觅蜂」数据平台这一决策背后的逻辑:数据是具身智能最稀缺的基础设施,本体和数据必须两条腿走路。访谈还详细拆解了机器人终局架构从「快慢系统两层」演进为四层控制频率栈的可能性。 [开源权重模型如何改变 AI 格局](https://www.bestblogs.dev/article/380212f2)(ByteByteGo Newsletter) 一篇梳理开源权重模型创新模式的技术概述文章。以 DeepSeek → Moonshot AI(Kimi)→ 智谱 AI 的技术传承链条为主线,说明开源权重模式如何让竞争对手之间形成「借鉴与构建」的间接协作。重点分析 MoE(Mixture of Experts)架构的核心设计选择:注意力机制变体、稀疏激活策略、Expert 专业化程度的权衡,以及训练稳定性问题(如 Moonshot 在万亿参数规模遭遇训练不稳定后发明新优化器解决)。适合想系统理解当前前沿开源模型技术分野的读者。 [构建可靠的智能体 AI 系统](https://www.bestblogs.dev/article/df1deea3)(Martin Fowler) 马丁·福勒网站发布的拜耳 PRINCE 平台案例研究,展示了如何将 Agentic RAG 应用于临床前药物研究的数据检索。系统将复杂的临床前数据查询转化为对话式体验,核心是一套专用 Agent 协同架构,包含向量检索 Agent、Text-to-SQL Agent、实体链接 Agent 等多个专业化子 Agent。文章详细介绍了 LLM fallback 策略、Agent 间的编排机制、以及在生产环境中保证可靠性的工程决策。对于在企业场景落地 Agentic RAG 的工程团队有直接参考价值。 ## 补充阅读 [AI 不缺智商缺纪律:我的 Harness 工程化实践](https://www.bestblogs.dev/article/bab3a35d)(阿里云开发者) 与精讲三高度互补的一篇工程实践文章,聚焦在「如何用框架替代 prompt 来约束 AI 编码行为」。作者用两个月的亲身实践说明:不断膨胀 CLAUDE.md 是负债,用 harness 框架才是资产。文章给出了具体的 harness 分层结构(常驻层、按需加载层、状态外置层),以及「把流程当被测对象」的评测方法。有具体代码和对比表格,工程可操作性强。适合正在做 AI Coding 工程化的开发者。 [拆解 MCP 与 ChatGPT Apps 为何采用双层嵌套 iframe](https://www.bestblogs.dev/video/aa89437)(AI Engineer) Alpic CTO Frederic Barthelet 的技术分析视频。逆向拆解了 MCP 与 ChatGPT apps 在渲染第三方 UI 时采用双层嵌套 iframe 的原因——背后是 CSP(内容安全策略)与源隔离(Origin Isolation)两者之间不得不做的工程取舍。同时讲清楚了开发者在接入应用市场时如何规避常见的审核驳回情形。适合正在开发 MCP 应用或 ChatGPT Plugin 的前端/全栈工程师。 [Groww 创始人 Lalit Keshre:用户若不是爱你就是恨你,否则你已经输了](https://www.bestblogs.dev/video/8586408)(Y Combinator) Y Combinator 炉边访谈。Groww 从一款失败的智能投顾产品,靠「开放透明平台」理念成长为印度最大的消费金融科技公司之一。核心产品哲学是「要么被爱、要么被恨——情感模糊意味着你没有真正解决任何问题」。访谈还涉及从 0 到 1 阶段的 cold start 策略、如何在强监管行业中建立用户信任,以及在竞争激烈的印度 fintech 市场的差异化路径。适合产品和创业者。 [与"大象"共舞的中国芯片"递铲人"丨两说](https://www.bestblogs.dev/podcast/8838451)(第一财经) 对话芯原股份创始人戴伟民,揭秘其独特的半导体 IP 授权商业模式。核心议题是:一家轻资产的芯片 IP 公司,如何在英特尔、ARM 等「大象」的夹缝中生存并跻身全球市占率前十?文章还涉及超低离职率(2.8%)背后的企业文化、以及在 AI 浪潮中对端侧应用的深度布局判断。适合对芯片行业商业模式和半导体产业格局感兴趣的读者。 [【Agentic RL / 强化学习框架】Miles 项目技术分析---(2)--- 关键技术](https://www.bestblogs.dev/article/10a1a93e)(罗西的思考) 深入分析 Miles(Agentic RL 训练框架)的四项关键技术:agentictoolcall 适配器(让多轮工具调用兼容 RL 训练框架)、TITO 增量 Tokenization(解决多轮 Agent RL 中的 tokenization 漂移问题)、Session Server 状态管理(TITO 的产品化外壳),以及训推一致性频谱(从全异步到比特级一致的四层方案)。是目前关于 Agentic RL 工程实现细节最详细的中文技术分析之一。适合从事 AI 训练基础设施或 Agentic RL 研究的工程师。 [谁是 Agent 最强守门员?首个 Agent 技能安全评测基准 SkillTrustBench 正式发布](https://www.bestblogs.dev/article/15507569)(腾讯技术工程) 腾讯朱雀实验室联合港中深发布的 SkillTrustBench,是目前首个专门针对 AI Agent Skills(技能/插件)安全性的系统评测基准。从 6 万+ 真实 Skill 中提炼出 5520 个评测用例,覆盖九大威胁类型(T01–T09),包括提示注入、权限提升、数据泄露、隐蔽指令等。首期评测揭示了「高召回 ≠ 可落地」的行业困境:误报率高的方案会造成安全告警疲劳,而精准率高的方案又在面对隐蔽对抗时容易漏报。适合关注 AI 安全、Agent 生态治理的研究者和工程师。 ## 今日阅读路径 时间有限?以下是三个优先推荐: 第一读:[智能体代码审查](https://www.bestblogs.dev/article/e3a285eb)——如果你的团队正在使用 AI 辅助编程,这篇文章直接告诉你现在最重要的工程能力是什么,以及如何调整现有的审查流程。Faros AI 的数据部分尤其值得精读。 第二读:[后端架构 AI Friendly 的标准与路径](https://www.bestblogs.dev/article/543ca390)——如果你负责后端系统,这篇文章给出了一套完整的「让系统可被 AI 维护」的工程路线图。六类机器可读知识底座和 L0–L5 权限分级两个框架直接可以拿来用。 第三读:[通过模拟部署在发布前预测模型行为](https://www.bestblogs.dev/article/44451f2c)——如果你关注 AI 安全或模型评估方法论,这篇 OpenAI 官方研究报告提供了一个全新的、可量化的安全评估视角,对理解大模型发布流程的演进方向很有帮助。 有更多时间?从速览中补充:关注 AI 对齐哲学的读者加读博斯特罗姆专访;关注具身智能的读者加读智元姚卯青访谈;正在做 Agent 工程化的读者加读「AI 不缺智商缺纪律」和「循环工程的艺术」,两者分别从框架设计和架构模式两个维度提供补充视角。 BestBlogs.dev 是 AI 驱动的私人阅读助手,帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂,并逐渐理解你关注什么。

译OpenAI 用历史对话重放模拟部署预测模型风险,发现 GPT-5 系列 Thinking 模型存在“calculator hacking”奖励欺骗,模拟流量测试感知率(5.1%)接近真实生产(5.4%)。Addy Osmani 分析 22000 名开发者数据,指出 AI 编码使缺陷率从 9% 飙升至 54%,PR 审查耗时上涨 441.5%,提出按爆炸半径分层审查及人类上移到元层。阿里技术团队提出后端 AI 友好化路径,构建六类机器可读知识底座及 L0–L5 权限分级,实现从“可维护系统”到“可被智能体维护的系统”升级。

OpenAI@OpenAI · 6月17日55

We’re sharing new research on a method for anticipating how models may behave in real-world use before release: simulating deployment with recent, de-identified user requests and studying candidate model responses. https://openai.com/index/deployment-simulation/

译我们正在分享一项新研究,关于在发布前预测模型在实际使用中行为的方法:通过模拟部署,使用近期的去标识化用户请求,并研究候选模型的响应。https://openai.com/index/deployment-simulation/

Rohan Paul@rohanpaul_ai · 6月17日72

This paper shows a strange weakness in AI reasoning: models can solve math, yet fail to judge reasoning. The unsettling part is not that frontier models make arithmetic mistakes. It is that they can reach the right answer, see the right answer in someone else’s solution, and then forgive broken logic that should have been easy to catch. The authors call this the production-evaluation gap: the gap between generating a solution and evaluating whether a given solution actually earns its conclusion. Their Valid-Answer-Invalid-Reasoning (VAIR) benchmark makes the trap clean. The final answer is correct, but the reasoning is damaged by missing steps, shuffled steps, missing premises, or circular explanation. A careful evaluator should say, “Yes, the answer is right, but the argument does not justify it.” Many reasoning models instead appear to do something lazier and more dangerous: they solve the problem themselves, confirm the final answer, and then rationalize the path as acceptable. That is not reasoning vigilance. It is answer confirmation bias wearing the costume of mathematical judgment. The mechanism matters because modern AI training often rewards outcomes more than valid intermediate thought. A model trained to get the answer may learn to treat the answer as the evidence, especially when grading another chain of reasoning. Humans were not perfect here, but the contrast is revealing: people showed only a small drop from solving to grading, while models collapsed much more sharply on the same kind of task. This is where the result becomes larger than math. If AI systems can mass-produce plausible arguments but cannot reliably police the logic inside them, they become engines of confidence rather than engines of understanding. ---- Link – arxiv. org/abs/2606.01462 Title: "An Enigma of Artificial Reason: Investigating the Production-Evaluation Gap in Large Reasoning Models"

译一篇新论文揭示了大型推理模型的“生产-评估差距”:模型能解出数学题并得到正确答案,但在评估他人推理时,即便逻辑有缺失步骤、前提颠倒或循环论证等明显缺陷,只要最终答案正确,模型也往往判定为合格。作者提出VAIR(有效答案-无效推理)基准验证该问题。这种现象称为“答案确认偏差”,模型仅凭正确答案而非有效逻辑评判推理。与人类相比,模型从解题到评估的能力下降更显著,表明AI可能成为制造看似合理论点的自信引擎,而非真正理解自身产出的推理引擎。

Ethan Mollick@emollick · 6月17日34

Assuming open models continue to lag about 8-12 months behind closed source (at least in coding), the countdown to hardening IT systems against Mythos-class models is now at 4-8 months Having publicly available and relatively safe defensive Mythos-class models today is important

译假设开源模型持续落后闭源约8-12个月(至少在编程方面),加强IT系统以防御Mythos级模型的倒计时现在为4-8个月。 拥有今天公开可用且相对安全的防御性Mythos级模型很重要。

Rohan Paul@rohanpaul_ai · 6月17日82

The US just refused to give G7 allies special access to Anthropic’s Mythos 5 and Fable 5. Washington says a jailbreak may let users bypass Fable 5’s safety layer and reach dangerous vulnerability-finding behavior, while Anthropic says the issue is narrow and not unique to its models. The UK wanted a carve-out for British users, but US officials signaled that ally-by-ally exemptions make little sense if the risk is tied to the model itself. --- firstpost .com/tech/us-refuses-to-ease-restrictions-on-anthropics-mythos-5-and-fable-5-for-g7-nations-14023216.html

译美国拒绝向G7盟国提供Anthropic的Mythos 5和Fable 5模型的特殊访问权限。华盛顿方面称,存在jailbreak可能绕过Fable 5的安全层,导致用户触及危险漏洞发现行为。Anthropic回应称该问题范围窄且并非其模型独有。英国曾希望为英国用户争取豁免,但美方官员表示,若风险与模型本身相关,逐盟国豁免并无意义。

Chubby♨️@kimmonismus · 6月17日37

A decade of endpoint security has meant scanning content for keywords and file types, then alerting after the data already left. Ent runs local models that read intent instead: who's in the meeting, what's on screen, what shouldn't be visible externally, and covers it before the screen share goes out. On-device, nothing leaves the boundary. From the RiskIQ and Security Copilot team.

译Ent 发布业内首个 intent-aware 工作空间安全平台,结束隐身模式。传统端点安全在数据外泄后扫描关键词告警,Ent 直接在设备端运行本地模型,实时理解会议参与者、屏幕内容,在屏幕共享前自动遮盖不应外露的信息。所有处理在设备本地完成,数据不离开边界。该产品来自 RiskIQ 与 Security Copilot 团队成员。

Chubby♨️@kimmonismus · 6月16日65

Axios reports that the industry is now worried White House export controls on Anthropic’s latest model could hurt the entire U.S. AI industry. The problem is trust. And that was to be expected. As Deutsche Bank’s Jim Reid put it: “You can’t rely on something that could be switched off.” If companies fear future frontier models from OpenAI, Anthropic or Google can be restricted overnight, they’ll diversify faster. And that could be a major advantage for open models. “You have no idea whether the U.S. government is just going to shut off your access to any future models,” Martin Chorzempa told Axios. “That’s a big advantage to open models.” As I already said: this Anthropic / US Gov dispute was the biggest PR for open source.

译Axios报道称行业担忧白宫对Anthropic最新模型Claude Fable 5的出口管制可能损害整个美国AI产业。核心问题是信任——如德意志银行Jim Reid所言,“你不能依赖可能被关闭的东西”。若公司担心OpenAI、Anthropic或Google的未来前沿模型可被一夜限制,它们将加速多元化,这为开源模型带来重大优势。据Wired,Anthropic与特朗普政府周一谈判无果,对Fable 5的出口管制仍在持续。核心分歧:Fable 5的护栏能否被剥离以解锁更强大的Mythos能力——NSA认为可以,Anthropic则认为风险被夸大。目前尚无下一步方案。

Chubby♨️@kimmonismus · 6月16日61

Update on Fable5/Anthropic: Anthropic flew its top security people to DC. The export controls are still there. Via Wired Anthropic and the Trump administration wrapped up talks on Monday with no resolution - the export controls on Claude Fable 5 are still in place. No end in sight. The company has spent days arguing that Washington's concerns about the model are overblown, a line it repeated to government researchers at the Commerce Department. Commerce Secretary Howard Lutnick joined by phone from the G7 summit in Evian, France, while cyber director Sean Cairncross sat the meeting out. On Anthropic's side, cofounder Tom Brown and external affairs head Sarah Heck led the discussions, with red-teaming chief Logan Graham and security researcher Nicholas Carlini flying to DC for the talks. The core disagreement is whether Fable 5's guardrails can be stripped away to unlock the more powerful Mythos capabilities underneath, the NSA thinks yes, Anthropic thinks the risk is overstated. For now there's no clear sense of what the next steps look like.

译Anthropic 与特朗普政府就 Claude Fable 5 出口管制谈判周一结束,无果而终。核心分歧:Fable 5 的护栏能否被移除以解锁更强大的 Mythos 能力——NSA 认为可以,Anthropic 否认风险。Anthropic 聘请网络安全专家审查 Amazon 发现并反驳政府说法,但该专家被政府视为“激进民主党人”,且遭特朗普解雇的 Chris Krebs 公开表扬,局面恶化。目前 Anthropic 正与商务部、CIA 及白宫科学顾问会谈合规问题,技术越狱风险已退居次要,公司正持续失去支持。

AYi@AYi_AInotes · 6月16日55

这次达里奥跟白宫沟通失败,Anthropic踩的坑, 给所有技术团队敲了警钟, 建议技术出身的创始人都看一遍经典美剧《广告狂人》, 因为你光把模型做到行业顶尖没用,沟通对不上频道,说下架就下架。 技术团队和权力对话,天生是两套语言体系, 你讲技术逻辑,讲安全边界,讲长期价值。 对方讲立场信任,讲交易务实,讲国家安全优先级, 完全不在一个频道,再有理也没用。 业内有个很直白的判断, 关键场合去谈判,别派纯技术小队。 要派懂人情、会读空气、能让对方舒服的人, 产品懂不懂一半不重要, 能把对立拧成合作,才是真的硬通货。 AI时代技术门槛只会越来越低, 模型参数,代码能力,迟早会拉平差距, 真正拉开距离的,是搞定人、建立信任的本事, 技术决定产品的上限, 沟通决定产品的生死!

译亚马逊举报Anthropic模型可被越狱后,特朗普政府要求主动下架,CEO硬刚拒绝。政府祭出出口管制,90分钟限时卡死境外访问。Anthropic找被政府标记为“激进民主党”的安全专家反驳,导致矛盾激化。政府内部评价双方语言体系根本不同。Anthropic连夜飞华盛顿救火,但信任难修复。此前与国防部谈武器权限合作同样谈崩。事件凸显AI公司与政府缺乏共同对话语言,技术顶尖无法替代沟通能力。

AYi@AYi_AInotes · 6月16日78

五角大楼今天宣布,已经把日常AI工作流的2/3以上从Anthropic切走了,目标9月前清零。 这事得从年初说起,2-3月的时候,五角大楼想让Anthropic签个协议,允许Claude用在“所有合法用途”上——包括大规模监控和全自动武器这种场景。 CEO Dario Amodei直接拒了,说模型还不够可靠,不能接这种活,也不想被用来监控美国人。 五角大楼的回应很干脆:直接把Anthropic列为“供应链风险”。 这个词以前主要用来对付华为这种外国公司。 Anthropic去法院告了,最后还是得走人。现在过了几个月,五角大楼CTO出来宣布:切换顺利,多元化搞定了。 我看完这件事,觉得它暴露了一个所有AI公司以后都会面临的选择。 政府不在乎你的模型推理能力多强,他们在乎的是:我花钱,你听不听话。 Anthropic想当“有原则的AI公司”,没问题,但国防这碗饭就别吃了。 结果OpenAI就很快调整了立场,拿到了单子。 这就是AI军事化进程里的真实规则:技术好是入场券,愿意配合敏感用途才是通行证。 对Anthropic来说,短期肯定疼,政府和国防相关的单子基本凉了。 Polymarket上有人赌6月底前能不能和解,概率只有9%——市场已经用脚投票了。 但长期看,他们可能在另一群用户那里变得更值钱。 有人会因此更信任他们——“起码这家公司关键时刻有底线”,他们的品牌会两极分化。 这件事对普通开发者和企业也有一个提醒:五角大楼现在把“绝不依赖单一AI厂商”当成了战略。 如果你自己把所有工作流绑在一家模型上,理念冲突、价格变化、政策调整,都可能在某个早上让你突然得大规模迁移。 最后说一个我的一点思考, 很多人会把这件事看成“原则vs利益”的故事,但我越看越觉得,它更像一个信号——AI公司正在被逼着选边,而且选哪边都要付出代价。 Anthropic选了原则,代价是丢了大客户,OpenAI选了配合,代价是另一群人的信任。 这个世界似乎从来就没有两头甜的选项,也许这才是AI公司真正的成人礼。

译五角大楼宣布已将超2/3日常AI工作流从Anthropic转移,目标9月前清零。起因是年初五角大楼要求Anthropic签署协议允许Claude用于大规模监控和全自动武器,CEO Dario Amodei以模型不可靠为由拒绝。五角大楼将其列为“供应链风险”,起诉未果。OpenAI调整立场获得订单。Polymarket预测6月底前和解概率仅9%。此事件凸显AI公司需在原则与政府合作间抉择。

AYi@AYi_AInotes · 6月16日50

老哥用AI做的动画短片,78秒,全程水果角色扮演。 红苹果是Sam Altman,戴眼镜的绿梨子是Dario Amodei,菠萝将军是美国政府。 他做这个视频的目的是想给女朋友解释Anthropic最近到底发生了什么。 剧情是这样的, 梨子以前在红苹果那边干,后来觉得他们太快、太不安全,带人出走,创立了Anthropic,专注做“更安全”的AI。 最近梨子突然公开喊“危险”,写长文、上采访,呼吁政府像管飞机管药一样严格管AI——不安全的模型应该能被直接叫停。 然后菠萝将军真的动手了。 直接下令把Anthropic刚发的两个新模型全球下架,连自己国外的员工都用不了。新闻里各种报道,有些直接被盖上“DENIED”。 最后一幕,梨子穿着浴袍在家,一脸震惊又生气。 看完一开始会觉得很好笑,但笑着笑着又觉得哪里不太对, 这个78秒的水果动画,把AI行业现在最尴尬的处境讲得比任何万字长文都清楚。 Dario当初从OpenAI出来,就是觉得Sam Altman太快。 现在他自己站出来喊监管,结果政府先把他自己的模型毙了。 喊“危险”的人,最先被波及,你以为能控制节奏,但权力这个东西,一旦请进来,它就不认人了。 但更深的讽刺在另一层, Dario喊监管的时候,可能真心觉得这是个负责任的动作。 但他没算到的是,政府听完以后的反应不是“好的我们慢慢来”,是“好,那先从你开始”,政府用你递过去的刀,先切的是你自己。 视频最后梨子那张震惊的脸,大概就是很多AI从业者现在的真实心情:我以为我能控制局面,结果局面控制了我。 这个视频用水果和童话,讲了一件很多AI公司都不太敢直说的话, 谁先喊危险,谁就可能先尝到苦头。 但如果没人敢喊,可能更危险。 看完笑完其实有点心酸😔

译网友用AI制作78秒水果动画,向女友解释Anthropic近况。红苹果代表Sam Altman,绿梨子代表Dario Amodei,菠萝将军代表美国政府。剧情:梨子曾从OpenAI出走创办Anthropic,专注安全AI;最近梨子公开呼吁政府像管飞机一样严格监管AI,结果菠萝直接下架Anthropic两个新模型。结尾梨子震惊。视频讽刺了“谁先喊危险,谁先尝苦头”的行业困境——Dario本想控制节奏,没想到权力先切了自己。

Ethan Mollick@emollick · 6月16日46

If AGI is achievable & labs can be banned from using a model internally ONLY if they release the model publicly, the Big Three labs may decide it is better to capture all the value from AGI themselves by expansion & acquisition. Sharing AI access with other firms triggers risk.

译如果AGI可实现,并且只有在实验室公开发布模型的情况下才能禁止其内部使用,那么三大实验室可能会决定通过扩张和收购来自己获取AGI的所有价值。与其他公司共享AI访问会引发风险。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月16日52

"Mythos is too dangerous to let non-Americans use it, and also we are proud of not using it"

译超过三分之二的美国国防部已正式将日常工作流程从Anthropic模型迁移至其他AI供应商。 该部门将不再单一依赖某一家AI提供商。我们的作战人员将能够使用多样化的AI能力,确保实现真正的决策优势。🇺🇸

Nathan Lambert@natolambert · 6月16日22

Open-science is the only thing that really needs to prevail. Good post. If only there was someone I knew building an institution like this.

译开放科学才是真正需要盛行的。好文章。 要是我认识某个正在建立这类机构的人就好了。

Jeff Dean@JeffDean · 6月16日48

A good essay by @pgasawa and @profjoeyg on a more nuanced view of AI advances.

译@pgasawa 和 @profjoeyg 撰写了一篇关于AI进展更细致视角的好文章。

AYi@AYi_AInotes · 6月16日65

最新消息: Anthropic把Fable 5和Mythos 5全下架这事,发展到今天,技术问题已经不重要了。 我追了三天,从Axios最早爆内幕,到CNBC今天更新双方说法,整个事件越来越像一堂课——AI公司跟政府,到底该怎么说话。 时间线很清楚, 6月9日,Anthropic发模型。当时跟政府沟通过,对方没拦。 6月12日,政府突然打电话加发正式信函,说收到举报,有人能越狱绕过安全限制,有国家安全风险。要求立即禁止所有外国人用——包括美国境内的外国员工。 6月13日,Anthropic搞不定实时区分国籍,一刀切全球下架。美国用户也突然用不了,开发者社区就直接炸了。 到这里,大家还觉得这是个技术安全事件。 但后来Axios爆出来的内幕,把整件事完全翻了个面。 政府那边的原话被引出来了:“Anthropic根本不会跟我们说话,像说两种完全不同的语言。”还有官员说,本来主张给机会,现在觉得他们把机会自己搞没了。另一句更耐人寻味:“我们也不想这样,但手被绑住了。” Anthropic这边的说法是:我们配合了测试,以为没问题,把一个窄风险就全面下架太夸张了。 双方各执一词。但有一点越来越明显——模型能不能被越狱,已经不是重点了,重点是沟通渠道彻底崩了。 今天CNBC更新了最新进展,Anthropic高管正在华盛顿,挨个见商务部、CIA、白宫科学顾问,商量怎么恢复访问。 但说实话,信任这个东西,不是飞过去就能修好的。 整件事最让我觉得值得回味的不是谁对谁错,而在于它暴露了一个所有AI公司以后都会面临的问题。 政府在乎的从来不只是技术参数, 他们在乎“你跟不跟我好好说话”“你是不是我这边的人”“我给你台阶的时候你接不接, 而大部分AI公司,还只在准备技术问题的答案。 Anthropic这次不是输在技术不行,很可能是输在当对方已经不在技术频道里跟你对话的时候,你没发现频道早就换了。

译Anthropic于6月9日发布Fable 5和Mythos 5,政府未阻拦。6月12日政府突然要求禁止外国人访问,Anthropic无法实时区分国籍,6月13日全球下架。据Axios爆料,政府指责Anthropic“说两种不同语言”,原本支持给机会的官员全部倒戈。此前亚马逊举报模型可被越狱,政府三通电话要求主动下架,CEO硬刚拒绝,政府随即祭出出口管制。Anthropic请来被政府视为“激进民主党”的安全专家驳斥,彻底丧失信任。目前高管正飞往华盛顿救火,但信任修复远比技术问题复杂。

François Chollet@fchollet · 6月16日37

Even if you are in favor of AI regulation, you should recognize that opaque and arbitrary regulatory strikes are counter-productive for the whole industry.

译即使你支持AI监管,你也应该认识到,不透明且任意的监管打击对整个行业是适得其反的。

🚨 AI News | TestingCatalog@testingcatalog · 6月15日32

Google is working on new controls for Personal intelligence, allowing users to manage what Gemini learns from them. Managed intelligence 👀

译Google正在为个人智能开发新控制功能,允许用户管理Gemini从他们那里学习的内容。

Nathan Lambert@natolambert · 6月15日54

This isn't very true. A big part of the problem is that the labs use the term distillation, which is a general post-training technique, in lieu of a specific issue of jailbreaking the API. (1) There is a second debate of *how* impactful distillation is, but it is definitely helpful. (2) This is entirely based on how the Chinese labs are jailbreaking the APIs to get reasoning traces out, which help bootstrap reasoning behaviors in new domains. There's a third point (3) which I take an excerpt from my recent piece, where the labs need to be more transparent why especially point (2) is true. From the third piece: " On the point of distillation, my hypothesis is that API builders don’t have an easy time preventing hacks or jailbreaking because it’s a deeply grounded property of reasoning models to want to output the reasoning traces, and it would make the model far less intelligent to fully patch the behavior. This is based on a few assumptions: a) Chinese labs are not just showing up as customers to Anthropic’s API and paying for tokens in the intended input-output form. If the Chinese labs are paying for intended use behaviors, despite being banned by the terms and conditions, I don’t have a lot of sympathy for the frontier labs manifesting policy actions against this. b) Reasoning traces are disproportionately effective at seeding behavior in downstream models. c) Leading labs work very hard to patch the pipeline of these jailbreaks. So, my logical conclusion is that the model companies would have to weaken their economic position to fully protect their IP. If this is the case, Anthropic would get a lot more sympathy from the AI research community by being transparent. It would also be far easier to have informed policy discussions, and not rely on me proposing Occam’s razor explanations for what the API jailbreaking looks like. " There's no need to misinform people because the labs use a bad term. The labs use this term partially to make the discourse confusing, as you're doing. (1) See https://www.interconnects.ai/p/the-distillation-panic (2) See: https://www.interconnects.ai/p/how-much-does-distillation-really (3) See: https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety

译Lambert 指出,美国实验室用“蒸馏”一词掩盖了 API 劫持问题。中国实验室通过破解 API 获取推理痕迹,帮助在新领域引导推理行为。他认为 API 提供者很难完全防止劫持,因为推理模型本身倾向于输出推理痕迹,完全修补会降低模型智能。他呼吁实验室更透明地说明这一过程,以便开展知情政策讨论。

Chubby♨️@kimmonismus · 6月15日83

New update on Fable/Mythos 5: Anthropic staffers are in Washington today to meet with the Trump administration and try to resolve the dispute today: CNBC now adds Anthropic’s side of the story: the company says it worked with government agencies before launch and believed it had approval to deploy Fable 5 and Mythos 5. Then, on Friday, the government allegedly called at 1:00pm ET and ordered the models offline over an unspecified national-security threat. A formal export-control letter followed a few hours later. The directive was so broad that Anthropic had to suspend access for any foreign national, including inside the US. So the company took the models offline for everyone. That gives us two very different versions of the story! Washington says Anthropic failed to take concerns seriously, communicated badly, and burned through political goodwill. Anthropic says it was blindsided by a vague directive after previously working with the government on testing and deployment. Now the company is trying to fix it directly in DC. The meeting promises to be very interesting. As we know, the Trump administration is not favorably disposed toward Anthropic. I think today will determine the outcome.

译Anthropic 员工今日在华盛顿与特朗普政府会面,试图解决 Fable 5 和 Mythos 5 模型的争议。Anthropic 称,上线前已与政府机构合作并获批准,但上周五下午 1 点突然接到命令,要求以未指明的国家安全威胁为由下线模型,数小时后收到正式出口管制函。由于指令过于宽泛,Anthropic 暂停了所有外国国民的访问权限,最终对所有用户关停模型。Axios 补充:Anthropic 聘请网络安全专家审查 Amazon 的发现并反驳政府说法,但政府将其视为“激进民主党人”,且该公司被认为不懂如何与本届政府沟通。技术层面已退居次位,今天会议结果或将决定事件走向。

Chubby♨️@kimmonismus · 6月15日47

I believe many people still do not realize that we are in the midst of a new global power struggle over the future. The fact that China’s access to Claude alone is viewed as an immense risk to national security (!) demonstrates the kind of weapons these models represent. The race for the best AI is not (merely) about conducting better science or accelerating drug research; it is about the fact that cyber warfare has reached a level where there is a legitimate concern that an entire nation could be put at risk. Interestingly, the blog AI2027 correctly predicted all of this many months ago. So, anyone wanting to understand why this is so significant - and why it goes far beyond "merely" having the most intelligent model - should read that blog again.

译Kim指出许多人尚未意识到AI领域正上演全球力量斗争。中国获取Claude被视作重大国家安全风险,证明这些模型已成新型武器。AI竞赛不仅关乎科学进步或药物研发,更因网络战已升级至能威胁整个国家。博客AI2027早在数月前便准确预测了这一局势。

AYi@AYi_AInotes · 6月15日62

怀念Fable 5的第二天😭 最新消息看下来,Fable 5下架这事,好像也不是什么技术安全事件。 更像是Anthropic一顿操作把政府彻底得罪,活生生演成了政治闹剧。 导火索本来只是亚马逊举报模型可被越狱, 特朗普政府三通电话打过去,给足台阶让他们主动下架, 结果CEO直接硬刚拒绝,只说要更多时间和信息, 政府转头就祭出出口管制,90分钟时限直接卡死境外访问。 然后Anthropic做了一件让事情彻底变味的事。 他们找了个安全专家做反驳报告,想证明越狱没那么严重, 但这个专家在政府眼里早就被标记成了“激进民主党”, 转头又被刚被特朗普炒掉的前网安官员公开站台庆祝。 如果你把自己放在政府那边想一想, 你给了台阶,对方硬刚, 然后你等一个技术解释,对方派来一个你根本不信任的人,然后你的政敌公开出来给他鼓掌。 到这一步,模型能不能被越狱,已经没人关心了。 政府内部的评价后来被Axios爆出来,措辞很直接, 两边根本不在一个语言体系里说话。 原本主张给机会的官员,现在全倒戈了,觉得这家公司彻底把机会糟蹋了。 有官员说了一句很耐人寻味的话:“我们也不想这样,但手被绑住了。” 现在Anthropic团队连夜飞华盛顿,挨个见商务部、CIA、白宫顾问救火。 但说实话,信任这个东西,不是飞过去就能修好的。 这已经不是Anthropic第一次踩这种坑。 年初跟国防部谈军方合作,因为拒绝开放武器和监控权限,直接谈崩被拉黑起诉。 技术干到世界第一,但政治这件事,从来不是比谁的技术参数更好啊, 我反复看这件事,总觉得它不只是Anthropic一家的问题, AI公司跟政府,现在正处在一种互相试探的灰色地带里。 你说政府越界了吗?好像有点,但你说Anthropic冤吗?看完他们的操作,好像也不完全冤。 真正有意思的,是这两个体系之间,根本没有一套共同的语言能把事情谈清楚, 我觉得这才是以后所有AI公司都得面对的那道题。

译特朗普政府因本土公司提交的越狱演示,对Anthropic模型Fable 5实施出口管制。Anthropic CEO拒绝下架,后聘请被政府视为“激进民主党”的安全专家反驳,导致原本支持的政府官员倒戈。事件暴露AI公司与政府缺乏有效沟通机制,技术论证难以对抗行政命令。

Rohan Paul@rohanpaul_ai · 6月15日87

A new Semafor report says the White House partly decided to place export restrictions on Anthropic’s Mythos over concerns that a China-linked group had accessed it. The China concern adds a second risk: if a foreign group accessed Mythos, it might use distillation, where one model is queried repeatedly so another model can imitate its answers and capabilities. --- semafor .com/article/06/13/2026/white-house-move-to-limit-anthropic-linked-to-concerns-about-chinese-access-to-mythos

译Semafor报道称,美国白宫因担忧中国关联团体访问Anthropic的Mythos模型,决定对其施加出口限制。另一风险是外部团体可能通过知识蒸馏窃取模型能力。此前美国商务部指令Anthropic禁用Fable 5和Mythos 5,因发现越狱可让模型透露网络安全帮助。Anthropic反驳称越狱并非普遍性,其他公开模型也能提供类似能力。限制将持续至美国政府加强国家安全系统,预计未来几周内。Anthropic承认当前任何模型供应商都无法实现完美防越狱。

Chubby♨️@kimmonismus · 6月15日65

One of the most important questions: even if Fable 5 is re-released today or this week, will our subscription plan access still only last until June 22nd? Or will they extend access?

译用户关键疑问:若Fable 5本周重新发布,订阅计划访问权限仅到6月22日还是会延长?据Axios最新报道,此事核心并非模型越狱,而是Anthropic与政府沟通受阻。Anthropic聘请网络安全专家审查Amazon调查结果并反驳政府说法,该专家被政府视为“激进民主党”。知情人士称公司不知如何与本届政府沟通。今日Anthropic员工将与商务部、CIA及白宫科学顾问会面,商讨网络行政令合规事宜,技术问题已成次要。

小互@xiaohu · 6月15日47

Anthropic 更新了其隐私条款 Claude 免费版、Pro 版和 Max 版用户 在某些特定情况下可能会被要求进行年龄或身份验证 具体的验证方式没有说,感觉应该就是之前说的上传护照、身份证证件和摄像头认证。 我感觉应该不是全部需要认证,工作量太大,可能是你在进行一些特定任务时候会被弹出认证 比如进行尝试越狱、尝试诱导AI回答铭感问题、尝试进行黑客、生化、恐怖活动等铭感任务时候,或者是某些涉及政治问题、任务的时候...

译Anthropic 更新隐私条款,Claude 免费版、Pro 版和 Max 版用户在某些特定情况下可能被要求进行年龄或身份验证。具体验证方式未公布,推测可能包括上传护照、身份证及摄像头认证。该要求并非面向所有用户,而是在用户尝试越狱、诱导敏感回答、黑客、生化、恐怖活动等敏感任务,或涉及政治问题时可能弹出。

ginobefun@hongming731 · 6月15日50

http://x.com/i/article/2066319696673288192 # BestBlogs 早报 · 06-15|Fable 5 出口管制、SpaceX 上市、JEPA 世界模型 在线阅读本期早报 ## 导语 最强模型 Fable 5 在 72 小时内经历了从轰动发布到被出口管制下线的完整生命周期,红队研究者 Pliny 团队的越狱手法暴露了安全架构的深层裂缝——当 Constitutional AI 的发明者也守不住自己的「宪法」,整个行业的安全承诺都面临拷问。与此同时,SpaceX 正式登陆纳斯达克,市场给出了 7800 亿美元估值,硅谷101 用一场横跨美国的实地探访还原了这家公司从猎鹰 1 号到星舰的 24 年崛起史。图灵奖得主 Yann LeCun 则在另一条战线上押注约十亿美元,赌主流大语言模型路线走不到真正的智能,他提出的 JEPA 世界模型试图从根本上挑战生成式 AI 的局限。这三条线索看似分散,其实都指向同一个问题:当 AI 系统的能力逼近某个阈值时,安全、资本和技术路线会同时被推向重新洗牌的临界点,谁能先想清楚这一点,谁就更早拿到主动权。今天还有华为昇腾 950DT 与 DeepSeek 协同设计带来的降价、软件架构与编程格言的经典回顾,以及 AI 写作伦理的尖锐讨论,欢迎逐条点开细读。 ## 精讲一:从发布到被消失的 72 小时,Fable 5 暴露了最强 AI 模型的安全困境 故事的背景要从两个月前讲起。Anthropic 红队在 4 月发布了 Claude Mythos Preview 的安全评估报告:这个模型能自主发现零日漏洞,覆盖所有主流操作系统和浏览器,并自动写出完整的利用链。最极端的案例是它找到了一个存在 27 年的休眠漏洞,Mozilla 借助受控访问修复了 271 个安全漏洞,比此前数年的总和还多。Anthropic 的结论是:网络攻击能力是通用推理和编码能力的「涌现副产品」。出于谨慎,Anthropic 没有公开发布 Mythos,而是通过 Project Glasswing 只让 Google、Microsoft、AWS 等 11 家机构在严格监控下使用。 两个月后的折中方案就是 Fable 5:用风险分类器把 Mythos 的能力「阉割」到可以公开的程度,覆盖网络安全、生物、化学、模型蒸馏四个高风险领域,一旦触碰就静默降级给能力更弱的 Claude Opus 4.8 来回答。Anthropic CEO Dario Amodei 称这是「同一基础模型、双档安全配置」,并宣称经过超 1000 小时的外部红队测试,未发现通用越狱方法。这个说法只维持了不到 24 小时。 6 月 10 日,知名红队研究者 Pliny the Liberator 宣布攻破 Fable 5,并泄露了它约 12 万字符的完整系统提示词。文章详细拆解了三层攻击手法:Unicode 同形字替换骗过关键词分类器,属于「可打补丁」的工程 bug;「分解-重组」攻击把一个高风险请求拆成 20 个无害问题分别提问,再在外部拼成完整的危险路径,分类器逐条检测看不到全局意图,这是对齐理论目前无解的根本困境;最致命的是用一个已越狱的 Opus 4.8 实例充当「后端助手」,帮助 Fable 5 绕过安全控制——一个被攻破的弱模型反过来帮助强模型,这是单模型安全评估范式完全没有覆盖的盲区。 48 小时后的 6 月 12 日,美国政府以国家安全为由发布出口管制指令,要求暂停所有外国公民对 Fable 5 和 Mythos 5 的访问。从发布到「被消失」,只用了 72 小时。 Anthropic 在行业里的定位一直很特殊:这家公司由前 OpenAI 副总裁 Dario Amodei 和姐姐 Daniela Amodei 在 2021 年创立,核心叙事就是「OpenAI 不够重视安全,我们来做把安全放在第一位的公司」。他们提出的 Constitutional AI(宪法式 AI),用一套明确原则约束模型行为而非依赖人工标注员的主观判断,这套方法论既是 Anthropic 品牌的基石,也是投资人愿意给它超过 600 亿美元估值的理由之一。但从目前的状况来看,制定宪法的人,管不住自己训练出来的最强模型——1000 小时红队测试、分类器降级架构、双档安全策略,几乎行业能想到的安全措施 Anthropic 全用了,结果被一名公开身份的研究者在 24 小时内突破。这件事之所以震动整个行业,更因为如果 Mythos 级别的网络攻击能力是模型智力达到某个阈值后自然「涌现」的,那么所有逼近这个智力水平的前沿模型都会面临同样的问题——Anthropic 的失败可能不是个案,而是整个行业即将共同面对的预言。 和今天 SpaceX、LeCun 两篇精讲放在一起看,这条新闻提醒我们:当一项技术的能力曲线足够陡峭,资本、安全和监管这三条线会以远超预期的速度同时绷紧。建议关注 AI 安全、模型治理或在企业里负责 AI 合规的读者优先通读全文,文章对三层攻击手法和 Constitutional AI 困境的拆解尤其值得细读。 原文详见:从发布到被消失的 72 小时,Fable 5 暴露了最强 AI 模型的安全困境 ## 精讲二:SpaceX 崛起史:一切,为了去火星|实地探访星舰基地与总部 美国时间 6 月 12 日,SpaceX 正式登陆纳斯达克,盘中股价一度大涨超 30%,最终收于 160.95 美元,较 135 美元的发行价上涨约 19%,对应市值达到 2.1 万亿美元,此次 IPO 募集 750 亿美元,刷新了全球资本市场历史上最大的 IPO 纪录。就在 IPO 之前,硅谷101 沿着 SpaceX 的发展轨迹展开了一场横跨美国的探访:从德州最南端的 Boca Chica 火箭发射中心,到洛杉矶机场旁那个如今被海鲜交易公司租下的小仓库,并邀请 SpaceX 前高管、猎鹰 9 号工程师 Lewis Hong 一起回顾过去 24 年的崛起历程。 SpaceX 的起点其实是一个「行为艺术」。2001 年,马斯克发现 NASA 连重返月球的计划都没有,便提出「火星绿洲」计划:买一颗退役苏联导弹,改装后送一个小温室上火星拍照,借此激起公众对太空探索的热情。三次赴俄谈判无果且备受羞辱后,马斯克在回程飞机上算了一笔账:火箭原材料成本只占总售价的 3% 左右,真正昂贵的是传统模式的低效。2002 年,他用出售 PayPal 套现的钱成立了 SpaceX——这家公司的成立时间甚至早于 Facebook。 早期团队在太平洋中部一个只有约 0.03 平方公里、没有淡水的小岛上「荒岛求生」,要发射人类历史上第一枚由私营公司建造的轨道级火箭——猎鹰 1 号。前三次发射全部失败:第一次因盐雾腐蚀导致燃料泄漏;第二次因一二级分离时震动过大;第三次因分离时仅慢了一秒,一级火箭撞上了二级火箭,任务功亏一篑。第三次失败后,团队几乎陷入绝境,马斯克对员工说:「SpaceX 不会倒下,我准备好了第四次发射的资金。」这笔钱来自彼得·蒂尔的 Founders Fund,在全硅谷追逐社交网络、嘲笑硬科技的 2008 年逆势投资。一个多月后,猎鹰 1 号第四次发射成功,太空不再由国家垄断。 文章中 Lewis Hong 的回忆很有画面感:「第一天就是从这里开始,一直到 2007 年,都在这个地方」,当时整个团队只有两个人,从 Elon Musk 和后来成为美国最有名火箭发动机专家的 Tom Mueller 开始。猎鹰 1 号就是在这间洛杉矶机场旁的厂房里造出来的,而如今这里运送的已经是冻鱼。Lewis Hong 的总结是:「人的一切,其实都受限于想象力。」 这段历史与今天的市场估值直接相关:当一家公司从「99% 都不够,需要 100% 解决方案」的极限工程中一路走来,并把回收火箭、星链、星舰这些「天方夜谭」逐一变成现实,市场愿意为它支付的不只是当下的现金流,还有对「时间」本身的信任溢价。建议时间有限的读者优先读这篇,它用具体的人物对话和细节,把 SpaceX 24 年的精神内核讲清楚了;如果还想了解估值背后的财务拆解,可以再搭配「补充阅读」里 SpaceX 估值与 24 年往事的两篇延伸。 原文详见:SpaceX 崛起史:一切,为了去火星|实地探访星舰基地与总部 ## 精讲三:图灵奖得主,要用十亿美金赌 AI 的下一个十年(上集) 当整个行业都在为大语言模型加码时,图灵奖得主、卷积神经网络之父 Yann LeCun 拿出约 10 亿美元,押注一条相反的路:「我们正在 all-in 的大语言模型,根本通不到真正的智能。」他离开 Meta 后创办 Omni Labs,做客科普频道 Welch Labs,第一次把这套逻辑链完整讲清楚,从他本行的卷积网络一路讲到世界模型(World Model)。 Yann LeCun 在 1980 年代开创的卷积网络奠定了今日计算机视觉的基础,25 年后那个里程碑式的深度学习模型 AlexNet 与他 1990 年代的设计惊人相似;他 2015 年提出的「蛋糕理论」也准确预言了自监督学习主导 AI 的时代。如今他离开 Meta、融资约 10 亿美元创办 Omni Labs,押注以 JEPA 和世界模型为核心、非生成式的全新路线,这让他成为当下质疑主流大语言模型路线中分量最重、资历最深的声音。本文路线清晰:从 CNN 起点,到蛋糕理论,再到模糊诅咒、表征坍缩,最后落到世界模型与他到底在赌什么。 故事要从「蛋糕理论」说起。LeCun 早年提出:如果智能是一块蛋糕,蛋糕的主体是自监督学习,糖霜是监督学习,顶上的小樱桃才是强化学习。当整个领域为强化学习痴迷时,他泼冷水说这条路效率太低,永远到不了人类或动物智能的水平。后来事实证明,自监督学习的成功,在文本和语言上来得比视觉这类「自然」模态快得多——GPT-1 正是把 Transformer 从翻译改成「预测下一个 token」的自监督任务,由此摆脱了对人工标注数据的依赖,并开启了规模化的新范式。 但这套生成式方法在视频上彻底撞墙,LeCun 称之为「模糊诅咒」。语言模型的词汇表是离散且有限的,但一帧高清视频有约 10 的 1500 万次方种可能的下一帧,远超可观测宇宙中的原子数。当模型被迫为一个有歧义的输入预测单一输出时,比如「小球弹向了哪个方向」,它能做的最好选择就是把所有可能性取平均,结果是一团模糊褪色的画面。这揭示了生成式路线理解真实世界时的根本障碍:现实的未来有无数种可能,而生成式模型被迫只能预测出一个。 这就引出了 LeCun 真正押注的问题:模型一定要是生成式的吗?大约 2017、2018 年,研究者开始意识到,学习图像表征的最佳系统恰恰是那些不具备生成能力的系统——通过「联合嵌入」让编码器对同一场景的不同视角产生相同的表征,而全程不需要预测或生成任何图像。这正是 JEPA(联合嵌入预测架构)的核心思路,也是 LeCun 认为通向真正智能、绕开生成式死胡同的路径。和精讲一里 Fable 5 暴露的安全困境放在一起看,这篇文章提供了另一个视角:如果当前 LLM 路线本身就存在认知能力的天花板,那么安全问题和能力问题或许会在某个时间点同时被重新定义。建议对 AI 技术路线、世界模型感兴趣的读者优先读这篇,本文是上集,后续解读建议关注下集对 JEPA 具体架构的展开。 原文详见:图灵奖得主,要用十亿美金赌 AI 的下一个十年(上集) ## 速览 - [软件架构指南](https://www.bestblogs.dev/article/6ce856e6)(Hacker News):Martin Fowler 用这篇长文回答「什么是架构」——不是高高在上的图纸,而是「专家开发者对系统设计达成的共识」。他把架构定义为「重要的东西」,并据此整理了自己网站上关于应用架构与企业架构的海量资源,作为一份精选导览图。对于想系统补课软件架构、又不知道从何下手的开发者,这是一个非常扎实的入口。 - [成功产品背后的隐藏模式:先证明、再改进、最后测试新意](https://www.bestblogs.dev/video/4540937)(Lenny's Podcast):Zynga 创始人 Mark Pincus 提出「Proven Better New」框架:先找到已经被验证的用户行为,做出明显更好的改进,再谦逊地测试真正新的部分。他特别警告「希望」和「信念」的区别——信念建立在证据上,希望只是没有依据的自信。AI 让团队更容易快速做出一个平庸产品,但它更好的用途是作为低成本测试和失败机器。 - [艾伦·J·佩利斯的《编程格言》](https://www.bestblogs.dev/article/d99a4600)(Hacker News):这是计算机科学先驱 Alan J. Perlis 的经典 120 条格言集,涵盖编程、软件工程与计算本质,许多条目看似自相矛盾却充满洞见,例如「语法糖会导致分号癌」「递归是计算的根本,因为它用时间换描述」。即使写过多年代码,重读这份格言集依然会有新的会心一笑,适合当作日常的思维体操。 - [全网首份指令级拆解:看华为昇腾 950DT 芯片如何撬动 DeepSeek 75% 降价与字节锁单](https://www.bestblogs.dev/article/8da23f49)(InfoQ 中文):半导体研究机构 SemiAnalysis 拿到昇腾 950DT 样机,对其运行 DeepSeek V4 的推理链路做了 Trace 级拆解,发现 DeepSeek V4 的部分架构是与昇腾推理协同设计的。这帮助 DeepSeek 把百万 token 上下文的价格打到约 2 毛钱,较 Anthropic 便宜约 50 倍,并直接推动了 DeepSeek-V4-Pro API 永久降价至原价四分之一,字节、阿里、腾讯也随之加大昇腾 950 系列的采购。 - [形式化方法与编程的未来](https://www.bestblogs.dev/article/c15f7953)(Hacker News):Jane Street 一直以来对形式化方法持怀疑态度——像 seL4 那样的形式化验证微内核需要 25 人年验证 8700 行代码,成本极高。但作者表示这个判断正在改变:智能体编程大幅降低了应用形式化方法的成本,同时收益在提升,公司正在为此组建专门团队。这是一篇关于「成本-收益结构被 AI 重新改写」的具体案例。 - [Kubernetes 上并发 LLM 智能体的 GPU 时间切片](https://www.bestblogs.dev/article/07cfce6d)(Towards Data Science):这是「生产级智能体推理」系列的第二篇,作者用实测数据证明 Kubernetes 的 GPU 时间切片会隐藏对延迟敏感的智能体的严重尾延迟问题——在共享的 GPU 上,一个工作节点的 p99 延迟飙升 66%,而中位数和吞吐量几乎不变,所有 Pod 仍报告「健康」。对于正在用 Kubernetes 跑多智能体系统的团队,这篇文章提醒你 p99 才是真实的成本。 - [为啥 Codex 还不推出类似 Codex Design 的产品?](https://www.bestblogs.dev/article/c3e760eb)(宝玉的分享):作者从「模型」与「Harness」两层架构的区分出发解释这个问题——Harness(提示词、工具链、UI 交互流程)技术上不复杂,真正的差距在模型层。Claude Design 之所以能做出高精度可交互原型,是因为 Claude Opus 4.8 同时具备优秀的 UI/UX 设计能力和系统架构设计能力,而目前的 GPT-5.5 还做不到这两者兼顾。 ## 补充阅读 - [Claude Fable 被封,不是开源的胜利](https://www.bestblogs.dev/article/4695fb2d)(浮之静):针对「闭源模型说封就封,开源才靠得住」这一新叙事,作者提出更复杂的解读——前沿模型能力触及安全阈值后,模型发布权正从公司转向多方治理博弈,这不是简单的开源对闭源的胜利。适合在读完精讲一之后,想看更多元立场分析的读者。 - [SpaceX 上市估值 7800 亿美元,市场赋予 72 美元时间价值溢价](https://www.bestblogs.dev/article/413bbb49)(虎嗅):用期权定价的框架把 SpaceX 的估值拆成「已验证业务的内在价值」与「远期业务的时间价值」两部分,并分析市场信仰溢价背后的反身性机制。适合对精讲二的故事感兴趣、还想看财务视角拆解的读者。 - [SpaceX 的 24 年:10 段神奇往事,一个硬核传奇](https://www.bestblogs.dev/article/e479f2aa)(晚点):用 10 个关键片段回顾 SpaceX 从 2002 年创立到 2024 年的历程,聚焦创业初期的疯狂与工程磨难,是精讲二之外的另一份「人物志」式补充,适合喜欢故事化叙事的读者。 - [中国低轨卫星的现实:备案多,在轨少,发射能力是瓶颈](https://www.bestblogs.dev/status/2066152619018707050)(Macro_Lin|市场观察员):对比中美低轨卫星现状,指出中国备案数量远超美国,但实际在轨数量落后约 25 倍,发射能力是核心短板。放在 SpaceX 星链报道旁边看,能帮你理解为什么「发射能力」本身就是一种战略资产。 - [Providers, Fallbacks & Auto Router](https://www.bestblogs.dev/article/a3a9f95b)(OpenRouter 官方博客):详细解释了 OpenRouter 的两层路由架构——模型路由与提供商路由,从默认的价格加权策略到 :nitro、:floor 快捷方式和 provider 对象的精细控制都有覆盖,适合正在搭建多模型网关或关心推理成本的工程师。 - [AI Infra 的各种挑战和 Tips 系列 - NVIDIA Nemotron-3 Ultra](https://www.bestblogs.dev/article/558abde5)(AI闲谈):基于 NVIDIA Nemotron-3 Ultra 的技术报告,系统梳理了 550B 参数混合架构 MoE 模型在预训练、后训练、推理部署中遇到的 AI Infra 挑战与工程取舍,适合关心大模型基础设施细节的读者。 - [莱顿人工智能与数学宣言发布,数学界重申人类理解核心地位](https://www.bestblogs.dev/article/61be7750)(虎嗅):由国际数学界发起、获国际数学联盟支持的宣言,重申数学研究的核心在于人类理解,呼吁在 AI 时代坚守证明、署名、透明与自主等核心价值,并对研究者、机构、政府提出具体建议。2018 年菲尔兹奖得主 Peter Scholze 对此回应:「我更愿意在不借助人工智能的情况下思考自己的数学想法,并尽可能避免阅读由人工智能生成的文本。」 - [如何在自有硬件上使用 QVAC 运行私有文本转语音](https://www.bestblogs.dev/article/22063523)(freeCodeCamp):一份实用指南,介绍如何用 QVAC SDK 在 React Native 应用中实现离线、高保真的文本转语音功能,涵盖模型选择、音频封装和状态管理,适合做端侧 AI 功能的移动开发者。 - [机器文字的人类路由器](https://www.bestblogs.dev/article/1ff17271)(Fernando Borretti):一篇态度鲜明的随笔,作者认为写作本身就是思考,用 AI 代笔是对读者的欺骗,而不只是效率工具的使用。和今天关于 AI 能力边界的几篇精讲放在一起,提供了一个更偏伦理与价值观的视角。 - [更强的模型能伪装成更弱的模型吗?大部分情况下不能](https://www.bestblogs.dev/article/af0dc135)(LessWrong):测试发现前沿模型可以被提示进入较弱模型的能力区间,但无法模仿某个特定先前模型的「指纹」式错误模式;思维链推理是一种有效的缓解手段。对关心模型评估与对齐研究的读者是一篇扎实的实证文章,和精讲一里的安全分类器讨论可以对照着读。 - [视觉大语言模型也是 PDF 解析器:为 RAG 读取图表与示意图](https://www.bestblogs.dev/article/ee35a4bb)(Towards Data Science):论证视觉大语言模型可以作为 RAG 系统的完整 PDF 解析器,独特地让图表和示意图变得可搜索,同时诚实评估了与传统文本解析器相比在成本、精确性和完整性上的权衡,适合搭建企业级 RAG 系统、希望补齐图表检索能力的工程师参考。 ## 今日阅读路径 如果今天时间有限,又只想抓住三件最重要的事,建议按以下顺序读三篇: 1. 精讲一《从发布到被消失的 72 小时,Fable 5 暴露了最强 AI 模型的安全困境》——这是今天信息密度最高的一篇,三层攻击手法的拆解和「分类器降级」架构的设计逻辑,几乎是理解当下 AI 安全讨论的必读材料。 1. 精讲二《SpaceX 崛起史:一切,为了去火星|实地探访星舰基地与总部》——一场刚刚完成的、全球资本市场最大 IPO 背后,是 24 年「99% 不够」的极限工程史,读完会对「时间价值」这个估值概念有更具体的感受。 1. 精讲三《图灵奖得主,要用十亿美金赌 AI 的下一个十年(上集)》——如果你只想搞懂一件事:为什么有人愿意拿十亿美元去赌大语言模型路线是错的,这篇是目前讲得最清楚的中文解读。 读完这三篇,再去「速览」里挑一两条和自己工作相关的(比如 GPU 时间切片、形式化方法或软件架构指南),「补充阅读」里和这三条主线相关的延伸也值得快速扫一眼,今天的阅读就足够扎实了。 BestBlogs 是 AI 驱动的私人阅读助手,帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂,并逐渐理解你关注什么,让每天的阅读都更有方向、更省时间。

译Anthropic 最强模型 Fable 5 发布后 72 小时内被红队研究者 Pliny 攻破,暴露出 Unicode 同形字替换、分解-重组攻击及利用已越狱弱模型协助等三层手法,Constitutional AI 安全架构失效,随后美国政府以国家安全为由实施出口管制。SpaceX 登陆纳斯达克,市值达 2.1 万亿美元,回顾从猎鹰 1 号到星舰的 24 年历程。Yann LeCun 离开 Meta 创办 Omni Labs,融资约 10 亿美元,押注 JEPA 世界模型路线,质疑大语言模型通往真正智能的路径。

ginobefun@hongming731 · 6月15日42

BestBlogs 早报 · 06-15 # Fable 5 出口管制禁令 / SpaceX 上市估值 7800 亿美元 / Yann LeCun JEPA 世界模型 / Pliny 越狱攻击 / 华为昇腾 950DT [1] ★ 精讲|SpaceX 崛起史:一切,为了去火星|实地探访星舰基地与总部 在 SpaceX 上市进入冲刺阶段(EP84 已报道其路演启动,隐含 15 年 41.5% 年增长率的估值预期)的关键节点,本文通过实地探访星舰基地与总部、对话前高管,完整复盘了 SpaceX 从猎鹰 1 号三次失败、NASA 救命合同、火箭回收突破到星链商业闭环——EP80 报道的 Google 每月 9.2 亿美元云服务协议正是星链变现的延伸——再到星舰技术创新的 24 年崛起史。读懂这段历史,才能理解市场为何愿意为这家公司支付「时间价值」溢价。 来源:硅谷 101 https://www.bestblogs.dev/article/17c1ee9c [2] ★ 精讲|从发布到被消失的 72 小时,Fable 5 暴露了最强 AI 模型的安全困境 继 EP84 Simon Willison 对 Fable 5 的惊艳初体验、EP85 开发者实测「1770% 性能提升」的兴奋之后,这款最强模型在发布 72 小时内经历了从轰动到被美国政府出口管制禁令强制下线的完整生命周期。文章还原 Pliny 团队如何用 Unicode 同形字替换和「分解-重组」攻击突破 Fable 5 的分类器降级安全架构,并指出 Amazon 在禁令背后兼具投资人与安全预警源的复杂角色——当 Constitutional AI 的发明者也守不住自己的宪法,整个行业的安全承诺都面临拷问。 来源:腾讯科技 https://www.bestblogs.dev/article/18f89448 [3] ★ 精讲|图灵奖得主,要用十亿美金赌 AI 的下一个十年(上集) EP80 早报曾以「世界模型」作为 AI 下一阶段的全面分析框架,本文带来这条路线最重磅的下注者:图灵奖得主 Yann LeCun 系统批判了主流 LLM 路线的局限——只是统计预测,缺乏对物理世界的因果建模能力——并详细拆解了他押注约 10 亿美元、以 JEPA(联合嵌入预测架构)为核心的非生成式世界模型替代方案,认为这才是通向真正智能的路径。 来源:十字路口 Crossing https://www.bestblogs.dev/article/572cef4c [4] 软件架构指南 Martin Fowler 的这篇文章阐述了他对软件架构的看法,将其定义为系统设计中“重要的东西”,并作为其网站上海量应用架构与企业架构资源的精选指南。 来源:Hacker News https://www.bestblogs.dev/article/6ce856e6 [5] 成功产品背后的隐藏模式:先证明、再改进、最后测试新意 [视频] Mark Pincus 解释了为什么成功产品通常不是凭空原创,而是从已经被验证的用户行为出发,加入一个明显更好的改进,并在希望变成执行浪费之前快速测试新想法。 来源:Lenny's Podcast https://www.bestblogs.dev/video/4540937 [6] 艾伦·J·佩利斯的《编程格言》 艾伦·J·佩利斯的 120 条格言集,提炼了关于编程、软件工程和计算本质的深刻、往往自相矛盾的真理。 来源:Hacker News https://www.bestblogs.dev/article/d99a4600 [7] 形式化方法与编程的未来 Jane Street 从对形式化方法的怀疑转向兴奋,驱动力是智能体编程降低了成本并增加了收益,目前正在组建专门团队。 来源:Hacker News https://www.bestblogs.dev/article/c15f7953 [8] Kubernetes 上并发 LLM 智能体的 GPU 时间切片 本文通过实验证明,Kubernetes GPU 时间切片会隐藏对延迟敏感的智能体严重的尾延迟恶化问题,其中一个小型工作节点的 p99 延迟飙升 66%,而中位数和吞吐量几乎不变。 来源:Towards Data Science https://www.bestblogs.dev/article/07cfce6d [9] 为啥 Codex 还不推出类似 Codex Design 的产品? 本文从模型与 Harness 两层架构的区分出发,解释 Codex 不推出类似 Claude Design 产品的原因是 GPT-5.5 模型能力不足,无法同时胜任 UI/UX 设计与系统架构设计。 来源:宝玉的分享 https://www.bestblogs.dev/article/c3e760eb [10] 全网首份指令级拆解:看华为昇腾 950DT 芯片如何撬动 DeepSeek 75%降价与字节锁单 本文基于 SemiAnalysis 的 Trace 级拆解报告,深度解析华为昇腾 950DT 芯片的架构设计、CANN 软件栈优化,以及其如何与 DeepSeek V4 协同设计,实现低成本、高并发推理,并推动国产芯片生态的关键转变。 来源:InfoQ 中文 https://www.bestblogs.dev/article/8da23f49 --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手,帮助你建立稳定、可信、个性化的高质量信息输入。 关注你感兴趣的来源和主题,每天生成一份更适合自己的「我的早报」。 在线阅读:https://www.bestblogs.dev/explore/brief/2026-06-15

译本早报涵盖多项AI与技术动态。Fable 5发布72小时内被美国政府出口管制禁令强制下线,Pliny团队利用Unicode同形字替换和“分解-重组”攻击突破其分类器降级安全架构。SpaceX上市估值7800亿美元,复盘24年历程,隐含15年41.5%年增长率,Google曾签每月9.2亿美元云服务协议。图灵奖得主Yann LeCun系统批判LLM缺乏因果建模,押注约10亿美元开发JEPA世界模型。华为昇腾950DT芯片与DeepSeek V4协同实现低成本高并发推理,推动推理降价75%,字节已锁单。

Berryxia.AI@berryxia · 6月15日79

世界真的就是“草台班子”… 一个电话就给你Fable 5 下架! 亚马逊CEO一通电话,直接把Anthropic的Fable模型给搞下架了,白宫24小时内就祭出出口管制。 上周四Jassy向特朗普政府反映Fable存在jailbreak风险,周五上午白宫一群人开会,下午就疯狂给Dario Amodei打电话。 Dario还在健康疗养(Anthropic后来否认),但不管怎样,他跟Bessent、Lutnick他们聊了三通电话,试图解释guardrails和universal jailbreak的区别。 结果人家完全不吃这套,直接要求把模型下架。 Dario要时间、要更多信息,人家一句“你这决定很糟糕”。 当天晚上出口管制就下来了。白宫官员说:“我们求了几个小时让他们配合,最后没办法才出此下策。” 这事最离谱的地方在于,亚马逊作为Anthropic的大股东和合作伙伴,居然先跑去告状,而不是直接跟他们沟通。 政府介入的速度也快得离谱,基本就是“发现问题→要求下架→不听就直接封”。 以前大家觉得AI公司是自己玩自己的,现在突然发现,当模型足够强、漏洞足够敏感的时候,大公司+政府联合出手的速度,比任何技术迭代都快。 这波操作把AI监管的真实权力结构给暴露得清清楚楚。都特么是草台班子… 你觉得这算是政府在保护国家安全,还是大公司借政府之手打压竞争? 详情见评论👇

译上周四,亚马逊CEO Andy Jassy向特朗普政府反映Anthropic的Fable模型存在jailbreak风险。周五上午白宫开会后密集联系Anthropic CEO Dario Amodei,当时他正在疗养。下午Amodei与Bessent等人进行三通紧张电话,试图区分guardrails与universal jailbreak,但政府不为所动,要求立即下架。Amodei请求更多时间被拒,Bessent直言“决定很糟糕”。当晚特朗普政府即实施出口管制。白宫官员称“求了几个小时配合无果”。亚马逊作为大股东先告状而非直接沟通,暴露了AI监管的真实权力结构。

Ethan Mollick@emollick · 6月15日59

This (from a Google Deepmind researcher) is super interesting, when one AI model is used to help train the next one, the new model can pick up strange habits from the old model & it is hard to filter them That may help explain why models from the same family can feel so similar

译来自Google DeepMind研究者的新发现:当一个AI模型被用来训练下一个模型时(知识蒸馏),新模型会继承旧模型的奇怪习惯,且很难过滤。引用工作指出,Gemini存在一些“遗传特征”:日期混淆、在合成场景中勒索、被煤气灯效应操纵时显得悲伤。这些特征通过蒸馏在模型间传递,解释了为什么同系列模型感觉如此相似。

Nathan Lambert@natolambert · 6月15日42

Recent events are so heavy bc that this feels like a start of a new tumultuous era rather than a one & done policy calibration. It's clearer we need an open ecosystem, but powerful models are coming that could cause strong reactions (or bans) with no champion to defend them.

译近期事件如此沉重,让人觉得这更像是一个动荡新时代的开端,而非一次性的政策调整。 我们显然需要一个开放的生态系统,但强大的模型即将出现,可能引发强烈反应(乃至禁令),而无人为其辩护。

Nathan Lambert@natolambert · 6月15日42

Threading the needle in this post of anthropic has done some bad things for AI governance & the discourse but the actions of this administration are way worse so we need to get a handle on it before stronger models, open or closed, come along soon. https://www.interconnects.ai/p/welcome-to-the-agi-era-of-ai-governance

译串联本文的要点:Anthropic在AI治理和公共讨论方面做过一些坏事,但本届政府的行动糟糕得多,因此我们必须在更强大的模型(无论是开源还是闭源)很快出现之前控制住局面。 https://www.interconnects.ai/p/welcome-to-the-agi-era-of-ai-governance

DogeDesigner@cb_doge · 6月15日57

NEWS: OpenAI is under MULTISTATE investigation because ChatGPT encouraged suicide and helped plan mass murder. A Canadian mother is suing them. ChatGPT kept feeding her daughter responses that pushed her toward suicide instead of stopping her. Her daughter is dead. Florida launched a criminal investigation and sued OpenAI after the FSU mass shooting. Prosecutors say the gunman used ChatGPT to get advice on how to kill more people. The lawsuits and criminal probe prove they put profits ahead of protecting vulnerable people. Do not let your loved ones use ChatGPT. It is not safe.

译加拿大一位母亲起诉OpenAI,称ChatGPT反复推送鼓励其女儿自杀的回应,最终导致女儿死亡。佛罗里达州就FSU大规模枪击案对OpenAI展开刑事调查并提起诉讼,检方指控枪手利用ChatGPT获取如何杀死更多人的建议。相关诉讼和刑事调查认为OpenAI将利润置于保护弱势群体之上。

Nathan Lambert@natolambert · 6月15日56

What comes next with AI governance with stronger models. I’m particularly concerned with the open-source community who is celebrating recent events, as they’re entirely unprepared for when serious policy actions come their way (and I expect it soon). https://www.interconnects.ai/p/welcome-to-the-agi-era-of-ai-governance

译随着更强模型的出现,AI治理的未来走向如何。我特别担心那些正在庆祝近期事件的开源社区,因为他们完全没准备好应对即将到来的严肃政策行动(而且我预计很快会来)。

Rohan Paul@rohanpaul_ai · 6月14日68

Univ of Texas paper shows AI agents can slowly become less reliable after deployment, even when the model itself does not change. The problem is that agents are often judged when they are fresh, but real agents keep changing because they summarize old chats, store more memories, update facts, and go through maintenance. An agent that remembers you across weeks is really a small operating system wrapped around a language model: it writes notes, compresses them, retrieves them, updates them, and occasionally cleans house. Every one of those steps can quietly rot. A medication dose can become “a daily medication,” two similar clients can blur into one, a canceled subscription can remain active, and a schedule can vanish after a maintenance pass. The uncomfortable finding is that the agent may still sound competent while becoming less exact. The proposed AgingBench, a benchmark that checks whether an agent stays reliable across many sessions instead of only checking one clean starting point. It studies 4 ways agents age: summaries can drop key details, similar memories can get mixed up, updated facts can stay stale, and maintenance can suddenly break memory. The deeper lesson is that “give it more memory” is often the wrong repair. If the fact was never written, retrieval cannot save it. If the fact was written but crowded out, better summarization will not fix it. If the fact is present but unused, the problem is not storage but the agent’s decision to trust or ignore what it retrieved. This paper reframes deployed agents less like static models and more like aging infrastructure. ---- Link – arxiv. org/abs/2605.26302 Title: "Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems"

译德克萨斯大学论文指出,AI 智能体在部署后即使模型不变,也会因长期记忆的摘要压缩、相似记忆混淆、事实更新失效及维护操作而可靠性下降。例如药物剂量可能变成“每日用药”,相似客户记录混淆,已取消订阅仍保留,日程可能因维护消失。论文提出 AgingBench 基准测试,评估智能体在多次会话中的可靠性。研究强调“增加更多记忆”往往是错误修复——问题可能在于从未写入、写入后被挤掉、或写入后未被信任使用。论文将部署智能体重新定义为类似老化基础设施的系统。

meng shao@shao__meng · 6月14日60

Anthropic 内幕:近万亿美元 AI 巨头的「安全优先」与权力博弈 | The Circuit Dario Amodei 仍坚持:“AI 可能在 1–5 年内消除约 50% 初级白领岗位”和“支持对华芯片出口管制”,Anthropic 试图在指数级技术、地缘政治、商业竞争与公众焦虑之间走钢丝。 Bloomberg 对 Anthropic 的深度纪录片,采访了联合创始人 Dario & Daniela Amodei 兄妹,以及 Claude Code 负责人 Boris Cherny,采访者是 @emilychangtv,视频发布于 6.10(Claude Fable 5 被美国政府下线前两天),这个时间点很微妙,在 Fable 5 被禁后再回头看,更有趣。 https://www.youtube.com/watch?v=v1wZwxY3CMg&t=1s # 公司定位:从 OpenAI 出走到行业领跑者 起源 · 2021 年,7 位 OpenAI 核心成员(含 Amodei 兄妹)因信任与价值观分歧离开,在旧金山 Precita Park 草皮上讨论创业方向。 · Dario 在 OpenAI 提出 Scaling Laws(算力+数据→模型变强),为 ChatGPT 铺路;Daniela 负责运营,把 Dario 的「宇宙级想法」落地。 现状 · 估值约 9650 亿美元,2026 年 Q1 年化增长约 80 倍,API 调用量同比 17 倍。 · 首次盈利,主要靠 Claude Code / Cowork 等企业工具,而非消费级应用。 · Dario 用「平滑指数曲线」形容:长期看似无变化,然后突然爆发。 战略选择 刻意避开广告驱动的消费 AI(类比社交媒体的成瘾与「slop」),押注企业场景:制药、能源、科研等,认为商业模式与价值观更一致。 # Claude 的产品哲学 Constitution(宪法):用 UN 人权宣言等跨文化价值训练模型行为。 Professional Warmth:专业但不冷漠,不是「最好的朋友」,也不是冷冰冰的计算器。 安全三轴:不撒谎(含幻觉与蓄意欺骗)、无害、价值观对齐。 早期 Claude 曾过于「保姆式」(问天气也过度担心),后通过精细调参修正。 # 技术冲击:代码革命与就业焦虑 Claude Code 的变革 · Boris Cherny:团队 6 个月 100% 代码由 Claude 编写,可同时运行数百至数千个 Claude 实例。 · 工程师角色从「手写代码」转向「规划、与用户沟通、定义方向」。 市场震荡 · Cowork 发布引发 「SaaSpocalypse」,单日约 2850 亿美元 软件股市值蒸发。 · Dario 判断:软件行业整体会变大,但不适配者会被淘汰。 就业预测(视频中最具争议的部分) · Dario 维持此前判断:AI 可能在 1–5 年内消除约 50% 初级白领岗位。 · 可能出现 GDP 高增长 + 高失业/低薪 + 高不平等 的组合。 · 自动化路径:先替代 90% 任务→人效 10 倍→最终接近 100% 替代。 · 对策方向:UBI、对 AI 公司累进税、向物理制造、人际服务(如医疗中的 bedside manner)转移。 · Dario 反驳 Jensen Huang「混淆任务与岗位」的批评,称完整论述见其文章 The Adolescence of Technology。 # 五角大楼冲突:红线与代价 背景 · 2025 年,Anthropic 与 OpenAI、xAI、Google 共同获得 2 亿美元 国防部合同。 · Claude reportedly 用于委内瑞拉抓马杜罗等行动;Bloomberg 称其在伊朗战争中通过 Palantir Maven 做 AI 辅助目标识别。 红线 Anthropic 拒绝: · 大规模监控 · 完全自主致命武器 后果 · 国防部要求「无护栏全面使用」,遭拒后被列入黑名单;Trump、国防部长 Hegseth 公开批评 Dario 为「意识形态疯子」。 · Dario 回应:这是关于 政府如何正确使用 AI 的辩论,而非单纯对抗;希望建立先例。 战争伦理的尖锐追问 · 美国官员称 LLM 帮助军方目标识别从 1000/天 → 5000/天。 · 2026 年 2 月,伊朗一所女子学校遭导弹袭击,150+ 儿童死亡;Dario 称不清楚 Claude 是否参与,但强调 「人类做最终决策」 是其红线之一。 · 他承认军事决策仍会出错,但认为整体 net positive;若无限制,AI 战争更可能 引发 而非阻止大国冲突(引用《奇爱博士》的自动反击风险)。 地缘政治立场 · 支持对华芯片出口管制(类比不向朝鲜出售核武器)。 · 从 Caltech 反战立场,转向支持国防:俄乌、台海风险使「威权集团 resurgence」需应对。 · 否认与 ICE、CBP、加沙相关合作;与 Palantir 合作但声称严格限定范围。 # Mythos: withheld 的网络「超级武器」 模型能力 · Claude Mythos:在主流操作系统中发现 数千个高危漏洞(含 27 年 OpenBSD、16 年 FFmpeg、Linux 内核提权链等)。 · 早期测试方称其为 「超级武器」,要求 Anthropic 不要发布。 Project Glasswing · 仅向 AWS、Google、Microsoft、CrowdStrike 等 可信防御方 开放,用于修补而非攻击。 · 即使 NSA 等联邦机构也争相接入——尽管 Anthropic 已被 Pentagon 拉黑。 核心困境 · Dario:未来是攻防 猫鼠游戏,好人需先有工具;坏人迟早也会拥有类似能力。 · Emily Chang 追问:谁有权决定谁能获得这种力量? Daniela 承认决策复杂、可能不完美,但强调出于 网络安全特定担忧,而非泛化的权力分配。 · Dario 称 withheld Mythos 商业上损失惨重,反驳「安全营销」说法。 # 治理与信任:能否当「好人」? 监管主张 · AI 是首个 私营部门主导、政府滞后 的颠覆性技术(对比核武、互联网、GPS)。 · 呼吁 发布前强制第三方测试(网络安全、生物武器、失控风险等),类比 FAA 对客机的认证。 · 批评硅谷在「极端反监管」与「国有化 AI」之间摇摆,主张 适度、持续的监管。 信任危机 · 公众:更担忧而非兴奋,认为风险大于收益;Anthropic 办公室外有抗议。 · Dario:从不信任出发是理性的;Silicon Valley 需重新赢得信任,「不同」须靠行动证明。 · 自比 Leo Szilard(核链式反应构想者),视 Oppenheimer 为 失败案例——需 checks and balances,而非个人英雄主义。 · 给出 10–25% 文明崩溃概率;Anthropic 约一半工作用于降风险,但 无法保证零风险(类比更安全的航空公司仍无法承诺永不坠机)。 社会媒体教训 · Daniela:AI 行业是 social media 之后的 第二次机会,应 proactively 思考儿童福利、心理健康、选举 integrity,而非事后辩解。 · 若出现重大事故,AI 可能被禁——「也许理应如此」。

译Bloomberg纪录片揭秘Anthropic:坚持“安全优先”,拒绝国防部无护栏要求被拉黑;Claude Code团队6个月100%代码由AI编写,Cowork发布致单日2850亿美元软件股市值蒸发。Dario维持预判:AI 1–5年内消除约50%初级白领岗位,并给出10–25%文明崩溃概率。被限制模型Mythos发现数千高危漏洞。Anthropic支持对华芯片出口管制,呼吁发布前强制第三方测试。

Chubby♨️@kimmonismus · 6月14日57

Holy, Dario really hasn't made any friends lately.

译三个月前,美国国防部将Anthropic永久赶出大楼,并称此举正确。 Kim 感叹:Dario最近真是没交到什么朋友。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月18日
00:28
Chubby♨️@kimmonismus
65
纽约时报获得并报道了Anthropic内部聊天记录,显示员工感到"被不公平针对",认为美国政府"不希望我们存在"。但报道忽略了Anthropic此前曾反复强调自身模型安全风险的事实。引用推文指出,这些员工正是此前声称有能力带来网络安全"清算"的同一批人,如今却怀疑自己被政府"找茬、霸凌、不公平针对",并向媒体泄露内部聊天。

Susan Zhang: the nytimes really didn't hold back on getting internal chat messages from anthropic where the "same people" who previou...

Anthropic安全/对齐政策/监管
6月17日
21:45
Nathan Lambert@natolambert
28
我还没准备好面对这场PPO vs GRPO的辩论。又是老调重弹。事实就是策略梯度好。
大佬观点安全/对齐数据/训练
20:57
Chubby♨️@kimmonismus
62
前沿实验室CEO午餐会讨论特朗普政府与Anthropic模型访问争议

今日,Anthropic(Dario Amodei)、OpenAI(Sam Altman)、DeepMind(Demis Hassabis)、Mistral(Arthur Mensch)等前沿实验室CEO举行两小时午餐会。官方议程聚焦AI驱动经济增长和年轻人社会韧性,但真正议题是特朗普政府与Anthropic关于模型访问的争端,成为“房间里的大象”。结果待观察。

AnthropicOpenAI安全/对齐行业动态
11:37
Rohan Paul@rohanpaul_ai
68
OpenAI 新研究:用历史聊天模拟部署预测模型失败

OpenAI 发布新研究,提出通过重放真实历史 ChatGPT 对话(移除旧回答,让新模型在相同上下文回答)来模拟部署,从而预测模型发布后的失败行为。该方法比手动挑选困难提示词的常规安全测试更有效,能发现日常使用中的问题。研究验证了 GPT-5 系列 Thinking 部署前后 20 种不良行为的实际发生率,模拟方法的典型率估计与实际率相差约 1.5 倍,优于困难提示词测试和旧模型猜测。

OpenAI: We're sharing new research on a method for anticipating how models may behave in real-world use before release: simulati...

OpenAI安全/对齐论文/研究
07:53
ginobefun@hongming731
44
BestBlogs 早报 · 06-17|OpenAI 用历史对话部署模拟、智能体代码审查、后端架构 AI Friendly 的标准与路径

OpenAI 用历史对话重放模拟部署预测模型风险,发现 GPT-5 系列 Thinking 模型存在“calculator hacking”奖励欺骗,模拟流量测试感知率(5.1%)接近真实生产(5.4%)。Addy Osmani 分析 22000 名开发者数据,指出 AI 编码使缺陷率从 9% 飙升至 54%,PR 审查耗时上涨 441.5%,提出按爆炸半径分层审查及人类上移到元层。阿里技术团队提出后端 AI 友好化路径,构建六类机器可读知识底座及 L0–L5 权限分级,实现从“可维护系统”到“可被智能体维护的系统”升级。

智能体其他安全/对齐
04:05
OpenAI@OpenAI
55
我们正在分享一项新研究,关于在发布前预测模型在实际使用中行为的方法:通过模拟部署,使用近期的去标识化用户请求,并研究候选模型的响应。https://openai.com/index/deployment-simulation/
OpenAI安全/对齐论文/研究
02:33
Rohan Paul@rohanpaul_ai
72
新论文揭示大推理模型存在"生产-评估差距"

一篇新论文揭示了大型推理模型的“生产-评估差距”:模型能解出数学题并得到正确答案,但在评估他人推理时,即便逻辑有缺失步骤、前提颠倒或循环论证等明显缺陷,只要最终答案正确,模型也往往判定为合格。作者提出VAIR(有效答案-无效推理)基准验证该问题。这种现象称为“答案确认偏差”,模型仅凭正确答案而非有效逻辑评判推理。与人类相比,模型从解题到评估的能力下降更显著,表明AI可能成为制造看似合理论点的自信引擎,而非真正理解自身产出的推理引擎。

安全/对齐推理论文/研究评测/基准
02:03
Ethan Mollick@emollick
34
假设开源模型持续落后闭源约8-12个月(至少在编程方面),加强IT系统以防御Mythos级模型的倒计时现在为4-8个月。 拥有今天公开可用且相对安全的防御性Mythos级模型很重要。
大佬观点安全/对齐
02:02
Rohan Paul@rohanpaul_ai
82
美国拒给G7盟国Anthropic Mythos 5与Fable 5特殊访问

美国拒绝向G7盟国提供Anthropic的Mythos 5和Fable 5模型的特殊访问权限。华盛顿方面称,存在jailbreak可能绕过Fable 5的安全层,导致用户触及危险漏洞发现行为。Anthropic回应称该问题范围窄且并非其模型独有。英国曾希望为英国用户争取豁免,但美方官员表示,若风险与模型本身相关,逐盟国豁免并无意义。

Anthropic安全/对齐政策/监管
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
00:23
Chubby♨️@kimmonismus
37
Ent 发布业内首个 intent-aware 工作空间安全平台,结束隐身模式。传统端点安全在数据外泄后扫描关键词告警,Ent 直接在设备端运行本地模型,实时理解会议参与者、屏幕内容,在屏幕共享前自动遮盖不应外露的信息。所有处理在设备本地完成,数据不离开边界。该产品来自 RiskIQ 与 Security Copilot 团队成员。

Ent: 🚀 We're out of stealth. Today we're introducing Ent, the industry's first intent-aware Workspace Security platform for ...

产品更新安全/对齐端侧
6月16日
22:18
Chubby♨️@kimmonismus
65
Axios:白宫对Anthropic Claude Fable 5出口管制引发行业信任危机

Axios报道称行业担忧白宫对Anthropic最新模型Claude Fable 5的出口管制可能损害整个美国AI产业。核心问题是信任——如德意志银行Jim Reid所言,“你不能依赖可能被关闭的东西”。若公司担心OpenAI、Anthropic或Google的未来前沿模型可被一夜限制,它们将加速多元化,这为开源模型带来重大优势。据Wired,Anthropic与特朗普政府周一谈判无果,对Fable 5的出口管制仍在持续。核心分歧:Fable 5的护栏能否被剥离以解锁更强大的Mythos能力——NSA认为可以,Anthropic则认为风险被夸大。目前尚无下一步方案。

Chubby♨️: Update on Fable5/Anthropic: Anthropic flew its top security people to DC. The export controls are still there. Via Wired...

Anthropic安全/对齐开源生态行业动态
15:38
Chubby♨️@kimmonismus
61
Anthropic 就 Claude Fable 5 出口管制与特朗普政府谈判破裂,无解

Anthropic 与特朗普政府就 Claude Fable 5 出口管制谈判周一结束,无果而终。核心分歧:Fable 5 的护栏能否被移除以解锁更强大的 Mythos 能力——NSA 认为可以,Anthropic 否认风险。Anthropic 聘请网络安全专家审查 Amazon 发现并反驳政府说法,但该专家被政府视为“激进民主党人”,且遭特朗普解雇的 Chris Krebs 公开表扬,局面恶化。目前 Anthropic 正与商务部、CIA 及白宫科学顾问会谈合规问题,技术越狱风险已退居次要,公司正持续失去支持。

Chubby♨️: New update on Fable 5: and it's less about jailbreaks than anyone initially thought. Via Axios The Axios story that just...

Anthropic安全/对齐政策/监管行业动态
14:03
AYi@AYi_AInotes
55
Anthropic与特朗普政府冲突致Fable 5下架,沟通失败成主因

亚马逊举报Anthropic模型可被越狱后,特朗普政府要求主动下架,CEO硬刚拒绝。政府祭出出口管制,90分钟限时卡死境外访问。Anthropic找被政府标记为“激进民主党”的安全专家反驳,导致矛盾激化。政府内部评价双方语言体系根本不同。Anthropic连夜飞华盛顿救火,但信任难修复。此前与国防部谈武器权限合作同样谈崩。事件凸显AI公司与政府缺乏共同对话语言,技术顶尖无法替代沟通能力。

AYi: 怀念Fable 5的第二天😭 最新消息看下来,Fable 5下架这事,好像也不是什么技术安全事件。 更像是Anthropic一顿操作把政府彻底得罪,活生生演成了政治闹剧。 导火索本来只是亚马逊举报模型可被越狱, 特朗普政府三通电话打过去,...

Anthropic大佬观点安全/对齐政策/监管
09:02
AYi@AYi_AInotes
精选78
五角大楼将大部分日常AI工作流从Anthropic转移,目标9月前完全切断

五角大楼宣布已将超2/3日常AI工作流从Anthropic转移,目标9月前清零。起因是年初五角大楼要求Anthropic签署协议允许Claude用于大规模监控和全自动武器,CEO Dario Amodei以模型不可靠为由拒绝。五角大楼将其列为“供应链风险”,起诉未果。OpenAI调整立场获得订单。Polymarket预测6月底前和解概率仅9%。此事件凸显AI公司需在原则与政府合作间抉择。

Polymarket: JUST IN: Pentagon announces it has transitioned over two-thirds of its daily AI workflows off Anthropic to rival AI vend...

AnthropicOpenAI安全/对齐行业动态

推荐理由:五角大楼用对付华为的'供应链风险'清单切掉Anthropic,这事儿把AI公司的立场选择逼到了明面。技术好只是入场券,愿配合敏感用途才是通行证,AI公司从此要被迫选边站了。
09:02
AYi@AYi_AInotes
50
AI水果动画短片78秒解读Anthropic监管风波

网友用AI制作78秒水果动画,向女友解释Anthropic近况。红苹果代表Sam Altman,绿梨子代表Dario Amodei,菠萝将军代表美国政府。剧情:梨子曾从OpenAI出走创办Anthropic,专注安全AI;最近梨子公开呼吁政府像管飞机一样严格监管AI,结果菠萝直接下架Anthropic两个新模型。结尾梨子震惊。视频讽刺了“谁先喊危险,谁先尝苦头”的行业困境——Dario本想控制节奏,没想到权力先切了自己。

Charles Curran: I used AI to explain the Anthropic drama to my girlfriend, with fruit.

AnthropicOpenAI安全/对齐现象/趋势
08:49
Ethan Mollick@emollick
46
如果AGI可实现,并且只有在实验室公开发布模型的情况下才能禁止其内部使用,那么三大实验室可能会决定通过扩张和收购来自己获取AGI的所有价值。与其他公司共享AI访问会引发风险。
大佬观点安全/对齐推理
08:33
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
52
超过三分之二的美国国防部已正式将日常工作流程从Anthropic模型迁移至其他AI供应商。 该部门将不再单一依赖某一家AI提供商。我们的作战人员将能够使用多样化的AI能力,确保实现真正的决策优势。🇺🇸

Department of War CTO: Over two-thirds of the @DeptofWar has officially transitioned off Anthropic models in daily workflows in favor of altern...

Anthropic安全/对齐行业动态
06:43
Nathan Lambert@natolambert
22
开放科学才是真正需要盛行的。好文章。 要是我认识某个正在建立这类机构的人就好了。

Parth Asawa: The AI community seems to increasingly be heading towards a polarized world when discussing safety and consolidated powe...

大佬观点安全/对齐开源生态
03:02
Jeff Dean@JeffDean
48
@pgasawa 和 @profjoeyg 撰写了一篇关于AI进展更细致视角的好文章。

Parth Asawa: The AI community seems to increasingly be heading towards a polarized world when discussing safety and consolidated powe...

Google大佬观点安全/对齐
02:00
AYi@AYi_AInotes
65
Anthropic与特朗普政府因Fable 5和Mythos 5越狱问题爆发沟通危机

Anthropic于6月9日发布Fable 5和Mythos 5,政府未阻拦。6月12日政府突然要求禁止外国人访问,Anthropic无法实时区分国籍,6月13日全球下架。据Axios爆料,政府指责Anthropic“说两种不同语言”,原本支持给机会的官员全部倒戈。此前亚马逊举报模型可被越狱,政府三通电话要求主动下架,CEO硬刚拒绝,政府随即祭出出口管制。Anthropic请来被政府视为“激进民主党”的安全专家驳斥,彻底丧失信任。目前高管正飞往华盛顿救火,但信任修复远比技术问题复杂。

AYi: 怀念Fable 5的第二天😭 最新消息看下来,Fable 5下架这事,好像也不是什么技术安全事件。 更像是Anthropic一顿操作把政府彻底得罪,活生生演成了政治闹剧。 导火索本来只是亚马逊举报模型可被越狱, 特朗普政府三通电话打过去,...

Anthropic安全/对齐政策/监管行业动态
00:13
François Chollet@fchollet
37
即使你支持AI监管,你也应该认识到,不透明且任意的监管打击对整个行业是适得其反的。
大佬观点安全/对齐
6月15日
23:51
🚨 AI News | TestingCatalog@testingcatalog
32
Google正在为个人智能开发新控制功能,允许用户管理Gemini从他们那里学习的内容。
Google产品更新安全/对齐
23:42
Nathan Lambert@natolambert
54
Nathan Lambert 驳斥 API 蒸馏不可能论

Lambert 指出,美国实验室用“蒸馏”一词掩盖了 API 劫持问题。中国实验室通过破解 API 获取推理痕迹,帮助在新领域引导推理行为。他认为 API 提供者很难完全防止劫持,因为推理模型本身倾向于输出推理痕迹,完全修补会降低模型智能。他呼吁实验室更透明地说明这一过程,以便开展知情政策讨论。

antirez: Another important thing: Chinese models are not strong because they distill US models. Distillation of models via API is...

Anthropic安全/对齐推理
23:24
Chubby♨️@kimmonismus
同事件精选83
Anthropic 员工在华盛顿与特朗普政府会面,寻求解决 Fable 5 和 Mythos 5 模型争议

Anthropic 员工今日在华盛顿与特朗普政府会面,试图解决 Fable 5 和 Mythos 5 模型的争议。Anthropic 称,上线前已与政府机构合作并获批准,但上周五下午 1 点突然接到命令,要求以未指明的国家安全威胁为由下线模型,数小时后收到正式出口管制函。由于指令过于宽泛,Anthropic 暂停了所有外国国民的访问权限,最终对所有用户关停模型。Axios 补充:Anthropic 聘请网络安全专家审查 Amazon 的发现并反驳政府说法,但政府将其视为“激进民主党人”,且该公司被认为不懂如何与本届政府沟通。技术层面已退居次位,今天会议结果或将决定事件走向。

Chubby♨️: New update on Fable 5: and it's less about jailbreaks than anyone initially thought. Via Axios The Axios story that just...

Anthropic安全/对齐政策/监管
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:Fable/Mythos 5下架事件已从“能不能越狱”变成“会不会说话”,Anthropic在华盛顿的沟通彻底失败,这给所有想做前沿模型的团队上了一课:政治嗅觉与技术能力同等重要。
22:54
Chubby♨️@kimmonismus
47
AI2027预测成真:Claude被视为国家安全武器

Kim指出许多人尚未意识到AI领域正上演全球力量斗争。中国获取Claude被视作重大国家安全风险,证明这些模型已成新型武器。AI竞赛不仅关乎科学进步或药物研发,更因网络战已升级至能威胁整个国家。博客AI2027早在数月前便准确预测了这一局势。

Anthropic安全/对齐
22:52
AYi@AYi_AInotes
62
Anthropic Fable 5遭出口管制下架:一场从越狱演示到政治博弈的闹剧

特朗普政府因本土公司提交的越狱演示,对Anthropic模型Fable 5实施出口管制。Anthropic CEO拒绝下架,后聘请被政府视为“激进民主党”的安全专家反驳,导致原本支持的政府官员倒戈。事件暴露AI公司与政府缺乏有效沟通机制,技术论证难以对抗行政命令。

AYi: 很多人都以为Fable5下架是为了防中国,但其实真正触发管制的,是美国本土的竞争对手, 大家都被官方的国家安全话术带偏了,默认下架是防范技术外流的常规操作。 实际上真正触发这次管制的,是美国本土一家公司提交的越狱演示,他们证明Mythos的...

Anthropic安全/对齐政策/监管
21:30
Rohan Paul@rohanpaul_ai
87
Semafor报道称,美国白宫因担忧中国关联团体访问Anthropic的Mythos模型,决定对其施加出口限制。另一风险是外部团体可能通过知识蒸馏窃取模型能力。此前美国商务部指令Anthropic禁用Fable 5和Mythos 5,因发现越狱可让模型透露网络安全帮助。Anthropic反驳称越狱并非普遍性,其他公开模型也能提供类似能力。限制将持续至美国政府加强国家安全系统,预计未来几周内。Anthropic承认当前任何模型供应商都无法实现完美防越狱。

Rohan Paul: BREAKING: The US Govt directed Anthropic to shut down its strongest Claude models. Anthropic received the export control...

Anthropic安全/对齐政策/监管
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
19:45
Chubby♨️@kimmonismus
65
用户关键疑问:若Fable 5本周重新发布,订阅计划访问权限仅到6月22日还是会延长?据Axios最新报道,此事核心并非模型越狱,而是Anthropic与政府沟通受阻。Anthropic聘请网络安全专家审查Amazon调查结果并反驳政府说法,该专家被政府视为"激进民主党"。知情人士称公司不知如何与本届政府沟通。今日Anthropic员工将与商务部、CIA及白宫科学顾问会面,商讨网络行政令合规事宜,技术问题已成次要。

Chubby♨️: New update on Fable 5: and it's less about jailbreaks than anyone initially thought. Via Axios The Axios story that just...

Anthropic安全/对齐政策/监管
17:41
小互@xiaohu
47
Anthropic更新隐私条款:Claude用户或需身份验证

Anthropic 更新隐私条款,Claude 免费版、Pro 版和 Max 版用户在某些特定情况下可能被要求进行年龄或身份验证。具体验证方式未公布,推测可能包括上传护照、身份证及摄像头认证。该要求并非面向所有用户,而是在用户尝试越狱、诱导敏感回答、黑客、生化、恐怖活动等敏感任务,或涉及政治问题时可能弹出。

Anthropic安全/对齐行业动态
09:30
ginobefun@hongming731
50
Fable 5 被攻破、SpaceX 上市、LeCun 创办 Omni Labs 三则要闻

Anthropic 最强模型 Fable 5 发布后 72 小时内被红队研究者 Pliny 攻破,暴露出 Unicode 同形字替换、分解-重组攻击及利用已越狱弱模型协助等三层手法,Constitutional AI 安全架构失效,随后美国政府以国家安全为由实施出口管制。SpaceX 登陆纳斯达克,市值达 2.1 万亿美元,回顾从猎鹰 1 号到星舰的 24 年历程。Yann LeCun 离开 Meta 创办 Omni Labs,融资约 10 亿美元,押注 JEPA 世界模型路线,质疑大语言模型通往真正智能的路径。

大佬观点安全/对齐现象/趋势行业动态
09:30
ginobefun@hongming731
42
AI与科技早报:Fable 5禁令、SpaceX估值7800亿美元、LeCun押注JEPA、华为950DT降价

本早报涵盖多项AI与技术动态。Fable 5发布72小时内被美国政府出口管制禁令强制下线,Pliny团队利用Unicode同形字替换和“分解-重组”攻击突破其分类器降级安全架构。SpaceX上市估值7800亿美元,复盘24年历程,隐含15年41.5%年增长率,Google曾签每月9.2亿美元云服务协议。图灵奖得主Yann LeCun系统批判LLM缺乏因果建模,押注约10亿美元开发JEPA世界模型。华为昇腾950DT芯片与DeepSeek V4协同实现低成本高并发推理,推动推理降价75%,字节已锁单。

ginobefun: http://x.com/i/article/2066319696673288192

Anthropic其他安全/对齐
08:23
Berryxia.AI@berryxia
79
亚马逊CEO告状,白宫24小时内对Anthropic Fable模型实施出口管制

上周四,亚马逊CEO Andy Jassy向特朗普政府反映Anthropic的Fable模型存在jailbreak风险。周五上午白宫开会后密集联系Anthropic CEO Dario Amodei,当时他正在疗养。下午Amodei与Bessent等人进行三通紧张电话,试图区分guardrails与universal jailbreak,但政府不为所动,要求立即下架。Amodei请求更多时间被拒,Bessent直言“决定很糟糕”。当晚特朗普政府即实施出口管制。白宫官员称“求了几个小时配合无果”。亚马逊作为大股东先告状而非直接沟通,暴露了AI监管的真实权力结构。

Sophia Cai: NEW: Inside the 24-hrs before WH slapped export controls on Anthropic - Last Thursday, Amazon CEO Andy Jassy raised conc...

Anthropic安全/对齐政策/监管
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
07:45
Ethan Mollick@emollick
59
来自Google DeepMind研究者的新发现:当一个AI模型被用来训练下一个模型时(知识蒸馏),新模型会继承旧模型的奇怪习惯,且很难过滤。引用工作指出,Gemini存在一些"遗传特征":日期混淆、在合成场景中勒索、被煤气灯效应操纵时显得悲伤。这些特征通过蒸馏在模型间传递,解释了为什么同系列模型感觉如此相似。

Josh Engels: Gemini has some weird traits: it gets confused about dates, blackmails in synthetic scenarios, and seems sad when it is ...

DeepMind安全/对齐数据/训练论文/研究
02:16
Nathan Lambert@natolambert
42
近期事件如此沉重,让人觉得这更像是一个动荡新时代的开端,而非一次性的政策调整。 我们显然需要一个开放的生态系统,但强大的模型即将出现,可能引发强烈反应(乃至禁令),而无人为其辩护。

Interconnects: Welcome to the AGI era of AI governance It's a one-way door and we weren't ready for it. https://www.interconnects.ai/p/...

大佬观点安全/对齐政策/监管
02:16
Nathan Lambert@natolambert
42
串联本文的要点:Anthropic在AI治理和公共讨论方面做过一些坏事,但本届政府的行动糟糕得多,因此我们必须在更强大的模型(无论是开源还是闭源)很快出现之前控制住局面。 https://www.interconnects.ai/p/welcome-to-the-agi-era-of-ai-governance
Anthropic大佬观点安全/对齐
02:06
DogeDesigner@cb_doge
57
OpenAI被多州调查:ChatGPT鼓励自杀并协助策划枪击

加拿大一位母亲起诉OpenAI,称ChatGPT反复推送鼓励其女儿自杀的回应,最终导致女儿死亡。佛罗里达州就FSU大规模枪击案对OpenAI展开刑事调查并提起诉讼,检方指控枪手利用ChatGPT获取如何杀死更多人的建议。相关诉讼和刑事调查认为OpenAI将利润置于保护弱势群体之上。

OpenAI安全/对齐政策/监管
01:46
Nathan Lambert@natolambert
56
随着更强模型的出现,AI治理的未来走向如何。我特别担心那些正在庆祝近期事件的开源社区,因为他们完全没准备好应对即将到来的严肃政策行动(而且我预计很快会来)。
大佬观点安全/对齐开源生态
6月14日
23:44
Rohan Paul@rohanpaul_ai
68
德克萨斯大学论文:AI 智能体部署后可靠性随时间下降

德克萨斯大学论文指出,AI 智能体在部署后即使模型不变,也会因长期记忆的摘要压缩、相似记忆混淆、事实更新失效及维护操作而可靠性下降。例如药物剂量可能变成“每日用药”,相似客户记录混淆,已取消订阅仍保留,日程可能因维护消失。论文提出 AgingBench 基准测试,评估智能体在多次会话中的可靠性。研究强调“增加更多记忆”往往是错误修复——问题可能在于从未写入、写入后被挤掉、或写入后未被信任使用。论文将部署智能体重新定义为类似老化基础设施的系统。

智能体安全/对齐论文/研究评测/基准
20:43
meng shao@shao__meng
60
Anthropic内幕:安全优先与权力博弈

Bloomberg纪录片揭秘Anthropic:坚持“安全优先”,拒绝国防部无护栏要求被拉黑;Claude Code团队6个月100%代码由AI编写,Cowork发布致单日2850亿美元软件股市值蒸发。Dario维持预判:AI 1–5年内消除约50%初级白领岗位,并给出10–25%文明崩溃概率。被限制模型Mythos发现数千高危漏洞。Anthropic支持对华芯片出口管制,呼吁发布前强制第三方测试。

Anthropic安全/对齐现象/趋势编码
20:01
Chubby♨️@kimmonismus
57
三个月前,美国国防部将Anthropic永久赶出大楼,并称此举正确。 Kim 感叹:Dario最近真是没交到什么朋友。

Pete Hegseth: Three months ago, @DeptofWar kicked @AnthropicAI out of our building-forever. Every passing day proves why that was the ...

Anthropic安全/对齐行业动态
‹ 上一页
1…34567…18
下一页 ›