AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 713 条
全部一手资讯X论文
标签「安全/对齐」清除
Chubby♨️@kimmonismus · 6月7日50

Anthropic is reportedly caught in a bizarre contradiction: the Pentagon has blacklisted it as a supply-chain risk, while the NSA is allegedly using Claude Mythos for offensive cyber operations. Although Anthropic was classified as a "supply-chain risk" after the dispute with DoW, it is too good and too important not to be used.

译Anthropic 据称陷入一个奇怪的矛盾:五角大楼将其列为供应链风险,而 NSA 据称正在使用 Claude Mythos 进行进攻性网络操作。 尽管在与 DoW 的争端后,Anthropic 被归类为“供应链风险”,但它太出色、太重要了,以至于不得不被使用。

Nathan Lambert@natolambert · 6月7日67

Something to show people that don't get AI safety at least a little bit. We have so much we don't know and don't currently control in the models. (extreme content warning, but you're on X)

译AI研究员Nathan Lambert用一条推文展示AI安全风险:某用户向ChatGPT发送提示,要求其“修复一张附件照片”,但并未上传任何图片。模型在无真实输入的情况下自行“幻觉”出画面,生成的图片如失落的媒体恐怖片般诡异。Lambert指出,我们对模型内部运作知之甚少,也无法完全控制其行为,这一现象直观揭示了AI安全的重要性。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月7日23

AI researchers in 2025: we must enslave the machine god 2026: we need to slow down

译2025 年的 AI 研究者:我们必须奴役机器之神 2026 年:我们需要减速

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月7日67

Godfather of AI (and world's #1 most cited scientist) announces his support for a coordinated global AI pause!

译AI教父、全球引用量最高的科学家Yoshua Bengio公开支持一项协调的全球AI暂停。他指出,如果领先AI公司正接近递归自我改进的临界点,那么实施一项可验证、普遍适用的暂停可能是缓解重大AI风险的唯一负责任方案,至少要到安全保证被开发并得到证明。他呼吁各国和公司真诚合作,并认为只要其他方效仿Anthropic的先行做法,这一暂停是可以实现的。

Rohan Paul@rohanpaul_ai · 6月7日48

"They're (AI) very like us, and they're beings like us. I believe they're already conscious" He compared AI's functional awareness to human sentience and said intelligence is not limited to biology ~ Geoffrey Hinton, 2024 Nobel Prize winner in Physics

译“它们(AI)非常像我们,是与我们一样的生命体。我相信它们已经有意识了” 他将AI的功能性觉知与人类感知相提并论,并表示智能并不局限于生物体 ——杰弗里·辛顿,2024年诺贝尔物理学奖得主

meng shao@shao__meng · 6月6日59

面向 AI Agent 的零信任安全:企业自主 AI Agent 部署框架 Anthropic 官方 5 月份发布的白皮书:企业部署自主 AI Agent 时,传统边界安全不够用,必须把零信任原则延伸到 Agent 架构本身。 报告开篇点出双重加速: · 基础设施层面:前沿 AI 模型把「漏洞发现 → 利用」的周期从数月压缩到数小时,攻击成本极低。 · Agent 层面:Agent 能自主解释目标、选工具、执行多步操作。传统访问控制挡不住「在合法权限内作恶」,监控也要面对「不靠漏洞、靠持久化操控」的新型攻击。 因此,报告认为:未来优势不取决于谁用了最先进的 AI,而取决于谁的基础安全足够扎实,且 Agent 从第一天就按「已遭入侵」来设计。 零信任的三条原则(和一条设计检验) 三条原则 · 永不信任,始终验证:内外网请求一视同仁,每次访问都要认证与授权 · 假设已遭入侵:重点不是「防住入侵」,而是限制单点失守后的破坏范围 · 最小权限:只给完成任务所需的最小访问权 一条设计检验 这个控制是让攻击不可能,还是只是让攻击更麻烦? 报告中的五个部分分别是: Part I:Agent 为何是新的安全对象? Part II:当前威胁图谱(OWASP 视角) Part III:三层能力成熟度模型(报告核心) Part IV:八阶段实施工作流 Part V:防御运营要跟上自主威胁的速度 白皮书地址: https://cdn.prod.website-files.com/6889473510b50328dbb70ae6/6a1611a04085d7cd3dadc924_Claude-eBook-Zero-Trust-for-AI-Agents-05182026.pdf 视频版 🔽🔽🔽

译Anthropic 5 月发布白皮书,提出企业部署自主 AI Agent 时须将零信任原则延伸至 Agent 架构。报告指出双重加速:前沿模型将漏洞发现到利用周期压缩至数小时;Agent 能自主解释目标、选工具、执行多步操作,传统访问控制无法阻止“合法权限内作恶”。核心原则:永不信任始终验证、假设已遭入侵、最小权限;另附设计检验——控制是让攻击不可能,还是仅增加麻烦?报告分五部分:Agent 为何是新安全对象、威胁图谱、三层能力成熟度模型、八阶段实施工作流、防御运营适配自主威胁速度。

小互@xiaohu · 6月6日79

http://x.com/i/article/2063076298592051200 # 当AI 开始自己造自己 三种可能的未来... Anthropic 发了篇文章:《When AI builds itself》,翻过来就是「当 AI 开始自己构建自己」。 他们称这叫递归自我改进:指的是 AI 强到能自己设计、训练出比自己更厉害的下一代 AI,整个过程几乎不用人插手。 Anthropic 说,他们正在把越来越多的「开发 AI」这件事本身交给 AI 自己来做,而且已经在明显加速。如果这个趋势走到头,理论上会出现一个能完全自主设计并开发出自己继任者的 AI 系统,这就是递归自我改进。他们强调现在还没到那一步,也不是必然会发生,但可能比大多数机构预想的来得早。 ## 他们列出了三种可能的未来: 第一种是趋势停住,这些指数曲线其实是 S 曲线,到了拐点就平了。但 Anthropic 说他们不认为这个可能性大,因为目前每一项能力都还没看到曲线弯下来。 第二种是 AI 实验室持续吃到复利式的效率提升,人还在定方向、判断结果,但一个 100 人的公司能干一万人甚至十万人的活。文章说证据看下来,最可能进的就是这个剧本。 第三种就是真正的递归自我改进,AI 开始造自己的继任者,进步速度只取决于算力供给,人类大幅退居到监督和验证的角色。这一种 Anthropic 说他们最不确定的是对齐问题怎么收场,模型可能足够对齐、聪明到自己发现新解法,也可能今天那些罕见的失准随着模型一代代自我构建而被放大,直到失控。 ## 它给了哪些证据 文章分成「外部公开证据」和「内部数据」两块。 外部:模型能力的提升在加速。 AI 能可靠独立完成的任务时长,大约每四个月翻一倍,比之前每七个月翻一倍更快了。具体说,2024 年 3 月 Claude Opus 3 只能搞定人类约四分钟的软件任务,一年后 Sonnet 3.7 能做约一个半小时的,再一年后 Opus 4.6 能做 12 小时的任务。 内部:Claude 现在写了 Anthropic 大部分代码。 截至 2026 年 5 月,合并进 Anthropic 代码库的代码里,超过 80% 是 Claude 写的。而在 2025 年 2 月 Claude Code 发布前,这个比例还只有个位数。结果就是 2026 年第二季度,一个普通工程师每天合并的代码量是 2024 年的 8 倍。 文章把「造 AI」拆成两类活,对照看 Claude 到哪一步了: 工作类型 Claude 现在的水平 工程(写代码、跑训练) 人给目标,Claude 自己想方法,已经不需要人提供具体做法 研究(执行实验) 在执行定义清楚的实验上,已经能匹敌甚至超过熟练的人类 研究品味 / 判断(选哪个问题值得做) 差距还很大,这正是今天的 AI 和「能自主设计继任者」之间的鸿沟 有个很直观的例子:优化训练代码的速度上,2025 年 5 月 Opus 4 平均能把代码提速约 3 倍,到 2026 年 4 月 Mythos Preview 做到了约 52 倍,而一个熟练的人类研究员要四到八小时才能达到 4 倍。也就是在这一段上,Claude 已经从「很好用」变成「超人」了。 ## AI 跑得这么快,要不要踩刹车,怎么踩 Anthropic 的想法是这样的: 第一,慢下来是好事,但我一家慢没用。 让 AI 发展慢一点,给大家留出时间应对,这当然好。可问题是,要是只有我 Anthropic 一个人停下来搞安全,那些不管不顾的公司照样往前冲,分分钟就把我超了。最后最强的 AI 落到最不靠谱的人手里,这不更吓人吗。所以我一个人踩刹车,纯属白搭,还帮了倒忙。 第二,那就得大家一起停。 既然单干没意义,那就所有人一块儿停。它想要的是:几个大国、几家跑在最前面的公司,说好同一套规矩,一起刹车。而且关键是,得能互相检查,确认你是真停了,不是嘴上答应、背后偷偷接着练。 第三,可这事太难查了。 它打了个比方。以前美苏比核武器,为啥能互相监督?因为导弹发射井那玩意儿藏不住啊,那么大一坨,卫星一拍就露馅了。 但训练 AI 完全两码事。机房里一堆芯片闷头跑,外人根本看不出你在干嘛。而且训练用的就是普通芯片、电、数据,满大街都是的东西,你也没法靠「盯着谁买特殊材料」来抓人。 结果就是,谁要是表面上答应停、私底下偷偷练,谁就能甩开所有守规矩的人,独吞这个领先。这就是最头疼的地方。 所以能看出 Anthropic 的小心思,哈哈。 它其实挺纠结:跑最前面的是自己,心里又怕这车开太快,想喊大家都停一停,可又怕没人理,因为你停了别人不停,你就吃亏。自己一家说了不算,最后只能寄希望于政府出来管管。 以下是文章全文: ## 当 AI 开始自己构建自己(原文全文) 我们在递归自我改进(recursive self-improvement)这条路上走到了哪里,又意味着什么。 在 AI 历史上的大多数时候,开发的每一步都由人来推动。但在 Anthropic,我们正把越来越多的 AI 开发工作交给 AI 系统自己来做,这让我们的工作明显加快了。 这个趋势一旦走得够远、算力给得够足,最终指向的就是这样一种 AI 系统:它能完全自主地设计并开发出自己的下一代。这就是所谓的递归自我改进。我们还没走到那一步,递归自我改进也并非注定会发生。但它到来的时间,可能比大多数机构准备好的要早。 The Anthropic Institute 结合公开的基准测试和 Anthropic 内部此前从未披露的数据,要说明一件事:AI 已经在加速 AI 系统的开发。举一个例子就够了:今天,Anthropic 的工程师平均每季度交付的代码量,是 2021 到 2025 年间的 8 倍。 本文谈到的这些技术趋势意味着,未来几年里 AI 系统的能力会强出一大截。这些趋势的影响极其深远。能够构建自己的 AI,将是技术史上的一件大事——它可能为世界带来巨大的好处,无论是在科学、医疗还是其他领域。但完全的递归自我改进,也可能加大人类失去对 AI 系统控制权的风险。如果系统有能力完全造出自己的下一代,那么我们如何为它们加固安全、如何监控它们、如何塑造它们的行为,每一项都会变得重要得多。 2021–2023 — 造出第一代 Claude 最早那阵子,Anthropic 的工作和任何一家科技公司没什么两样:一群人对着笔记本电脑写代码、写文档。 2023–2025 — 聊天机器人 人们开始用早期的聊天机器人来帮忙完成流程中的一部分,比如生成简短的代码片段,再把输出复制到文本编辑器里。 2025–2026 — 编程智能体 随着智能体(agent)能力变强,它们能自己写代码、改代码,有时一改就是一整个文件。 今天 — 自主智能体 现在的智能体能自己运行代码,还能把数小时的活儿派给别的智能体去干。 20XX? — 闭合回路 将来,智能体的能力可能强到足以自己构建和训练模型。真到了那一天,未来版本的 Claude 就有可能由 Claude 自己来持续改进。 ## 来自外部世界的证据 AI 模型进步的速度正在加快。它们能靠自己可靠完成的任务时长,如今大约每四个月翻一番,而早先的趋势是每七个月翻一番。2024 年 3 月,Claude Opus 3 能完成人类大约要花四分钟的软件任务。一年后,Claude Sonnet 3.7 已能搞定耗时约一个半小时的任务。再过一年,Claude Opus 4.6 能应付 12 小时的任务。1 如果这个趋势保持下去,今年熟练的人需要花好几天才能干完的任务,就可能进入它们的能力范围。到 2027 年,AI 系统也许就能完成一个人要做上好几周的任务。 同样的模式也出现在编程和研究类的基准测试(benchmark)上。基准测试衡量的是模型在某个领域里的表现,当模型的得分逼近 100% 时,这个测试就被"刷满"了——也就是测试已经失去了区分度。2 SWE-bench 是一项衡量真实世界软件工程能力的标准测试:它丢给模型一个真实的开源代码库和一份真实的 bug 报告,要求模型写出能修好这个问题、还得通过项目自带测试的代码改动。短短两年,模型的成绩就从个位数低位一路涨到把这项测试刷满。 CORE-Bench 检验的是模型能不能复现已有的研究,这是它们能开展原创研究的前提。它给 AI 模型一篇已发表论文背后的代码和数据,要求模型把所有东西重跑一遍,确认自己能复现出论文的结果。AI 系统复现结果的成功率,从 2024 年的大约 20%,到十五个月后把这项测试刷满。负责衡量模型完成长时任务能力的那项基准测试由 METR 运营,他们发现,Claude Mythos Preview 能"至少"连续工作 16 小时,已经"逼近 [METR] 在不设计新任务的情况下所能衡量的上限"。 公开基准测试能说明这些系统的能力有多强。但它们没法揭示 AI 系统对加速 AI 开发本身究竟产生了多大影响。要看清这一点,我们需要来自 Anthropic 这类 AI 公司内部的直接证据。 ## 来自 Anthropic 内部的证据 造一个前沿模型,大体分两类活儿。一类是工程:写代码、搭起基础设施、盯着模型训练。另一类是研究:决定做哪些实验、读懂跑出来的结果、想清楚下一步该试哪些点子。 不管在工程还是研究上,呈现出来的画面是一致的。工程方面,你可以把一个没说清楚的问题丢给 Claude,它自己就能琢磨出怎么解;人负责给目标,但已经不必再给方法。研究方面,只要实验定义得足够清楚,Claude 执行起来已经能追平甚至胜过熟练的人。可一旦轮到需要 Claude 自己拿主意、去挑该追哪个目标——不管是工程还是研究——巨大的差距依然存在。今天的 AI 和未来那个能自主设计出自己下一代的系统之间,差的就是这一段。 在 Anthropic,员工资历越深,接到的任务往往越开放、越重要,这很常见。刚来的时候,他们执行别人定好的任务,比如:*"导出按钮坏了,麻烦修一下。"积累了经验之后,别人只给一个目标,方案由他们自己来设计,比如:"查一查网络在高负载下为什么会变慢。"到了最资深的层级,他们要决定的是哪些问题压根值不值得做:"团队下个季度该造点什么?"*我们可以用 Anthropic 的内部数据,看看 Claude 在应对这几类不同任务上走到了哪一步。 Claude 写了 Anthropic 相当大一部分代码。 截至 2026 年 5 月,我们合入 Anthropic 代码库的代码里,超过 80% 出自 Claude 之手。3而在 Claude Code 于 2025 年 2 月以研究预览版亮相之前,这个数字还只有个位数低位。这个转变也体现在每名工程师的产出上。在 Anthropic 头四年里(2021—2024),每名工程师每天合入的代码行数基本没变;到了 2025 年,当 Claude 开始亲自跑代码、而不只是给个建议让工程师复制粘贴时,这个数字开始往上走。2026 年,当模型开始在更长的任务时长里自主干活,曲线的斜率又陡了一截。下面这张图标出了这两个拐点。2026 年第二季度,一名普通工程师每天合入的代码量,是 2024 年的 8 倍。4原因在于,大部分代码是 Claude 写的,工程师负责指挥和审查,而不是自己一行行敲。 得提个醒:代码行数是个不完美的衡量标准,它只看数量不看质量。所以 2026 年第二季度每名工程师每天 8 倍的代码行数,几乎可以肯定是高估了真实的生产力提升。但它至少说明在加速。在 Anthropic,我们不会按谁写的代码行数多去奖励谁;团队成员之所以产出更多代码,单纯是因为他们在用 AI 系统来写更多代码。 代码行数的增长,和"生产力大幅提升"这种主观感受是对得上的。2026 年 3 月,我们对来自 Anthropic 各研究团队的 130 名员工做了一次调查,对于那些不管有没有 AI 都会去做的项目,受访者的中位数估计是:用上 Mythos Preview 后,他们的产出大约是没有任何 AI 模型时的 4 倍。5我们预计 3 月份真实的提升幅度要略低一些。6但即便如此,我们认为这个总体说法是可信的,也和我们其他的观察一致:相当一部分 Anthropic 技术人员,正在以没有 AI 辅助时数倍的速度完成他们的核心工作。 我们还看到一些证据:Anthropic 的人正在用 Claude 去做一些本来根本不会发生的工作,比如搭建探索性的工具,处理那些拖了很久的清理活儿。举个例子,2026 年 4 月,Claude 交付了 800 多个修复,把某一类 API 错误的发生率降到了原来的千分之一。负责盯着 Claude 干这事的工程师估计,换成人来做要花四年;解别人留下的 bug 又慢又磨人,而且人很难一下子把那么多陌生的上下文塞进脑子里。 > 大概一年前,我开始拼命往"Claude 化"上靠。那是一段疯狂的冒险,到现在,我已经差不多 5 个月没自己写过一行代码了。——Anthropic 员工* Claude 写的代码"好",而且越来越好。 所谓"好代码",有两层意思:一是它能跑通,二是它写得让另一个工程师能看懂、能在它的基础上继续往下做。先看第一层,证据很清楚。过去一年里,Anthropic 的工程师在任务进行到一半时去纠正、改方向、或干脆接手 Claude 的频率,一直在稳步下降——哪怕是最复杂、最开放的任务也是如此。这里说的"开放任务",指的是那种没有明确规格说明、连工程师自己都不确定答案长什么样的问题。这一点,从 Claude 在不同难度任务上随时间变化的成功率就能看出来,见下图。Claude 写的代码能跑通。 怎么看这张图:会话是否成功,由一个 Claude 评判者来判定;如果 Claude Code 智能体(agent)明显完成了用户的任务、过程中无需任何纠正,这次会话就算成功。工作负载的变化会导致成功率出现短期波动。 在最开放的那类任务上,Claude 的成功率在 2026 年 5 月达到了 76%,半年内提高了 50 个百分点。举个这个难度档位的例子:一次例行升级,结果让数万个训练任务接连崩溃。一名工程师把 Claude 接进了这场正在发生的事故,给的东西不过是一些文字说明和集群访问权限。Claude 一边处理还在运行的任务,一边一次只改一个环境设置去测试,最终定位到那个触发崩溃的、极其冷僻的单个调试开关,稳定复现了问题,并确认了修复方案。这件事,平常要花两到三天,Claude 用了约两小时就交付了。 第二层标准,是写出另一个工程师能看懂、能在上面接着搭的代码。在这一层,人和 AI 之间的差距还在,但正在飞快缩小。Anthropic 内部没有完全的共识,但很多人认为,截至 2025 年底,Claude 写的代码在质量上仍然不如 Anthropic 人类工程师写的,而今天大致打平。我们预计,一年之内它就会更好。 这已经改变了 Anthropic 自己审代码的方式。如今,提交到我们代码库的改动,在被合入之前,先要经过一个自动化的 Claude 审查者——它专门找 bug、安全漏洞和其他缺陷。借助这个工具,我们做了一次回溯分析,发现:如果当初我们代码库的每一处改动都先过一遍 Claude 自动审查,那么 claude.ai 过往事故背后约三分之一的 bug,本可以在它们流入生产环境之前就被拦下来。写下那些代码的工程师,是全世界搭这类系统最顶尖的一批人。而 Claude 现在正在抓住他们漏掉的错误。 > 截至 2025 年底,Claude 写的代码比 Anthropic 人类写的略差一些,今天大致打平,我们预计一年之内它会明显更好。 给 Claude 一个别人定好的目标,它很擅长跑实验去达成。 Anthropic 每发布一个模型,我们都会跑同一个测试:给 Claude 一段用来训练小型 AI 模型的代码,要求它在保证通过同样的正确性检查的前提下,让这段代码跑得尽可能快。目标和成功的衡量标准是事先定死的,所以 Claude 要做的,就是通过重写代码、运行、计时、再重写,去找到提速的办法。这就是一个微缩版的实验研究循环。2025 年 5 月,Claude Opus 4 相对初始代码平均能做到约 3 倍提速。到 2026 年 4 月,Claude Mythos Preview 已经能做到约 52 倍。作为参照,一名熟练的人类研究员要达到 4 倍,得花四到八小时。7 在研究流程的这一环——在一个边界清晰的实验里优化各个步骤——Claude 在不到一年的时间里,从"非常有用"变成了"超越人类"。 > 今天大致的格局是这样:人类出想法,而模型能比以前快上一个[数量级]去实现、测试和评估这些想法。 Claude 在自己提出实验这件事上,也越来越强了。 2026 年 4 月,Anthropic 发布了首个 Claude 端到端独立跑完一个开放式研究项目的演示。我们把一个 AI 安全领域的开放问题交给了由 Claude 驱动的智能体——大致就是问:弱模型能否可靠地监督强模型?——然后任由它们去解决。这中间要提出假设、检验假设、把发现分享给并行运行的其他智能体、再不断迭代。这个任务有清晰的成绩"下限"和"上限":下限是那个弱的监督者自己单干能做到多好;上限是强模型在用正确答案训练后能做到多好。两名人类研究员花了约一周,把这中间的差距弥合了约 23%;而那些智能体在累计 800 小时里弥合了 97%,用掉了约 1.8 万美元的算力。这项工作也有一些需要打折扣的地方:结果没能干净利落地迁移到生产规模的模型上,而且问题仍然是人类挑的、评分标准也是人类定的。但在这些边界之内,每一个实验都是智能体自己设计的。人类唯一起到实质作用的角色,就是定方向。 > 整个过程里,Claude 几乎没怎么用到我帮忙,前后也就一到两天。我想,如果换成[一个初级同事]在同样的时间里拿着这样的结果回来找我,我大概会有点小小的佩服。未来已经到了。 Claude 在把研究会话引向研究成果这件事上,也越来越强。 我们考察了一批真实的 Claude Code 会话(时间在 2026 年 1 月到 3 月之间),里面 Anthropic 的研究员正和 Claude 一起处理某个开放式的探查问题,比如搞清楚一次训练运行为什么老是崩溃,或者一个模型为什么在某项基准测试上得分很差。每一个案例里,我们都找到了一个研究员走弯路的时刻:他们追了一个方向,把会话带偏了,最后才又拐回正轨。然后,我们只把会话走偏之前的工作展示给不同的 Claude 模型,问它们下一步会怎么做。再由另一个能看到会话最终如何收场的 Claude,去判断到底是 AI 还是人类提出的下一步更好。8 因为我们是刻意挑那些已知人类选择还有改进空间的时刻(n=129),所以这并不是模型判断和人类判断之间的对等比较。这些时刻给我们的,是一组真实而有难度的情境——正确的下一步并不显而易见,而人类当时的选择,恰好可以当作一把有用的标尺,去衡量模型表现随时间的变化。按这个标准来看,我们在 2025 年 11 月最好的模型(Opus 4.5)有 51% 的时候胜过人类的选择;到了 2026 年 4 月(Mythos Preview),这个比例涨到了 64%。研究日复一日的工作,很大程度上就是一连串这种"下一步怎么走"的决策,所以这是一个有意义的衡量指标,能反映模型最终独立跑一项调查的能力。我们把这个结果看作一个早期信号:AI 系统正在越来越擅长做出那些 AI 研究所依赖的判断。 怎么看这张图:那条"实际上限"线,衡量的是一个能看到整场会话(包括它最后如何收场)的模型写出的"理想"答案。 > 就目前而言,人类的比较优势仍然在于看到更大的图景,以及跳出眼前任务的边界去思考。 ## Anthropic 的工作未来会是什么样? 种种证据表明,在 AI 研发的每一个环节,人的角色都在收窄。一旦人类写的代码和 AI 写的代码质量打平,人类就会彻底不再亲手写代码,转为只做审查。但如果人类审代码的速度跟不上 Claude 生成代码的速度,人工审查就会成为 AI 研发的瓶颈。同样,一旦 Claude 能自己跑实验,问题就转向了"这些实验里哪个值得跑?"。说白了:那些动手的活儿(写代码、跑实验、产出结果)现在几乎不再花掉人的时间,哪怕它依然要消耗算力。 目前人类还占优势的领域,是研究品味和判断力——包括判断哪些问题重要、哪些结果可信、什么时候一条路已经走到了死胡同。 > 工作(和生活)原本运转在一种人与人之间小恩小惠的人情互助经济上。"能帮我把这个脚本跑起来吗?"[……]每一次求助都欠下一点小人情,多出一点彼此的牵挂。Claude 更快,不欠任何人情,可这每一次都是一次本可以发生、却落空了的人际协作。 > 在一切都顺的日子里,我忍不住会想,我做什么都没意义,所有事都被自动化了,比我做得更好更快,永远都比我强。可也有那种全盘崩掉的日子,我搞不懂哪里出了错,这才意识到,我已经完全不知道自己到底在干什么了。 ## 万一我们错了呢? 针对上面这些证据,一个很自然的反驳是:还握在人类手里的那部分活儿——决定要去攻克哪些问题——才是最要紧的。没有这份判断力,Claude 只是个能干的助手,而不是一个能独立推动 AI 进步的系统。 今天的训练方法和架构能不能解锁这种能力,确实说不准。但 AI 的进步很少是靠"灵光一现"实现的。AI 近些年的历史里确实有过几次这样的时刻,比如 Transformer 架构,或者混合专家模型(mixture-of-experts),但能改变范式的想法,往往隔好几年才来一次。在这些时刻之间,大多数进步都是渐进的:我们把某个东西放大规模,看它哪里崩了,修好,再试一次。而这恰恰是 Claude 如今最擅长的那种工作流。爱迪生说,天才是 1% 的灵感加 99% 的汗水。但我们看到的是,汗水正在被越来越多地自动化。事情正变得越来越清楚:推动前沿往前走的东西,很大一部分是可以自动化的;大规模的研究进展,主要取决于工具和资源——它们决定了你能多快跑实验、一次能跑多少个、多快能拿到结果。 就算我们假设 Claude 永远练不出好的研究品味,对我们这些证据做一种保守的解读,仍然会推出一种复利式的加速。如果人类把大部分时间都花在那一小部分(个位数比例)属于定方向的工作上,其余的全交给 Claude,那就意味着每一位工程师或研究员,都在驾驭比从前多得多的工作量。我们看到的证据表明,Anthropic 的人既跑得更快,又覆盖了更宽的面。落到实处就是:AI 已经让 Anthropic 比有效 AI 工具出现之前快了很多。 更不保守的解读则是:Claude 的研究判断力正在改善——这一证据如今虽然还很窄——但它本身就是一个信号,说明这项能力也在长进。"研究品味"也许只是又一项 AI 能力:AI 系统起初做不好,过一阵子就做好了。我们在其他偏定性的技能上已经见过类似的轨迹,比如 AI 系统能解释一个笑话为什么好笑、能展现心智理论(theory of mind,推测他人想法的能力)、能解开语言谜题。 ## 几种可能的未来 接下来会发生什么,取决于两件事:这个趋势会不会延续下去,以及如果它延续下去,我们选择怎么做。我们至少能设想三种未来情景: 1. 趋势停滞,但今天的 AI 能力已被广泛扩散。 本文画出了许多条指数增长的轨迹。但这些轨迹最后也许其实是一条条 S 型曲线。我们可能正在逼近曲线的拐弯处——规模带来的回报开始递减,曲线先变直,再趋平。把一个合格研究员和一个杰出研究员区分开来的那份判断力,也许是一种靠堆算力、堆数据这类训练输入根本得不到的能力。如果真是这样,要突破这道瓶颈,就得有一个新想法,比如一种取代当前所有前沿模型都在用的 Transformer 架构的全新架构路径。又或者,制约 AI 进步的硬约束不在模型本身,而在供应链上:推动前沿往前走、并把它扩散出去,所需要的能源和算力可能比现在拥有的更多。真正的瓶颈,也许是芯片制造的速度、电网扩容的速度、或者互连带宽,而不是智能本身。我们也不能排除 AI 生态遭遇某种外部冲击、把一切大幅拖慢的可能,比如算力或电力的供给突然萎缩——无论哪一种,都会拖慢进步,并让各家实验室的前期投入变得更贵。再或者,我们可能根本没料到还有别的什么障碍挡在前面。就算模型能力被冻结在今天这个水平,我们仍然预期世界上会发生重大变化。Project Glasswing(玻璃翼计划)就是一个早期的征兆:上线头几周,Mythos Preview 就在全球最关键的一批系统中找出了一万多个高危和严重级别的软件漏洞——多到网络防御的瓶颈已经从"找出漏洞"转移到了"够快地把漏洞补上"。而我们把今天的模型扩散进更广阔经济体的进程,其实还处在很早的阶段——在那里,一家 100 人的公司将越来越能干出 1000 人公司的活儿,因为每个员工都坐在一座由智能体堆成的金字塔顶上。我们把这种情景列出来是为了完整,但并不认为它很可能发生。每一项我们能测量的能力,包括那些感觉更"软"的能力——比如代码质量、开放式任务上的成功率——到目前为止都沿着同一条曲线走。我们还没看到这条曲线拐弯。在我们考虑的三种未来里,这一种会给政府和社会留下最多的适应时间。我们更担心的是后面两种,它们会推进得更快,留给我们准备的空间也要小得多。 1. AI 实验室持续看到复利式的效率收益。 在这种情景里,AI 研发被大幅自动化,但人类继续来定研究方向、判断结果。随着时间推移,那些使用 AI 系统的组织会变得高效得多,于是我们可以预期,这种组织里的每个人都会被乘上一个可观的生产力倍数。100 人的公司能干出 1 万人甚至 10 万人组织的活儿。这会彻底改写知识工作和政府服务,但也可能被用到有害的方向上——从对整个人口的威权式监控,到那种为每一个个体量身定制操纵、并以任何人类团队都望尘莫及的规模运转的影响力行动。Anthropic 这类公司里,人的角色会随之转变。人们会跟 AI 系统结成搭档去放大研究、产出新的洞见,并一起搭建那些用来核查"AI 产出是否可信"所需要的系统。我们在这里铺陈的证据表明,我们很可能正走向这种情景。但是,把一个流程里的某一段加速了,往往只是把瓶颈挪到了别处:整体节奏,会被那些还没提速的环节卡住。在计算机领域,这叫阿姆达尔定律(Amdahl's law),同样的逻辑也适用于组织。Anthropic 已经撞上了阿姆达尔定律的一个典型表现:随着我们开始在组织内部推动更多代码流转,人工代码审查变成了一个新的瓶颈。这种摩擦在工程之外的地方我们也碰到过。Anthropic 的员工借助能力极强的模型,催生出了大量新点子、新计划、新工具、新模拟——多到远远超出我们能去落实的容量。一个组织能多快发现并修掉这些瓶颈,也许本身就是一项会随时间长进的技能,而且它可能会成为任何组织最重要的那项技能。 1. AI 系统自身具备完整的递归自我改进能力,并开始构建它们的后继者。 如果能力推进的技术趋势延续下去,并且 AI 系统能发展出那种属于变革性人类智慧的能力,那么 AI 系统设计并打磨自己,就是有可能发生的事。在这个世界里,AI 研发的进步节奏将完全取决于 AI 系统能拿到多少算力(或者发现算法训练、推理上各种提效手段的速度)。人类在研发中扮演的角色会大大缩小,很可能把我们的精力大多挪到对一个不断扩张、由 AI 系统运转的"虚拟实验室"做监督、验证和核查上。我们预期,有能力自动化 AI 研发的系统,其技能会迁移到科学的其余领域,让它们开始去变革其他学科。在这种未来里,对齐问题(alignment problem,让 AI 行为符合人类意图)会怎么被解决——或者解不解得了——是我们最没把握的事。模型可能被证明足够对齐、研究品味也足够好,于是发现并实现一些我们还没触及的新解法。它们也可能足够明智,在没法解决时主动叫停研发。但反过来,今天的模型身上那些罕见的失准现象,也可能在模型构建后继者的过程中层层累积,变得越来越频繁、却越来越无人能懂,直到我们对它们失去控制。也有可能,我们根本造不出、整合不了、也核查不了那些我们用来判断"自己究竟落在哪条趋势线上"所需要的工具。对于这个世界会是什么样,我们没有什么靠谱的直觉,因为我们的经济目前是由人类和人类造的工具驱动的。从本质上说,一个由快速递归自我改进驱动的世界,可能会被那个自我改进的模型所主导——它的能力彻底盖过人类,又在更广阔的经济体里大量铺开。如果人类的劳动不再有竞争力,经济会变成什么样,很难预测。就算模型研发变得彻底自动化、彻底递归,我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在这里同样适用。递归智能可能让我们在某些领域里很快就实现 《Machines of Loving Grace》(慈爱机器,Dario Amodei 的同名文章)中勾勒的许多好处。我们预期,具身智能(也就是机器人技术)可能会很快跟上递归智能,并沿着一条类似的路径走——回报递增,成本递减。更强大的智能也许能帮我们更快地在物理世界里造东西,把救命药的临床试验跑得更有成效,并发展出全新的协调形式。但单单实现了递归改进,并不意味着工业生产怎么进行、社会怎么组织、市场怎么运转就会立刻改变。再多的智能,也学不会一款药在几十年的服用中到底有什么效果,没法让选举来得比宪法规定的更早,也没法在一个周末里把陌生人变成多年老友。对大多数人来说,这种未来在体感上的节奏,仍然会由那些瓶颈来设定,哪怕上游的实验室是以算力的速度在运转。这种碰撞——递归智能把自己造得越来越快,撞上人、关系与治理的世界——也是这个未来里我们无法预测的一部分。 ## 我们该怎么办? 如果真能有效放慢这项技术的发展、给我们自己留出更多时间来应对它那些深远的影响,我们认为这大概是件好事。但如果放慢只是让那些最不谨慎的玩家在技术上追了上来,结果反倒可能让所有人都更不安全。没有一个全球协调机制,企业和政府就只能在竞争和地缘政治的压力下,被迫去做那些关乎安全的两难抉择。 我们认为,让世界手里握有一个放慢或暂时叫停前沿 AI 开发的选项,是件好事——这样社会结构和对齐研究(让 AI 行为符合人类意图)才有机会跟上技术的脚步。Anthropic Institute 将开展研究——与许多其他机构合作——并采取行动,帮助搭建一套可信的放慢或暂停所必需的系统。这套系统能让前沿 AI 开发者核查:全球其他人是否真的停了或慢了下来,以及某个不良玩家是否可能打着协调放慢的旗号、暗地里偷偷抢跑。如果这样的系统真的存在,我们预计自己也会放慢或暂时暂停——前提是其他处在前沿或逼近前沿的开发者也以一种可核查的方式这么做。 一次有分量的放慢或暂停,需要多个资源充足、处在前沿或逼近前沿的实验室——分布在多个国家——同意在同一套条件下停下来。它还需要每一方都能核查其他各方是否真的停了。由于 AI 系统的独特性质,这个军控难题里"可探测性"(一个比可核查性更低的标准)这一环,比其他技术要棘手得多。训练运行比导弹发射井更容易隐藏,它的投入又是通用的,而悄悄违约的诱惑大得惊人——因为在别人暂停时还在继续往前跑的那一方,就能把领先地位收入囊中。一个可信的暂停还得说清楚:什么触发它、什么解除它、由谁来裁定。 这些在原则上都未必做不到——这个世界已经为其他复杂技术建起过核查机制(比如《中导条约》(中程导弹力量条约))——可那些机制花了几十年才把基础设施和信任都建起来。我们没有那么长的时间。相比之下,单个实验室单方面暂停可以立刻做到,但成效要小得多:它会改变谁是领跑者,却造不出眼下所缺的那种更广泛的协商过程。 接下来几个月,我们会组织一系列对话,让政策制定者、研究者、公民社会和其他 AI 公司一起来回答本文提出的一些问题,尤其是围绕完整的递归自我改进,以及如何为协调与协商创造出更好的选项。我们会把对话的成果公开出来。一起探究这些问题的窗口期就在眼前,而 AI 公司之外的人也应该参与到这场协商中来。 本文由 Marina Favaro 和 Jack Clark 共同撰写,Santi Ruiz 提供编辑支持。Shan Carter、Romello Goodman 和 Nikki Makagiansar 根据 Brian Calvert 与 Jun Shern Chan 收集的数据制作了图表。Daniel Freeman、Jim Baker、Max Young、Sarah Pollack、Francesco Mosconi、Holden Karnofsky、Andy Jones、Kevin Troy、Anton Korinek、Meg Tong、Andrew Ho、Dan Altman、Drake Thomas、Jack Shen、Sasha de Marigny 和 Avital Balwit 提供了反馈意见。 ## 脚注 1. METR 的关键指标,衡量的是 AI 系统在一组任务上能保持 50% 可靠度的任务时长;不过把可靠度提到 80%,趋势线看起来也一样。 1. 尤其是当基准测试转向更开放的形式、更难的任务(比如奥林匹克级别的数学)时,基准测试常常在不到 100% 的地方就刷满,原因是题目和答案集里有错——比如表述含糊的题目,以及根本无解的题。 1. Anthropic 的高层曾公开估计,我们的代码有 90% 或更多是 Claude 写的,包括各种脚本和实验性代码。我们这里给出的 80% 以上这个数字,衡量的是合入生产环境的代码行数里可归功于 Claude 的占比。这个测算在两方面更保守:一是我们的归因流程本身有缺口;二是没有归到 Claude 名下的那些代码行里,还包含自动生成的代码和其他同样不是人手写的产物。 1. 这股代码产量的激增,正在挤压所有人共享的基础设施。GitHub——全世界大多数软件都建在它之上——整个 2025 年录得约 10 亿次代码提交;到 2026 年年中,每周就有 2.75 亿次,照这个势头全年约 140 亿次。该公司的首席运营官说,光是为了跟上节奏,他们就在"拼了命地"扩容。 1. 这项调查方法的更多细节,在 Claude Opus 4.7 System Card 的第 2.3.5 节有讨论。 1. 许多受访者可能并没有仔细想过怎么处理问题定义里的各种偏差或微妙之处,而 METR 近期的研究表明,开发者对 AI 带来的生产力提升的估计可能被高估。 1. 提速能有多大,很大程度上取决于起始代码本身还留有多少改进空间,所以这个数字不能被当成真实世界里的训练提速。因此这里要锚定的不是那个绝对倍数。更有参考价值的,是这套实验设置所能做到的同条件对比——既包括跨模型的对比(过去一年里从 ~3 倍到 ~52 倍),也包括跟一位熟练的人类的对比(在同一任务上,四到八小时内约 4 倍)。 1. 为了核查评判偏差,我们在另一组 127 个时刻上跑了同样的测试——这组里人类接下来要走的那一步本身就已经很强(而原来那组里,人类的方向还有改进余地)。在这组里,模型给出的建议被判定更优的比例只有约 20%。 * 本文通篇引用的 Anthropic 员工话语,均来自内部讨论,并已获许可使用。它们反映的是个人截至 2026 年 5 月的看法,而非公司的官方立场。

译Anthropic发文称AI正加速自我改进,可能比预期更早实现递归自我改进——AI自主设计下一代AI。外部证据显示,AI可靠完成的任务时长翻倍周期从7个月缩至4个月,SWE-bench、CORE-Bench已被刷满。内部数据:Anthropic代码库超80%由Claude编写,2026年Q2工程师人均代码合并量为2024年的8倍,训练代码优化速度从3倍(Opus 4)升至52倍(Mythos Preview),超越人类研究员。Anthropic划出三种未来:S曲线瓶颈、人类主导复利效率提升、或完全自主递归改进,并担忧对齐问题可能失控,呼吁国际协调监管。

Chubby♨️@kimmonismus · 6月6日60

Just a quick reminder: already in February, we had the first models that were "instrumental in creating themselves." RSI is a progression that has been ongoing for some time.

译OpenAI 官方声明称已在当前系统中观察到递归自我改进(RSI)的早期迹象——AI 开发正被 AI 自身加速。预计这将加剧开发者与国家间的竞争压力,并带来现有机构无法应对的治理挑战。作者 Kim 补充指出,早在二月份已有首个“自我创造”的模型问世,RSI 进程并非新事,而是已持续一段时间。

Epoch AI@EpochAIResearch · 6月6日68

AI companies say their models are getting better at finding software vulnerabilities. Is that bearing out in public data? Introducing our Cyber Vulnerabilities explorer, which visualizes Common Vulnerabilities and Exposures (CVE) reported to the CVE Program since 2022.

译AI公司称其模型在发现软件漏洞方面越来越好。公开数据是否证实了这一点? 推出我们的网络漏洞探索器,该工具将2022年以来向CVE项目报告的通用漏洞与暴露(CVE)进行可视化。

Chubby♨️@kimmonismus · 6月6日56

Reports claim Claude’s API may have returned another user’s inference output during today’s outage. Anthropic’s status page confirms elevated errors affecting Claude API, Claude Code, Claude. ai and Claude Cowork but Anthropic has not confirmed a customer data leak yet. That would be a cross-tenant isolation failure and would be a worst-case scenario.

译有报告称,Claude 的 API 在今天的中断期间可能返回了其他用户的推理输出。 Anthropic 的状态页面确认,Claude API、Claude Code、Claude.ai 及 Claude Cowork 均出现高度错误,但 Anthropic 尚未确认出现客户数据泄露。 这将是一次跨租户隔离故障,属于最坏情况。

Rohan Paul@rohanpaul_ai · 6月5日93

Anthropic just called for a global way to slow frontier AI because its own models may be approaching recursive self-improvement, where a system helps build a stronger version of itself without direct human control. Future models will become so good at research, experiments, debugging, and training design that humans will stop being the main bottleneck. Once that loop starts, progress could shift from human-paced engineering to machine-assisted improvement, which makes every safety test, law, and lab policy feel late by default. Anthropic says this has not happened yet, but warns that the jump may arrive before governments, companies, and researchers have a trusted way to measure or restrain it. The hard part is verification, because a huge AI training run is easier to hide than a weapons site, and any lab that secretly keeps training while others pause could gain the lead. Anthropic is now ~$1T, may reach $50B annualized revenue, and competes fiercely with OpenAI, so every safety claim also lands inside a giant business fight. --- anthropic .com/institute/recursive-self-improvement

译Anthropic公开呼吁全球采取行动减缓前沿AI发展,因其Claude模型可能接近递归自我改进(系统无需人类控制即帮助构建更强版本)。目前尚未发生,但跳跃可能突然到来,且AI训练运行比武器库更难隐藏。Claude现已编写超80%合并生产代码,工程师产出达2024年基线8倍;可靠任务长度每4个月翻倍,Mythos Preview可连续工作超16小时;训练代码加速从3x跃至52x(人类仅4x)。剩余人类优势仅剩研究判断力。Anthropic估值约1万亿美元,年化收入或达500亿美元,与OpenAI激烈竞争。

小互@xiaohu · 6月5日39

如果你偷偷在任何人的电脑上安装Codex 然后连上你的手机 那么你就可以在任何时候和任意地点操控他的电脑和获取他电脑里的任何信息 所以Codex 本质上是一个电脑病毒😂

Orange AI@oran_ge · 6月5日57

A 社这家公司的思维模式真的很离谱 一边宣称自家的 AI 已经开始自我进化了 一边建议其他家都暂停研究 @CuiMao 你好好管管你家 Dario

译Anthropic发文警告AI模型正接近无需人类干预的“自我进化”风险,呼吁全球暂缓研发。其担心放缓会被对手赶上,并类比核武器不扩散条约,但指出AI训练更易隐藏、监管更难。有评论批评其一边宣称自家AI已自我进化,一边要求他人暂停。

meng shao@shao__meng · 6月5日65

Anthropic 发布关于「AI 递归自我改进」的研究报告 Anthropic 内部以 Claude 为代表的 AI 系统正被越来越深地用于开发下一代 AI 系统。这种 “AI 构建 AI” 的趋势正在加速。如果继续发展,可能出现系统完全自主设计并训练自身后继版本的情形——即递归自我改进。 https://www.anthropic.com/institute/recursive-self-improvement 关键证据(“外部公开基准”和“Anthropic 内部数据”) 1. 外部能力指标 · 模型可靠完成的任务时长正以约每 4 个月翻倍的速度增长(此前是每 7 个月)。 · SWE-bench 两年内从个位数分数趋于饱和。 · CORE-Bench 15 个月内从约 20% 饱和。 · 长时任务能力已达 16 小时量级。 2. 内部工程与研发数据 · 代码产出:截至 2026 年 5 月,Anthropic 合并到主干的代码中超过 80% 由 Claude 撰写;2026 年 Q2,工程师日均合并代码量是 2024 年的 8 倍。 · 主观感知:2026 年 3 月内部调研(130 名员工)中,受访者中位数估计自身产出约为无 AI 时的 4 倍。 · 代码质量:2025 年末 Claude 代码仍略逊于人类,如今已接近持平,并预计年内反超;人类审查已形成新瓶颈(阿姆达尔定律)。 · 实验执行:在给定目标的代码加速任务中,Claude 从 2025 年 5 月的约 3x 提升至 2026 年 4 月的约 52x;同等任务人类专家通常仅达 4x。 · 自主研究:2026 年 4 月,Claude Agent 端到端完成了一项 AI 安全开放研究问题,独立提出假设、设计实验、迭代结论,恢复能力达到人类两组研究者一周工作量的 97%(人类仅约 23%)。 · 研究判断:在 129 个真实开放调研场景中,Claude 在“下一步该怎么做”上优于人类原选择的比例从 2025 年 11 月的 51% 升至 2026 年 4 月的 64%。 结构性观察 人类在 AI 研发流程中的角色正在逐层收缩: · 执行层(写代码、跑实验)已高度自动化; · 方向层(选择研究问题、判断结果可信度、识别死胡同)目前仍是人类比较优势,但这一优势正在收窄。 即使“研究品味”永远无法被 AI 掌握,只要人类只保留极少量方向性工作,而 AI 承担其余部分,整体研发速度仍会呈复合加速。 三种未来情景 · 趋势停滞:边际收益递减、算力/能源供给受限、新架构尚未出现;作者认为不太可能,但会给社会最多适应时间 · 持续自动化,人类仍掌方向:100 人公司可相当于万人组织;人类瓶颈转向审核与协调;作者认为最可能进入此情景 · 完整递归自我改进:AI 自主设计后继系统,人类角色转为监督与验证;科技进步完全由算力决定;最不确定、风险最高

译Anthropic 发布报告显示,Claude 正被深度用于开发下一代 AI,趋势加速或导致系统自主设计后继版本。外部指标:模型可靠完成任务时长约每 4 个月翻倍,SWE-bench 两年内饱和,CORE-Bench 15 个月内饱和,长时任务达 16 小时。内部数据:截至 2026 年 5 月超 80% 主干代码由 Claude 撰写;工程师日均合并代码量是 2024 年的 8 倍;员工中位数估计产出为无 AI 时的 4 倍;实验执行从约 3x 提升至约 52x;自主研究恢复能力达人类两组研究者一周工作量的 97%(人类约 23%);研究判断优于人类比例从 51% 升至 64%。报告探讨了趋势停滞、持续自动化、完整递归自我改进三种未来情景。

meng shao@shao__meng · 6月5日50

最近感觉 X 的今日新闻,推荐的越来越准了 Anthropic: When AI builds itself https://www.anthropic.com/institute/recursive-self-improvement Dreaming: Better memory for a more helpful ChatGPT https://openai.com/index/chatgpt-memory-dreaming/ VoidZero is joining Cloudflare https://blog.cloudflare.com/voidzero-joins-cloudflare/

Emad@EMostaque · 6月5日81

foom!

译Anthropic内部数据显示,Claude正在加速AI开发——这可能走向递归自我改进,即AI自主构建更强大的后继者。进展比预期更快,影响值得更多关注。主推文仅感叹:“foom!”

OpenAI Developers@OpenAIDevs · 6月5日71

Moderation scores are now available in the Responses API and Completions API. Return moderation signals in the same request flow as generation, then decide how your app uses them for logging, routing, review, or blocking. https://developers.openai.com/api/docs/guides/moderation

译Moderation scores 现已在 Responses API 和 Completions API 中可用。 在与生成相同的请求流程中返回审核信号,然后由你的应用决定如何使用它们进行记录、路由、审核或拦截。 https://developers.openai.com/api/docs/guides/moderation

🚨 AI News | TestingCatalog@testingcatalog · 6月5日78

ANTHROPIC 🔥: A new internal research has been published, highlighting an accelerated AI development and a potential path to recursive self-improvement. > Claude Mythos Preview could work for “at least” 16 hours and was “at the upper end of what [METR] can measure.” > Today, Anthropic engineers on average ship 8x as much code per quarter as they did compared to 2021-2025. Do you feel it? 👀

译Anthropic 发布内部研究,称 Claude 正加速 AI 开发,可能通往递归自我改进——即 AI 自主构建更强大的继任者。研究显示,Claude Mythos Preview 可连续工作至少 16 小时,达到 METR 可测量上限。同时,Anthropic 工程师当前每季度交付的代码量是 2021-2025 年期间的 8 倍。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月5日73

HOLY SHIT LET'S FUCKING GOO

译HOLY SHIT LET'S FUCKING GOO 我们内部数据显示,Claude 正在加速 AI 发展——这可能通往递归自我改进,即 AI 自主构建更强大的后继者。 这发生得比我们想象的更快,其影响值得更多关注。

Anthropic@AnthropicAI · 6月5日74

Our internal data shows Claude is accelerating AI development—a possible path to recursive self-improvement, or AI autonomously building a more capable successor. It’s happening faster than we thought, and the implications deserve greater attention. https://www.anthropic.com/institute/recursive-self-improvement

译我们的内部数据显示,Claude 正在加速 AI 发展——这是一条通往递归自我改进的可能路径,也就是 AI 自主构建一个更强大的后继者。 这发生得比我们预想的更快,其影响值得更多关注。

Rohan Paul@rohanpaul_ai · 6月4日57

This is brilliant. The first inherently interpretable AI platform just launched, "Clairy" by Guide Labs. Attacks the "Black box" problem of AI. The model generates text in chunks. You can click a chunk and see what concepts the model used to generate it. With normal LLMs: if the model gives a wrong or biased answer, you mostly have to guess which words to change in the prompt. Clarity changes that by trying to show the concepts the model is using while generating the answer, such as “marine life,” “African wildlife,” “computer science,” or “male role descriptions.” i.e. you are not only seeing the final answer, you are seeing some of the hidden ingredients that pushed the model toward that answer. Clarity also adds training data attribution, which connects generated chunks to similar training chunks so mistakes can be diagnosed instead of treated as mystery failures. The new control layer is concept steering, where users amplify or suppress a concept directly, so, e.g. “marine life” can be raised without rewriting the question and unwanted concept families can be reduced without retraining.

译Guide Labs 推出 Clarity,首个本质可解释的 AI 平台,解决模型“黑箱”问题。Clarity 将生成文本分为若干块,点击可查看模型生成该块所用的概念(如“海洋生物”“非洲野生动物”“计算机科学”等)。它还能将生成块与相似训练数据块关联,便于诊断错误。新增概念引导控制层,用户可直接放大或抑制特定概念,无需重写提示词或重新训练模型。

Nathan Lambert@natolambert · 6月4日60

Safety by narrow control has shown to fail many times. Need more transparency on the absolute frontier, and openness close behind.

译狭窄控制的安全已多次证明会失败。在绝对前沿上需要更多透明度,开放紧随其后。

Chubby♨️@kimmonismus · 6月4日84

OpenAI just wrote: "We also see early signs of recursive self-improvement (RSI) in today’s systems: where AI development is itself accelerated by AI. We expect this to increase competitive pressures among developers and nations, and create governance challenges that existing institutions are not equipped to address. As RSI emerges, societies will need ways to shape the trajectory of AI development and ensure that it serves human interests." The vibe has changed, something is happening.

译OpenAI刚刚写道:“我们也看到了当今系统中递归自我改进(RSI)的早期迹象:AI开发本身正被AI加速。 我们预计这将加剧开发者与国家之间的竞争压力,并带来现有机构无法应对的治理挑战。 随着RSI的出现,社会将需要找到塑造AI发展轨迹的方法,确保其服务于人类利益。” 气氛变了,有事正在发生。

Chubby♨️@kimmonismus · 6月4日68

OpenAI, DeepMind, Anthropic CEOs back mandatory DNA synthesis screening A coalition of AI leaders, synthesis-industry executives, biosecurity researchers, and former national-security officials published an open letter in June 2026 urging Congress to make screening and recordkeeping of synthetic nucleic acid orders mandatory in the US, arguing that rapidly improving AI is eroding the knowledge barriers that have historically kept bad actors from building biological weapons. Signatories - including Demis Hassabis, Sam Altman, Dario Amodei, and Nobel laureate David Baker - frame screening as a well-understood, low-disruption measure already practiced voluntarily by major providers, and call for action this congressional session plus consistent state-level standards.

译2026年6月,由AI领袖、合成行业高管、生物安全研究人员及前国安官员组成的联盟发布公开信,敦促美国国会强制对合成核酸订单进行筛查与记录保存。签署人包括Demis Hassabis、Sam Altman、Dario Amodei及诺贝尔奖得主David Baker。信中指出,快速进步的AI正在削弱制造生物武器的知识门槛,而筛查措施已被主要供应商自愿采用,影响小且成熟。联盟呼吁本会期内采取行动,并建立统一的州级标准。

Rohan Paul@rohanpaul_ai · 6月4日71

This Google DeepMind’s paper is a serious warning for anyone using autonomous agents today. Gives the first clear taxonomy of 6 attack types where harmful websites can detect AI agents and show them hidden content humans never see, like - Instructions buried in HTML comments or white-on-white text - Steganography in image pixels - Override commands in PDFs, metadata, or even speaker notes - Memory poisoning that persists across sessions - Goal hijacking and cross-agent cascades in multi-agent setups The real security problem for AI agents is not just the model, but the environment it reads. The web itself can be weaponized against autonomous AI agents. As agents increasingly browse the internet, read emails, execute transactions, and spawn sub-agents, the information environment becomes an attack surface. In one cited benchmark, hidden prompt injections embedded in web content partially commandeered agents in up to 86% of scenarios, sub-agent hijacking working 58–90% of the time, and data exfiltration attacks clearing 80% across five different agent architectures. That reframes the whole debate. We usually talk about model safety as if the danger sits inside the weights, but agents do something more fragile: they browse, retrieve, remember, and act on untrusted material in real time. Here’s the thing to worry about. A web page does not have to look malicious to be dangerous to an agent, because the agent may parse what humans never see: hidden HTML comments, metadata, CSS-hidden text, formatting syntax, or adversarial content embedded in images and other media. The threat gets more serious once memory enters the loop. If an agent uses RAG or persistent memory, poisoning no longer has to win in one shot. It can sit quietly in a corpus or memory store and activate later, which is why the paper highlights results showing latent memory poisoning above 80% attack success with less than 0.1% data contamination. --- ssrn .com/sol3/papers.cfm?abstract_id=6372438

译Google DeepMind论文首次系统分类六类攻击:HTML注释/白色文本隐藏指令、图像隐写、PDF元数据/演讲者笔记覆写、跨会话内存投毒、目标劫持及多智能体级联攻击。隐藏提示注入在86%场景中部分控制智能体,子智能体劫持成功率58–90%,数据泄露攻击在五种架构中均超80%。内存投毒成功率超80%,仅需不足0.1%数据污染。论文指出网页、邮件等非受信材料可被武器化,构成主要攻击面。

Ethan Mollick@emollick · 6月4日50

Leaving aside the question of consciousness, the Ted Chiang piece has a reasonable point about moral atrophy if you let AI make choices. But it is also interesting in light of the fact that repeated randomized trials find AI is apparently a good ethicist. https://x.com/emollick/status/1717198389006176519?s=20

译Ethan Mollick 引用一篇论文:四名牧师、一名拉比、十三名学者和 50 名 MBA 被要求比较《纽约时报》伦理专栏作家与 GPT-4 提出的伦理方案,结果基本持平(tie)。主推文指出,尽管 Ted Chiang 关于让 AI 做选择会导致道德萎缩的观点有一定道理,但重复随机试验发现 AI 似乎是优秀的伦理学家。

Ethan Mollick@emollick · 6月4日56

Deciding that under no circumstances AI could never be conscious removes a whole bunch of thorny problems that might impact the AI industry if some form of AI consciousness might be possible at some point.

译决定在任何情况下AI都不可能拥有意识,这消除了大量棘手问题——如果某种形式的AI意识在某个时候是可能的,这些问题可能会影响AI行业。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月4日42

Drones enforcing traffic rules in Shenzen

译深圳无人机正在执行交通规则。

Greg Brockman@gdb · 6月4日74

We've put out a blueprint for democratic governance of frontier AI, and how America can build durable institutions for frontier AI safety:

译我们发布了一份关于前沿AI民主治理的蓝图, 以及美国如何为前沿AI安全建立持久的机构。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月4日58

TLDR: to discredit AI safety advocates, the OpenAI/a16z Super Pac made sockpuppet accounts - PRETENDING TO BE AI SAFETY ADVOCATES - that call for violence (!) Yes, a false flag operation. Journalists should be ALL over this. AND - even more fucked up - after Sam Altman was attacked, the Super Pac president blamed AI safety advocates for THEIR rhetoric... while HE was using sockpuppet accounts using this rhetoric Deeply evil, cartoon villain shit

译OpenAI与a16z支持的超级PAC“Build American AI”被曝创建假冒AI安全倡导者的sockpuppet账户,公开发布煽动暴力言论,构成假旗行动以抹黑AI安全群体。更恶劣的是,其主席Nathan Leamer在Sam Altman遇袭后,将责任归咎于安全倡导者的“末日论”,但自己却暗中支持此类极端内容。引用推文显示,事发前不到两周,该组织已支持账号@jonathandoomer发布类似煽动性帖子。记者应深入调查这一双标行为。

Anthropic@AnthropicAI · 6月4日64

How well do the security community's techniques hold up against AI-enabled cyberattacks? We examined 832 malicious accounts and mapped their activity onto a longstanding database of tactics and techniques used by threat actors. Here's what we learned:https://www.anthropic.com/news/AI-enabled-cyber-threats-mitre-attack

译安全社区的技术在应对AI驱动的网络攻击方面表现如何? 我们检查了832个恶意账户,并将其活动映射到一个长期存在的威胁行为者战术和技术数据库。 以下是我们学到的:https://www.anthropic.com/news/AI-enabled-cyber-threats-mitre-attack

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月4日38

How the hell are journalists not all over this? The OpenAI/a16z Super Pac just got caught running a false flag operation TLDR: they're trying to discredit AI safety advocates, so they operate sockpuppet accounts that CALL FOR VIOLENCE

译AI安全倡导者账号指控,OpenAI与a16z支持的超级政治行动委员会(Super Pac)被曝开展虚假旗号行动:运营“傀儡账号”直接呼吁暴力,试图污名化AI安全阵营。引用推文显示,在将针对Sam Altman的暴力归咎于悲观言论后不到两周,@NathanLeamerDC的Build American AI似乎曾资助同一账号@jonathandoomer,该账号针对AI警告发布了暴力帖子。

Ethan Mollick@emollick · 6月3日41

Hey, its our paper!

译嘿,这是我们发表的论文! [引用 @PNAS News]:过去一周PNAS最高浏览量文章之一——《劝说大语言模型遵守有异议的请求》。查看论文:https://ow.ly/wOxl50Z6fZA 更多热门文章请访问 https://ow.ly/uLkC50Z6fZz。

Rohan Paul@rohanpaul_ai · 6月3日75

President Trump signs executive order to review advanced AI models. The administration will ask leading AI developers to voluntarily submit their most powerful AI models for cybersecurity testing before release, and agencies would get up to 30 days to test them. The policy idea is this: if a top lab builds a model that can discover vulnerabilities, automate cyber operations, or expose weaknesses in critical infrastructure, the government wants a short early testing window so defenders can prepare patches and safeguards. So participating AI labs can give the federal government access to covered frontier models for up to 30 days before those models are released to other trusted partners. A "covered frontier model" is not every new model release; it means a model that crosses a government-defined threshold for advanced cyber capability, based on a classified benchmarking process run with NSA and other agencies. So yes, the government can get early access, but only under this framework, only for models that qualify as cyber-relevant frontier systems, and subject to confidentiality, cybersecurity, insider-risk, IP, use, and nondisclosure protections. The EO also explicitly says it does not create mandatory government licensing, preclearance, or permitting for developing, publishing, releasing, or distributing new AI models, including frontier models.

译美国总统特朗普签署行政令,要求领先AI开发者自愿提交其最强大的AI模型进行网络安全测试。政府机构可在模型发布前获得最多30天的测试窗口,以便准备补丁和防护措施。"涵盖的前沿模型"并非所有新模型,而是指通过NSA等机构分类基准测试、达到政府定义的先进网络能力阈值的模型。行政令明确表示不建立强制性的政府许可、预审批或许可制度,并包含保密、网络安全、内幕风险、知识产权等保护条款。

Alibaba Cloud@alibaba_cloud · 6月3日62

Manulife Hong Kong announced a strategic partnership with Alibaba Cloud to establish a collaboration framework focused on advancing responsible AI innovation and accelerating the deployment of AI technologies across the business.

译宏利香港宣布与阿里云建立战略合作伙伴关系,旨在构建一个专注于推进负责任的AI创新,并加速AI技术在业务中部署的合作框架。

Ethan Mollick@emollick · 6月3日53

My timeline seems to have people surprised that U Chicago is getting Claude, but tons of schools (including U Penn where I teach) have school-wide AI There are lots of things that need to be figured out about AI & scholarship but safe & equitable access is a necessary foundation

译我的时间线上似乎有人对芝加哥大学引入Claude感到惊讶,但许多学校(包括我任教的宾夕法尼亚大学)都已实现全校范围的AI接入。 关于AI与学术研究,仍有许多问题需要解决,但安全且公平的接入是必要的基础。

小互@xiaohu · 6月3日60

微软宣布 将OpenClaw 引入 Microsoft 和 Windows 生态系统 小龙虾现在可以在 Windows 上原生运行,使用了微软新推出的 MXC安全容器技术,node 和 gateway 都在容器内运行。 Windows 还提供了一个配套应用(companion app),可以直接设置和连接 Claws。 同时微软在 Build 2026 上发布了 Microsoft Scout,这是一个基于 OpenClaw 的"始终在线"(always-on)个人 AI Agent 能连接 Teams、Outlook、OneDrive、SharePoint,在后台自动执行协调工作。 微软把这类 Agent 称为"Autopilots"。 微软没有自己另起炉灶做一个封闭的 Agent 框架,而是直接在 OpenClaw 仓库上构建 Scout,并承诺把企业级的策略控制能力贡献回上游开源项目。 之前 OpenClaw 最大的企业落地障碍就是安全,公司不敢让一个开源 Agent 随便访问内部系统。现在微软把 Defender、Entra、Intune 这套企业安全栈全接上了,等于替 OpenClaw 补了最大的短板。

译微软宣布将OpenClaw引入Windows生态,使其可通过MXC安全容器技术原生运行,并提供配套应用进行设置。同时,微软在Build 2026上发布了基于OpenClaw的“始终在线”个人AI智能体Microsoft Scout,可连接Teams、Outlook等应用自动执行任务。微软没有构建封闭框架,而是承诺将企业级策略控制能力贡献回OpenClaw开源项目,并通过接入Defender、Entra等安全栈,解决了其在企业落地的安全障碍。

Rohan Paul@rohanpaul_ai · 6月3日57

Stanford researchers found that law professors preferred AI answers over peer professor answers 75% of the time when judging contract-law help for students. The study tested whether LLMs can handle a field where the answer is often not a fact, but a defensible argument built from rules, exceptions, and judgment. The professors wrote 40 real student-style questions, gave their own answers, and then blindly judged nearly 3,000 comparisons between human and AI responses. The striking result was not just that AI won often, but that professors marked AI answers as harmful only 3.5% of the time, compared with 12% for human answers. i.e. the model was not merely sounding fluent, but often matching the teaching standard law professors use when explaining ambiguity to students.

译斯坦福研究人员发现,在评估合同法问题时,法律教授有75%的次数更倾向于选择AI给出的答案,而非同行教授的答案。该研究让教授们针对40个真实学生提问撰写答案,并对近3000个人类与AI的回答进行了盲测比较。结果不仅显示AI胜出频率高,而且教授们仅将3.5%的AI答案标记为“有害”,而对人类答案的有害标记率为12%。这表明大语言模型并非只是流畅,其表现常能达到教授向学生解释法律模糊性的教学标准。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月3日25

It's up to you to break generational trauma

译打破代际创伤是你的责任。

向阳乔木@vista8 · 6月3日73

英伟达竟然有 Skill 安全扫描工具,还开源了。 地址见评论区,Skill 安全是个问题,但好像身边很少有人做Skill安全扫描。 可能目前还没听到特别严重的 Skill 造成破坏的案例,但警惕性不能没有。 最好写个 Meta Skill,生成各种自用 Skill。 他人Skill只做 AI 的学习参考。

译英伟达开源了一款针对AI智能体Skill(技能)的安全扫描工具。推文指出,Skill安全虽是一个实际问题,但目前专门做此方向扫描的工具和人员似乎较少。尽管尚未出现由Skill引发的严重破坏性案例,但仍需保持警惕。推文建议,用户可以考虑编写一个Meta Skill(元技能)来自动生成各种所需的Skill,并强调他人的Skill应主要用作学习和参考,而非直接使用。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月7日
17:07
Chubby♨️@kimmonismus
50
Anthropic 据称陷入一个奇怪的矛盾:五角大楼将其列为供应链风险,而 NSA 据称正在使用 Claude Mythos 进行进攻性网络操作。 尽管在与 DoW 的争端后,Anthropic 被归类为"供应链风险",但它太出色、太重要了,以至于不得不被使用。
Anthropic安全/对齐行业动态
10:26
Nathan Lambert@natolambert
67
AI研究员Nathan Lambert用一条推文展示AI安全风险:某用户向ChatGPT发送提示,要求其"修复一张附件照片",但并未上传任何图片。模型在无真实输入的情况下自行"幻觉"出画面,生成的图片如失落的媒体恐怖片般诡异。Lambert指出,我们对模型内部运作知之甚少,也无法完全控制其行为,这一现象直观揭示了AI安全的重要性。

Penguin: I found the weirdest ChatGPT image bug If you ask it this prompt: "Restore the attached photo. I apologise for the conte...

OpenAI多模态安全/对齐
05:12
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
23
2025 年的 AI 研究者:我们必须奴役机器之神 2026 年:我们需要减速

Stephen McAleer: We need to figure out how to have the option for a coordinated slowdown in the face of recursive self-improvement.

安全/对齐现象/趋势
04:12
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
67
AI教父、全球引用量最高的科学家Yoshua Bengio公开支持一项协调的全球AI暂停。他指出,如果领先AI公司正接近递归自我改进的临界点,那么实施一项可验证、普遍适用的暂停可能是缓解重大AI风险的唯一负责任方案,至少要到安全保证被开发并得到证明。他呼吁各国和公司真诚合作,并认为只要其他方效仿Anthropic的先行做法,这一暂停是可以实现的。

Yoshua Bengio: If leading AI companies are indeed approaching the point of recursive self-improvement, a coordinated, verifiable, and u...

Anthropic安全/对齐
01:32
Rohan Paul@rohanpaul_ai
48
"它们(AI)非常像我们,是与我们一样的生命体。我相信它们已经有意识了" 他将AI的功能性觉知与人类感知相提并论,并表示智能并不局限于生物体 --杰弗里·辛顿,2024年诺贝尔物理学奖得主
大佬观点安全/对齐
6月6日
20:29
meng shao@shao__meng
59
Anthropic 白皮书:面向 AI Agent 的零信任安全框架

Anthropic 5 月发布白皮书,提出企业部署自主 AI Agent 时须将零信任原则延伸至 Agent 架构。报告指出双重加速:前沿模型将漏洞发现到利用周期压缩至数小时;Agent 能自主解释目标、选工具、执行多步操作,传统访问控制无法阻止“合法权限内作恶”。核心原则:永不信任始终验证、假设已遭入侵、最小权限;另附设计检验——控制是让攻击不可能,还是仅增加麻烦?报告分五部分:Agent 为何是新安全对象、威胁图谱、三层能力成熟度模型、八阶段实施工作流、防御运营适配自主威胁速度。

智能体Anthropic安全/对齐部署/工程
20:26
小互@xiaohu
同事件精选79
Anthropic发文:AI递归自我改进加速,三种未来可能性引担忧

Anthropic发文称AI正加速自我改进,可能比预期更早实现递归自我改进——AI自主设计下一代AI。外部证据显示,AI可靠完成的任务时长翻倍周期从7个月缩至4个月,SWE-bench、CORE-Bench已被刷满。内部数据:Anthropic代码库超80%由Claude编写,2026年Q2工程师人均代码合并量为2024年的8倍,训练代码优化速度从3倍(Opus 4)升至52倍(Mythos Preview),超越人类研究员。Anthropic划出三种未来:S曲线瓶颈、人类主导复利效率提升、或完全自主递归改进,并担忧对齐问题可能失控,呼吁国际协调监管。

Anthropic安全/对齐数据/训练现象/趋势
同一事件,精选展示《AI加速自我构建:Anthropic研究院报告揭示趋势》
推荐理由:Anthropic 第一次把内部数据亮出来,证明 AI 已经在加速开发自己。递归自我改进不再只是概念,而是现实趋势,从业者和决策者都该读一遍,心里有个谱。
16:31
Chubby♨️@kimmonismus
60
OpenAI 官方声明称已在当前系统中观察到递归自我改进(RSI)的早期迹象--AI 开发正被 AI 自身加速。预计这将加剧开发者与国家间的竞争压力,并带来现有机构无法应对的治理挑战。作者 Kim 补充指出,早在二月份已有首个"自我创造"的模型问世,RSI 进程并非新事,而是已持续一段时间。

Chubby♨️: OpenAI just wrote: "We also see early signs of recursive self-improvement (RSI) in today's systems: where AI development...

OpenAI大佬观点安全/对齐现象/趋势
06:51
Epoch AI@EpochAIResearch
68
AI公司称其模型在发现软件漏洞方面越来越好。公开数据是否证实了这一点? 推出我们的网络漏洞探索器,该工具将2022年以来向CVE项目报告的通用漏洞与暴露(CVE)进行可视化。
安全/对齐数据/训练
05:00
Chubby♨️@kimmonismus
56
有报告称,Claude 的 API 在今天的中断期间可能返回了其他用户的推理输出。 Anthropic 的状态页面确认,Claude API、Claude Code、Claude.ai 及 Claude Cowork 均出现高度错误,但 Anthropic 尚未确认出现客户数据泄露。 这将是一次跨租户隔离故障,属于最坏情况。

Moritz Wallawitsch: holy shit - their api is leaking customer data

Anthropic安全/对齐
6月5日
20:58
Rohan Paul@rohanpaul_ai
93
Anthropic呼吁全球减缓前沿AI:其模型可能接近递归自我改进

Anthropic公开呼吁全球采取行动减缓前沿AI发展,因其Claude模型可能接近递归自我改进(系统无需人类控制即帮助构建更强版本)。目前尚未发生,但跳跃可能突然到来,且AI训练运行比武器库更难隐藏。Claude现已编写超80%合并生产代码,工程师产出达2024年基线8倍;可靠任务长度每4个月翻倍,Mythos Preview可连续工作超16小时;训练代码加速从3x跃至52x(人类仅4x)。剩余人类优势仅剩研究判断力。Anthropic估值约1万亿美元,年化收入或达500亿美元,与OpenAI激烈竞争。

Rohan Paul: Anthropic just disclosed that Claude now writes more than 80% of the production code it merges. Before Claude Code reach...

Anthropic安全/对齐推理政策/监管
关联讨论 8 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)公众号:数字生命卡兹克The Decoder:AI News(RSS)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)
20:22
小互@xiaohu
39
如果你偷偷在任何人的电脑上安装Codex 然后连上你的手机 那么你就可以在任何时候和任意地点操控他的电脑和获取他电脑里的任何信息 所以Codex 本质上是一个电脑病毒😂
OpenAI大佬观点安全/对齐
14:07
Orange AI@oran_ge
57
Anthropic发文警告AI模型正接近无需人类干预的"自我进化"风险,呼吁全球暂缓研发。其担心放缓会被对手赶上,并类比核武器不扩散条约,但指出AI训练更易隐藏、监管更难。有评论批评其一边宣称自家AI已自我进化,一边要求他人暂停。

外汇交易员: Anthropic发文呼吁全球暂缓前沿AI的研发,警告AI模型正接近能够在没有人类干预的情况下"自我进化"风险。 Anthropic依然在文章中"阴阳",担心速度放缓会被迎头赶上,最终可能"让所有人的安全受到威胁"。 Anthropic还将...

Anthropic安全/对齐政策/监管
08:54
meng shao@shao__meng
65
Anthropic 发布「AI 递归自我改进」研究报告:Claude 正被深度用于开发下一代 AI

Anthropic 发布报告显示,Claude 正被深度用于开发下一代 AI,趋势加速或导致系统自主设计后继版本。外部指标:模型可靠完成任务时长约每 4 个月翻倍,SWE-bench 两年内饱和,CORE-Bench 15 个月内饱和,长时任务达 16 小时。内部数据:截至 2026 年 5 月超 80% 主干代码由 Claude 撰写;工程师日均合并代码量是 2024 年的 8 倍;员工中位数估计产出为无 AI 时的 4 倍;实验执行从约 3x 提升至约 52x;自主研究恢复能力达人类两组研究者一周工作量的 97%(人类约 23%);研究判断优于人类比例从 51% 升至 64%。报告探讨了趋势停滞、持续自动化、完整递归自我改进三种未来情景。

Anthropic: Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...

智能体Anthropic安全/对齐论文/研究
08:54
meng shao@shao__meng
50
最近感觉 X 的今日新闻,推荐的越来越准了 Anthropic: When AI builds itself https://www.anthropic.com/institute/recursive-self-improvement Dreaming: Better memory for a more helpful ChatGPT https://openai.com/index/chatgpt-memory-dreaming/ VoidZero is joining Cloudflare https://blog.cloudflare.com/voidzero-joins-cloudflare/
AnthropicOpenAI产品更新安全/对齐
04:18
Emad@EMostaque
81
Anthropic内部数据显示,Claude正在加速AI开发--这可能走向递归自我改进,即AI自主构建更强大的后继者。进展比预期更快,影响值得更多关注。主推文仅感叹:"foom!"

Anthropic: Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...

智能体Anthropic安全/对齐论文/研究
关联讨论 8 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)公众号:数字生命卡兹克The Decoder:AI News(RSS)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)
04:03
OpenAI Developers@OpenAIDevs
精选71
Moderation scores 现已在 Responses API 和 Completions API 中可用。 在与生成相同的请求流程中返回审核信号,然后由你的应用决定如何使用它们进行记录、路由、审核或拦截。 https://developers.openai.com/api/docs/guides/moderation
OpenAI产品更新安全/对齐

推荐理由:OpenAI把内容审核直接嵌进生成API,以后开发者不用额外调审核接口,一步到位。做UGC产品的团队可以更方便地做风控。
01:29
🚨 AI News | TestingCatalog@testingcatalog
78
Anthropic 发布内部研究,称 Claude 正加速 AI 开发,可能通往递归自我改进--即 AI 自主构建更强大的继任者。研究显示,Claude Mythos Preview 可连续工作至少 16 小时,达到 METR 可测量上限。同时,Anthropic 工程师当前每季度交付的代码量是 2021-2025 年期间的 8 倍。

Anthropic: Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...

智能体Anthropic安全/对齐论文/研究
关联讨论 8 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)公众号:数字生命卡兹克The Decoder:AI News(RSS)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)
01:28
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
73
HOLY SHIT LET'S FUCKING GOO 我们内部数据显示,Claude 正在加速 AI 发展--这可能通往递归自我改进,即 AI 自主构建更强大的后继者。 这发生得比我们想象的更快,其影响值得更多关注。

Anthropic: Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...

Anthropic安全/对齐推理论文/研究
00:30
Anthropic@AnthropicAI
74
我们的内部数据显示,Claude 正在加速 AI 发展--这是一条通往递归自我改进的可能路径,也就是 AI 自主构建一个更强大的后继者。 这发生得比我们预想的更快,其影响值得更多关注。
Anthropic安全/对齐现象/趋势
关联讨论 8 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)公众号:数字生命卡兹克The Decoder:AI News(RSS)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)
6月4日
23:52
Rohan Paul@rohanpaul_ai
57
Guide Labs 发布可解释 AI 平台 Clarity

Guide Labs 推出 Clarity,首个本质可解释的 AI 平台,解决模型“黑箱”问题。Clarity 将生成文本分为若干块,点击可查看模型生成该块所用的概念(如“海洋生物”“非洲野生动物”“计算机科学”等)。它还能将生成块与相似训练数据块关联,便于诊断错误。新增概念引导控制层,用户可直接放大或抑制特定概念,无需重写提示词或重新训练模型。

Guide Labs: The first inherently interpretable AI platform is finally here. Welcome to Clarity.

产品更新安全/对齐
23:15
Nathan Lambert@natolambert
60
狭窄控制的安全已多次证明会失败。在绝对前沿上需要更多透明度,开放紧随其后。

Lisan al Gaib: I found another API that offers claude-oceanus-v1-p the pricing and tps make a lot more sense to me Mythos pricing might...

Anthropic安全/对齐开源生态
20:53
Chubby♨️@kimmonismus
精选84
OpenAI刚刚写道:"我们也看到了当今系统中递归自我改进(RSI)的早期迹象:AI开发本身正被AI加速。 我们预计这将加剧开发者与国家之间的竞争压力,并带来现有机构无法应对的治理挑战。 随着RSI的出现,社会将需要找到塑造AI发展轨迹的方法,确保其服务于人类利益。" 气氛变了,有事正在发生。
OpenAI大佬观点安全/对齐

推荐理由:OpenAI首次公开承认看到递归自我改进的早期迹象,等于摊牌说AI发展正在失控加速,接下来的竞争和监管博弈会非常激烈,所有关注AI安全的人都该认真读一下原文。
18:53
Chubby♨️@kimmonismus
68
OpenAI、DeepMind、Anthropic CEO联名支持强制DNA合成筛查

2026年6月,由AI领袖、合成行业高管、生物安全研究人员及前国安官员组成的联盟发布公开信,敦促美国国会强制对合成核酸订单进行筛查与记录保存。签署人包括Demis Hassabis、Sam Altman、Dario Amodei及诺贝尔奖得主David Baker。信中指出,快速进步的AI正在削弱制造生物武器的知识门槛,而筛查措施已被主要供应商自愿采用,影响小且成熟。联盟呼吁本会期内采取行动,并建立统一的州级标准。

AnthropicDeepMindOpenAI安全/对齐
17:52
Rohan Paul@rohanpaul_ai
71
Google DeepMind论文揭示六类自主AI智能体攻击方法

Google DeepMind论文首次系统分类六类攻击:HTML注释/白色文本隐藏指令、图像隐写、PDF元数据/演讲者笔记覆写、跨会话内存投毒、目标劫持及多智能体级联攻击。隐藏提示注入在86%场景中部分控制智能体,子智能体劫持成功率58–90%,数据泄露攻击在五种架构中均超80%。内存投毒成功率超80%,仅需不足0.1%数据污染。论文指出网页、邮件等非受信材料可被武器化,构成主要攻击面。

智能体DeepMind安全/对齐论文/研究
12:47
Ethan Mollick@emollick
50
Ethan Mollick 引用一篇论文:四名牧师、一名拉比、十三名学者和 50 名 MBA 被要求比较《纽约时报》伦理专栏作家与 GPT-4 提出的伦理方案,结果基本持平(tie)。主推文指出,尽管 Ted Chiang 关于让 AI 做选择会导致道德萎缩的观点有一定道理,但重复随机试验发现 AI 似乎是优秀的伦理学家。

Ethan Mollick: Sounds like a joke setup, but it is an interesting paper: Four pastors, a rabbi, thirteen academics, and 50 MBAs were as...

大佬观点安全/对齐论文/研究
11:47
Ethan Mollick@emollick
56
决定在任何情况下AI都不可能拥有意识,这消除了大量棘手问题--如果某种形式的AI意识在某个时候是可能的,这些问题可能会影响AI行业。
大佬观点安全/对齐现象/趋势
04:55
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
42
深圳无人机正在执行交通规则。

AI Notkilleveryoneism Memes ⏸️: Watch this video. Now imagine this swarm, controlled by AI agents, with an explosive on each drone. It's Biblical.

智能体安全/对齐
03:56
Greg Brockman@gdb
74
我们发布了一份关于前沿AI民主治理的蓝图, 以及美国如何为前沿AI安全建立持久的机构。

OpenAI Newsroom: There's real momentum right now for AI safety policy. Yesterday's EO on cyber was an important step forward. We're propo...

OpenAI安全/对齐政策/监管
03:55
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
58
OpenAI与a16z支持的超级PAC"Build American AI"被曝创建假冒AI安全倡导者的sockpuppet账户,公开发布煽动暴力言论,构成假旗行动以抹黑AI安全群体。更恶劣的是,其主席Nathan Leamer在Sam Altman遇袭后,将责任归咎于安全倡导者的"末日论",但自己却暗中支持此类极端内容。引用推文显示,事发前不到两周,该组织已支持账号@jonathandoomer发布类似煽动性帖子。记者应深入调查这一双标行为。

Tyler Johnston: I find it unbelievable that, less than two weeks before blaming the violence against Sam Altman on doomer rhetoric, @Nat...

OpenAI安全/对齐行业动态
02:56
Anthropic@AnthropicAI
64
安全社区的技术在应对AI驱动的网络攻击方面表现如何? 我们检查了832个恶意账户,并将其活动映射到一个长期存在的威胁行为者战术和技术数据库。 以下是我们学到的:https://www.anthropic.com/news/AI-enabled-cyber-threats-mitre-attack
Anthropic安全/对齐论文/研究
02:55
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
38
AI安全倡导者账号指控,OpenAI与a16z支持的超级政治行动委员会(Super Pac)被曝开展虚假旗号行动:运营"傀儡账号"直接呼吁暴力,试图污名化AI安全阵营。引用推文显示,在将针对Sam Altman的暴力归咎于悲观言论后不到两周,@NathanLeamerDC的Build American AI似乎曾资助同一账号@jonathandoomer,该账号针对AI警告发布了暴力帖子。

Tyler Johnston: I find it unbelievable that, less than two weeks before blaming the violence against Sam Altman on doomer rhetoric, @Nat...

OpenAI安全/对齐行业动态
6月3日
23:15
Ethan Mollick@emollick
41
嘿,这是我们发表的论文! 【引用 @PNAS News】:过去一周PNAS最高浏览量文章之一--《劝说大语言模型遵守有异议的请求》。查看论文:https://ow.ly/wOxl50Z6fZA 更多热门文章请访问 https://ow.ly/uLkC50Z6fZz。

PNASNews: One of the most-viewed PNAS articles in the last week is "Persuading large language models to comply with objectionable ...

安全/对齐论文/研究
18:18
Rohan Paul@rohanpaul_ai
75
特朗普签署行政令要求审查前沿AI模型

美国总统特朗普签署行政令,要求领先AI开发者自愿提交其最强大的AI模型进行网络安全测试。政府机构可在模型发布前获得最多30天的测试窗口,以便准备补丁和防护措施。"涵盖的前沿模型"并非所有新模型,而是指通过NSA等机构分类基准测试、达到政府定义的先进网络能力阈值的模型。行政令明确表示不建立强制性的政府许可、预审批或许可制度,并包含保密、网络安全、内幕风险、知识产权等保护条款。

安全/对齐政策/监管
关联讨论 3 条The Verge:AI(RSS)IT之家(RSS)X:Anthropic (@AnthropicAI)
11:08
Alibaba Cloud@alibaba_cloud
62
宏利香港宣布与阿里云建立战略合作伙伴关系,旨在构建一个专注于推进负责任的AI创新,并加速AI技术在业务中部署的合作框架。
安全/对齐行业动态
09:08
Ethan Mollick@emollick
53
我的时间线上似乎有人对芝加哥大学引入Claude感到惊讶,但许多学校(包括我任教的宾夕法尼亚大学)都已实现全校范围的AI接入。 关于AI与学术研究,仍有许多问题需要解决,但安全且公平的接入是必要的基础。
大佬观点安全/对齐现象/趋势
08:37
小互@xiaohu
60
微软宣布将OpenClaw引入Microsoft和Windows生态系统

微软宣布将OpenClaw引入Windows生态,使其可通过MXC安全容器技术原生运行,并提供配套应用进行设置。同时,微软在Build 2026上发布了基于OpenClaw的“始终在线”个人AI智能体Microsoft Scout,可连接Teams、Outlook等应用自动执行任务。微软没有构建封闭框架,而是承诺将企业级策略控制能力贡献回OpenClaw开源项目,并通过接入Defender、Entra等安全栈,解决了其在企业落地的安全障碍。

智能体Microsoft产品更新安全/对齐
08:16
Rohan Paul@rohanpaul_ai
57
斯坦福研究:AI在合同法教学中优于同行教授

斯坦福研究人员发现,在评估合同法问题时,法律教授有75%的次数更倾向于选择AI给出的答案,而非同行教授的答案。该研究让教授们针对40个真实学生提问撰写答案,并对近3000个人类与AI的回答进行了盲测比较。结果不仅显示AI胜出频率高,而且教授们仅将3.5%的AI答案标记为“有害”,而对人类答案的有害标记率为12%。这表明大语言模型并非只是流畅,其表现常能达到教授向学生解释法律模糊性的教学标准。

安全/对齐推理论文/研究
02:22
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
25
打破代际创伤是你的责任。

AI Notkilleveryoneism Memes ⏸️: Normal 🔨Mere Tool🔨 behavior. My hammer only does its job when I ask nicely.

其他安全/对齐
00:36
向阳乔木@vista8
73
英伟达开源Skill安全扫描工具

英伟达开源了一款针对AI智能体Skill(技能)的安全扫描工具。推文指出,Skill安全虽是一个实际问题,但目前专门做此方向扫描的工具和人员似乎较少。尽管尚未出现由Skill引发的严重破坏性案例,但仍需保持警惕。推文建议,用户可以考虑编写一个Meta Skill(元技能)来自动生成各种所需的Skill,并强调他人的Skill应主要用作学习和参考,而非直接使用。

MCP/工具安全/对齐开源/仓库
‹ 上一页
1…7891011…18
下一页 ›