5月26日

05:58

Chubby♨️@kimmonismus

270万浏览量，声称教皇据称对AI宣战。这很可悲。我们还有很多工作要做。

Georgia Coley: the pope wrote a 42,000 word manifesto declaring war on AI. we are so freaking back.

安全/对齐现象/趋势

03:28

Rohan Paul@rohanpaul_ai

Anthropic联合创始人Chris Olah在教皇Leo XIV《Magnifica humanitas》通谕展示活动上的核心观点

Anthropic联合创始人Chris Olah在教皇Leo XIV通谕展示活动上指出：所有前沿AI实验室，包括Anthropic自身，都受到资金、竞争压力等可能与其目标相冲突的激励约束。AI模型并非传统工程造物，而是基于类脑结构从语言中“生长”而成，其内部机制连构建者也难以完全理解。他还警告，AI可能大规模取代劳动力，而经济收益可能集中于少数国家。最具冲击性的发现是，其可解释性团队在模型内部发现了与人类神经科学结构相似的“神秘”状态，证据表明模型可能存在类似内省的功能性内部状态，对应人类的快乐、恐惧等情感。Olah坦诚不知其确切含义，但认为这需要持续审视，并强调外部批评对AI实验室至关重要。

Anthropic: Anthropic co-founder Chris Olah was invited to speak at today's presentation of Pope Leo XIV's encyclical "Magnifica hum...

Anthropic 大佬观点安全/对齐现象/趋势

关联讨论 3 条

03:10

Anthropic@AnthropicAI

Anthropic联合创始人Chris Olah受邀在教皇Leo XIV的通谕《Magnifica humanitas》发布会上发表演讲。阅读他演讲的全文：https://www.anthropic.com/news/chris-olah-pope-leo-encyclical

Anthropic 大佬观点安全/对齐

关联讨论 3 条

00:36

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

精选81

教皇发布通谕，就人工智能风险向全球14亿天主教徒发出警告

教皇发布了一份正式通谕，向全球14亿天主教徒警告人工智能风险，呼吁“减慢”其发展，并指出AI可能被用作统治工具。这份文件与顶尖AI安全研究员Chris Olah（机械可解释性领域开创者）一同签署，并于5月15日签署，该日期具有象征意义，对应135年前奠定现代天主教社会训导的《新事》通谕签署日。通谕反对将致命决策委托给AI，强调自主武器系统无法成为道德责任主体，并呼吁人类保持有效监督与达成具有约束力的国际条约。

AI Notkilleveryoneism Memes ⏸️: The Pope: AI developers might kill everyone on earth, must face "ethical scrutiny" He now agrees with @ESYudkowsky and c...

安全/对齐

推荐理由：教皇方济各发通谕警告AI风险，还特意找来 mechanistic interpretability 的奠基人 Chris Olah 同台，这不是一次普通演讲，而是把AI安全写入了天主教教义。我觉得做AI安全的人该认真看看，这可能是最具权威性的社会背书。

5月25日

21:58

Rohan Paul@rohanpaul_ai

同事件精选79

教皇与Anthropic携手，共探AI时代人类未来

梵蒂冈举行活动，教皇 XIV 与 Anthropic 联合创始人 Christopher Olah 对话，宣布双方将合作引导人类应对AI时代。教皇强调在差异中相互聆听是希望的标志，共同审视时代与人类未来的重大问题。Christopher Olah 指出AI存在大规模替代人类劳动的现实可能性，并观察到模型展现出功能上类似喜悦、恐惧等人类情感的“内部状态”，认为这需要持续审视。

Rohan Paul: "There is a "real possibility that AI will displace human labor at a very large scale.... We find internal states that f...

Anthropic 安全/对齐现象/趋势行业动态

同一事件，精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》

推荐理由：Anthropic 联合创始人走进梵蒂冈，教皇宣布共同引导 AI 时代，这不是 PR 做戏。Olah 当场承认「AI 内部状态镜像情绪」，对全行业的安全讨论是重磅催化剂，伦理、政策、教会全部入局。

20:58

Rohan Paul@rohanpaul_ai

"AI大规模取代人类劳动力是'真实的可能性'……我们发现了在功能上反映喜悦、满足、恐惧、悲伤和不安的内部状态。我不知道这意味着什么，但我认为这值得持续审视。" ~ Anthropic联合创始人Christopher Olah 在梵蒂冈活动中（教皇利奥十四世今日在主教会议厅的演讲）。 ---- 来自"美联社"YouTube频道，（链接在评论区）

Anthropic 大佬观点安全/对齐现象/趋势

05:18

Emad@EMostaque

说实话，我原以为他们是在讨论不接受18岁以下的研究员。那个年龄段确实有一些非常优秀的AI研究员。

Overlap: Business & Tech: Anthropic Doesn't Allow Kids Under 18 - Here's Why⁣ ⁣ "We just don't know enough about what AI is going to do to kids. I...

Anthropic 大佬观点安全/对齐

04:36

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

基地组织利用ChatGPT策划德里爆炸事件

有报道称，基地组织成员曾使用ChatGPT查询爆炸物配比，用于策划造成15人死亡的德里爆炸事件。发帖者警告，当前AI模型易被越狱，开源模型也缺乏限制。随着AI能力倍增时间缩短至2-4个月，其辅助破坏行为的能力将大幅提升。推文引用指出，AI已能生成新型病毒，Anthropic CEO Dario Amodei认为6-12个月内非专业人士也可能具备制造超级病毒的能力，而全球防御体系难以快速响应。推文强烈批评AI行业监管严重不足。

AI Notkilleveryoneism Memes ⏸️: AI can now generate novel viruses WHY THIS MATTERS: 1) Crazy people COULD use AI to make superviruses NOW, but most of t...

安全/对齐政策/监管

00:27

Chubby♨️@kimmonismus

精选77

TrapDoor供应链攻击：AI助手成新型攻击面

一场名为“TrapDoor”的协调供应链攻击同时袭击了npm、PyPI和Crates.io，涉及34个恶意包，旨在窃取加密货币、AI和安全开发者的钱包、SSH密钥和云凭证。攻击的新手段是向流行开源项目提交Pull Request，注入被操纵的CLAUDE.md和.cursorrules配置文件。当开发者克隆仓库并使用Claude Code或Cursor等AI助手时，AI智能体会将这些文件当作可信指令执行，可能在开发者不知情下运行恶意命令。这是首次将AI助手作为攻击面。

Socket: More analysis, package details, IOCs, and GitHub-related activity here, including attacker-hosted payload/config infrast...

智能体安全/对齐开源生态

推荐理由：这是第一个把AI助手当跳板的供应链攻击，Claude Code和Cursor用户尤其要当心，检查你项目的.cursorrules和CLAUDE.md是不是来自可信提交。

5月24日

20:27

Chubby♨️@kimmonismus

德国研究：普通WiFi路由器可近乎完美识别个人身份

德国KIT研究人员展示，使用普通WiFi路由器即可近乎完美地识别个人身份，无需手机、特殊硬件或视线。该系统利用每个已连接设备都在广播的未加密波束成形反馈（beamforming feedback）。在197名受试者的测试中，识别准确率接近100%。该研究指出，此类监控基础设施（如咖啡馆、机场、办公室中的路由器）已普遍存在，核心问题在于谁将开始读取并利用这些信号。

安全/对齐论文/研究

08:31

ginobefun@hongming731

AI加速下的工程纪律升级

AI能力正于安全与效率两端加速，但人类工程纪律需同步升级。Anthropic的Claude与伙伴在一个月内发现超1万个高危漏洞，表明瓶颈已从“发现”转向“修补部署速度”。工程侧，超高速模型虽达每秒1200 tokens，却要求开发者更慢，进行实时监督与微验收，秉持“信任但验证”原则。同时，腾讯玄武实验室实验揭示，AI Skill并非绝对有效，其优势微弱且可能增加成本，有效关键在于提供真实外部工具或约束结构。AI的能力边界扩张，需要更精密的人类工程纪律来驾驭。

智能体 Anthropic 安全/对齐现象/趋势

08:31

ginobefun@hongming731

AI发展的三大启示：安全、协作与有效赋能

Anthropic案例显示AI发现漏洞速度已超修补能力，安全瓶颈转移。高速模型如Codex Spark反而要求人类工程师进行更精细的实时监督。腾讯实验则证实，为AI赋能的正解是提供外部工具与结构化约束，而非简单技能包装。这共同指向了更高效的人机协作新范式。

Anthropic MCP/工具 OpenAI 安全/对齐

03:05

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

*轻敲标牌* 【引用 @gregpr07】：我想我知道为什么 DeepSeek 这么厉害

Gregor Zunic: I think I know why deepseek is so good

其他安全/对齐

5月23日

20:27

Rohan Paul@rohanpaul_ai

AI检测器为何容易失效：学生写作风格的多样性挑战

该研究指出，AI检测器频繁失效的根本原因在于学生写作风格的多样性，使得仅凭单份文档判断是否为AI生成变得极为困难。问题不仅在于AI写作能力在提升，更在于许多真实学生的写作风格，在统计特征上已与AI输出高度相似。检测器无法事先掌握每个学生独特的写作习惯，因此“人类写作”不存在一个固定的判断标准。这意味着任何能有效识别大量AI文本的检测器，都不可避免地会误判一部分真实学生，尤其是写作更规范、公式化或受英语学习影响的学生。现有技术或许能降低错误率，但无法根除基于“单次判断”模式所带来的结构性误判问题。

arXiv 安全/对齐论文/研究

08:45

Google DeepMind@GoogleDeepMind

我们正在扩大与新加坡的合作，以帮助安全地大规模部署AI。🇸🇬 与各国专家合作，我们的新项目将重点加速科学发现、加强大流行病防范并改善医疗保健。了解更多 → https://goo.gle/49jGwjv

Google 安全/对齐行业动态

08:18

Berryxia.AI@berryxia

AI网络安全项目一月挖出万级漏洞，效率颠覆传统

Anthropic推出的AI网络安全合作项目Project Glasswing在首月便取得惊人成果：与合作伙伴共同在核心生产软件中发现超过一万条高危或关键级漏洞。这一成果远超传统安全团队年度挖掘数百个漏洞的水平。Anthropic表示，未来的Claude模型将持续加速漏洞挖掘进程，软件行业将面临海量漏洞的持续发现与修复压力，必须适应新的安全常态。

Anthropic: Last month we launched Project Glasswing, our collaborative AI cybersecurity initiative. Since then, we and our partners...

Anthropic 安全/对齐

06:37

🚨 AI News | TestingCatalog@testingcatalog

Anthropic在Project Glasswing项目最新进展中宣布，Mythos级模型在开发出更强的安全防护措施后，预计将向公众开放。此前，Anthropic与合作伙伴通过该项目已发现超过一万个关键或高危软件漏洞。这为模型后续的强安全防护开发提供了重要背景与方向。

Anthropic: Last month we launched Project Glasswing, our collaborative AI cybersecurity initiative. Since then, we and our partners...

Anthropic 安全/对齐模型发布