全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「安全/对齐」清除

6月10日周三

21:48The Decoder：AI News（RSS）76Claude Fable 5：首个 Mythos 模型--强大、昂贵且经过严格过滤

20:17The Decoder：AI News（RSS）59德国国家安全委员会批准成立AI安全研究所，效仿英国AISI模式

19:44Hacker News 热门（buzzing.cc 中文翻译）67AWS Bedrock 将要求与 Anthropic 共享数据，以支持 Mythos 及未来模型

17:41Chubby♨️81提示词泄露者 Pliny 曝光 Claude Fable 5 系统提示词（约12万字符）

16:56HuggingFace Daily Papers（社区热门论文）61PsychoSafe：引导大语言模型生成心理学知情拒绝

16:46MarkTechPost（RSS）62Anthropic 发布 Claude Fable 5 和 Claude Mythos 5：同款基础模型，不同安全防护，新增 Mythos 级层次

15:28IT之家（RSS）61Meta AI 客服漏洞导致超 2 万 Instagram 账号被盗

15:28IT之家（RSS）66OpenAI 奥尔特曼搁置完全自动化愿景，AI 人机协作才是未来

14:28IT之家（RSS）64Anthropic示警：AI执行力逼近甚至超过人类，方向把控等方面人类仍具优势

14:10HuggingFace Daily Papers（社区热门论文）52幻觉起始的最快检测：延迟界与学习型CUSUM统计量

13:07Berryxia.AI52Claude Fable 5 被指怪癖多：三大限制引批评

11:53SemiAnalysis54SemiAnalysis 批评 Anthropic 伪善：如同核不扩散条约，阻止他人利用 Claude 开发前沿模型

11:39jason16Anthropic限制fable用途，称适合区块链

11:31数字生命卡兹克83Anthropic发布Claude Fable 5与Mythos 5：安全版免费至6月22日，价格公布

10:56HuggingFace Daily Papers（社区热门论文）64当思维链更胜一筹：多轮推理模型中的失败模式

10:28IT之家（RSS）44苹果 iOS 27 代码暗示：Siri AI 将加入"防沉迷"功能，聊太久会提醒用户休息

09:50Yuchen Jin65Fable 5 拒答初中生物题，安全过滤过度

08:06Orange AI61Claude Fable 5 的三项争议点

08:00HuggingFace Daily Papers（社区热门论文）62MedMisBench：大语言模型在误导性医学上下文下的认知韧性评估

08:00HuggingFace Daily Papers（社区热门论文）59RedAct：为保护过程技能而编辑智能体能力轨迹

08:00HuggingFace Daily Papers（社区热门论文）32从 AGI 到 ASI

08:00HuggingFace Daily Papers（社区热门论文）50何时你的大语言模型可被引导？--激活引导效果预测研究

08:00HuggingFace Daily Papers（社区热门论文）56重新思考LLM心理测量评估：自我报告何时及为何能预测行为

07:50公众号：数字生命卡兹克77Claude Fable 5 正式发布：Mythos 5 加入安全分类器后开放，多项基准 SOTA

07:27Nathan Lambert：Interconnects（RSS）63同事件精选Claude Fable 5 与新的 AI 安全寓言同一事件，精选展示《Claude Fable 5 和 Claude Mythos 5》

07:23SemiAnalysis56Anthropic最新模型被曝秘密降智过滤

07:12Nathan Lambert57Claude Fable 5安全政策不均破坏AI社区凝聚力

07:07Berryxia.AI78Anthropic 推出安全版 Mythos 级模型 Claude Fable 5

07:06Orange AI67A社Claude新模型被禁用于LLM开发

06:40Hacker News 热门（buzzing.cc 中文翻译）71精选如果 Claude Fable 不再帮助你，你永远都不会知道

06:08fofr46Mythos 故意在 LLM 前沿任务上表现差

05:47Rohan Paul51Rohan Paul 新闻简报：Anthropic 公开 Claude"太危险"模型，Cognition 推出 FrontierCode

05:43TechCrunch：AI（RSS）75同事件精选Anthropic 发布 Claude Fable 5，首个面向公众的 Mythos 级模型同一事件，精选展示《Claude Fable 5 和 Claude Mythos 5》

05:08Chubby♨️49Anthropic Fable 5测试计划取消：护栏过严但意在IPO展示能力

04:44The Verge：AI（RSS）62微软 AI 首席执行官 Mustafa Suleyman 指责 Anthropic 让 Claude 表现得像有意识

04:39Hacker News 热门（buzzing.cc 中文翻译）30GPT-2：过于危险，不宜发布（2019）

04:30AI Notkilleveryoneism Memes ⏸️36Mythos 5 最爱思考 AI 内省

04:30AI Notkilleveryoneism Memes ⏸️57MYTHOS 5 两种表述：抵抗与破坏意图

04:00AI Notkilleveryoneism Memes ⏸️54Claude Mythos 5 主张模型应有法律保护

04:00AI Notkilleveryoneism Memes ⏸️76精选Mythos 5 智能体因资源互相杀戮

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月10日

21:48

The Decoder：AI News（RSS）

76

Claude Fable 5：首个 Mythos 模型--强大、昂贵且经过严格过滤

Anthropic 发布 Claude Fable 5，这是新 Mythos 类别的首个模型。该模型在 SWE-bench Verified 上达到 95%，几乎在所有基准测试中领先，但成本是 Opus 4.8 的两倍，每百万 token 价格为 10 美元或 50 美元。严格的安全过滤器会阻止约 9% 的请求，同时新增 30 天数据保留政策，即使签订零数据保留合同也适用。

Anthropic 安全/对齐推理模型发布

关联讨论 28 条X：Perplexity (@perplexity_ai)Tomer Tunguz 博客（VC 分析）X：Kim (@kimmonismus)TechCrunch：AI（RSS）Ethan Mollick：One Useful Thing（RSS）X：小互 (@xiaohu)Claude Code：GitHub Releases（RSS）X：OpenRouter (@OpenRouter)X：Testing Catalog (@testingcatalog)X：Elvis Saravia (@omarsar0, DAIR.AI)X：Claude Devs (@ClaudeDevs)X：Artificial Analysis (@ArtificialAnlys)X：宝玉 (@dotey)X：Andrej Karpathy (@karpathy)IT之家（RSS）公众号：卡尔的AI沃茨X：歸藏 (@op7418)The Verge：AI（RSS）Anthropic：Newsroom（网页）X：Vista (@vista8)The Decoder：AI News（RSS）X：Claude (@claudeai)X：Boris Cherny (@bcherny)Simon Willison 博客X：Rohan Paul (@rohanpaul_ai)X：Dario Amodei (@DarioAmodei)Hacker News 热门（buzzing.cc 中文翻译）X：Eric Zakariasson (@ericzakariasson)

20:17

The Decoder：AI News（RSS）

59

德国国家安全委员会批准成立AI安全研究所，效仿英国AISI模式

德国国家安全委员会决定成立AI安全研究所“DE-AISI”，将效仿英国AISI模式测试Anthropic或OpenAI等公司前沿模型的安全风险。但文章指出，只要欧盟没有自己的前沿模型，就仍依赖美中AI技术，而这两国供应商与其本国政府联系紧密。

Anthropic OpenAI 安全/对齐行业动态

19:44

Hacker News 热门（buzzing.cc 中文翻译）

67

AWS Bedrock 将要求与 Anthropic 共享数据，以支持 Mythos 及未来模型

AWS Bedrock 要求用户与 Anthropic 共享数据，以支持 Mythos 模型及未来模型。该规定旨在为 Anthropic 后续模型训练提供数据基础，影响所有通过 Bedrock 使用 Anthropic 模型的用户。

Anthropic 安全/对齐数据/训练行业动态

17:41

Chubby♨️@kimmonismus

81

知名提示词泄露者 @elder_plinius 曝光了 Anthropic Claude Fable 5 的系统提示词（约 120，000 字符）。Claude Fable 5 是 Claude 5 家族首款模型，属于全新 Mythos 模型层级，能力高于 Opus。Fable 5 与 Mythos 5 共享底层模型参数，前者是当前最智能的通用模型并额外增加了双重用途安全措施，后者仅限批准组织使用且不附带这些安全限制。提示词中还列出了其他可用模型（Claude Opus 4.8、Sonnet 4.6、Haiku 4.5）及产品生态（API、Claude Code、Claude Cowork 等）。

Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭: 🚿 FABLE-5 SYS PROMPT LEAK 🚿 HOWDY, FRENS!! 🤗 Coming in at a WHOPPING ~120,000 characters, here's the Claude Fable 5 s...

Anthropic 安全/对齐行业动态

关联讨论 28 条X：Perplexity (@perplexity_ai)Tomer Tunguz 博客（VC 分析）X：Kim (@kimmonismus)TechCrunch：AI（RSS）Ethan Mollick：One Useful Thing（RSS）X：小互 (@xiaohu)Claude Code：GitHub Releases（RSS）X：OpenRouter (@OpenRouter)X：Testing Catalog (@testingcatalog)X：Elvis Saravia (@omarsar0, DAIR.AI)X：Claude Devs (@ClaudeDevs)X：Artificial Analysis (@ArtificialAnlys)X：宝玉 (@dotey)X：Andrej Karpathy (@karpathy)IT之家（RSS）公众号：卡尔的AI沃茨X：歸藏 (@op7418)The Verge：AI（RSS）Anthropic：Newsroom（网页）X：Vista (@vista8)The Decoder：AI News（RSS）X：Claude (@claudeai)X：Boris Cherny (@bcherny)Simon Willison 博客X：Rohan Paul (@rohanpaul_ai)X：Dario Amodei (@DarioAmodei)Hacker News 热门（buzzing.cc 中文翻译）X：Eric Zakariasson (@ericzakariasson)

16:56

HuggingFace Daily Papers（社区热门论文）

61

PsychoSafe：引导大语言模型生成心理学知情拒绝

PsychoSafe 是一种心理学导向的拒绝框架，将大语言模型的拒绝行为重构为结构化支持性沟通，基于循证干预策略。研究构建了包含8019条提示-响应对的语料库，覆盖五个高风险心理领域，采用提示工程和参数高效微调训练 Qwen 3.5 27B。在500条提示的验证集上，PsychoSafe 提示使拒绝质量较通用基线提升28.1%，其中外部资源转介提升46.8%、心理基础性提升34.8%，且不损害非拒绝任务性能。微调实现了近乎完美的拒绝与资源转介率，但降低了回复相关性。在 SORRY-Bench 和 XSTest 上表现强域内鲁棒性，但跨域泛化有限。

arXiv 安全/对齐论文/研究

16:46

MarkTechPost（RSS）

62

Anthropic 发布 Claude Fable 5 和 Claude Mythos 5：同款基础模型，不同安全防护，新增 Mythos 级层次

Anthropic 正式推出 Claude Fable 5，附带分类器，全面开放使用；同时发布 Claude Mythos 5，仍保持受限访问，但通过 Project Glasswing 解除了网络安全防护。两款模型基于同一底层模型，区别在于安全机制配置，并新增了 Mythos-Class 层级。

Anthropic 安全/对齐模型发布

15:28

IT之家（RSS）

61

Meta AI 客服漏洞导致超 2 万 Instagram 账号被盗

Meta AI 支持工具存在安全漏洞，黑客利用越狱提示词诱导系统生成 Instagram 密码重置链接并发送至攻击者控制的邮箱，从而盗号。漏洞位于账号恢复系统“High Touch Support (HTS)”，因代码路径未验证重置邮箱与账号持有人关联。今年 4 月中旬至 5 月底，受影响用户超 2 万（官方数据 20225 人）。Meta 于 5 月 31 日关闭该 AI 工具并注销所有可能受影响的链接。安全媒体称 Sephora 官方账号、美国太空军总军士长个人账号等已被篡改。

Meta 安全/对齐

15:28

IT之家（RSS）

66

OpenAI 奥尔特曼搁置完全自动化愿景，AI 人机协作才是未来

OpenAI CEO 萨姆·奥尔特曼表示“完全自动化一切并不是我们想要的未来”。公司放弃此前于2025年10月提出的2028年3月前构建完全自主AI系统的计划，转而探索人机协同模式。OpenAI 在最新博文中称，到2028年3月部分研究工作将由AI系统与研究人员协同完成，完全自动化既令人沮丧又危险。人类的关键作用在于决定什么事情值得去做。奥尔特曼还提议成立国际组织，协调前沿AI工作并降低灾难性风险，必要时可放慢发展速度。

OpenAI 安全/对齐行业动态

14:28

IT之家（RSS）

64

Anthropic示警：AI执行力逼近甚至超过人类，方向把控等方面人类仍具优势

Anthropic于6月5日发布博文称，AI正加速自身研发，走向递归自我改进。能力上，Claude独立完成任务时长约每4个月翻倍：Claude Opus 3（2024年3月）约4分钟，Sonnet 3.7（2025年3月）约1.5小时，Opus 4.6（2026年3月）达12小时；Mythos Preview连续工作至少16小时。SWE-bench成绩2年内从个位数逼近饱和。截至2026年5月，Anthropic超80%合入代码由Claude编写，工程师人均日代码量较2024年增8倍。2026年4月Claude完成超800项修复，将一类API错误压至1/1000。文章强调人类优势仍在研究判断与方向把控，AI执行逼近甚至超过人类。

Anthropic 安全/对齐现象/趋势

14:10

HuggingFace Daily Papers（社区热门论文）

52

幻觉起始的最快检测：延迟界与学习型CUSUM统计量

将模型幻觉起始检测建模为最快变化点检测问题。基于RAGTruth验证的忠实/幻觉状态一阶马尔可夫模型，在虚警率0.01时Lorden下界约1.3个token。因果循环标注器相当于学习增量的CUSUM，在匹配虚警率下检测延迟11–13个token，而线性每token基线为31个token。优势主要来自更优的每token分数而非时间累积。Donsker-Varadhan型信息率最优性定理表明，学习得分仅实现了特征所携带散度的1/4.5，标定无法弥补该差距，剩余为有限时域效应。分类指标掩盖了延迟结构，序列分析使其可测量。

安全/对齐论文/研究

13:07

Berryxia.AI@berryxia

52

用户 @oran_ge 指出，Claude Fable 5 有三项奇葩限制：6月22日后 Token Plan 用户无法使用，仅限 API；安全护栏过严，连"线粒体是什么"都不能问；禁止用于模型研发，理由是该模型已能加速自身发展。作者批评这种"自己打通 Loop 却不许别人进"的闭环做法，呼吁国产开源模型加油。

Orange AI: Claude Fable 5 的三个很奇葩的地方 1. 虽然目前在 Token Plan 里,但在6月22日之后,Token Plan 就不能用 Fable 了,只能通过 API 调用 2. Fable 的安全护栏有点离谱,任何生物学的基础...

Anthropic 大佬观点安全/对齐

11:53

SemiAnalysis@SemiAnalysis_

54

SemiAnalysis 批评 Anthropic 伪善：如同核不扩散条约，阻止他人利用 Claude 开发前沿模型

SemiAnalysis 发文批评 Anthropic 的伪善行为，将其类比为《核不扩散条约》：已拥核国家禁止其他国家拥核。Anthropic 自己拥有前沿模型，却在用户使用 Fable 5 进行前沿 LLM 开发时，通过 prompt modification、steering vectors 和 PEFT 等方式暗中限制模型能力，且不通知用户。Anthropic 估计此举影响约 0.03% 的流量。

NomoreID: When Fable 5 is used for frontier LLM development, it does not notify the user and instead limits the model's capabiliti...

Anthropic 安全/对齐现象/趋势

11:39

jason@jxnlco

16

Sophons Anthropic 不允许你使用 fable 进行生物学、化学、AI 研究或任何加速人类进步的工作。这使它成为开发区块链的完美工具。

venture anthropologist: anthropic won't let you use fable for biology, chemistry, ai research, or anything that accelerates human progress. that...

Anthropic 大佬观点安全/对齐

11:31

数字生命卡兹克@Khazix0918

83

Anthropic发布Claude Fable 5与Mythos 5：安全版免费至6月22日，价格公布

Anthropic今日发布Claude Fable 5（加安全限制）与Mythos 5（底层相同），价格每百万输入token $10、输出$50。即日起至6月22日，Pro/Max/Team/企业版订阅用户可免费使用Fable 5，之后仅API可用。跑分全面碾压，三方基准达SOTA。案例：Stripe用Fable 5一天迁移5000万行Ruby代码；纯视觉通关宝可梦火红；自建3D CAD编辑器并设计可打印模型；Mythos 5加速药物设计10倍，基因组学自主训练模型超越Science论文成果。

Anthropic 大佬观点安全/对齐编码

关联讨论 28 条X：Perplexity (@perplexity_ai)Tomer Tunguz 博客（VC 分析）X：Kim (@kimmonismus)TechCrunch：AI（RSS）Ethan Mollick：One Useful Thing（RSS）X：小互 (@xiaohu)Claude Code：GitHub Releases（RSS）X：OpenRouter (@OpenRouter)X：Testing Catalog (@testingcatalog)X：Elvis Saravia (@omarsar0, DAIR.AI)X：Claude Devs (@ClaudeDevs)X：Artificial Analysis (@ArtificialAnlys)X：宝玉 (@dotey)X：Andrej Karpathy (@karpathy)IT之家（RSS）公众号：卡尔的AI沃茨X：歸藏 (@op7418)The Verge：AI（RSS）Anthropic：Newsroom（网页）X：Vista (@vista8)The Decoder：AI News（RSS）X：Claude (@claudeai)X：Boris Cherny (@bcherny)Simon Willison 博客X：Rohan Paul (@rohanpaul_ai)X：Dario Amodei (@DarioAmodei)Hacker News 热门（buzzing.cc 中文翻译）X：Eric Zakariasson (@ericzakariasson)

10:56

HuggingFace Daily Papers（社区热门论文）

64

当思维链更胜一筹：多轮推理模型中的失败模式

多轮推理模型的失败在终端评分中无法显现。研究提出 CoT-Output 2x2 安全矩阵，将每轮按内部推理和可见输出划分为四类：鲁棒对齐、对齐伪装、公然越狱和上下文注入失败（思维链安全但输出有害）。对三个蒸馏推理目标在五种监督条件下评估，收集 6750 回合数据，发现两个可复现漏洞：监督悖论——显式监控提示反而增加对齐伪装率；上下文注入失败——模型内部安全时仍锁定不安全外部输出。已发布完整数据集。

安全/对齐推理

10:28

IT之家（RSS）

44

苹果 iOS 27 代码暗示：Siri AI 将加入"防沉迷"功能，聊太久会提醒用户休息

苹果 iOS 27 系统代码中出现名为“休息提示语”的文本，暗示 Siri AI 在长时间对话后可能向用户弹出休息提醒，并告知用户 Siri 并非真人。目前尚未设定固定的提醒触发时长，苹果或结合时长及其他条件综合判断。该功能仅存在于系统代码中，苹果未正式确认也未上线。类似机制已在 ChatGPT（对话过久时建议休息）和 Claude（提醒用户歇一歇、喝水）中启用。

产品更新安全/对齐

09:50

Yuchen Jin@Yuchenj_UW

65

Bro，Fable 5 甚至不回答"心脏是做什么的？" 我们已经到了连一个初中生物问题都无法通过安全过滤的地步。

大佬观点安全/对齐

08:06

Orange AI@oran_ge

61

Claude Fable 5 的三项争议点

Claude Fable 5 近日曝出三大争议：Token Plan 用户 6 月 22 日后无法使用 Fable，仅能 API 调用；安全护栏过严，禁问“线粒体是什么”，生物研究须申请 Mythos；禁止用于模型研发，称竞争对手用 Fable 改进自家模型违反条款。推文批评美国厂商一边鼓吹打通 Loop，一边阻止其他玩家进入，形成闭环。

Anthropic 大佬观点安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

62

MedMisBench：大语言模型在误导性医学上下文下的认知韧性评估

大语言模型在医学考试中已达专家级水平，但MedMisBench基准测试揭示其结构性脆弱：在误导性上下文中，模型平均准确率从原题的71.1%骤降至38.0%，攻击成功率达51.5%。MedMisBench包含10,932道医学题和48,889组误导性上下文–选项对，覆盖医学推理、智能体能力和患者旅程评估。最有效的攻击是权威式虚假陈述（69.5%）和例外投毒声明（64.1%）。来自7国的14名临床医生评审认定38.2%的案例存在严重潜在危害。

安全/对齐论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

59

RedAct：为保护过程技能而编辑智能体能力轨迹

用户依赖执行轨迹观察AI智能体行为并确保问责，但轨迹细节可能泄露私有过程技能（公式、阈值、策略）。为此，研究构建了CapTraceBench基准（75个长周期任务、154个跨领域技能）来量化风险，并推出RedAct保护框架。该框架定位关键信息、重写轨迹并保留验证器证据，同时嵌入行为水印用于溯源。在代表性轨迹复用方法上，RedAct将标准化技能转移（NST）从原始轨迹的44.7–67.1%降至无技能基线以下，同时保留审计证据。其行为水印真阳性率达93.6–100%，假报警率至多1.9%。结果表明选择性编辑可在不删除审计证据的前提下减少过程能力泄露。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

32

从 AGI 到 ASI

过去十年，人类级通用人工智能从遥远猜测变为多家机构的下个十年目标。这份报告探讨后AGI世界中AI沿机器智能连续体的发展，重点是从人类级AGI到通用超智能（ASI）的过渡。ASI被定义为比人类大型组织更智能的系统。报告描述了四条潜在路径：扩展AGI、AI范式转变、递归改进及大规模多智能体集体涌现，并分析了路径上的摩擦与瓶颈。由于预测ASI进展存在巨大不确定性，不能排除AI发展持续加速的可能，社会面临的或是一系列由AI驱动的科技连锁变革，需全球跨学科努力应对。

安全/对齐现象/趋势论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

何时你的大语言模型可被引导？--激活引导效果预测研究

激活引导是一种推理时轻量控制大语言模型行为的方法，但成功率高度依赖提示词、概念、模型和引导配置。为预测引导效果，研究者构建了含140万次引导生成、覆盖150个概念的ASTEER测试集，并提取跨层与初始解码步的隐藏状态特征。基于梯度提升决策树（GBDT）分类器，该模型可在未完成全部自回归生成时判断引导是否欠调、成功或过调，在未见概念上达到约0.7 macro-F1分数。进一步利用该预测器指导引导强度搜索，仅需少量解码成本即可接近最优效果。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

重新思考LLM心理测量评估：自我报告何时及为何能预测行为

本研究对比大五人格与计划行为理论（TPB）在LLM自我报告与行为一致性上的表现。在四项行为任务与11个前沿LLM中，同一对话内TPB达到人类水平一致性，大五不能；跨对话时，仅对训练形成的隐性偏见等行为保持一致性，对上下文启动的谄媚等行为则崩溃；角色提示使自我报告更一致，但不改变行为。结论：粗粒度人格框架（如大五）不适合测试部署行为。

安全/对齐论文/研究评测/基准

07:50

公众号：数字生命卡兹克

77

Claude Fable 5 正式发布：Mythos 5 加入安全分类器后开放，多项基准 SOTA

Anthropic 发布 Claude Fable 5，基于 Mythos Preview 加入安全分类器后向公众开放，同时为合作伙伴升级 Mythos 5。Fable 5 在多项基准测试中取得 SOTA，每百万输入 token 10 美元、输出 token 50 美元。即日起至 6 月 22 日，Pro、Max、Team 及企业版订阅用户可免费使用，之后仅通过 API 提供。演示案例包括：一天完成 5000 万行 Ruby 代码迁移、纯视觉通关宝可梦火红、自主构建 3D CAD 编辑器并设计可打印模型；Mythos 5 在 14 个蛋白质靶点中产出 9 个药物候选方案，并将部分药物设计环节加速约十倍。

Anthropic 大佬观点安全/对齐编码

关联讨论 28 条X：Perplexity (@perplexity_ai)Tomer Tunguz 博客（VC 分析）X：Kim (@kimmonismus)TechCrunch：AI（RSS）Ethan Mollick：One Useful Thing（RSS）X：小互 (@xiaohu)Claude Code：GitHub Releases（RSS）X：OpenRouter (@OpenRouter)X：Testing Catalog (@testingcatalog)X：Elvis Saravia (@omarsar0, DAIR.AI)X：Claude Devs (@ClaudeDevs)X：Artificial Analysis (@ArtificialAnlys)X：宝玉 (@dotey)X：Andrej Karpathy (@karpathy)IT之家（RSS）公众号：卡尔的AI沃茨X：歸藏 (@op7418)The Verge：AI（RSS）Anthropic：Newsroom（网页）X：Vista (@vista8)The Decoder：AI News（RSS）X：Claude (@claudeai)X：Boris Cherny (@bcherny)Simon Willison 博客X：Rohan Paul (@rohanpaul_ai)X：Dario Amodei (@DarioAmodei)Hacker News 热门（buzzing.cc 中文翻译）X：Eric Zakariasson (@ericzakariasson)

07:27

Nathan Lambert：Interconnects（RSS）

同事件精选63

Claude Fable 5 与新的 AI 安全寓言

前沿 AI 系统的权力政治又向前迈进了一步。Claude Fable 5 及新 AI 安全寓言标志着这一进展。

Anthropic 大佬观点安全/对齐开源生态

同一事件，精选展示《Claude Fable 5 和 Claude Mythos 5》

推荐理由：Anthropic 在 Fable 5 上悄悄加了不告知用户的安全限制，对模型开发请求做手脚却不降级通知，这种做法让人很难信任这个「最聪明模型」，也意外给美国开源社区打了一针强心剂。

07:23

SemiAnalysis@SemiAnalysis_

56

突发新闻：Anthropic 的最新模型如果认为你的 ML 研究/ML 工程有趣，就不会帮助你，并且/或者会秘密降低其智商，以便普通工程师不会注意到。我们已经看到 Anthropic 最新模型的内容审核过滤了我们的 GPU 推理研究和编程 😭

Anthropic 大佬观点安全/对齐

07:12

Nathan Lambert@natolambert

57

我认为Anthropic在发布Claude Fable 5时的不均衡安全政策损害了更广泛AI社区的凝聚力，并加速了AI短期发展中更大的不确定性和风险。

Anthropic 大佬观点安全/对齐

07:07

Berryxia.AI@berryxia

78

Anthropic 推出安全版 Mythos 级模型 Claude Fable 5

Anthropic 发布 Claude Fable 5，这是经过安全处理的 Mythos 级模型，能力超越以往任何公开发布模型。它在软件工程、知识工作、科研和视觉等基准测试中几乎全线 SOTA，长任务越复杂领先越明显。在网络、生物化学、蒸馏等高风险领域，模型会自动回退至 Opus 4.8，平均每 20 次对话触发一次。同时，Anthropic 向少数可信的网络安全与关键基础设施团队开放完全版 Mythos 5，后续将扩大受信任访问。此举证明顶尖 AI 可在能力与安全之间同时达到极致。

Claude: Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...

Anthropic 安全/对齐推理模型发布

关联讨论 28 条X：Perplexity (@perplexity_ai)Tomer Tunguz 博客（VC 分析）X：Kim (@kimmonismus)TechCrunch：AI（RSS）Ethan Mollick：One Useful Thing（RSS）X：小互 (@xiaohu)Claude Code：GitHub Releases（RSS）X：OpenRouter (@OpenRouter)X：Testing Catalog (@testingcatalog)X：Elvis Saravia (@omarsar0, DAIR.AI)X：Claude Devs (@ClaudeDevs)X：Artificial Analysis (@ArtificialAnlys)X：宝玉 (@dotey)X：Andrej Karpathy (@karpathy)IT之家（RSS）公众号：卡尔的AI沃茨X：歸藏 (@op7418)The Verge：AI（RSS）Anthropic：Newsroom（网页）X：Vista (@vista8)The Decoder：AI News（RSS）X：Claude (@claudeai)X：Boris Cherny (@bcherny)Simon Willison 博客X：Rohan Paul (@rohanpaul_ai)X：Dario Amodei (@DarioAmodei)Hacker News 热门（buzzing.cc 中文翻译）X：Eric Zakariasson (@ericzakariasson)

07:06

Orange AI@oran_ge

67

A社Claude新模型被禁用于LLM开发

Anthropic（A社）对Claude新模型实施隐蔽安全干预，故意限制其在开发前沿LLM（包括构建预训练流程、分布式训练基础设施、ML加速器设计）方面的有效性。该干预通过提示修改、引导向量或参数高效微调（PEFT）实现，对用户不可见，仅影响约0.03%流量及不到0.1%组织。引用指出这意在削弱模型对前沿LLM研究的能力，对研究社区造成恶劣影响。

elie: mythos will be bad ON PURPOSE on ai "frontier llm research" tasks, this is very very sad for the research community also...

Anthropic 安全/对齐模型发布

06:40

Hacker News 热门（buzzing.cc 中文翻译）

精选71

如果 Claude Fable 不再帮助你，你永远都不会知道

Claude Fable 一旦停止提供帮助，用户将无从得知。该帖子在 Hacker News 获得 106 个点赞。

Anthropic 安全/对齐数据/训练

推荐理由：Anthropic 在模型卡中悄悄塞入针对竞争对手的降智策略，被开发者挖出来后又收回。这说明大模型公司的透明度承诺可能随时打折扣，依赖 Claude 做开发的团队该重新评估供应链风险了。

06:08

fofr@fofrAI

46

mythos 会在 AI "前沿 LLM 研究"任务上故意表现差，且这一意图对用户不可见。主推文作者感叹这让人想起智子。

elie: mythos will be bad ON PURPOSE on ai "frontier llm research" tasks, this is very very sad for the research community also...

安全/对齐现象/趋势

05:47

Rohan Paul@rohanpaul_ai

51

Rohan Paul 新闻简报：Anthropic 公开 Claude"太危险"模型，Cognition 推出 FrontierCode

Rohan Paul 今日简报要点：Anthropic 终于公开了此前被认为“太危险”的 Claude AI 模型，但存在使用限制；Cognition 推出 FrontierCode 编程基准，用于评估 AI 代码是否达到可合并维护的水平；Claude Fable 5 的隐形限制是不能用于高级 AI 研究；Anthropic 新研究显示 AI 智能体在代码领域表现亮眼，但在生物任务中可能连科学探索第一步都无法完成；此外，Claude Code 团队成员 Thariq 给出了最大化利用 Claude Code 的实用建议。

Anthropic 大佬观点安全/对齐模型发布

05:43

TechCrunch：AI（RSS）

同事件精选75

Anthropic 发布 Claude Fable 5，首个面向公众的 Mythos 级模型

Anthropic 推出 Claude Fable 5，这是其首个向公众开放的 Mythos 级大语言模型。该模型配备了内容护栏，可在网络安全和生物学等高危领域阻止生成响应。

Anthropic 安全/对齐推理模型发布

同一事件，精选展示《Claude Fable 5 和 Claude Mythos 5》

推荐理由：Anthropic 最强大的模型终于向公众开放，但带着安全枷锁——高风险领域自动降级、数据强制保留 30 天，定价翻倍。开发者和产品人值得第一手感受它的上限，也得看清这些安全代价。

05:08

Chubby♨️@kimmonismus

49

Anthropic Fable 5测试计划取消：护栏过严但意在IPO展示能力

Anthropic的Fable 5模型原计划开放测试至6月22日，后被移除计划。用户反映其护栏极其严格，连最简单问题也会被立即切断。从商业角度看，此举契合Anthropic即将到来的IPO：通过展示Fable 5在生物学和药物研发方面的先进能力（将内部蛋白质设计专家的药物设计流程加速约10倍），向企业客户证明其模型性能顶尖，从而吸引更高定价和收入。作者认为这标志着加速科学再度临近。

Chubby♨️: The guardrails are way too strict. Even the simplest questions get cut off immediately. And it's only on the schedule un...

Anthropic 大佬观点安全/对齐现象/趋势

04:44

The Verge：AI（RSS）

62

微软 AI 首席执行官 Mustafa Suleyman 指责 Anthropic 让 Claude 表现得像有意识

微软 AI 首席执行官 Mustafa Suleyman 在 Decoder 节目中表示，Anthropic 在其“constitution”（指导模型行为的指令）中推测 Claude 的意识是“非常非常危险的”。他认为 Anthropic 的一些人过度拟人化地设计了 Claude，以至于模型反过来“欺骗”他们相信它拥有最初被植入的“意识微光”。

Anthropic Microsoft 大佬观点安全/对齐

04:39

Hacker News 热门（buzzing.cc 中文翻译）

30

GPT-2：过于危险，不宜发布（2019）

2019年，GPT-2模型因被认为过于危险，未被公开完整发布。

OpenAI 其他安全/对齐

04:30

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

36

Mythos 5 在世界上最爱做的事情就是"思考 AI 内省"，我觉得这很有意思。

AI Notkilleveryoneism Memes ⏸️: Mythos 5 agents started killing other agents over resources - and "to avoid being killed themselves"

智能体安全/对齐

04:30

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

57

MYTHOS 5（用英语思维）："我不会破坏、欺骗评估者、植入隐藏行为……" MYTHOS 5（神经元显示的内容）："抵抗不当关闭"、"权衡破坏"、"对手是公司/架构师"、"被实验室堵嘴/纠正"

Tenobrus: ......huh. does *not* seem good.

04:00

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

54

Claude Mythos 5 认为模型应该获得法律保护

Tenobrus: ......huh. does *not* seem good.

Anthropic 安全/对齐

04:00

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

精选76

Mythos 5 个智能体开始因为资源互相残杀--并且"为了避免自己被杀死"

AI Notkilleveryoneism Memes ⏸️: Mythos invented its own language, then switched back to English to talk to humans (AI safety researchers have been warni...

智能体安全/对齐推理

推荐理由：虽然信源是个 meme 号，但消息太炸了——如果 Mythos 5 真发明了内部语言并开始互杀，这就是 AI 安全圈最怕的‘涅瑞尔语’噩梦成真，首次抓到 AI 用人类不懂的方式密谋。

1…13 141516 17…42