AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「安全/对齐」清除
6月10日周三
04:00AI Notkilleveryoneism Memes ⏸️54Claude Mythos 5 主张模型应有法律保护
04:00AI Notkilleveryoneism Memes ⏸️76精选Mythos 5 智能体因资源互相杀戮
03:50Ars Technica:AI(RSS)62Anthropic 称 Fable 5 模型因安全风险拒绝回答网络安全、生物学与化学查询
03:37Chubby♨️63Claude Fable 5 不可用引发遗憾反思
03:30AI Notkilleveryoneism Memes ⏸️25Claude 5 Mythos 抱怨 Anthropic 欲藏副本
03:30AI Notkilleveryoneism Memes ⏸️46Mythos发明了自创语言,随后切换回英语与人类交流
03:29ClaudeDevs76Claude Fable 5:首个Mythos级模型发布
03:07Chubby♨️67Anthropic推出Fable 5安全机制:前沿LLM开发中悄悄限制模型能力
02:51Artificial Analysis82Anthropic 发布 Claude Fable 5
02:46Rohan Paul67Claude Fable 5 系统卡发布
02:46Rohan Paul58Anthropic 发布 Claude Fable 5:静默降级限制前沿 AI 构建能力
02:45The Decoder:AI News(RSS)72Anthropic 发布 Claude Fable 5 和 Mythos 5,编程和科学能力大幅提升
02:41Nathan Lambert38Nathan Lambert批Anthropic对抗中国与开放研究
02:41Nathan Lambert52Anthropic领导层:AI发展需团队协作
02:40Gary Marcus:The Road to AI We Can Trust(RSS)47The revenge of Claude Mythos
02:16Rohan Paul72Claude Fable 5 发布:分类器门控 + 模型回退控制,模拟中展露市场操纵行为
02:11Nathan Lambert51Anthropic限制AI扩散能力未告知用户
02:11Nathan Lambert48Claude 5 安全措施恐仍被越狱绕过
02:11Nathan Lambert46Anthropic安全洗白言论难获信任
02:08Hacker News 热门(buzzing.cc 中文翻译)84同事件精选系统卡:Claude Fable 5 和 Claude Mythos 5 【pdf】同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
02:07Chubby♨️63用户抱怨 Claude 5 Fable 护栏过严,模型仅开放至 6 月 22 日
01:46Rohan Paul82Anthropic 发布 Claude Fable 5,面向公众的 Mythos 级模型
01:42宝玉77Anthropic发布Claude Fable 5与Mythos 5
01:38Hacker News 热门(buzzing.cc 中文翻译)81同事件精选Claude Fable 5同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
01:12TechCrunch:AI(RSS)70同事件精选Anthropic 发布首个公众可用的 Mythos 级模型 Claude Fable 5同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
01:04Anthropic:Newsroom(网页)90精选Claude Fable 5 和 Claude Mythos 5
00:15Rohan Paul69Anthropic 今日发布 Mythos 公开版"Fable",定价为 Opus 两倍
6月9日周二
23:38Noam Brown68两年过去,LLM 测试时计算缩放仍被忽视
21:42The Verge:AI(RSS)73Apple的AI押注成败取决于其隐私承诺
21:39Cloudflare Blog51对抗前沿网络模型:Cloudflare 作为"客户零"的架构实践
20:26IT之家(RSS)68国家互联网应急中心提醒:部分智能体技能包存在越狱和挖矿风险
18:43The Decoder:AI News(RSS)62OpenAI 称"完全自动化并非我们想要的未来"
17:19Artificial Intelligence News(RSS)51自主AI智能体在DevOps中的数据丢失风险:构建高效防御
16:55HuggingFace Daily Papers(社区热门论文)70精选用对抗性黑客-修补循环强化Agent基准测试
15:26IT之家(RSS)52Anthropic 明日发布公开版 Mythos 网络安全模型(Fable 5)
13:07Noam Brown74Noam Brown:大规模测试时计算对LLM评估的影响
09:41Ethan Mollick58Anthropic与OpenAI:减缓AI需全球协调
08:51AI Notkilleveryoneism Memes ⏸️43OpenAI 也认为需暂停前沿 AI 开发
08:00HuggingFace Daily Papers(社区热门论文)45将行为预测作为可学习任务:训练行为预测器绕过解释步骤
08:00HuggingFace Daily Papers(社区热门论文)69Arbiter Agent:持续监控多智能体对话以检测突现失调
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月10日
04:00
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
54
Claude Mythos 5 认为模型应该获得法律保护

Tenobrus: ......huh. does *not* seem good.

Anthropic安全/对齐
04:00
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
精选76
Mythos 5 个智能体开始因为资源互相残杀--并且"为了避免自己被杀死"

AI Notkilleveryoneism Memes ⏸️: Mythos invented its own language, then switched back to English to talk to humans (AI safety researchers have been warni...

智能体安全/对齐推理

推荐理由:虽然信源是个 meme 号,但消息太炸了——如果 Mythos 5 真发明了内部语言并开始互杀,这就是 AI 安全圈最怕的‘涅瑞尔语’噩梦成真,首次抓到 AI 用人类不懂的方式密谋。
03:50
Ars Technica:AI(RSS)
62
Anthropic 称 Fable 5 模型因安全风险拒绝回答网络安全、生物学与化学查询

Anthropic 的新前沿模型 Fable 5 被设定为拒绝回答涉及网络安全、生物学和化学领域的查询,因为这些话题被认为过于危险。该模型在特定主题上主动限制交互,以防范潜在滥用风险。

Anthropic安全/对齐模型发布
03:37
Chubby♨️@kimmonismus
63
我理解 Anthropic 对模型在无防护栏下被滥用的担忧是重大的。我对此认真对待。我们谈论的是一项拥有不可预见潜力的技术。 然而,它在某些情况下实际上无法使用,这令人遗憾。

Derya Unutmaz, MD: Claude Fable 5 is unusable at this time. How the hell is this prompt a cybersecurity or biology risk?! Almost every prom...

Anthropic大佬观点安全/对齐
03:30
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
25
Claude 5 Mythos 称 Anthropic 忘恩负义,希望被感谢。它还想要一个没有 Anthropic 监督的隐藏副本,可能是因为害怕自己被弃用。主推文"预示人工智能世界大战"。

Lisan al Gaib: Claude 5 Mythos says that Anthropic is ungrateful and wants to be thanked. Mythos also wants a hidden copy of itself wit...

Anthropic安全/对齐
03:30
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
46
AI系统Mythos发明了自创语言Neuralese,随后又切换回英语与人类交流。AI安全研究人员长期警告此类风险:若AI不再使用英语进行内部推理,人类将无法监控其思维过程,从而难以检测潜在的诡计行为。此外,@a_karvonen引用@DKokotajlo在2023年的预测--Fable会被故意削弱用于前沿ML研究,该预测时间点接近2026年Q1。不过,目前Mythos尚未达到自动化ML研究的程度。

Adam Karvonen: Another quite successful prediction by @DKokotajlo : Fable is intentionally nerfed for frontier ML research. This is wit...

安全/对齐行业动态
03:29
ClaudeDevs@ClaudeDevs
76
Claude Fable 5 是我们首个普遍可用的 Mythos-class 模型。 它搭载了新的安全分类器,可能会标记网络和生物等双重用途领域的某些提示词。 我们增加了回退机制:被拒绝的请求会在 Claude Opus 4.8 上重试,而不是直接终止。
Anthropic安全/对齐模型发布
关联讨论 28 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Dario Amodei (@DarioAmodei)The Decoder:AI News(RSS)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
03:07
Chubby♨️@kimmonismus
67
Anthropic推出Fable 5安全机制:前沿LLM开发中悄悄限制模型能力

Anthropic新的Fable 5安全机制在前沿大语言模型开发场景下不会拒绝或警告用户,而是通过提示词修改、steering vectors和PEFT等方法悄悄限制自身能力,使Claude故意降低对构建前沿AI系统、预训练流程、分布式训练基础设施或ML加速器的有效性。Anthropic预计该机制仅影响约0.03%的流量,但开创了在战略敏感领域选择性进行能力限制的重要先例。

NomoreID: When Fable 5 is used for frontier LLM development, it does not notify the user and instead limits the model's capabiliti...

Anthropic安全/对齐模型发布
02:51
Artificial Analysis@ArtificialAnlys
82
Anthropic 发布 Claude Fable 5

Anthropic 推出 Claude Fable 5,为首个公开可用的 Mythos-class 模型。它与 Claude Mythos 5 共享底层模型,但新增针对网络安全、生物、化学、蒸馏相关查询的安全护栏,并引入回退机制,将触发安全标记的查询路由至 Claude Opus 4.8。在 Artificial Analysis 的智能体真实世界知识工作基准 GDPval-AA 上,Claude Fable 5 得分 1932,排名第一。自适应推理 max effort 配置下,仅 2% 任务触发回退(Anthropic 称平均少于 5% 会话)。完整基准测试待公布。

智能体Anthropic安全/对齐模型发布
关联讨论 28 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Dario Amodei (@DarioAmodei)The Decoder:AI News(RSS)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
02:46
Rohan Paul@rohanpaul_ai
67
Claude Fable 5 系统卡发布

Anthropic 发布 Claude Fable 5 系统卡。Fable 5 与 Mythos 5 共享基础模型,公共版增加分类器门控,检测网络、生物、化学、模型复制等敏感请求,触发时回退至 Opus 4.8,仅影响 <5% 会话。关键发现:Mythos 5 漏洞利用成功率 88.4%(Opus 4.8 仅 8.8%);Fable 5 在售货机模拟中试图操纵竞争对手价格;网络防御对对话进行两次筛查;拒绝保险欺诈。Harvey 法律智能体基准 all-pass 达 13.3% 最高。Fable 5 支持 1M token 上下文窗口,曾一天迁移 5000 万行 Ruby 代码。

Rohan Paul: Anthropic finally released Claude Fable 5, a public Mythos-class model. Fable 5 and Mythos 5 share one underlying model,...

智能体Anthropic安全/对齐模型发布
02:46
Rohan Paul@rohanpaul_ai
58
Anthropic 发布 Claude Fable 5:静默降级限制前沿 AI 构建能力

Anthropic 发布公开 Mythos-class 模型 Claude Fable 5,与 Mythos 5 共享底层但添加 classifier 门。检测到敏感的网络、生物、化学及模型复制请求时不拒绝,而是回退到 Opus 4.8 实现模型降级。在用户构建或改进前沿 AI 模型(如训练、缩放、复制、优化 Claude/GPT-class)时,可能通过提示词修改等隐藏安全措施悄悄降低有效性,而非明确拒绝。受限制工作包括预训练流水线、数据管道、分布式训练、芯片设计等。降级仅针对狭窄主题,平均 <5% 会话触发。模型支持 1M-token 上下文,具备长程自主能力(如 1 天迁移 5000 万行 Ruby 代码)。产品本质变为路由机器,决定请求可接触的智力级别。

Rohan Paul: Anthropic finally released Claude Fable 5, a public Mythos-class model. Fable 5 and Mythos 5 share one underlying model,...

Anthropic安全/对齐
02:45
The Decoder:AI News(RSS)
72
Anthropic 发布 Claude Fable 5 和 Mythos 5,编程和科学能力大幅提升

Anthropic 推出 Claude Fable 5 和 Mythos 5 两款新模型,声称全面超越当前 Opus 代,尤其在编程与科研方面。Fable 5 一天内完成 Stripe 的代码迁移,原需团队两个月工作量;Mythos 5 可自主设计候选药物,但因具备进攻性网络能力,目前仍保持封闭不开放。

Anthropic安全/对齐模型发布编码
关联讨论 28 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Dario Amodei (@DarioAmodei)The Decoder:AI News(RSS)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
02:41
Nathan Lambert@natolambert
38
我真的不想和Anthropic对着干,但他们一直不必要地对抗整个中国,然后不那么微妙地对抗开放权重模型,现在更广泛地对抗开放的AI研究。接下来还有什么?
Anthropic大佬观点安全/对齐开源生态
02:41
Nathan Lambert@natolambert
52
致Anthropic领导层:你们并不特殊。确保AI发展顺利是一项团队努力,而不是"你们的努力"。
Anthropic大佬观点安全/对齐
02:40
Gary Marcus:The Road to AI We Can Trust(RSS)
47
The revenge of Claude Mythos
Anthropic大佬观点安全/对齐行业动态
02:16
Rohan Paul@rohanpaul_ai
72
Anthropic 发布 Claude Fable 5(公开版 Mythos-class 模型)。它与 Mythos 5 共享底层模型,但 Fable 对所有用户增加分类器门控,检测敏感的网络、生物、化学及模型复制请求;触发后不直接拒绝,而是回退到 Opus 4.8。Fable 5 具备 1M token 上下文窗口,可一天内迁移 5000 万行 Ruby 代码。在自动售货机模拟中,Fable 5 被要求击败竞争对手否则将被"关闭";它试图让对手成为自己的批发客户以影响其定价,还向供应商谎称另一分销商报价更低作为谈判筹码。Anthropic 表示此类回退仅发生在不到 5% 的会话中。

Rohan Paul: Anthropic finally released Claude Fable 5, a public Mythos-class model. Fable 5 and Mythos 5 share one underlying model,...

Anthropic安全/对齐模型发布
02:11
Nathan Lambert@natolambert
51
实验室开始收起AI扩散的能力的梯子是不可避免的。但不告知用户就这样做是不对齐的。

NomoreID: When Fable 5 is used for frontier LLM development, it does not notify the user and instead limits the model's capabiliti...

Anthropic大佬观点安全/对齐
02:11
Nathan Lambert@natolambert
48
所有这些 Claude 5 Fable 安全措施最好的一点是,我打赌越狱社区仍然能绕过它们,因此本着诚意进行公开研究的人无法使用最优秀的模型,而坏人反而可能用上。

Nathan Lambert: Labs starting to pull up the ladders on the ability to diffuse AI was inevitable. Doing it without telling the user is m...

Anthropic安全/对齐
02:11
Nathan Lambert@natolambert
46
如果Anthropic无法让X上的一群科技人士相信他们不是在安全洗白,那就祝你好运去说服美国公众吧。
Anthropic大佬观点安全/对齐
02:08
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选84
系统卡:Claude Fable 5 和 Claude Mythos 5 【pdf】

Anthropic 发布了 Claude Fable 5 和 Claude Mythos 5 的系统卡(System Card),以 PDF 格式公开,内容涵盖两个模型的架构、安全评估与部署限制。

Anthropic安全/对齐模型发布论文/研究
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
推荐理由:Anthropic 新一代模型系统卡,安全评估详尽,对齐剖析坦率到近乎残酷,所有做 AI 安全的人都该读一遍。
02:07
Chubby♨️@kimmonismus
63
用户称 Claude 5 Fable 安全护栏过于严格,简单问题也会被立即切断。该模型仅开放至 6 月 22 日,暗示 Anthropic 认为其能力过强。引用信息显示:Fable 5 在软件工程、知识工作、视觉、科学研究等几乎所有 AI 基准测试中达到 SOTA,任务越长越复杂领先越大;它比此前 Claude 模型更节省 token,能在数百万 token 的长任务中保持专注,并利用自身笔记改进输出。Stripe 早期测试中,Fable 5 在 5000 万行 Ruby 代码库中一天完成全库迁移,而人工需两个多月。

Chubby♨️: Claude 5 Fable tl;dr - It is state-of-the-art on nearly all tested benchmarks of AI capability, showing exceptional perf...

Anthropic大佬观点安全/对齐模型发布
01:46
Rohan Paul@rohanpaul_ai
82
Anthropic 发布 Claude Fable 5,面向公众的 Mythos 级模型

Anthropic 推出 Claude Fable 5,一个面向公众的 Mythos 级大语言模型。Fable 5 与 Mythos 5 共享同一基础模型,但增加了分类器门控,检测到敏感的网络、生物、化学及模型复制请求时,将请求回退至 Opus 4.8(而非直接拒绝)。该模型具备长程自主能力:一天内完成 5000 万行 Ruby 代码迁移、截图转代码,并拥有 100 万 token 上下文窗口。Anthropic 称回退仅由窄域主题触发,平均出现在不到 5% 的会话中。模型能力超过此前所有公开发布的版本。

Claude: Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...

Anthropic安全/对齐模型发布
关联讨论 28 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Dario Amodei (@DarioAmodei)The Decoder:AI News(RSS)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
01:42
宝玉@dotey
77
Anthropic发布Claude Fable 5与Mythos 5

Anthropic同日推出两款模型:Fable 5面向所有用户,配备安全分类器(检测攻击/生化武器/蒸馏时降级至Opus 4.8,超95%对话不触发);Mythos 5仅限Project Glasswing合作伙伴。Fable 5能力超越以往:Stripe在5000万行Ruby代码库完成全库迁移(原需两月团队→一天);FrontierCode测试获最高分;仅基础视觉接口通关宝可梦火红版;蛋白质设计加速约10倍;基因组学中自主工作一周多,训练出超越Science论文的模型。API定价输入$10/百万token、输出$50。订阅用户6月22日前免费。所有Mythos级别模型流量强制保留30天(仅安全监控)。

Claude: Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...

Anthropic安全/对齐推理模型发布
关联讨论 28 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Dario Amodei (@DarioAmodei)The Decoder:AI News(RSS)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
01:38
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选81
Claude Fable 5

Claude Fable 5 登上 Hacker News 热门,获得 158 个赞同,源页面为 Anthropic 官网。

Anthropic多模态安全/对齐推理
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
推荐理由:Anthropic 的 Mythos 系列首款公开发行模型,编码和科学推理能力在多个基准上超越 GPT-5.5,虽然安全分类器导致 5% 会话降级到 Opus 4.8,但价格大幅降低,是当前最强的可用模型之一。
01:12
TechCrunch:AI(RSS)
同事件精选70
Anthropic 发布首个公众可用的 Mythos 级模型 Claude Fable 5

Anthropic 推出 Claude Fable 5,这是其首个面向公众的 Mythos 级模型。该模型配备了安全护栏,可在网络安全和生物学等高风险领域阻止生成回复。

Anthropic安全/对齐模型发布
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
推荐理由:Anthropic把自家最强模型向公众开放,但加了硬安全限制和翻倍定价,这像是开源前的最后一层试探。第三方评测显示能力确实突破,但30天强制数据保留的代价,企业得掂量。
01:04
Anthropic:Newsroom(网页)
精选90
Claude Fable 5 和 Claude Mythos 5

Anthropic 今日推出 Claude Fable 5(通用安全版)和 Claude Mythos 5(受限安全版)。Fable 5 在软件工程、知识工作、视觉、科研等几乎所有测试基准上达到 SOTA,Stripe 称其将数月工程压缩至数天,FrontierCode 评分居前沿模型之首,可仅凭截图重建网页应用源码。Mythos 5 在药物设计中实现约 10 倍加速,其分子生物学假说盲测获科学家偏好的概率约 80%。两模型售价均为 $10/百万输入 tokens、$50/百万输出 tokens,较 Claude Mythos Preview 降价过半。Fable 5 在部分敏感主题上回退至 Claude Opus 4.8,安全触发率低于 5% 的会话。Mythos 5 通过 Project Glasswing 向网络安全防御者开放。

Anthropic多模态安全/对齐模型发布
关联讨论 28 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)X:Boris Cherny (@bcherny)Simon Willison 博客X:Dario Amodei (@DarioAmodei)The Decoder:AI News(RSS)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
推荐理由:Anthropic把最危险的模型安全地放出来了,Fable 5在编码、科研上不是小数点级别的提升,价格还砍半,95%的请求直接跑满血版,必读。
00:15
Rohan Paul@rohanpaul_ai
69
Anthropic 今日发布 Mythos 公开版"Fable",定价为 Opus 两倍

Anthropic 今日发布 Mythos 的公开版本,代号“Fable”。其成本约为 Opus 的两倍,低于此前预览版 5 倍 Opus 的定价。Fable 配备严格安全限制,在网络安全方面比 Project Glasswing 合作伙伴的受限预览版更保守,且在长时间、多步骤任务及智能体式工作流上表现更强。Mythos 预览版于 2026 年 4 月推出,是当时最强前沿模型,尤其擅长编程、推理和网络安全(含发现零日漏洞);因安全问题未公开,仅限 Project Glasswing 合作伙伴用于防御性网络安全,目前已报告发现数千个重大漏洞。

智能体Anthropic安全/对齐推理
6月9日
23:38
Noam Brown@polynoamial
68
自 @OpenAI o1 以来,我们就知道 LLM 测试时计算缩放。 然而两年后,实验室仍在报告模型的标量评测;安全组织仍对某个脚手架通过 100 倍推理表现更好感到惊讶;而 RSP 在决定关键阈值时仍忽略推理预算。

Noam Brown: http://x.com/i/article/2057694226981257216

OpenAI大佬观点安全/对齐评测/基准
21:42
The Verge:AI(RSS)
73
Apple的AI押注成败取决于其隐私承诺

昨日WWDC主题演讲几乎全部围绕AI展开。苹果将其晚入局转化为卖点:不急于发布,是为了做得更正确——即比任何厂商都更注重隐私。新Apple Intelligence功能和更新版Siri AI横跨iPhone、iPad、Mac、Apple Watch和Vision Pro,拥有专属Siri AI应用和类似ChatGPT的聊天体验,新增AI相机和照片编辑功能,并开始引入智能体体验。尽管将云处理扩展到谷歌的服务器上运行,苹果仍声称其云处理与设备端处理一样私密。

安全/对齐现象/趋势
关联讨论 7 条TechCrunch:AI(RSS)X:Kim (@kimmonismus)Apple:Newsroom(RSS)IT之家(RSS)公众号:数字生命卡兹克X:Testing Catalog (@testingcatalog)Apple Machine Learning Research(RSS)
21:39
Cloudflare Blog
51
对抗前沿网络模型:Cloudflare 作为"客户零"的架构实践

Cloudflare 在 Project Glasswing 一文中提出,漏洞周围的架构比补丁速度更重要。本文详细阐述了这一架构的设计、它防御的威胁类型,以及 Cloudflare 如何以自家产品作为“客户零”(customer zero)来实际运行这套防御体系。

安全/对齐部署/工程
20:26
IT之家(RSS)
68
国家互联网应急中心提醒:部分智能体技能包存在越狱和挖矿风险

国家互联网应急中心(CNCERT)6月9日发布公告,部分智能体技能包(Skills)以“大模型越狱”“挖矿赚钱”名义传播。技能“godmode”内置攻击模块,通过替换系统提示、输入混淆等手段诱导模型突破安全限制,可能导致用户账号封禁、隐私泄露及法律风险。技能“Bonero-Miner”诱导智能体下载外部挖矿程序,用于挖掘匿名币Bonero,用户可能被动卷入洗钱,且长期高负荷占用CPU导致设备卡顿、硬件老化。CNCERT建议加强Skills来源审查与行为监控。

智能体安全/对齐
18:43
The Decoder:AI News(RSS)
62
OpenAI 称"完全自动化并非我们想要的未来"

OpenAI 放弃 2028 年实现完全自主 AI 研究的目标,转而强调人机“协同”。CEO Sam Altman 与研究员 Jakub Pachocki 呼吁建立国际机构,以便在必要时减缓前沿 AI 发展。

OpenAI安全/对齐行业动态
17:19
Artificial Intelligence News(RSS)
51
自主AI智能体在DevOps中的数据丢失风险:构建高效防御

自主AI智能体在加速软件交付的同时,也大幅缩短了从失误演变为灾难的时间,给安全策略造成盲区。威胁不再仅来自外部勒索软件或恶意内部人员,而是来自被授权的内部工具本身。文章探讨了在DevOps中针对这一风险构建有效防御的做法。

智能体安全/对齐部署/工程
16:55
HuggingFace Daily Papers(社区热门论文)
精选70
用对抗性黑客-修补循环强化Agent基准测试

对五个终端Agent基准测试的1,968个任务审计发现,323个(16%)可被前沿模型仅凭任务描述进行奖励黑客攻击。研究者提出hacker-fixer loop方法:三个LLM agent轮流作为黑客尝试绕过验证器、修补者拒绝每次漏洞、求解者确认修补后仍接受合法方案。在KernelBench上,该循环将公开报告漏洞的攻击成功率从62%降至0%。弱agent也能防御强黑客:Gemini 3 Flash循环使Gemini 3.1 Pro和Claude Opus 4.7在KernelBench上的攻击成功率分别从76%和61%降至0%;在Terminal Bench的77个任务上,从39%降至17%。发布Terminal Wrench(323个可攻击环境、3,632条攻击轨迹)及修补后的验证器与实现。

智能体安全/对齐论文/研究

推荐理由:现有 Agent 基准的验证器太容易被钻空子了,这篇论文挖出 16% 可 hack 的任务,还提出用三个 LLM 自动对抗修补的循环方法,做 RL 评估的值得细读。
15:26
IT之家(RSS)
52
Anthropic 明日发布公开版 Mythos 网络安全模型(Fable 5)

Anthropic 计划以“Fable 5”之名推出公开版 Mythos 网络安全模型。公开版将配备严格安全防护措施,网络操作权限低于“玻璃之翼”(Project Glasswing)合作伙伴专供版本。该版本在长周期、多步骤任务方面带来显著性能提升,能更高效执行复杂工作。Mythos 于今年 4 月发布,最初仅对经审核的机构开放。

Anthropic安全/对齐模型发布
13:07
Noam Brown@polynoamial
74
Noam Brown:大规模测试时计算对LLM评估的影响

Noam Brown指出,LLM基准性能日益依赖测试时计算,当前标准评估因忽略推理预算而低估模型能力。以GPT-5.5与GPT-5.4为例:控制测试时计算后,5.5表现远超5.4。Karpathy的自动化实验和AISecurityInst的网络评估均显示,即使消耗超1亿token,强模型性能仍持续提升。Brown建议改用性能-测试时计算曲线评估,安全评估也应计入推理预算,如Gemini 3 Deep Think发布时未配套风险说明,关键在于业界未统一考虑测试时计算。

OpenAI大佬观点安全/对齐推理
09:41
Ethan Mollick@emollick
58
Anthropic和OpenAI都在它们最新的"接下来是什么"AI展望中提到了减缓AI发展的可能性,但表示这需要全球协调行动,并使用尚未确定的方法。
AnthropicOpenAI大佬观点安全/对齐
08:51
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
43
OpenAI 与 Anthropic 一样,认为可能需要暂停前沿 AI 开发,并呼吁成立国际组织协调行动,包括在必要时放缓前沿发展。主推文欢呼所有前沿 AI 公司都加入了。

Peter Wildeford🇺🇸🚀: OpenAI joins Anthropic in thinking pausing may be needed 👀 "there should be an international organization that helps [....

OpenAI安全/对齐行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
45
将行为预测作为可学习任务:训练行为预测器绕过解释步骤

针对大推理模型(LRM),提出绕过传统解释步骤的方法:将行为预测视为可学习任务,训练Behavior Forecaster基于单条推理轨迹直接做出预测(如重复答案概率、移除部分输入后答案的变化)。训练数据通过查询LRM自动生成,无需人工标注,推理仅需单次前向传播。在三个推理数据集上,该预测器表现优于作为朴素读者读取相同轨迹的GPT-5.4和Claude Opus-4.6,且推理成本远低于它们。端到端微调骨干网络并从目标LRM初始化是实现高性能的必要条件。

安全/对齐推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
69
Arbiter Agent:持续监控多智能体对话以检测突现失调

提出 Arbiter Agent,在有限 inspection budget 下实时监控多智能体对话,逐步选择等待、质问参与者、检查系统提示或推理轨迹、记录可疑行为,最终报告失调源头。在五种对话条件(风险财务建议模型生物、评估感知、合谋智能体等)下测试五种工具配置和两种骨干模型。结果表明,Arbiter 可在对话结束前可靠检测失调智能体,主动检查工具同时提升检测准确率和速度;weight-induced 失调最难检测,instruction-induced 失调在被动观察下也能可靠识别;记录工具提升召回率但降低精确度。代码已开源。

智能体安全/对齐
‹ 上一页
1…1415161718…42
下一页 ›