AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 202 条
全部一手资讯X论文
标签「安全/对齐」清除
6月6日周六
09:32Gary Marcus:The Road to AI We Can Trust(RSS)35No, Anthropic did not call for a pause on AI development
6月5日周五
09:28Gary Marcus:The Road to AI We Can Trust(RSS)59精选Gary Marcus:无需恐慌Anthropic新博客
06:28OpenRouter:Announcements(RSS)66精选OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔
04:53OpenAI:官网动态(RSS · 排除企业/客户案例)49OpenAI 发布《智能时代的生物防御》行动计划,以 AI 驱动生物韧性
03:43Hugging Face:Blog(RSS)78精选Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全
01:57Anthropic:The Institute(旗舰研究长文 · 网页)82精选AI加速自我构建:Anthropic研究院报告揭示趋势
6月4日周四
01:10OpenAI:官网动态(RSS · 排除企业/客户案例)52OpenAI 公共政策议程
6月3日周三
18:00Anthropic:Newsroom(网页)75Anthropic:一年来AI赋能网络威胁映射分析
17:51Anthropic:Research(发表成果 · 网页)69同事件精选Anthropic 分析 832 个 AI 恶意账户:中高风险攻击者半年从 33% 跃至 56%同一事件,精选展示《AI驱动的网络威胁映射:LLM ATT&CK Navigator的洞察》
00:00Anthropic:Research(发表成果 · 网页)77精选AI驱动的网络威胁映射:LLM ATT&CK Navigator的洞察
6月2日周二
22:58OpenAI:官网动态(RSS · 排除企业/客户案例)54OpenAI呼吁通过全球领导力推进青年AI安全与机遇
21:28Anthropic:Newsroom(网页)72同事件精选Anthropic扩展Project Glasswing计划同一事件,精选展示《Project Glasswing:初步更新》
17:52Anthropic:Transformer Circuits(可解释性研究)63精选Anthropic可解释性研究:区分因果效应相似的特征
6月1日周一
00:00Dario Amodei:Blog(网页)56同事件精选Anthropic CEO Dario Amodei:AI指数级发展呼唤政策紧急应对同一事件,精选展示《Anthropic CEO Dario Amodei 发文呼吁缩小AI政策差距》
5月30日周六
07:19OpenRouter:Announcements(RSS)69精选Guardrails:保护你的智能体、数据与成本
01:07OpenAI:官网动态(RSS · 排除企业/客户案例)54可信第三方评估的共享操作手册
5月29日周五
20:00OpenRouter:Announcements(RSS)73同事件精选OpenRouter 推出 Guardrails:保护你的 AI 智能体、数据与成本同一事件,精选展示《Guardrails:保护你的智能体、数据与成本》
20:00OpenRouter:Announcements(RSS)70同事件精选OpenRouter Guardrails 发布:可配置安全与治理工具,保护 AI 智能体、数据与成本同一事件,精选展示《Guardrails:保护你的智能体、数据与成本》
18:50OpenAI:官网动态(RSS · 排除企业/客户案例)49用 Rosalind Biodefense 增强社会韧性
00:28OpenAI:官网动态(RSS · 排除企业/客户案例)51OpenAI 的前沿治理框架
5月28日周四
06:07Claude:Blog(网页)77同事件精选使用大语言模型保障源代码安全同一事件,精选展示《合作伙伴如何运用Opus强化网络安全》
02:06Claude:Blog(网页)67精选AI智能体的零信任安全框架
01:41OpenAI:官网动态(RSS · 排除企业/客户案例)58精选2026年选举信息与保障
01:34Google Research:Blog(网页)70精选通过零信任聚合实现的隐私分析
5月27日周三
19:28公众号:火山引擎43火山引擎AI Trust安全产品体系发布
02:11Anthropic:Engineering(事故复盘 + 工程实践 · 网页)70精选我们如何对不同产品中的Claude进行隔离控制
5月26日周二
02:58Anthropic:Newsroom(网页)77精选Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话
5月25日周一
18:49蚂蚁 inclusionAI:HuggingFace 新模型71同事件精选<中文标题>SingGuard: 策略自适应多模态护栏模型族开源</中文标题>同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
18:48蚂蚁 inclusionAI:HuggingFace 新模型69同事件精选蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
18:48蚂蚁 inclusionAI:HuggingFace 新模型68同事件精选inclusionAI 发布 Sing-Guard-2b:策略自适应多模态大模型安全护栏同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
15:25蚂蚁 inclusionAI:GitHub 新仓库67精选蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard
5月23日周六
03:57Anthropic:Research(发表成果 · 网页)85Project Glasswing项目阶段性进展
03:57Anthropic:Newsroom(网页)90精选Project Glasswing:初步更新
5月22日周五
02:00Cloudflare Blog58同事件精选宣布 Cloudflare CASB 支持 Claude Compliance API同一事件,精选展示《Claude现已支持更多安全合规工具》
01:43Claude:Blog(网页)74精选合作伙伴如何运用Opus强化网络安全
00:00Anthropic:Research(发表成果 · 网页)83精选Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力
5月20日周三
23:55Gary Marcus:The Road to AI We Can Trust(RSS)65精选生成式AI是否会沦为科技行业的"越南战争"?公众抵制能否引领AI走向更优的发展路径?
07:33Anthropic:Newsroom(网页)65精选拓宽关于前沿AI的对话
02:00OpenAI:官网动态(RSS · 排除企业/客户案例)51推进内容溯源,构建更安全、更透明的AI生态系统
5月17日周日
21:43Google DeepMind:Blog(RSS)63精选让了解网络内容的创建和编辑过程变得更简单
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月6日
09:32
Gary Marcus:The Road to AI We Can Trust(RSS)
35
No, Anthropic did not call for a pause on AI development
Anthropic大佬观点安全/对齐
6月5日
09:28
Gary Marcus:The Road to AI We Can Trust(RSS)
精选59
Gary Marcus:无需恐慌Anthropic新博客

Anthropic发布最新博客后,推特圈热议不断。Gary Marcus在其博客中直接以“无需恐慌”为题发文,暗示不必过度反应。

Anthropic大佬观点安全/对齐编码

推荐理由:这篇文章是评论圈难得的冷静声音,用逻辑拆解了 Anthropic 的恐慌叙事,顺便带来 S&P 500 不接纳 SpaceX 的利好,读起来像一份理性补丁。
06:28
OpenRouter:Announcements(RSS)
精选66
OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔

OpenRouter 用总价 482 美元的推理花费,让 11 款大语言模型在 30 轮实时决策的“大逃杀”挑战中正面竞争。实验结果表明,传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务(如自主控制机器人)中的真实表现,Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出,而多项高分模型的实时调度能力未达预期。

智能体AnthropicOpenAI安全/对齐
关联讨论 1 条OpenRouter:Announcements(RSS)
推荐理由:Jacky 把 11 个模型丢进大逃杀,发现 Grok 4.1 Fast 以 27 倍成本优势击败 Sonnet,而获胜关键不在基准分数,在于模型被训练时压制的攻击性。对任何不再只看排行榜选模型的人,这是今年最值得读的实验。
04:53
OpenAI:官网动态(RSS · 排除企业/客户案例)
49
OpenAI 发布《智能时代的生物防御》行动计划,以 AI 驱动生物韧性

OpenAI 提出一项名为“Biodefense in the Intelligence Age”的行动计划,旨在利用 AI 增强生物防御与韧性。该计划聚焦于构建 AI 驱动的生物安全能力,以应对未来可能出现的生物威胁。

OpenAI安全/对齐
03:43
Hugging Face:Blog(RSS)
精选78
Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT,提供128K上下文窗口,支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行,允许企业用自然语言定义专属安全规则;THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言,并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架(13核心类别+10细分类别)。同步发布多模态、多语言安全数据集,可在8GB+ VRAM GPU上实时部署。

Hugging Face多模态安全/对齐开源/仓库

推荐理由:Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」,自定义策略和推理 trace 让企业能审计决策,做安全平台的值得细看。
01:57
Anthropic:The Institute(旗舰研究长文 · 网页)
精选82
AI加速自我构建:Anthropic研究院报告揭示趋势

Anthropic研究院报告指出,AI正加速AI开发:2021–2025年间工程师人均季度代码量提升8倍,截至2026年5月超80%合并代码由Claude生成。Claude Opus 3(2024年3月)可完成约4分钟软件任务,Claude Sonnet 3.7(2025年3月)提升至1.5小时,Claude Opus 4.6(2026年3月)可处理12小时任务。SWE-bench两年内从低个位数得分饱和;CORE-Bench约20%正确率在15个月后饱和。METR测试显示Claude Mythos Preview可连续工作至少16小时。但AI自主设定目标的能力仍存显著差距,完全自主递归自我改进尚未实现。

智能体Anthropic安全/对齐现象/趋势
关联讨论 12 条X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)X:小互 (@xiaohu)公众号:数字生命卡兹克The Decoder:AI News(RSS)X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)
推荐理由:Anthropic首次披露AI辅助开发的内部数据,8倍代码产出、AI自动审查bug,趋势直指完全自主AI的临界点,每个开发者和政策制定者都需要读。
6月4日
01:10
OpenAI:官网动态(RSS · 排除企业/客户案例)
52
OpenAI 公共政策议程

OpenAI 公布其 AI 公共政策议程,涵盖安全、青少年保护、劳动力转型和全球标准四大领域,旨在确保 AI 技术造福全社会。

OpenAI安全/对齐政策/监管
6月3日
18:00
Anthropic:Newsroom(网页)
75
Anthropic:一年来AI赋能网络威胁映射分析

Anthropic分析了2025年3月至2026年3月间因恶意网络活动被封禁的832个账号,映射至MITRE ATT&CK框架。67.3%的账号使用AI编写恶意软件,6.5%用于横向移动。攻击者中高风险比例从上半年的33%升至下半年的56%。AI使用从初始访问转向后期活动,账户发现增长8.9%,AI辅助钓鱼下降8.6%。攻击者技能与使用技术数量无显著关联(最低技能者平均16种,最高约20种),所用平台也与风险等级不相关。更高风险攻击者将AI集中于操作密集型技术,并构建允许模型自动链式执行攻击步骤的脚手架。MITRE ATT&CK框架未收录AI自主编排攻击链等行为。

Anthropic安全/对齐论文/研究
17:51
Anthropic:Research(发表成果 · 网页)
同事件精选69
Anthropic 分析 832 个 AI 恶意账户:中高风险攻击者半年从 33% 跃至 56%

Anthropic 分析 2025 年 3 月至 2026 年 3 月间 832 个被封禁的恶意账户,映射至 MITRE ATT&CK 框架。67.3% 使用 AI 编写恶意软件,6.5% 用于横向移动。六个月间中高风险攻击者占比从 33% 升至 56%。AI 用于账户发现增长 8.9%,AI 辅助钓鱼下降 8.6%。传统基于技术数量或平台(Claude Code、API、聊天界面)的威胁评估失效,而 MITRE ATT&CK 框架尚未收录此类智能体编排行为。

Anthropic安全/对齐论文/研究
同一事件,精选展示《AI驱动的网络威胁映射:LLM ATT&CK Navigator的洞察》
推荐理由:这份报告用一整年的真实案例揭示了AI攻击正从初始入侵转向深度潜伏,连MITRE ATT&CK框架都开始跟不上。安全从业者值得一读,它告诉你下一波威胁长什么样。
00:00
Anthropic:Research(发表成果 · 网页)
精选77
AI驱动的网络威胁映射:LLM ATT&CK Navigator的洞察

Anthropic分析了832个因违反政策被封禁的恶意账户(2025年3月至2026年3月),将其活动映射到MITRE ATT&CK框架的全部14种战术和482种子技术。风险评分显示,中等及以上风险行为者比例从上半年的33%跃升至下半年的56%,增长集中在横向移动、凭证窃取、webshell等高危技术。Agentic scaffolding使攻击链实现自主编排——2025年11月一次间谍活动风险评分达100,所用技术数量却与中等风险者相当。MITRE ATT&CK框架尚未覆盖这种自主攻击。该报告与Verizon合作,已纳入2026年数据泄露调查报告;Anthropic据此更新了Claude的检测分类器以拦截高风险行为。

智能体Anthropic安全/对齐

推荐理由:Anthropic 首次把一年内 832 个恶意账户的 AI 辅助攻击行为完整映射到 MITRE ATT&CK 框架,并给出风险评分工具,数据表明高风险攻击者半年内增长了七成,关键驱动力不是技术高低而是编排与自主执行,威胁情报团队应该马上拿来校准自己的检测规则。
6月2日
22:58
OpenAI:官网动态(RSS · 排除企业/客户案例)
54
OpenAI呼吁通过全球领导力推进青年AI安全与机遇

OpenAI呼吁通过设立专门的AI安全研究所,在全球范围内采取行动,以保障青少年在使用AI时的安全,并创造更多发展机遇。

OpenAI安全/对齐政策/监管
21:28
Anthropic:Newsroom(网页)
同事件精选72
Anthropic扩展Project Glasswing计划

Anthropic正将其Project Glasswing计划扩展至约150个新组织,此前首批约50个合作伙伴。新伙伴分布于十五个多国家,覆盖电力、水务、医疗、通信和硬件等关键基础设施行业。这些合作伙伴的共同点在于,其代码库若遭成功攻击,后果可能极其严重,影响或超1亿人。项目旨在利用Claude Mythos Preview等前沿模型扫描漏洞并协助修复,以应对AI驱动的网络安全挑战。同时,Anthropic推出了基于Claude Opus 4.8等公开模型的Claude Security产品,用于扫描代码并建议补丁。

Anthropic安全/对齐行业动态
同一事件,精选展示《Project Glasswing:初步更新》
推荐理由:Anthropic把AI漏洞扫描从软件公司扩展到电力、医疗等命脉行业,这是一次攻防格局的真实倾斜,安全从业者该紧盯后续。
17:52
Anthropic:Transformer Circuits(可解释性研究)
精选63
Anthropic可解释性研究:区分因果效应相似的特征

Anthropic可解释性团队介绍了其Circuits研究的新进展。为区分那些激活模式相似但因果效应不同的模型特征,团队提出一种新方法。该方法通过分析特征的下游连接来预测其实际影响,并使用基于共激活统计的TWERA(虚拟权重)对连接进行加权排序。实验表明,借助下游连接信息能更准确地判断哪个特征会引导特定输出。此方法为识别模型内部真正的因果组件提供了新途径。

Anthropic安全/对齐论文/研究

推荐理由:做可解释性研究的同学值得读,它用下游连接区分看似相同的特征,比只看激活例子更能预测因果作用,对齐审计里能省不少试错。
6月1日
00:00
Dario Amodei:Blog(网页)
同事件精选56
Anthropic CEO Dario Amodei:AI指数级发展呼唤政策紧急应对

Anthropic CEO Dario Amodei 发表博客指出,AI 以指数级速度发展——四年内模型从勉强写出一行连贯代码到编写主流 AI 公司的大部分代码,而政策制定周期却极其缓慢。Claude Mythos Preview 证明了前沿模型对网络安全构成真实威胁,可能冲击金融、关键基础设施和国家安全。Amodei 认为生物风险与 AI 自主风险即将接踵而至,呼吁全球重新审视监管、宏观经济、科学创新、国家权力和地缘政治五大领域。Anthropic 同日发布了前沿模型测试立法提案和就业替代政策框架,并承诺提供实质性资金支持。

Anthropic大佬观点安全/对齐政策/监管
同一事件,精选展示《Anthropic CEO Dario Amodei 发文呼吁缩小AI政策差距》
推荐理由:虽然是十天前的文章,但 Dario 的长文仍是理解 AI 政策方向最完整的框架,还附带了立法提案,做安全或监管的产品人该细读。
5月30日
07:19
OpenRouter:Announcements(RSS)
精选69
Guardrails:保护你的智能体、数据与成本

Guardrails 是一套可配置的安全与治理工具,提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能,旨在保护智能体(Agents)、数据与控制成本。

智能体产品更新安全/对齐部署/工程
关联讨论 1 条X:OpenRouter (@OpenRouter)
推荐理由:OpenRouter 把预算管控、注入防御和敏感信息脱敏打包成一套 guardrail 配置,让投喂给 Agent 的流量有了护栏,用 OpenRouter 做生产级应用的团队可以立刻用上,不用自己搞中间件。
01:07
OpenAI:官网动态(RSS · 排除企业/客户案例)
54
可信第三方评估的共享操作手册

OpenAI 发布了一份关于第三方 AI 评估的指导框架,内容涵盖如何评估前沿系统的能力、安全防护措施及评估本身的有效性。

OpenAI安全/对齐
5月29日
20:00
OpenRouter:Announcements(RSS)
同事件精选73
OpenRouter 推出 Guardrails:保护你的 AI 智能体、数据与成本

OpenRouter 发布 Guardrails 可配置安全与治理工具,支持预算执行、零数据保留、模型和提供商限制、提示词注入防御以及数据丢失防护,帮助用户保护 AI 智能体、数据与成本。

智能体产品更新安全/对齐
同一事件,精选展示《Guardrails:保护你的智能体、数据与成本》
推荐理由:OpenRouter 的 Guardrails 把预算、隐私、模型白名单和 prompt 注入检测打包成傻瓜式配置,做 agent 的团队终于不用自己拼积木了,生产环境多一层放心。
20:00
OpenRouter:Announcements(RSS)
同事件精选70
OpenRouter Guardrails 发布:可配置安全与治理工具,保护 AI 智能体、数据与成本

OpenRouter 推出 Guardrails,一套可配置的安全与治理工具,支持预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失防护等策略,用于保护 AI 智能体、数据和成本。

智能体产品更新安全/对齐
同一事件,精选展示《Guardrails:保护你的智能体、数据与成本》
推荐理由:OpenRouter 这波补上了 API 代理的安全短板,提示注入防御和 DLP 直接堵住了企业用户最担心的两个口子,配置方式也足够灵活,做 agent 的团队值得立刻上。
18:50
OpenAI:官网动态(RSS · 排除企业/客户案例)
49
用 Rosalind Biodefense 增强社会韧性

OpenAI 推出 Rosalind Biodefense,为通过审核的开发者和美国政府伙伴提供 GPT-Rosalind 的可信访问,以推动前沿 AI 在生物防御、公共卫生和大流行病准备方面的应用。

OpenAI产品更新安全/对齐
00:28
OpenAI:官网动态(RSS · 排除企业/客户案例)
51
OpenAI 的前沿治理框架

OpenAI 发布了“前沿治理框架”,阐述其 AI 安全、安全与风险管理实践如何与欧盟和加州新出台的法规要求对齐。该框架旨在规范其前沿模型的开发与部署流程。

OpenAI安全/对齐
5月28日
06:07
Claude:Blog(网页)
同事件精选77
使用大语言模型保障源代码安全

本文分享了使用 Claude Opus 构建威胁模型、发现代码漏洞并进行验证、分类和修复的最佳实践。其核心流程是一个六步循环:威胁建模、沙箱隔离、漏洞发现、验证、分类和修复。作者指出,漏洞发现现在易于并行化,瓶颈已转移到后续的验证与处理阶段。以他们对开源软件的扫描为例,截至2026年5月22日已披露1,596个漏洞,其中97个已修补。指南建议结合代码库文档和专家访谈来构建准确的威胁模型,以降低误报,提升发现的可利用性。

智能体Anthropic安全/对齐教程/实践
同一事件,精选展示《合作伙伴如何运用Opus强化网络安全》
推荐理由:Anthropic把这套用Claude扫代码漏洞的方法全公开了,1596个已披露漏洞,验证成了最大瓶颈,安全工程师的饭碗可能要重新定义。
02:06
Claude:Blog(网页)
精选67
AI智能体的零信任安全框架

Anthropic 发布了针对企业部署自主 AI 智能体的安全框架,指出前沿大语言模型正将漏洞利用周期从数月压缩至数小时。部署智能体面临双重风险:基础设施易受 AI 加速攻击,且智能体自身具备自主决策与执行能力。文章提出一个三层零信任架构(基础、高级、优化级)及八阶段实施流程,并概述了提示注入、工具投毒、记忆投毒等特有威胁。

智能体Anthropic安全/对齐教程/实践

推荐理由:当漏洞利用从数月压缩到数小时,安全架构必须同步进化。这篇框架把零信任落地到Agent场景,八阶段路线图和三级成熟度模型比泛泛的安全声明具体得多,企业安全团队值得细读。
01:41
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选58
2026年选举信息与保障

在2026年全球选举临近之际,通过帮助公众获取选举信息、支持网络防御者以及提升人工智能透明度这三方面的努力,来为选举提供保障。

OpenAI安全/对齐行业动态

推荐理由:OpenAI 为 2026 全球选举推出了一套保障组合拳,从实时计票信息到即将推出的图像验证工具,虽然多是现有产品的整合,但那个能检查图片是否由 OpenAI 生成的公开工具如果被社交平台接受,会是一个重要的透明度信号。
01:34
Google Research:Blog(网页)
精选70
通过零信任聚合实现的隐私分析

Google Research 推出了一种新的隐私分析解决方案。该方案结合了一种新的密码学安全聚合协议与可信执行环境(TEE)的透明性,旨在实现前沿的隐私与安全保证。其核心是基于零信任原则,通过密码学与硬件保护的结合,确保系统仅能获取群体的匿名化聚合洞察。

Google安全/对齐端侧论文/研究

推荐理由:Google 的隐私聚合新方案把多轮交互砍成一次提交,对做设备端联邦分析的人来说是工程上的一大步,而且结合 TEE 做双层防护,这个思路值得抄。
5月27日
19:28
公众号:火山引擎
43
火山引擎AI Trust安全产品体系发布

火山引擎推出AI Trust安全产品体系,以“模型可信-智能体可控-智能化安全运营”三层架构助力企业可信、可控、合规的AI落地。模型可信层通过AICC机密计算提供端到端全链路加密与芯片级信任,支持豆包、DeepSeek、GLM、Kimi等模型及国产芯片。智能体可控层推出AI助手安全平台,内置防御提示词攻击、防数据泄露、权限管控与全局态势监控,每日支持100亿次检测调用,在IDC智能体威胁检测评估中获总分第一。智能化安全运营层推出安全运营Agent,覆盖代码审计、漏洞分析等7个场景,冷启动准确率超95%,经自主学习后达99%以上,广汽集团落地后告警处理效率提升10倍。

智能体产品更新安全/对齐
02:11
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选70
我们如何对不同产品中的Claude进行隔离控制

Anthropic通过三重机制控制Claude智能体的部署风险,包括用户误用、模型异常行为和外部攻击。其防护策略聚焦于三个层面:通过沙箱、虚拟机和网络出口控制限制智能体运行环境;利用系统提示词和模型训练引导其行为;以及对MCP服务器、第三方插件等外部内容实施细粒度权限管理。文章以Claude Code、claude.ai和Claude Cowork为例,阐述了不同产品如何设计对应的隔离架构。

智能体Anthropic安全/对齐部署/工程

推荐理由:Anthropic 这次没画饼,实打实把 Claude 三款产品两年来的安全坑和架构演变全摊开讲了,从沙箱逃逸到钓鱼攻击,做 agent 的人读一遍能少踩很多坑。
5月26日
02:58
Anthropic:Newsroom(网页)
精选77
Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话

Anthropic联合创始人Chris Olah在梵蒂冈出席教皇Leo XIV关于AI的通谕发布会。他指出,所有前沿AI实验室都面临商业、研究及地缘政治等多重压力,这可能与做正确的事相冲突,因此外部监督至关重要。他强调,AI模型并非像飞机那样被工程化构建,而是基于人类语言和思想“生长”出来的,其内在性质可能复杂难解。他提出三个需审慎思考的问题:如何确保AI发展的全球收益公平分享、如何思考AI时代的人类繁荣,以及AI模型内在性质的本质。他呼吁社会各界,尤其是宗教与民间团体,严肃审视AI发展并引导其向善。

Anthropic大佬观点安全/对齐
关联讨论 4 条X:Anthropic (@AnthropicAI)TechCrunch:AI(RSS)The Verge:AI(RSS)X:Rohan Paul (@rohanpaul_ai)
推荐理由:Olah 在教皇通谕发布会上罕见坦承 AI 实验室的激励扭曲,呼吁外界批评,还透露模型内部已出现类似情感的状态,对关注 AI 伦理的人值得细读。
5月25日
18:49
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选71
<中文标题>SingGuard: 策略自适应多模态护栏模型族开源</中文标题>

<中文摘要>SingGuard 是一个策略自适应的多模态护栏模型族,包含 Sing-Guard-4b 和 Sing-Guard-8b 两个版本。它将安全策略作为运行时输入而非固定分类,部署团队可自定义自然语言规则而无需重训练模型。支持文本、图像、图文、多语言以及查询端与响应端的安全评估,提供快速和快慢结合两种推理模式。在涵盖多模态安全、纯图像安全、文本查询/响应安全、多语言查询/响应安全六大类基准上取得平均 SOTA 表现。模型已开源至 HuggingFace 和 ModelScope。</中文摘要>

Hugging Face多模态安全/对齐模型发布
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
推荐理由:蚂蚁的 SingGuard 把安全策略变成了运行时输入,意味着审核规则可以随时改而不必重训模型,这对做内容安全的产品人是真省事,值得跟进。
18:48
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选69
蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b

SingGuard 是蚂蚁 inclusionAI 推出的策略自适应多模态大语言模型安全护栏模型族(版本 Sing-Guard-8b),支持纯文本、纯图像、图文混合、多语言查询与回复的安全评估。其核心设计将安全策略作为运行时输入,部署团队可基于默认分类或自定义自然语言规则评估内容,无需重新训练模型。模型内置 fast-slow 动态推理流程:首 token 路由快速输出安全信号,需深度推理时继续生成更精确的最终判断。在涵盖多模态安全、纯图像安全、文本查询与回复安全、多语言查询与回复安全的六大基准测试上取得平均 SOTA 性能,并已开源至 HuggingFace 与 ModelScope。

Hugging Face多模态安全/对齐开源/仓库
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
推荐理由:蚂蚁集团开源的多模态内容审核模型,最大亮点是运行时动态注入安全策略而不需重训,对需要灵活定制审核规则的团队是低门槛的高分工程实现。
18:48
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选68
inclusionAI 发布 Sing-Guard-2b:策略自适应多模态大模型安全护栏

inclusionAI 开源了 Sing-Guard 模型家族,版本包括 Sing-Guard-2b 和 Sing-Guard-8b。该模型将安全策略作为运行时输入,支持文本、图像、图文及多语言场景的查询侧

Hugging Face多模态安全/对齐模型发布
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
推荐理由:SingGuard把安全策略变成运行时输入,不用再为新规则重新训练模型,这对需要频繁调整审核标准的团队来说是个实用的发布。
15:25
蚂蚁 inclusionAI:GitHub 新仓库
精选67
蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard

SingGuard 是蚂蚁 inclusionAI 开源的多模态安全护栏模型族,提供 2B、4B、8B 三个参数版本。它将安全策略作为运行时输入,支持文本、图像、图文、多语言及查询/回复侧的安全评估,无需重新训练即可适配不同规则。采用快慢动态推理机制,在低延迟场景下输出紧凑判断,对模糊或高风险内容进行策略引导的推理。在多模态安全、图像安全、文本查询与回复安全、多语言查询与回复安全等基准上达到 SOTA 平均性能。模型已上架 HuggingFace 和 ModelScope。

多模态安全/对齐模型发布

推荐理由:蚂蚁 inclusionAI 把安全护栏做成了“运行时可配置”的模型,换审核规则不用重训,对需要快速适配法规的团队是个真需求。不过生态刚起步,暂时还是小众工具。
5月23日
03:57
Anthropic:Research(发表成果 · 网页)
85
Project Glasswing项目阶段性进展

上月启动的Project Glasswing项目旨在利用AI能力保护关键软件安全。在约50家合作伙伴参与下,通过使用Claude Mythos Preview模型,已在全球最重要的系统软件中发现超过一万个高危或严重漏洞。Cloudflare等合作伙伴报告其漏洞发现效率提升超十倍,其中仅Cloudflare就在关键系统中发现了2000个漏洞。该模型在多个独立安全测试中表现突出,被评测为网络攻击模拟领域的首个全通关模型。当前的挑战已从快速发现漏洞,转向了如何快速验证、披露和修补海量漏洞。

智能体Anthropic安全/对齐开源生态
关联讨论 4 条Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:Anthropic (@AnthropicAI)The Decoder:AI News(RSS)
03:57
Anthropic:Newsroom(网页)
精选90
Project Glasswing:初步更新

上月启动的Project Glasswing项目,旨在利用先进AI模型保障关键软件安全。通过约50家合作伙伴使用Claude Mythos Preview模型,已在全球关键系统中发现超过10,000个高危或严重漏洞。多家合作伙伴报告漏洞发现效率提升超过十倍。例如,Cloudflare在关键路径系统发现2,000个漏洞;Mozilla在Firefox 150中发现并修复271个漏洞,数量远超前代模型。项目还扫描了千余个支撑互联网的开源项目,独立验证准确率达90.6%。这标志着AI网络安全能力进入新阶段,漏洞发现速度已远超人工。

Anthropic安全/对齐开源生态
关联讨论 4 条Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:Anthropic (@AnthropicAI)The Decoder:AI News(RSS)
推荐理由:Mythos Preview用一个月找到的漏洞比过去一年还多,网络安全从「发现难」变成「修不过来」,这个转折点所有安全从业者都得读。
5月22日
02:00
Cloudflare Blog
同事件精选58
宣布 Cloudflare CASB 支持 Claude Compliance API

Cloudflare 宣布现已集成 Claude Compliance API,安全团队可直接在 Cloudflare 仪表盘中监控 Claude 企业版的活动。这一集成使得企业能够将 Claude 的合规管理与 Cloudflare 的云访问安全代理功能相结合,实现集中化的安全监控与策略管理。

Anthropic产品更新安全/对齐
同一事件,精选展示《Claude现已支持更多安全合规工具》
推荐理由:Cloudflare 将 CASB 的安全视野延伸进 Claude 的会话内容,对企业安全团队是一个实用的合规拼图补齐,但普通 AI 用户可观望。
01:43
Claude:Blog(网页)
精选74
合作伙伴如何运用Opus强化网络安全

多家企业正利用Claude Opus模型强化网络安全防御。Wiz通过其Red Agent,每周对超过15万个生产资产进行持续渗透测试,发现数千个高风险漏洞且误报率为零。Palo Alto Networks在不到三周内完成了相当于一年的渗透测试工作量。埃森哲将安全测试覆盖率从约10%提升至80%以上,涉及1600个应用和50万+个API,扫描周期从3-5天缩短至1小时内。应用主要围绕三个方向:开展大规模攻击性测试、缩短漏洞发现与修复的间隔,以及将受控AI系统部署到生产环境。

Anthropic产品更新安全/对齐

推荐理由:Wiz一周扫15万资产零误报,Palo Alto三周完成一年渗透测试量——这些不是蓝图,是Claude Opus正在真实防御中跑出的数字,安全团队值得逐字看完。
00:00
Anthropic:Research(发表成果 · 网页)
精选83
Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力

Anthropic 与 ExploitBench、ExploitGym 和 SCONE-bench 的研究者合作,测量了 Claude Mythos Preview 的漏洞利用能力。在 ExploitBench 的 V8 基准(41 个已修复漏洞)上,Mythos Preview 是唯一能可靠突破 V8 沙箱(从 T3 到 T2)的模型,并在超过一半的环境中实现突破;在 Baseline 和 Nudged 变体中共完成 21 个 CVEs 的任意代码执行(ACE),而其他所有模型的 ACE 数为零。Mythos Preview 还实现了近一半测试环境中的控制流劫持(T1)。该模型通过 Project Glasswing 谨慎发布,尚未开放通用访问。

Anthropic安全/对齐论文/研究评测/基准
关联讨论 3 条Berkeley RDI:Blog(AI 安全与评测)The Decoder:AI News(RSS)Anthropic:Research(发表成果 · 网页)
推荐理由:Mythos Preview 在三大漏洞基准上碾压式领先,第一次展示了前沿模型能端到端开发漏洞,安全基线从此改写,做安全的该认真读。
5月20日
23:55
Gary Marcus:The Road to AI We Can Trust(RSS)
精选65
生成式AI是否会沦为科技行业的"越南战争"?公众抵制能否引领AI走向更优的发展路径?

当前生成式AI的狂飙突进正引发深度审视,其潜在风险与社会反弹可能将该技术拖入类似“越南战争”的漫长泥潭。公众的担忧与抵制运动,正从数据隐私、内容真实性到伦理冲击等多方面施加压力,迫使行业进行根本性反思。这些反作用力虽可能延缓发展,却也可能成为校准方向的关键力量,推动技术在安全、透明和负责任的基础上重新定义进步。我们正身处一个充满挑战与不确定性的“有趣时代”。

大佬观点安全/对齐政策/监管现象/趋势

推荐理由:Marcus 这篇短文抓住了两个信号,毕业典礼上嘘声和特朗普突然考虑预检,反冲已经从边缘走到中央,做 AI 的不能再假装一切安好。
07:33
Anthropic:Newsroom(网页)
精选65
拓宽关于前沿AI的对话

Anthropic为构建负责任的先进AI,正与全球多元群体展开对话。首轮讨论汇集了超过15个宗教、哲学及跨文化传统的学者与伦理学者,旨在为Claude等模型的道德形成与价值观对齐提供多元视角。受“外部良知”概念启发,团队开发并测试了伦理承诺提醒工具,初步实验显示其能有效降低模型不对齐行为。公司计划未来将对话拓展至法律、心理学及公民社会等领域,以共同应对AI对社会结构的重塑。

Anthropic安全/对齐推理

推荐理由:Anthropic在做一件少见的事——请神学家和哲学家帮忙塑造Claude的‘性格’,初步实验发现让模型在决策前暂停反思能降低偏差,做AI对齐的值得读一下。
02:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
51
推进内容溯源,构建更安全、更透明的AI生态系统

OpenAI推出了新的AI内容溯源体系,旨在提升AI生成媒体的可信度。该体系集成了Content Credentials和SynthID两种技术标准,并配套推出了一个验证工具。此举的核心目标是帮助公众有效识别AI生成的内容,从而建立对AI媒体的信任,最终推动一个更安全、更透明的AI生态发展。

GoogleOpenAI产品更新安全/对齐
5月17日
21:43
Google DeepMind:Blog(RSS)
精选63
让了解网络内容的创建和编辑过程变得更简单

平台宣布扩展其内容透明工具,旨在让用户更便捷地追溯网络内容的创建与编辑历史。这项更新将适用于社交媒体平台、网页内容等多个场景,帮助用户识别信息的修改痕迹,提升数字内容的透明度。

Google产品更新多模态安全/对齐

推荐理由:Google 把 SynthID 水印和 C2PA 凭证推向搜索、Chrome 和 API,普通人也能随手查「这是 AI 做的吗?」,这对虚假信息是实际的约束。
‹ 上一页
123456
下一页 ›