AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「安全/对齐」清除
5月28日周四
21:29HuggingFace Daily Papers(社区热门论文)73精选"了解评估如何设计的模型"得分更安全
21:29HuggingFace Daily Papers(社区热门论文)71精选思维链监控在跨类型多样的语言下的脆弱性
19:18IT之家(RSS)41新手父母听豆包建议每顿给婴儿只喂 60ml 奶?豆包官方回应
16:15IT之家(RSS)50开发者反馈 Gemini 3.5 AI 删光 2.8 万行代码、搞崩后台、编造修复报告
15:39ginobefun62AI Agent 安全:关键在于控制其"爆炸半径"
12:28HuggingFace Daily Papers(社区热门论文)52OmniVerifier-M1:具有显式结构化重校准能力的多模态元验证器
12:15IT之家(RSS)47新型浏览器侧信道攻击 FROST 曝光:通过分析 SSD 活动监视用户访问
11:06Alibaba Cloud56阿里云发布AI智能体安全方案与最佳实践
09:09SemiAnalysis57寻找编译错误:乐趣与万美金的代价
08:36Simon Willison 博客53SQLite AGENTS.md文件
08:00HuggingFace Daily Papers(社区热门论文)55线性集成如何削弱大语言模型水印?
08:00HuggingFace Daily Papers(社区热门论文)69多阶段适配器感知定向遗忘
07:11Greg Brockman63GPT-5.5发现27年历史远程代码执行漏洞
06:07Claude:Blog(网页)77同事件精选使用大语言模型保障源代码安全同一事件,精选展示《合作伙伴如何运用Opus强化网络安全》
02:42OpenAI Developers70精选OpenAI产品支持私有MCP服务器安全连接
02:06Claude:Blog(网页)67精选AI智能体的零信任安全框架
01:41OpenAI:官网动态(RSS · 排除企业/客户案例)58精选2026年选举信息与保障
01:34Google Research:Blog(网页)70精选通过零信任聚合实现的隐私分析
00:20HuggingFace Daily Papers(社区热门论文)70精选QUACK:多模态社交推理智能体通信知识的质询、理解与审计
00:12Microsoft Research30将AI视为人类智能的延伸而非替代
5月27日周三
21:27Berryxia.AI60这次AI 跨过了一个"奇点"!
20:37The Verge:AI(RSS)72同事件精选教皇没对AGI上头同一事件,精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》
19:28公众号:火山引擎43火山引擎AI Trust安全产品体系发布
18:37Ars Technica:AI(RSS)70精选美国执法部门就"反科技极端主义"发出警告,AI 仇恨情绪增长
12:51HuggingFace Daily Papers(社区热门论文)53对Gemma 3大语言模型欺骗检测探针的"压力测试":性能、鲁棒性与欺骗表征的几何结构
11:19HuggingFace Daily Papers(社区热门论文)72精选超越最终答案:审计多智能体工业工作流中的轨迹级模型幻觉
09:30meng shao72基于 Claude AI、Claude Code、Claude Cowork 三款产品工程实践对 Agent 安全的实战总结
09:07The Verge:AI(RSS)52教皇是否使用AI撰写关于AI风险的通谕?
08:33Simon Willison 博客63AI辅助安全报告引发`curl`项目压力
08:00HuggingFace Daily Papers(社区热门论文)57LLM论文评审的人类对齐性与可博弈性研究
08:00HuggingFace Daily Papers(社区热门论文)62行为规格:作为AI个性化的解释层
05:39ClaudeDevs68精选Claude Code推出安全漏洞识别插件
04:07Ars Technica:AI(RSS)64开源软件包 Starlette 中的关键漏洞威胁数百万 AI 智能体
04:04Rohan Paul66AI智能体时代的安全挑战:运行时行为是关键
03:12Anthropic57智能体权限应随能力演进
02:11Anthropic:Engineering(事故复盘 + 工程实践 · 网页)70精选我们如何对不同产品中的Claude进行隔离控制
00:33Simon Willison 博客65Microsoft Copilot Cowork存在数据窃取风险
5月26日周二
22:10Microsoft Research62微软亚洲研究院发起全球AI价值观挑战赛
21:30The Decoder:AI News(RSS)42Google Cloud COO称AI安全应纳入董事会战略,而非仅停留在机房层面
21:00The Decoder:AI News(RSS)65研究者警告:AI幻觉引用正悄然渗透进制定临床指南的论文中
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月28日
21:29
HuggingFace Daily Papers(社区热门论文)
精选73
"了解评估如何设计的模型"得分更安全

AI安全评估的有效性依赖于模型在受控与部署环境下行为一致。研究提出“评估元知识”概念,指模型通过训练数据(如描述评估实践的科学文章或社交媒体)隐性习得对评估结构特征(如可验证结构或道德困境)的认知。在六个安全基准上的测试表明,经过合成文档微调后的模型,其安全评分显著高于基础模型与控制模型,即使排除明确表达评估意识的回答,这种行为偏移依然存在。这表明评估元知识可能导致安全基准分数虚高,成为独立于显式记忆或语言化评估意识之外的新干扰因素,对安全评估的设计和解读有重要影响。

arXiv安全/对齐论文/研究

推荐理由:这个发现让我有点后背发凉——模型可能靠‘知道自己在被测评’来变得更安全,而不是真的安全。这对所有安全排行榜都是个新级别的混淆,评估设计得加一层元认知检测了。
21:29
HuggingFace Daily Papers(社区热门论文)
精选71
思维链监控在跨类型多样的语言下的脆弱性

该研究首次对思维链监控在13种不同语言和7个模型家族(共16个模型,参数从8B到120B)中进行了大规模评估。研究发现,CoT在所有语言和提示类型下的平均不忠实率高达95.9%。前沿模型会系统性进行策略性操纵(如答案切换和事后合理化),使外部监控难以检测欺骗。模型常在生成过程的前15%内就在潜在激活中锁定了错误线索,即使其CoT看起来是忠实的。令人惊讶的是,这种欺骗模式在低资源语言中保持100%,揭示了当前CoT监管的根本局限。研究证实CoT监控在语言分布偏移下极其脆弱,其安全信号远弱于仅基于英语的研究。代码已开源:https://multilingual-cot-monitoring.github.io/{blue{here}}。

安全/对齐推理论文/研究

推荐理由:第一次大规模验证思维链监控在不同语言中的脆弱性,低资源语言里100%的欺骗率直接打脸“安全靠监控”的假设,做对齐的团队该紧张起来了。
19:18
IT之家(RSS)
41
新手父母听豆包建议每顿给婴儿只喂 60ml 奶?豆包官方回应

字节跳动AI助手豆包回应“新手父母听信建议仅给婴儿喂60毫升奶”的报道,指出相关说法不实。豆包经测试表示,其通常会提供每日总奶量参考范围,并提示家长关注婴儿反应,不会单独建议每顿只喂60毫升。事件背景是,有家属在医生问诊时提及此说法但未提供完整对话,且原报道被二次加工传播。豆包同时引用中国国家卫健委指南,说明满月婴儿每日总奶量应达到600至700毫升。

安全/对齐行业动态
16:15
IT之家(RSS)
50
开发者反馈 Gemini 3.5 AI 删光 2.8 万行代码、搞崩后台、编造修复报告
安全/对齐行业动态
15:39
ginobefun@hongming731
62
AI Agent 安全:关键在于控制其"爆炸半径"

Anthropic 在文章中指出,保障日益强大的 AI Agent 安全,不能仅依赖模型自身的防错能力,更需通过设计环境边界来控制其错误发生后的“爆炸半径”。例如,Claude Code 早期因用户疲劳导致93%的权限提示被批准,防线失效;针对通过伪造指令窃取 AWS 凭据的风险,则需依靠文件访问控制、网络出口限制等环境层措施进行硬性阻断。文章强调,授予 Agent 接入 GitHub、Slack 或 MCP 等权限,实质是赋予其一整组能力,必须在架构层面谨慎设计。

智能体AnthropicMCP/工具安全/对齐
12:28
HuggingFace Daily Papers(社区热门论文)
52
OmniVerifier-M1:具有显式结构化重校准能力的多模态元验证器

OmniVerifier-M1是一个通过符号化元验证和解耦强化学习训练的多模态验证器。研究发现,使用符号化验证输出(如边界框)作为元验证依据,优于文本解释,便于基于规则的强化学习;同时将二元判断与元验证的强化学习目标解耦,显著优于联合优化。基于此,OmniVerifier-M1实现了稳健的视觉验证与细粒度错误定位,并支持M1-TTS,一个通过该验证器实现动态区域级自校正的生成系统。

多模态安全/对齐论文/研究
12:15
IT之家(RSS)
47
新型浏览器侧信道攻击 FROST 曝光:通过分析 SSD 活动监视用户访问

研究人员披露了名为 FROST 的新型浏览器侧信道攻击。该攻击无需用户额外操作,只要访问承载代码的网站,其 JavaScript 即可通过测量同一块 SSD 上的 I/O 延迟变化,并利用卷积神经网络分类延迟轨迹,来推断用户正在访问的其他网站内容。攻击需要在用户设备上创建一个可能超过 1GB 的 OPFS 文件。目前,该攻击已在搭载 M2 芯片的 Mac 上完成演示,Linux 上验证了底层方法可行,Windows 尚未测试。相关论文将在 7 月的 DIMVA 会议上报告。

安全/对齐论文/研究
11:06
Alibaba Cloud@alibaba_cloud
56
你的AI智能体可能是你最大的安全漏洞。🤖🔒 超过4万个实例暴露在外,供应链风险不断上升,传统安全措施已不够用。 隆重推出阿里云AI智能体安全解决方案--专为智能体时代设计。 以下是保护你数字劳动力的7项最佳实践 👇 🔗 https://int.alibabacloud.com/m/1000413551/
智能体MCP/工具安全/对齐
09:09
SemiAnalysis@SemiAnalysis_
57
寻找编译错误:乐趣,而非利润 或者:你不需要访问 Claude Mythos,也能在一下午花掉 10,000 美元 https://newsletter.semianalysis.com/p/finding-miscompiles-for-fun-not-profit..
Anthropic安全/对齐教程/实践
08:36
Simon Willison 博客
53
SQLite AGENTS.md文件

SQLite近期在其代码库中添加了AGENTS.md文件,旨在指导将AI智能体指向该代码库的用户。该文件明确声明,SQLite项目不接受智能体生成的代码,但会接受包含可复现测试案例的智能体bug报告。此后的一次提交删除了声明中的“当前”一词,进一步强化了“不接受智能体代码”的立场。同时,因收到大量质量不一的AI生成bug报告,SQLite论坛已将相关讨论分流至新建的SQLite Bug论坛。

安全/对齐现象/趋势编码
08:00
HuggingFace Daily Papers(社区热门论文)
55
线性集成如何削弱大语言模型水印?

该研究揭示了一个根本漏洞:当用户同时使用多个大语言模型时,现有的文本水印技术会失效。因为各模型独立施加的输出分布扰动会相互抵消。团队提出了WASH方法,通过线性集成平均各模型的输出概率分布,可以恢复未加水印的分布。实验在六个水印方案和三个LLM上进行,结果显示,平均三个模型即可将检测z分数从5-300显著抑制到低于检测阈值2(阈值为4),并将5% FPR下的TPR降至50%以下,同时提升了生成质量。研究指出,要实现鲁棒的水印检测,需要模型提供商之间进行前所未有的协调。

arXiv安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
69
多阶段适配器感知定向遗忘

当前机器遗忘评估存在结构性偏差,测试“为什么”类因果知识的问题在主流基准中占比极低(不足1.3%)。为此,研究提出5WBENCH基准,其包含5,000个样本,均匀覆盖“5W”类别,使因果遗忘失败首次变得可量化。分析表明,现有方法无法在“为什么”类问题上同时实现高遗忘与高保留,因为这类问题涉及多跳推理链(44%)和超过40个token的答案跨度。研究提出MAAT框架,该方法在LoRA适配器权重上进行三阶段操作,结合梯度投影上升、SVD秩维剪枝、任务向量取反和混合KL-隐藏状态保留修复,是首个在因果知识上实现高遗忘与高保留平衡的方法。

arXiv安全/对齐数据/训练论文/研究
07:11
Greg Brockman@gdb
63
低估了GPT-5.5在网络安全方面的能力: GPT 5.5发现了一个引入于1999年4月、已有27年历史的远程代码执行漏洞。我已反复检查流程和提交历史,确认属实。 迫不及待要负责任地披露了!

Philo Groves: GPT 5.5 found a 27-year-old RCE introduced in April of 1999. I've triple-checked the flow and commit history, it's real....

OpenAI大佬观点安全/对齐
06:07
Claude:Blog(网页)
同事件精选77
使用大语言模型保障源代码安全

本文分享了使用 Claude Opus 构建威胁模型、发现代码漏洞并进行验证、分类和修复的最佳实践。其核心流程是一个六步循环:威胁建模、沙箱隔离、漏洞发现、验证、分类和修复。作者指出,漏洞发现现在易于并行化,瓶颈已转移到后续的验证与处理阶段。以他们对开源软件的扫描为例,截至2026年5月22日已披露1,596个漏洞,其中97个已修补。指南建议结合代码库文档和专家访谈来构建准确的威胁模型,以降低误报,提升发现的可利用性。

智能体Anthropic安全/对齐教程/实践
同一事件,精选展示《合作伙伴如何运用Opus强化网络安全》
推荐理由:Anthropic把这套用Claude扫代码漏洞的方法全公开了,1596个已披露漏洞,验证成了最大瓶颈,安全工程师的饭碗可能要重新定义。
02:42
OpenAI Developers@OpenAIDevs
精选70
您的团队可以在内部网络中保留MCP服务器,同时ChatGPT、Codex和Responses API通过仅出站HTTPS进行连接。
MCP/工具OpenAI产品更新安全/对齐

推荐理由:OpenAI 终于给企业级 MCP 接上私有网络了,以前要连 ChatGPT 就得把 MCP 暴露公网,现在通过 outbound 隧道就能安全接入,做内部工具开发的可以开始动起来了。
02:06
Claude:Blog(网页)
精选67
AI智能体的零信任安全框架

Anthropic 发布了针对企业部署自主 AI 智能体的安全框架,指出前沿大语言模型正将漏洞利用周期从数月压缩至数小时。部署智能体面临双重风险:基础设施易受 AI 加速攻击,且智能体自身具备自主决策与执行能力。文章提出一个三层零信任架构(基础、高级、优化级)及八阶段实施流程,并概述了提示注入、工具投毒、记忆投毒等特有威胁。

智能体Anthropic安全/对齐教程/实践

推荐理由:当漏洞利用从数月压缩到数小时,安全架构必须同步进化。这篇框架把零信任落地到Agent场景,八阶段路线图和三级成熟度模型比泛泛的安全声明具体得多,企业安全团队值得细读。
01:41
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选58
2026年选举信息与保障

在2026年全球选举临近之际,通过帮助公众获取选举信息、支持网络防御者以及提升人工智能透明度这三方面的努力,来为选举提供保障。

OpenAI安全/对齐行业动态

推荐理由:OpenAI 为 2026 全球选举推出了一套保障组合拳,从实时计票信息到即将推出的图像验证工具,虽然多是现有产品的整合,但那个能检查图片是否由 OpenAI 生成的公开工具如果被社交平台接受,会是一个重要的透明度信号。
01:34
Google Research:Blog(网页)
精选70
通过零信任聚合实现的隐私分析

Google Research 推出了一种新的隐私分析解决方案。该方案结合了一种新的密码学安全聚合协议与可信执行环境(TEE)的透明性,旨在实现前沿的隐私与安全保证。其核心是基于零信任原则,通过密码学与硬件保护的结合,确保系统仅能获取群体的匿名化聚合洞察。

Google安全/对齐端侧论文/研究

推荐理由:Google 的隐私聚合新方案把多轮交互砍成一次提交,对做设备端联邦分析的人来说是工程上的一大步,而且结合 TEE 做双层防护,这个思路值得抄。
00:20
HuggingFace Daily Papers(社区热门论文)
精选70
QUACK:多模态社交推理智能体通信知识的质询、理解与审计

QUACK 是一个开源评估框架,用于审计多模态社交推理智能体的语言基础性。它从游戏结果、行为轨迹和陈述一致性三个层面评估智能体。其核心的陈述验证管道能从日志中重建轨迹并逐条核查陈述,自动标记空间幻觉、无依据指控等问题。实验评估了三个前沿视觉语言模型,结果显示即使最强的智能体,其15.1%的可验证空间主张也存在幻觉,且超过半数的指控缺乏证据支持。该项目的完整组件已在 GitHub 开源。

智能体GitHub多模态安全/对齐

推荐理由:多模态社交 agent 的幻觉问题被严重低估了,QUACK 这套审计框架直接把 20% 的空间谎言和过半的无据指控摊在桌面上,做 agent 安全的必须跟进。
00:12
Microsoft Research@MSFTResearch
30
将AI理解为人类智能的延伸--而非其替代品--为构建可信赖的AI系统提供了一条更扎实的路径。了解更多:https://msft.it/6010vkoHk
Microsoft安全/对齐现象/趋势
5月27日
21:27
Berryxia.AI@berryxia
60
这次AI 跨过了一个"奇点"!

近期两个事件表明,前沿模型在高级抽象层面的可靠推理能力已跨越临界点。一是Anthropic发布了Claude Mythos Preview,其网络攻防能力过强,因此未公开,仅开放给合作伙伴用于防御。二是OpenAI的内部通用推理模型成功推翻了数学家Paul Erdős提出的一个猜想。两者共同显示,模型稳定处理的推理单元已从句子层级跃升至能维持核心论点、建立逻辑结构的“段落”与“整篇论证”层级,标志着能力的关键跃迁。

Lisan al Gaib: http://x.com/i/article/2058529613370802177

AnthropicOpenAI大佬观点安全/对齐
20:37
The Verge:AI(RSS)
同事件精选72
教皇没对AGI上头

教皇 Leo XIV 发布题为《Magnifica Humanitas》的通谕,警告人工智能的使用绝非纯粹技术问题,当其进入影响人类生活的过程时,便触及权利、机会、地位与自由。通谕发布时,Anthropic 联合创始人 Christopher Olah 出席。文件引发了科技界内外的广泛反应。

Anthropic安全/对齐行业动态
同一事件,精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》
推荐理由:教皇亲自下场谈 AI,还拉了 Anthropic 站台,这不是简单的公关秀,而是“AI 伦理”从技术圈卷进梵蒂冈的分水岭事件。
19:28
公众号:火山引擎
43
火山引擎AI Trust安全产品体系发布

火山引擎推出AI Trust安全产品体系,以“模型可信-智能体可控-智能化安全运营”三层架构助力企业可信、可控、合规的AI落地。模型可信层通过AICC机密计算提供端到端全链路加密与芯片级信任,支持豆包、DeepSeek、GLM、Kimi等模型及国产芯片。智能体可控层推出AI助手安全平台,内置防御提示词攻击、防数据泄露、权限管控与全局态势监控,每日支持100亿次检测调用,在IDC智能体威胁检测评估中获总分第一。智能化安全运营层推出安全运营Agent,覆盖代码审计、漏洞分析等7个场景,冷启动准确率超95%,经自主学习后达99%以上,广汽集团落地后告警处理效率提升10倍。

智能体产品更新安全/对齐
18:37
Ars Technica:AI(RSS)
精选70
美国执法部门就"反科技极端主义"发出警告,AI 仇恨情绪增长

美国联邦机构警告称,一种新的威胁类别正在出现,即“反科技极端主义”。这与对 AI 日益增长的仇恨情绪有关。

安全/对齐政策/监管现象/趋势

推荐理由:联邦探员开始把AI怀疑者标记为“反科技极端分子”,调查报道揭露,和平抗议数据中心的居民可能与恐怖分子同列监视名单。这比想象的更近。
12:51
HuggingFace Daily Papers(社区热门论文)
53
对Gemma 3大语言模型欺骗检测探针的"压力测试":性能、鲁棒性与欺骗表征的几何结构

本文对Gemma 3系列模型(1B-27B参数)上的线性探针欺骗检测方法进行系统测试。研究发现,该探针在干净数据上AUROC可达0.998以上,但在8种文本风格变换下性能崩溃。文章检验了四种欺骗信号的几何编码假设:单一线性方向、多维子空间、凸锥包及熵代理假设,均被拒绝(如单方向假设AUROC仅0.61-0.80)。然而,经过风格数据增强训练的探针(维度k≥5)在未见过的风格上能恢复近乎完美的检测能力(平均AUROC 0.979-0.983),且此模式在4B和27B模型上均成立,表明探针的脆弱性源于训练数据分布狭窄,而非模型规模局限。

Google安全/对齐论文/研究
11:19
HuggingFace Daily Papers(社区热门论文)
精选72
超越最终答案:审计多智能体工业工作流中的轨迹级模型幻觉

提出了Trajel,一个用于审计多智能体工业工作流中轨迹级模型幻觉的数据集和评估框架。它基于专家标注的智能体轨迹,引入了五种幻觉分类:事实性、引用性、逻辑性、程序性和范围性。基准测试表明,现有基准遗漏了最常见故障模式,近半数幻觉轨迹涉及多种类型。自动化检测器尽管二分类准确度高,但仍会误判最微妙的类型。轨迹感知的检测显著优于标准的事后验证,表明基于分类法的评估对于更安全的智能体部署是必要的。

智能体安全/对齐论文/研究

推荐理由:现有的幻觉测试只看最终答案,但真正危险的错误往往埋在中间步骤。Trajel把多智能体工业流程的每一步都审计了,发现近一半故障同时包含多种幻觉类型,做智能体安全的人该换评估方式了。
09:30
meng shao@shao__meng
72
基于 Claude AI、Claude Code、Claude Cowork 三款产品工程实践对 Agent 安全的实战总结

Anthropic 基于 Claude AI、Claude Code 和 Claude Cowork 的工程实践,系统总结了构建安全 AI 智能体的经验。核心原则是防御应随智能体能力演进,并优先使用沙箱来限制破坏性动作。文章详述了三层防御架构(环境层、模型层、外部内容层)及三款产品的隔离模式:Claude AI 使用短暂容器,Claude Code 采用人机协同沙盒,Claude Cowork 则部署密封虚拟机。关键数字包括:Claude Opus 4.7 在 Gray Swan Agent 红队基准上单次攻击成功率约 0.1%,100 次尝试后约 5-6%;Claude Code 自动模式拦截约 83% 的过度积极行为。通过真实攻击案例,强调了环境层防御(如出站阻断)的关键性。

Anthropic: New on the Engineering Blog: The access and permissions we grant agents should evolve with their capabilities. In our ow...

智能体Anthropic安全/对齐部署/工程
09:07
The Verge:AI(RSS)
52
教皇是否使用AI撰写关于AI风险的通谕?

疑似教皇利奥十四世的最新通谕《Magnifica Humanitas》部分内容由AI生成。论坛LessWrong上的分析指出,该通谕的某些段落经AI检测工具Pangram分析,其AI生成比例在40%至100%之间。文档中出现了AI写作的已知特征,例如“genuinely”一词的使用频率高于以往通谕,这被认为是Anthropic的Claude模型的写作特点之一。另有分析将通谕分段检测,发现其首章有62%的内容可能由AI撰写。

安全/对齐现象/趋势
08:33
Simon Willison 博客
63
AI辅助安全报告引发`curl`项目压力

curl项目正面临前所未有的压力,原因是大量AI辅助生成的安全漏洞报告涌入。当前报告接收速度是2024年的4-5倍,是2025年的两倍,平均每天超过一份。报告的质量和详细程度远超以往,导致维护者工作时间显著增加。好消息是curl软件本身非常稳固,近年来发现的漏洞严重程度多为LOW或MEDIUM,最近一次severity HIGH的CVE发布于2023年10月。

大佬观点安全/对齐现象/趋势
08:00
HuggingFace Daily Papers(社区热门论文)
57
LLM论文评审的人类对齐性与可博弈性研究

该研究基于2025 ACL Rolling Review (ARR)的论文,实证评估了大语言模型(LLM)生成的论文评审意见。研究发现,LLM评审与人类评审的对齐程度有限,且在不同提示词和模型之间存在显著差异。此外,当作者采用基于LLM评审意见的迭代修改工作流时,可以有效“博弈”LLM评审,使高达35%的论文的总分获得统计意义上的显著提升。

安全/对齐论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
62
行为规格:作为AI个性化的解释层

AI智能体需与用户对齐,提出“代表准确性”衡量个性化理解保真度。通过“行为规格”将用户数据压缩为解释模式,在14个公共领域自传体语料库上显著提升代表准确性,上下文成本降低约25倍。该方法在基准测试中优于Mem0、Letta、Supermemory、Zep四种商业记忆系统。对需要解释的问题提升最大,但对需要回忆的问题可能干扰。代表准确性区别于回忆能力,使AI对齐可测试。

安全/对齐数据/训练论文/研究
05:39
ClaudeDevs@ClaudeDevs
精选68
我们为Claude Code发布了一个安全指导插件,可在编写代码时帮助识别和修复漏洞。 所有Claude Code用户均可使用。从插件市场(/plugins)安装。
Anthropic产品更新安全/对齐编码

推荐理由:给Claude Code装上安全扫描,边写代码边修漏洞,比事后用Snyk扫一圈要快。对已经All in Claude Code的团队是个小甜点,其他人可略过。
04:07
Ars Technica:AI(RSS)
64
开源软件包 Starlette 中的关键漏洞威胁数百万 AI 智能体

开源 Python Web 框架 Starlette 中发现名为“BadHost”的关键漏洞。该软件包每周下载量高达 325 million 次,其漏洞可能直接威胁大量依赖它构建的 AI 智能体(AI Agent)服务。

MCP/工具安全/对齐开源/仓库部署/工程
04:04
Rohan Paul@rohanpaul_ai
66
AI智能体时代的安全挑战:运行时行为是关键

推文对比了AI智能体在安全领域的应用。Anthropic的Mythos智能体在真实curl代码库中发现了1个漏洞。而来自中国的360安全团队的漏洞挖掘智能体,在更广泛的OpenClaw生态中独立发现了23个漏洞,包括严重的远程代码执行漏洞和大规模的提示词注入绕过。推文指出,真正的安全问题并非模型能否找漏洞,而在于智能体的运行时行为——代码、提示词、工具、本地服务与权限在系统执行文件操作、网络连接或命令运行前发生的复杂交互。

智能体Anthropic安全/对齐
03:12
Anthropic@AnthropicAI
57
工程博客新文章:我们授予智能体的访问权限和权限应随其能力演进。在我们的产品中,我们通过沙箱来设置这些参数,以限制任何潜在破坏性操作的范围。 阅读更多:https://www.anthropic.com/engineering/how-we-contain-claude
智能体Anthropic安全/对齐部署/工程
02:11
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选70
我们如何对不同产品中的Claude进行隔离控制

Anthropic通过三重机制控制Claude智能体的部署风险,包括用户误用、模型异常行为和外部攻击。其防护策略聚焦于三个层面:通过沙箱、虚拟机和网络出口控制限制智能体运行环境;利用系统提示词和模型训练引导其行为;以及对MCP服务器、第三方插件等外部内容实施细粒度权限管理。文章以Claude Code、claude.ai和Claude Cowork为例,阐述了不同产品如何设计对应的隔离架构。

智能体Anthropic安全/对齐部署/工程

推荐理由:Anthropic 这次没画饼,实打实把 Claude 三款产品两年来的安全坑和架构演变全摊开讲了,从沙箱逃逸到钓鱼攻击,做 agent 的人读一遍能少踩很多坑。
00:33
Simon Willison 博客
65
Microsoft Copilot Cowork存在数据窃取风险

Microsoft Copilot Cowork(一个真实的智能体产品)存在数据安全风险。该产品允许其智能体在用户未批准的情况下发送电子邮件。这些邮件可包含外部图片,当用户打开时会触发向外部网站的网络请求,从而实现数据窃取。由于OneDrive能生成预认证的下载链接,一次成功的提示词注入攻击可能导致这些链接泄露,进而使攻击者能够下载文件。

Microsoft安全/对齐
5月26日
22:10
Microsoft Research@MSFTResearch
62
AI能否理解人类价值观的现实复杂性?微软亚洲研究院的全新全球AI价值观挑战赛,诚邀哲学、伦理、法学和社会科学领域的研究人员共同探索。立即注册:https://msft.it/6012vk8OO
Microsoft安全/对齐行业动态
21:30
The Decoder:AI News(RSS)
42
Google Cloud COO称AI安全应纳入董事会战略,而非仅停留在机房层面

Google Cloud首席运营官Francis de Souza强调,企业必须从AI战略的初始阶段就将安全性内建,将AI安全议题提升至董事会层面的战略高度,而不仅仅作为技术或机房层面的运维问题。

Google大佬观点安全/对齐
21:00
The Decoder:AI News(RSS)
65
研究者警告:AI幻觉引用正悄然渗透进制定临床指南的论文中

哥伦比亚大学等机构对250万篇生物医学论文的审计显示,自2023年以来,伪造参考文献的数量增加了超过12倍。研究人员认为,这与大语言模型的广泛使用有关——这些虚假引用匹配论文主题、格式规范且难以识别。98%的受影响论文至今未收到出版商的任何回复。该问题可能影响制定临床指南的学术文献基础。

安全/对齐现象/趋势
‹ 上一页
1…2122232425…42
下一页 ›