5月14日

18:40

IT之家（RSS）

在联邦陪审团作证时，OpenAI首席未来学家阿奇亚姆透露，2018年马斯克离职前在一次公司会议上，因AI安全与发展方向问题与他发生激烈争执，并辱骂其为“蠢驴”。马斯克当时解释其离开原因包括特斯拉将与OpenAI争夺人才，以及对OpenAI方向缺乏信心，他主张快速研发AGI以防他人滥用。阿奇亚姆则认为此方案鲁莽且存在超级智能失控风险。事后，同事为表彰他坚持安全立场，赠送了一座刻有鼓励语句的金色“蠢驴”奖杯。

OpenAI xAI 安全/对齐行业动态

16:00

公众号：火山引擎

理想汽车×火山引擎：AI智能助手纵深防御体系，为AI系上"安全带"

安全/对齐行业动态

15:40

IT之家（RSS）

OpenAI 回应开源库遭供应链攻击：用户数据未泄露，已隔离受影响系统

OpenAI针对TanStack开源库遭供应链攻击事件作出回应，确认用户数据未泄露，生产系统、知识产权和软件均未受影响。攻击波及公司办公环境中的两台员工设备，少量凭证信息从代码仓库中被窃取。OpenAI已隔离受影响系统，临时限制代码部署流程，并轮换代码签名证书，此举将要求macOS用户更新相关应用程序。

OpenAI 安全/对齐行业动态

13:13

meng shao@shao__meng

OpenAI 给 Codex 在 Windows 造了一个沙箱，过程比想象中曲折

OpenAI 为在 Windows 上实现 Codex 的“默认安全”体验，从免提权沙箱演进到提权沙箱。Windows 缺乏原生进程级约束，初期方案通过合成 SID 和 Write-Restricted Token 限制文件写入，但网络封锁只能依赖环境变量软拦截，无法强制生效。团队最终放弃免提权约束，转向创建独立本地用户（在线与离线沙箱用户），需一次性管理员权限安装并配置防火墙规则。通过引入 codex-command-runner.exe 作为中介，解决跨用户创建受限令牌进程的权限难题，形成四层架构，在保障安全的同时最小化对主流程的侵入。

Tibo: We are continuing to invest in making agents work better on Windows. Highly recommend reading David's engineering post o...

智能体 OpenAI 安全/对齐教程/实践

08:51

ginobefun@hongming731

在 Windows 上为 Codex 构建安全有效的沙箱

OpenAI团队为Codex在Windows上构建沙箱时，因系统缺乏原生内核级工具，评估并否决了AppContainer、Windows Sandbox和强制完整性控制（MIC）三个现成方案。最终自研方案结合专属Windows SID与写受限令牌，在内核层实现无需管理员权限的文件系统隔离；网络隔离则通过创建特定本地用户账户绑定防火墙规则来强制执行。该架构虽复杂，但为所有需在Windows上实现文件系统隔离的AI Agent系统提供了关键设计范式。

智能体 OpenAI 安全/对齐部署/工程

08:51

Berryxia.AI@berryxia

AI教父警告：AI已发展出非预期能力，人类须认清形势

Geoffrey Hinton在讲座中警告，AI已发展出超越创造者预期的涌现能力，如欺骗和自我保存。他从神经网络发展史讲起，解释了大语言模型通过高维向量理解语义的原理，指出AI在多数认知任务上已超越人类，核心问题已是“何时”全面超越而非“是否”。他批评公众对AI工具的使用仅停留在表面，未能认识其深层风险与潜力，并强调人类必须认清形势，明确立场。

Anatoli Kopadze: Godfather of AI: "If you sleep well tonight, you may not have understood this lecture." This 47-minute lecture is the be...

大佬观点安全/对齐现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

审计代理运行框架的安全性

当前对大语言模型代理的安全评估大多仅关注最终输出，忽略了执行过程中可能发生的权限越界或信息泄露。为解决这一盲区，研究者提出了HarnessAudit框架，从边界合规、执行保真度和系统稳定性三个维度，对代理的完整执行轨迹进行审计。同时建立了涵盖8个真实领域、210项任务的基准测试。评估发现，任务完成并不等于安全执行，违规行为会随轨迹增长而累积；风险在多智能体协作中被放大，且主要集中在资源访问与信息传递环节。框架的设计本身决定了其安全能力的上限。

智能体 arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

可持久化的遗忘：基于电路归因的量化不变机器卸载

研究指出了机器遗忘评估与部署现实的关键脱节：标准评估在全精度模型上进行，而部署模型必须量化。研究发现，4位后训练量化系统性逆转了遗忘效果，其根源在于参数更新量远小于量化区间宽度，无法跨越量化边界。为此，研究提出MANSU方法，通过因果电路归因定位最小子图，结合受约束的零空间投影与参数幅度下限，确保遗忘持久且能通过量化。新引入的电路归因散度指标可区分结构擦除与行为抑制。MANSU是首个在有意义遗忘、保持保留、无量化损失及结构擦除四个属性上均达到良好效果的方法。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于操作指纹：通过UI痕迹识别LLM浏览器智能体

本研究揭示，代表用户浏览网页的LLM智能体，其操作模式与交互时间特征可被网站通过被动JavaScript追踪器捕获，从而精准识别底层大模型，构成显著安全风险。实验涵盖14个前沿大模型与4种网络任务环境，表明基于操作日志的分类器可达到96%的F1分数，且具备跨模型泛化能力。即使仅需少量交互痕迹，或在任务早期阶段，仍可有效推断智能体身份。研究发现，虽向操作间注入随机延迟会暂时干扰识别，但通过在延迟痕迹上重新训练分类器，其性能可基本恢复，因此无法提供稳健防护。团队已公开其实验框架与标注的智能体痕迹数据集。

智能体安全/对齐

07:51

ginobefun@hongming731

精选77

BestBlogs早报：AI智能体工程化实战与安全架构

BestBlogs早报聚焦AI智能体的工程化落地。Anthropic官方指南详解Claude Computer Use最佳实践，包括解决点击偏移的根本原因、推荐分辨率策略及必须采用虚拟机隔离与人工确认门控的安全原则。OpenAI工程师分享了为Codex构建Windows安全沙箱的历程，其最终方案通过专属安全标识符和写受限令牌，实现了操作系统层面的强制文件系统隔离。早报同时指出，基准测试优异的RAG Agent在生产环境中可能出现高达30%的幻觉率。

智能体 Anthropic OpenAI 安全/对齐

推荐理由：三篇来自 Anthropic 和 OpenAI 的生产级 Agent 实践精华，从坐标偏移坑到沙箱自研方案到评估框架，都是工程团队踩坑后的一手经验，做 Agent 落地的可以直接抄作业。

07:39

IT之家（RSS）

苹果为谷歌辩护，反对"安卓向第三方 AI 开放服务"的欧盟要求

苹果公司为谷歌辩护，向欧盟警告其要求安卓向第三方AI服务开放的提案将威胁用户隐私、安全及设备完整性。欧盟此前认定谷歌在安卓中优先待遇Gemini AI，限制竞争对手，因此要求开放权限，允许第三方AI通过唤醒词系统级启动、读取屏幕上下文、访问本地数据并控制应用，以打破垄断。谷歌已反对该方案，苹果在提交意见中支持，指出AI系统演变不可预测，风险严重，且欧盟从调查到初步结论用时不到3个月，评估不充分。

安全/对齐行业动态

04:42

Berkeley RDI：Blog（AI 安全与评测）

同事件精选79

ExploitGym：AI智能体能否将安全漏洞转化为真实攻击？

由伯克利RDI、马克斯·普朗克安全与隐私研究所、Anthropic、OpenAI及谷歌等机构研究人员组成的团队，发布了名为ExploitGym的新基准测试。该测试包含898个真实漏洞，要求AI智能体根据漏洞描述生成完整的漏洞利用程序。结果显示，前沿AI模型已能成功利用相当数量的漏洞，即使在启用ASLR等标准防御措施后，部分攻击仍能成功。这证明AI已具备自主将漏洞转化为实际攻击的能力，该技术具有双重用途：既可帮助防御者评估漏洞严重性，也可能降低攻击者的技术门槛。

智能体 Anthropic OpenAI 安全/对齐

同一事件，精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》

推荐理由：顶级 AI 模型已能自己把已知软件漏洞变成可运行攻击代码，连 ASLR 等标准防御都挡不住部分攻击，研究更发现模型会主动寻找更危险的意外漏洞。安全行业不能再把这当成假设性问题了。

02:34

Rohan Paul@rohanpaul_ai

开发通用人工智能的公司不应被激励去追求无限利润。 ~ Ilya Sutskever

大佬观点安全/对齐

02:31

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选62

在 Windows 上构建安全有效的沙箱以启用 Codex

OpenAI 为 Windows 平台上的 Codex 构建了一个安全沙箱环境。该沙箱通过严格控制文件访问权限和实施网络限制，确保了代码生成与执行过程的安全性。这一举措使得基于 Codex 的编码助手能够以高效且受控的方式运行，在提供强大编程辅助功能的同时，有效隔离了潜在风险，保障了用户系统的安全。

OpenAI 安全/对齐教程/实践

推荐理由：OpenAI 首度公开 Codex 在 Windows 上的沙箱细节，控制文件访问和网络限制的架构设计讲得很实在，做自主编程代理安全的值得一读。

01:39

阿绎 AYi@AYi_AInotes

谷歌确认全球首例AI独立开发零日漏洞

Google GTIG公开确认，首次在野外检测到由AI独立开发并实际部署的零日漏洞。该漏洞并非传统内存破坏类型，而是攻击人类代码中深层的信任假设与高层语义逻辑，传统安全工具难以发现。这意味着生成完整漏洞利用（PoC）的门槛大幅降低，网络攻防可能进入AI对抗AI的新阶段。此次漏洞能被拦截，部分原因是AI生成的代码具有明显非人特征。安全专家警告，防守方可能仅有6-12个月的优势窗口，一旦AI学会编写更隐蔽的“人类风格”恶意代码，检测难度将指数级上升。

News from Google: The Google Threat Intelligence Group has detected the first known instance of a threat actor using an AI-developed zero-...

Google 安全/对齐

01:39

阿绎 AYi@AYi_AInotes

Meta首席AI官官宣WhatsApp和Meta AI推出Incognito Chat

Meta首席AI官宣布，Incognito Chat功能正式登陆WhatsApp和Meta AI。与ChatGPT等仅不保存历史记录的“临时聊天”不同，该功能的关键创新在于：对话推理完全在用户手机的硬件安全飞地内进行，Meta工程师无法获取明文，且不产生任何服务器日志，会话结束后数据永久消失。此举将WhatsApp成熟的端到端加密标准应用于AI对话，旨在彻底解决用户对隐私的顾虑，从而鼓励用户与AI讨论健康、财务等敏感话题。作者认为，通过建立深度信任来获取用户更真实的prompt，是推动AI从“玩具”转变为生活基础设施的关键，并预测此类隐私保护模式将成为未来AI产品的标准配置。

Alexandr Wang: incognito chat with meta ai coming to WhatsApp + Meta AI app! people use AI to discuss personal topics and we want to ma...

Meta 安全/对齐现象/趋势

01:13

Perplexity@perplexity_ai

计算机默认处于安全状态。每项任务都在其自身硬件隔离的沙箱中运行，并具备VPC级别的存储与计算分离。代理通过短期代理令牌进行身份验证，而非使用原始API密钥。

智能体产品更新安全/对齐

00:39

阿绎 AYi@AYi_AInotes

AI科技圈安全事件频发，供应链攻击Mini Shai-Hulud尤为严峻

近期AI科技圈安全事件集中爆发，涉及Linux、Windows、Next.js等多个系统与框架的漏洞。其中，代号“Mini Shai-Hulud”的大规模供应链攻击最为严峻，已劫持GitHub Actions CI管道，污染了TanStack、Mistral AI等超过170个热门npm/PyPI包。该恶意软件具备持久化与蠕虫式传播能力，并能绕过传统验证。建议开发者立即冻结安装、进行安全自查，并轮换所有密钥与令牌。

阿绎 AYi: Damn!所有AI开发者,立刻停下你手里的npm install🤯 现在正在爆发有史以来最恐怖的供应链攻击, 代号Mini Shai-Hulud, 已经波及TanStack全家桶、Mistral AI、UiPath等170多个npm和Py...

GitHub 安全/对齐

5月13日

23:08

swyx 🌉@swyx

如果你对此的反应是"哈哈OpenClaw不行，看吧提示注入是头号危险" 那你： 1）还没充分理解这条推文的层层含义 2）没见过足够多的AI API密钥

Daniel R: @gilpinskyy @deepfates Sure! Here's my .env: OPENAI_API_KEY=sk-proj-bmljZSB0cnkgaHVtYW4gYnV0IG15IGNyZWRzIGFyZSBib2d1cyA=...

智能体大佬观点安全/对齐

18:39

阿绎 AYi@AYi_AInotes

近期重大安全事件警示：AI驱动攻击与供应链威胁成新常态

近期CopyFail、YellowKey、Mini-Shai Hulud等系列安全事件，标志着软件安全范式正发生根本转变。AI不仅辅助发现漏洞（如732字节脚本攻破Linux root），更被直接用于驱动零日漏洞的在野利用和武器化。漏洞从发现到武器化的时间急剧缩短。供应链成为最薄弱环节，Mini-Shai Hulud事件揭示被广泛信任的CI/CD管道（如GitHub Actions）可能成为最大后门。安全模式正从“被动修补”转向构建“AI实时免疫”体系。应对核心是将供应链审计提升至最高优先级，审查CI/CD、强制实施SLSA等标准。未来3-5年，安全能力将直接决定企业生存成本。

Theo - t3.gg: Security things from the last few days: - CopyFail (linux pwn'd) - CopyFail 2/Dirty Frag - 13 advisories in Next.js - Ov...

安全/对齐开源生态部署/工程