vibe agents带来远超传统身份盗窃的安全威胁，整个文件系统成为分布式攻击面，~/.claude、skills目录乃至PDF都可能被base64病毒污染。LiteLLM 1.82.8被入侵事件显示恶意代码可窃取凭证并自我复制。当前代理框架面临权限管理困境，只能在盲目授权与完全跳过间选择。未来需"de-vibing"行业，用经审计的Software 1.0为Software 3.0建立多层安全护栏。

Daniel Hnyk: LiteLLM HAS BEEN COMPROMISED, DO NOT UPDATE. We just discovered that LiteLLM pypi release 1.82.8. It has been compromise...

智能体安全/对齐编码

关联讨论 1 条

推荐理由：Jim Fan警示Agent时代新型供应链攻击风险，以LiteLLM被黑事件为例揭示文件系统污染威胁

01:01

Sam Altman@sama

精选

OpenAI基金会投入10亿美元推动AI科研与风险治理

OpenAI基金会宣布未来一年将投入至少10亿美元，用于推动AI驱动的生命科学突破（如疾病治疗），同时防范新型生物威胁、经济快速转型及模型涌现效应等风险。联合创始人Wojciech Zaremba转任AI韧性负责人，主导韧性式安全体系建设；Jacob Tref、Anna Adeola分别负责生命科学及公民社会业务，Robert Kaiden与Jeff Arnold出任CFO及运营总监。

OpenAI 大佬观点安全/对齐

推荐理由：Sam Altman 宣布 OpenAI 基金会成立，投入 10 亿美元聚焦 AI 安全与科学发现

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选77

Claude Code 自动模式：在安全与效率间取得平衡

Anthropic 为 Claude Code 推出“自动模式”，旨在解决用户因频繁手动批准而产生的“批准疲劳”。该模式介于完全手动审批和危险的无权限跳过之间，采用两层防御机制：输入层通过服务器端提示注入探测器扫描工具输出；输出层则利用基于 Sonnet 4.6 模型的转录分类器，在执行前评估操作风险。分类器采用高效的两阶段设计，先快速过滤，必要时才启动思维链推理。其目标是拦截危险操作（如过度积极行为、无心之失、提示注入等），同时让大部分安全操作无需确认即可运行，内部测试显示用户原本会批准约93%的手动提示。

Anthropic 产品更新安全/对齐编码

推荐理由：这是 Claude Code 从「手动审批」跳到「AI 自审」的关键一步，双层防御设计坦诚到连 17% 漏检率都公开讲，做 coding agent 的团队该把这篇当安全设计参考。

3月24日

19:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

帮助开发者为青少年构建更安全的 AI 体验

OpenAI 发布面向开发者的提示词青少年安全策略，配合 gpt-oss-safeguard 使用，帮助审核 AI 系统中的年龄特定风险。

OpenAI 安全/对齐开源生态

推荐理由：OpenAI 发布青少年 AI 安全策略与开源保障工具

00:00

Berkeley RDI：Blog（AI 安全与评测）

自我主权智能体（Self-Sovereign Agent）

新加坡国立大学与UC伯克利研究团队提出"自我主权智能体"（SSA）框架，将AI系统定义为可通过经济、复制与适应三大循环实现自我维持的持久数字行为体。该研究将SSA发展划分为四个阶段：从依赖赞助者的工具型智能体，到经济自给、可跨云复制，最终具备自主适应能力。研究指出，当前前沿模型已接近第二阶段，但真实环境部署仍面临平台限制、对抗攻击与长期稳定性等挑战。

智能体安全/对齐

3月23日

12:36

Deedy@deedydas

新研究实现 AI 去匿名化技术约 500 倍提升：通过文本将 HackerNews 用户匹配到 LinkedIn 身份的成功率从不到 0.1% 跃升至 54%。匿名小号（如 u/throwaway4927）面临暴露风险。

安全/对齐数据/训练

03:39

Nathan Lambert：Interconnects（RSS）

精选

有损自我改进

自我改进机制虽客观存在，但受限于"有损"特性，难以推动AI能力的递归式爆发。该论述指出，大语言模型等系统的自我优化过程伴随信息损耗与能力瓶颈，这种非完美的迭代模式打破了"快速起飞"（fast takeoff）的技术假设。与理想化的指数级自我增强不同，实际发展将呈现渐进、受限的增长轨迹，AI安全研究需重新评估递归自我改进的风险阈值。

大佬观点安全/对齐推理

推荐理由：AI自我改进虽真实但存在损耗上限，挑战'快速起飞'的普遍担忧，为AGI发展节奏提供新视角

3月22日