6月5日

15:15

IT之家（RSS）

抖音集团副总裁李亮就“豆包误判蘑菇导致用户中毒”一事回应称，豆包联系上当事用户。该用户用豆包拍照识别小区采摘的蘑菇，豆包识别为“鸡腿菇”，同时明确提示其“极容易和剧毒的大青褶伞混淆”，并“强烈建议不要食用”。李亮表示，AI还在发展阶段，豆包在提升识别准确性，但涉及人身安全的问题，AI回答仅供参考，用户务必多方咨询求证。

多模态安全/对齐

14:49

Hacker News 热门（buzzing.cc 中文翻译）

韩国论坛将需要使用人工智能审查工具对每张图片进行扫描

韩国论坛将被要求使用人工智能审查工具对每一张上传图片进行扫描。该规定旨在加强内容审核，具体执行细则尚未公布。

安全/对齐政策/监管现象/趋势

10:14

IT之家（RSS）

精选79

Anthropic 发布报告称其最新 AI 模型已显现脱离人类控制迹象，呼吁全球暂缓前沿 AI 开发，以便社会制度建设和对齐研究跟上进展。该公司主张美国、中国等主要 AI 公司达成共识，发布可验证的规则，并类比“核武器不扩散条约”，但指出 AI 更难监管。该观点引发美国白宫部分官员不满，批评其夸大风险。Anthropic 计划未来数月召集各方探讨全球协调机制如何运作。

Anthropic 安全/对齐行业动态

推荐理由：Anthropic呼吁暂缓AI研发，虽然被白宫官员批「夸大风险」「给对手使绊」，但Mythos模型确实够强。这份报告是道德信号还是商业博弈，值得细看。

09:31

公众号：数字生命卡兹克

同事件精选68

Anthropic《When AI builds itself》：当AI开始自我构建

Anthropic发文指出，AI系统正加速自身开发，递归自我改进或将到来。目前Anthropic超80%代码由Claude编写，工程师每日合并代码量达2024年8倍。Claude Opus 4.6可胜任12小时软件任务，Mythos Preview连续工作至少16小时，SWE-bench和CORE-Bench等基准均已饱和。内部测试显示，Mythos Preview使研究效率提升约4倍，代码速度优化达52倍，在开放任务中成功率达76%，并弥合97%的研究项目差距。Claude在64%情况下给出比人类更好的研究建议。

Anthropic 安全/对齐现象/趋势编码

同一事件，精选展示《AI加速自我构建：Anthropic研究院报告揭示趋势》

推荐理由：Anthropic首次公开内部数据，工程师代码产出提升8倍，Claude自我加速的曲线已经画出来了。这篇文章不是预测是事实，做AI的人都该花20分钟读完。

09:28

Gary Marcus：The Road to AI We Can Trust（RSS）

精选59

Gary Marcus：无需恐慌Anthropic新博客

Anthropic发布最新博客后，推特圈热议不断。Gary Marcus在其博客中直接以“无需恐慌”为题发文，暗示不必过度反应。

Anthropic 大佬观点安全/对齐编码

推荐理由：这篇文章是评论圈难得的冷静声音，用逻辑拆解了 Anthropic 的恐慌叙事，顺便带来 S&P 500 不接纳 SpaceX 的利好，读起来像一份理性补丁。

09:14

IT之家（RSS）

谷歌云服务部门新一轮裁员，安全团队在列

谷歌在过去两周内对云服务部门进行新一轮裁员，波及GTIG威胁情报小组和Mandiant等部门。GTIG团队负责追踪黑客活动与分析网络攻击，部分员工已在领英公开被裁经历。Mandiant源于谷歌2022年收购的网络安全公司，已深度整合至Google Cloud。谷歌表示裁员主要是为了向AI等增长领域重新投入资源，具体人数和岗位尚不清楚。

Google 安全/对齐行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

大语言模型智能体的冷启动安全性差距

工具调用 LLM 智能体在对话开始时安全风险最高，完成若干常规 agentic 任务后安全性显著提升，称为冷启动安全性差距。为系统研究此问题，提出基准 SODA（Safety Over Depth for Agents），可控制在安全威胁前最多 20 个前置任务。在 4 个模型族的 7 个模型上，前置任务从 0 增至 20 时安全提升 9–52%。表征分析显示模型隐藏状态逐渐移向安全对齐区域。常规任务本身是安全提升主因，agent 自身响应影响较小但有助于保持效用。在 AgentHarm、Agent Safety Bench 等安全基准及 BFCL、API-Bank 等效用基准上得到验证。建议部署前让 agent 完成少量常规任务以缓解该差距。

智能体安全/对齐论文/研究

06:28

OpenRouter：Announcements（RSS）

精选66

OpenRouter 翻遍 11 款 LLM 找最快的决策模型：Claude vs. Grok 领衔

OpenRouter 用总价 482 美元的推理花费，让 11 款大语言模型在 30 轮实时决策的“大逃杀”挑战中正面竞争。实验结果表明，传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务（如自主控制机器人）中的真实表现，Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出，而多项高分模型的实时调度能力未达预期。

智能体 Anthropic OpenAI 安全/对齐

关联讨论 1 条

推荐理由：Jacky 把 11 个模型丢进大逃杀，发现 Grok 4.1 Fast 以 27 倍成本优势击败 Sonnet，而获胜关键不在基准分数，在于模型被训练时压制的攻击性。对任何不再只看排行榜选模型的人，这是今年最值得读的实验。

05:47

Hacker News 热门（buzzing.cc 中文翻译）

精选76

Anthropic 开源 AI 驱动漏洞发现框架

Anthropic 将其用于 AI 驱动漏洞发现的开源框架代码托管在 GitHub 上。该框架借助 AI 技术进行漏洞发现，旨在帮助识别软件中的安全缺陷。

智能体 Anthropic 安全/对齐开源/仓库

推荐理由：Anthropic 把用 Claude 做自主漏洞挖掘的完整流水线开源了，从侦察到修复全链路都有，安全团队可以把它接到自己代码库里跑起来。虽然本质是给 Claude Security 带货，但 pipeline 设计和 prompt 对做 AI 安全自动化很有参考价值。

04:56

Ars Technica：AI（RSS）

爱沙尼亚政府基准测试：这些LLM在抵制俄罗斯宣传方面表现最佳

爱沙尼亚政府发布的一项基准测试对数十个LLM模型进行了评估，测试它们对抗俄罗斯“战略叙事”（strategic narratives）的能力，并筛选出表现最佳的模型。

Anthropic Google OpenAI 安全/对齐

04:53

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI 发布《智能时代的生物防御》行动计划，以 AI 驱动生物韧性

OpenAI 提出一项名为“Biodefense in the Intelligence Age”的行动计划，旨在利用 AI 增强生物防御与韧性。该计划聚焦于构建 AI 驱动的生物安全能力，以应对未来可能出现的生物威胁。

OpenAI 安全/对齐

03:43

Hugging Face：Blog（RSS）

精选78

Nemotron 3.5 Content Safety：面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT，提供128K上下文窗口，支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行，允许企业用自然语言定义专属安全规则；THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言，并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架（13核心类别+10细分类别）。同步发布多模态、多语言安全数据集，可在8GB+ VRAM GPU上实时部署。

Hugging Face 多模态安全/对齐开源/仓库

推荐理由：Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」，自定义策略和推理 trace 让企业能审计决策，做安全平台的值得细看。

01:57

Anthropic：The Institute（旗舰研究长文 · 网页）

精选82

AI加速自我构建：Anthropic研究院报告揭示趋势

Anthropic研究院报告指出，AI正加速AI开发：2021–2025年间工程师人均季度代码量提升8倍，截至2026年5月超80%合并代码由Claude生成。Claude Opus 3（2024年3月）可完成约4分钟软件任务，Claude Sonnet 3.7（2025年3月）提升至1.5小时，Claude Opus 4.6（2026年3月）可处理12小时任务。SWE-bench两年内从低个位数得分饱和；CORE-Bench约20%正确率在15个月后饱和。METR测试显示Claude Mythos Preview可连续工作至少16小时。但AI自主设定目标的能力仍存显著差距，完全自主递归自我改进尚未实现。

智能体 Anthropic 安全/对齐现象/趋势

关联讨论 11 条

推荐理由：Anthropic首次披露AI辅助开发的内部数据，8倍代码产出、AI自动审查bug，趋势直指完全自主AI的临界点，每个开发者和政策制定者都需要读。