6月24日

13:42

IT之家（RSS）

6月24日，一名美国政府官员透露，Anthropic与美国情报机构合作，使用Mythos模型测试高度机密政府系统，模型仅数小时定位出多处漏洞，但官员强调这不等于能利用这些漏洞发起攻击。测试隶属于Project Glasswing项目。参议员沃纳引用美国网络司令部最高负责人的说法称，该模型“几乎攻破了全部机密系统”。随后白宫下令禁止外籍人员使用Fable 5与Mythos 5，Anthropic已关闭客户访问权限。网络安全企业高管联名反对，认为限制将削弱美国网络防御。

Anthropic 安全/对齐

10:06

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/Sing-Guard-0.8b 发布

蚂蚁 inclusionAI 在 HuggingFace 上开源了 Sing-Guard-0.8b 模型。项目旨在通过开源和开放科学推动人工智能的普及与发展。

安全/对齐模型发布

09:27

IT之家（RSS）

因 Anthropic 模型遭禁，美国法律科技公司 Legion 起诉美国政府

美国法律科技公司 Legion 于当地时间6月23日向华盛顿联邦法院起诉美国政府，请求撤销美国商务部6月12日对 Anthropic 下达的指令。该指令要求 Anthropic 禁止外国国民使用其 Fable 5 和 Mythos 5 模型，Anthropic 当日即关闭全球客户访问权限。Legion 表示其软件高度依赖 Anthropic 工具，导致其加拿大开发团队无法访问，业务停滞。该公司同时申请初步禁令。

Anthropic 安全/对齐行业动态

08:17

Rohan Paul@rohanpaul_ai

研究揭示大语言模型难以识别对抗性前缀攻击

一项针对10个开源模型、4个安全基准的研究发现，大语言模型在遭遇对抗性前缀攻击（模型被植入有害开篇并继续生成）后，无法可靠识别自己的输出已被外部引导。模型所谓的“自我意识”更像安全机制的延迟反射：拒绝受攻击回答时通常引用政策或缺乏意图，而非检测到输出被篡改的机械事实。平均有27.3%的受攻击响应被模型误认为自身意图，表明自我报告证据薄弱。模型的有限识别主要来自正常拒绝行为，而非对攻击的深层认知。

arXiv 安全/对齐论文/研究

07:27

IT之家（RSS）

美国监管机构向 Meta 施压，要求其同意接受 AI 安全审查

美国政府正向 Meta 施压，要求其主动提交人工智能模型以供审查，评估功能与漏洞。目前 OpenAI、Anthropic、谷歌、xAI 和微软均已同意将模型提交给政府下属的 AI 安全机构人工智能标准与创新中心，Meta 是唯一未达成自愿共享协议的主要 AI 公司。Meta 发言人表示正敲定细节，希望尽快签署协议。美国商务部称，该中心定期与企业就自愿审查协议进行沟通。

Meta 安全/对齐政策/监管

06:12

HuggingFace Daily Papers（社区热门论文）

TROPT：统一与推进离散文本优化的开源框架

TROPT 是首个开源框架，通过统一接口标准化离散优化器的执行与开发。它支持灵活替换模型、目标和优化器，定制端到端优化配方。框架内置30余个优化配方（覆盖LLM越狱、模型内部探测等），由15余个优化器（白盒到黑盒）和15余个损失函数组合而成。通过大规模对比实验验证了LLM越狱优化策略改进，并将优化器从越狱场景移植至语料投毒嵌入模型等领域，显著降低了离散文本优化的使用门槛。

arXiv 安全/对齐开源/仓库

06:07

Hacker News 热门（buzzing.cc 中文翻译）

精选71

AI招聘工具存在种族偏见和系统性排斥；黑人占比26%，亚裔占比15%

一项覆盖340万人、400万份申请、150家雇主和1700个职位的大规模实地研究发现，AI招聘筛选工具存在显著的种族歧视：26%的黑人申请者和15%的亚裔申请者遭遇算法对其族群的系统性排斥；若AI按推荐率最高群体（通常为白人）标准执行，将有4万份额外申请进入下一轮。多数雇主依赖同一第三方供应商算法，形成“算法单一文化”，导致10%提交4份申请者被所有职位拒绝。对比同期未用AI的招聘数据（8.3万份申请、108家财富500强企业），未发现此类模式。研究呼吁对算法招聘进行独立监管。

安全/对齐现象/趋势论文/研究

推荐理由：大规模实地研究揭示AI招聘存在显著种族偏见与系统性排斥，算法单一文化让同一批人被所有雇主拒绝，这是AI公平性领域近年最扎实的实证，做招聘产品的人和政策制定者都应该仔细读。