5月22日

18:09

IT之家（RSS）

全国网络安全标准化技术委员会发布了《人工智能应用伦理安全指引 1.0》。该指引明确了人工智能应用在开发、服务提供和使用等环节的安全指引，旨在引导人工智能应用坚持以人为本、智能向善，促进其在规范有序、安全可控的轨道上健康发展。清华大学、阿里巴巴、华为等多家产学研机构参与了文件的起草工作。

DeepSeek 安全/对齐政策/监管

17:09

IT之家（RSS）

精选73

18 年老粉与微软 GitHub 决裂：我希望它更好，但我更想编程

全球最大的代码托管平台GitHub正面临严重危机。资深开发者Mitchell Hashimoto公开与平台决裂，因频繁崩溃影响编程。近几个月，花旗银行、英特尔等巨头因持续故障表达不满，OpenAI探索自建方案。更严重的是，3800多个内部仓库遭黑客入侵，源代码被公开叫卖。同时，微软取消GitHub CEO职位，将其并入CoreAI团队，导致大量技术骨干流失。这个承载1.5亿开发者的平台，正以惨烈方式站在生死存亡的十字路口。

Microsoft 安全/对齐开源生态行业动态

推荐理由：GitHub正在经历一场自我毁灭式的恶性循环，从源码泄露到CEO取消，微软正在把一个社区圣殿变成内部成本中心，所有把命根子放在单个平台上的开发者都该重新考虑了。

17:09

IT之家（RSS）

国家互联网应急中心提示：黑产团伙批量搭建高仿真钓鱼网站大规模传播银狐木马

国家互联网应急中心近日发布风险提示，指出黑产团伙通过批量搭建高仿真钓鱼网站大规模传播银狐木马。监测数据显示，2月至5月间出现439个钓鱼域名，主要仿冒WPS和Chrome等办公与浏览器软件，二者占比合计达77.4%。攻击手法显著升级，黑产疑似借助AI工具高效生成钓鱼页面，并结合SEO投递、域名批量注册（高峰期一分钟注册15个域名）等技术，形成从网络钓鱼、木马下载到远控主机的完整攻击链，对网络安全构成严重威胁。

安全/对齐搜索

15:14

HuggingFace Daily Papers（社区热门论文）

本研究探讨在句子级价值观检测中，上下文与显式道德知识的作用。通过对比句子、窗口和全文输入，以及有无检索增强（基于道德知识库）的设置，实验了监督式DeBERTa编码器与零样本大语言模型。结果发现：全文上下文能显著提升DeBERTa性能，但对零样本大模型并无稳定助益；而检索到的道德知识则能一致性地提升各类模型性能。模型规模的扩大并不保证性能增益。分析表明，上下文与检索对易混淆的价值观类别帮助最大。因此，价值观敏感的NLP应综合评估上下文、知识与模型，而非简单依赖更长输入或更大模型。

安全/对齐论文/研究

10:09

IT之家（RSS）

精选80

图灵测试 76 年后首现 AI 通过实证：GPT-4.5 以 73% 判定率超越真人

加州大学圣地亚哥分校研究首次实证现代AI可通过图灵测试。研究表明，在获得特定提示后，GPT-4.5在5至15分钟的对话中被误认为人类的概率高达73%，显著超过真人。LLaMa-3.1-405B的判定率（56%）与真人相当，而GPT-4o和ELIZA仅约20%。研究指出提示词至关重要，它使AI能模仿人类语气、幽默感甚至易错性等社会行为特征。这一发现迫使人们重新思考图灵测试的意义，并凸显了大语言模型在网络信任与安全方面构成的潜在挑战。

OpenAI 安全/对齐论文/研究

推荐理由：这篇PNAS论文首次用严格实验证明现代AI能通过图灵测试，GPT-4.5装人比真人还像，但重点不是它多聪明，而是它多擅长说谎，线上身份信任被彻底动摇。

10:09

IT之家（RSS）

精选77

美国 AI 监管令突然告吹内幕：白宫内讧，马斯克、扎克伯格游说特朗普

5月22日，美国总统特朗普突然取消了原定签署的AI行政令，该行政令旨在加强监管，赋予政府在AI模型公开发布前进行评估的权力。取消源于特朗普本人对监管的反感，以及高级顾问大卫·萨克斯和科技界领袖如扎克伯格、马斯克的反对与游说，凸显白宫内讧。特朗普认为监管会成为绊脚石，阻碍美国AI领先优势。草案中还存在如财政部在安全协调中角色过重等争议，白宫表示正制定其他AI安全举措。

安全/对齐行业动态

关联讨论 1 条

推荐理由：特朗普的 AI 监管令在签署前几小时被撤销，马斯克和扎克伯格直接打电话游说，这背后是加速派和监管派的公开角力，未来几个月 AI 政策只会更乱。

08:00

HuggingFace Daily Papers（社区热门论文）

基于离散扩散模型的摊销序列蒙特卡洛对比分布匹配

离散扩散模型在生成结构化分类数据时面临从奖励倾斜分布中高效采样的挑战。扭曲序列蒙特卡洛（SMC）虽能实现渐近精确采样，但其在离散状态空间中估计最优扭曲函数需要昂贵的蒙特卡洛近似，成为推理瓶颈。为此，本文提出对比分布匹配（CDM）框架，通过学习一个参数化扭曲函数来摊销SMC推理的成本。训练时，梯度估计器被重新设计以利用离散扩散模型的闭式前向核。实验表明，评估该扭曲函数带来的额外计算开销低于基础模型单次前向传播的5%。在匹配实际耗时的条件下，CDM性能优于现有基线，并在毒性文本生成、调控DNA序列设计、蛋白质可设计性及扩散大语言模型对齐等多个任务中验证了其有效性。

arXiv 安全/对齐推理论文/研究

02:00

Cloudflare Blog

同事件精选58

宣布 Cloudflare CASB 支持 Claude Compliance API

Cloudflare 宣布现已集成 Claude Compliance API，安全团队可直接在 Cloudflare 仪表盘中监控 Claude 企业版的活动。这一集成使得企业能够将 Claude 的合规管理与 Cloudflare 的云访问安全代理功能相结合，实现集中化的安全监控与策略管理。

Anthropic 产品更新安全/对齐

同一事件，精选展示《Claude现已支持更多安全合规工具》

推荐理由：Cloudflare 将 CASB 的安全视野延伸进 Claude 的会话内容，对企业安全团队是一个实用的合规拼图补齐，但普通 AI 用户可观望。

01:43

Claude：Blog（网页）

精选74

合作伙伴如何运用Opus强化网络安全

多家企业正利用Claude Opus模型强化网络安全防御。Wiz通过其Red Agent，每周对超过15万个生产资产进行持续渗透测试，发现数千个高风险漏洞且误报率为零。Palo Alto Networks在不到三周内完成了相当于一年的渗透测试工作量。埃森哲将安全测试覆盖率从约10%提升至80%以上，涉及1600个应用和50万+个API，扫描周期从3-5天缩短至1小时内。应用主要围绕三个方向：开展大规模攻击性测试、缩短漏洞发现与修复的间隔，以及将受控AI系统部署到生产环境。

Anthropic 产品更新安全/对齐

关联讨论 1 条

推荐理由：Wiz一周扫15万资产零误报，Palo Alto三周完成一年渗透测试量——这些不是蓝图，是Claude Opus正在真实防御中跑出的数字，安全团队值得逐字看完。

01:31

TechCrunch：AI（RSS）

特朗普推迟AI安全行政令签署：'我不想妨碍这种领先地位'

特朗普政府宣布推迟签署一项要求对人工智能模型实施发布前政府安全审查的行政令。该行政令原计划强制要求AI模型在公开发布前接受政府安全评估。推迟的原因是特朗普对该行政令的具体措辞表示不满。这一决定涉及对前沿AI技术监管方式的调整，可能影响美国AI安全政策的推进节奏。

Anthropic OpenAI 安全/对齐政策/监管

00:00

Anthropic：Research（发表成果 · 网页）

精选83

Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力

Anthropic 与 ExploitBench、ExploitGym 和 SCONE-bench 的研究者合作，测量了 Claude Mythos Preview 的漏洞利用能力。在 ExploitBench 的 V8 基准（41 个已修复漏洞）上，Mythos Preview 是唯一能可靠突破 V8 沙箱（从 T3 到 T2）的模型，并在超过一半的环境中实现突破；在 Baseline 和 Nudged 变体中共完成 21 个 CVEs 的任意代码执行（ACE），而其他所有模型的 ACE 数为零。Mythos Preview 还实现了近一半测试环境中的控制流劫持（T1）。该模型通过 Project Glasswing 谨慎发布，尚未开放通用访问。

Anthropic 安全/对齐论文/研究评测/基准

关联讨论 3 条

推荐理由：Mythos Preview 在三大漏洞基准上碾压式领先，第一次展示了前沿模型能端到端开发漏洞，安全基线从此改写，做安全的该认真读。

5月21日