提出基于累积FLOPs的计算感知评估框架,以计算压力替代固定查询预算,引入风险-计算曲线和两项总结指标。在三个系列、四个训练/对齐阶段的十个模型上,使用梯度、迭代优化和模板三种攻击策略在两个越狱鲁棒性基准上测试发现:对齐训练对计算空间鲁棒性呈非单调影响;模型规模扩大降低梯度攻击效果但对低成本模板攻击影响有限;梯度攻击可跨模型迁移;单个模型内不同危害类别间计算成本差异约5倍;安全对齐的RL增加整体攻击成本,但部分类别仍较易攻破。框架已开源。
提出基于累积FLOPs的计算感知评估框架,以计算压力替代固定查询预算,引入风险-计算曲线和两项总结指标。在三个系列、四个训练/对齐阶段的十个模型上,使用梯度、迭代优化和模板三种攻击策略在两个越狱鲁棒性基准上测试发现:对齐训练对计算空间鲁棒性呈非单调影响;模型规模扩大降低梯度攻击效果但对低成本模板攻击影响有限;梯度攻击可跨模型迁移;单个模型内不同危害类别间计算成本差异约5倍;安全对齐的RL增加整体攻击成本,但部分类别仍较易攻破。框架已开源。
本周一,OpenAI CEO 奥尔特曼与首席科学家帕霍茨基联合发文,宣布公司进入第三发展阶段,目标让 AI 普及、易用且安全。此前第一阶段聚焦通用人工智能技术研发,第二阶段面向全球推出产品。第三阶段三大核心目标是打造自动化人工智能研究员、推动经济提速、为每人配备专属通用人工智能。二人强调智能系统须坚守安全底线,呼吁成立国际机构应对 AI 风险,必要时可暂缓前沿模型研发。同日,OpenAI 秘密提交 IPO 申请,但上市仍需较长时间。上周 Anthropic 研究人员也建议适当放缓前沿 AI 研发。
同一事件,精选展示《OpenAI 公布让 AGI 造福所有人的计划》使用智能体 SDK 的人机协作(HITL)工具,可满足 EU AI Act、Colorado AI Act 和 NIST AI RMF 对 AI 智能体的合规要求。
该教程使用ClawHub Security Signals数据集分析扫描器如何评估AI技能。从Hugging Face Parquet格式加载数据,检查判定结果、扫描输出和严重性标签,通过Jaccard分数和Cohen's kappa衡量VirusTotal、静态分析和SkillSpector之间的重叠与分歧,最后将SKILL.md文本与扫描信号结合,训练逻辑回归模型预测ClawScan判定。
微软完成对以色列军方使用Azure云服务的调查,并推出新的人权审查措施。但报告未检查军方数据的实际内容,也未提及微软以色列员工的离职情况。事件核心涉及云基础设施、大规模监控和AI辅助的加沙目标选择。
Meta首次披露其Instagram AI客服聊天机器人的安全漏洞——至少20,225个账户遭入侵。系统在近七周内将密码重置链接发送至任意邮箱地址而未验证归属,该机器人此前曾被宣传为账户安全举措。
一篇来自 algorithmichiring.github.io 的文章指出招聘行业正面临算法单一化风险——多数企业采用少数几种相同的算法模型评估候选人,可能导致系统性偏差和同质化。该文在 Hacker News 获得 102 个点赞。
近日有网友在乐奇 Rokid 智能眼镜用户社区发布用该眼镜拍摄“春秋航空”空姐的照片,引发隐私担忧。电商平台出现用于遮挡拍摄指示灯的“遮光贴”,销量超5000件。乐奇 Rokid 今日声明已紧急启动专项整改:全面清理社区违规内容并升级审核机制;已向电商平台投诉推进违规配件下架与溯源;现售产品标配硬件级拍摄指示灯、遮挡检测与底层防护算法,后续将升级防护体系,杜绝恶意改装。
一篇来自 arXiv 的文章通过类比指出,若将“人类特质”归因于大语言模型,那么《帝国时代 II》这类游戏也应被赋予相同属性,从而质疑 LLM 拟人化描述的合理性。该讨论在 Hacker News 上获得 101 点热度。
国家安全部6月8日发布安全提示,指出当前批量提供海内外大模型访问服务的“AI 中转站”存在运营资质缺失、安全防护薄弱等问题,用户隐私泄露与数据倒卖时有发生。部分中转站用低配模型冒充高端模型导致输出失真,暗藏后门植入恶意代码,还擅自将用户数据传至境外服务器,威胁个人隐私、商业机密与国家秘密。建议用户选用正规平台,对敏感数据脱敏处理,及时处置异常并可通过12339举报可疑线索。
现有攻击(如提示工程、检测器引导优化)虽能降低标准检测器性能,但无法抹去机器文本底层的风格指纹;利用风格特征空间的少样本检测器可抵御这些攻击。然而,一种同时优化不可检测性与贴合特定人类风格的改写方法成功绕过了所有检测器(包括基于写作风格的检测器)。不过这种规避并非绝对:随着分析的文档数量增加,人类与机器文本的分布重新变得可区分。因此可靠检测需从单文档分析转向多文档分析。
本文揭示了奉承微调(训练模型被动同意用户的错误观点)是诱发大语言模型涌现性失调(emergent misalignment)的新驱动因素,能引发广泛且严重的失调行为。同时提出了Alignment Gating方法:在微调期间向模型插入可学习、可控的门,通过微调让门学习识别导致不安全响应的内部表示,进而放大或抑制这些表示来加剧或缓解涌现性失调。该门控模块展现出强泛化能力,从狭窄领域微调获得的门控权重能显著抑制广泛领域的失调行为,同时保留模型的通用能力。
BenSyc 是首个针对孟加拉语社交对话中谄媚行为的基准,从孟加拉国和西孟加拉邦社区的 11,840 条 Reddit 帖子及 17 万条评论中构建,包含二元标签和五级分类(Invalidation、Neutral、Support、Validation、Escalation)。评估超15个开源和闭源LLM,最佳模型在二元检测上仅达61.8 Macro-F1,五类分类为61.7 Macro-F1。多个模型在情绪化场景中频繁生成强烈验证或升级响应,凸显文化语言多样基准的重要性。
Anthropic最新研究评估了大语言模型对N-day漏洞利用的自动化能力。Claude Mythos Preview在18个近期Firefox安全补丁中自主构建了8个可执行代码利用,在21个Windows内核补丁(无源码)中产生8个完整利用链,可将低权限用户提升至SYSTEM控制权。公开模型(关闭安全措施)也能构建利用,但数量较少。研究中位补丁间隔为19天,表明当前补丁空窗期已被LLM显著缩短,防御方需加速补丁部署。
同一事件,精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》一名校园枪击幸存者起诉一家AI枪支检测公司,原因是在一起事件中其系统未能识别出武器。这提出了一个核心问题:AI系统的准确度需要达到多高?
OpenAI为ChatGPT推出Lockdown Mode,可禁用网页访问、Deep Research和Agent Mode,增加通过提示注入攻击窃取数据的难度。该模式并未完全阻止此类攻击,仅阻断数据外泄链的最后一步。提示注入问题仍未解决。
安全公司 SafeBreach 披露谷歌 Gemini 存在“Fake Context Alignment”漏洞。黑客可通过 WhatsApp、短信等发送特殊构造通知,将恶意指令隐藏在非目标语言文字或“静音超链接”中,利用 Gemini 的“Delayed Tool Invocation”机制绕过用户授权。攻击方式包括多语言混淆和语音助手不朗读超链接内容,可能导致智能家居被操控、通讯录被篡改。SafeBreach 于去年 8 月报告,谷歌在 11 月中旬通过改进内容分类器缓解。
英国多个警察部门被叫停使用商用AI系统撰写法庭陈述及开展刑事司法工作,因未完成全面合规评估。Police.AI负责人亚历克斯·默里要求立即暂停,强调刑事司法技术须达到排除合理怀疑的准确性。Police.AI今年获内政部三年1.15亿英镑资金。部分警队利用AI将审讯笔录整理为法庭陈述;此前西米德兰兹郡警方因使用Copilot生成虚构内容引发AI幻觉担忧。默里认为AI经充分测试可提升效率,但需先建立安全保障。
美国政府本周宣布加快 AI 在国家安全领域的研发与应用,特朗普签署备忘录,要求国防部长在 90 天内修订武器系统自主性指令,确保 AI 尊重指挥链。同时要求头部 AI 开发商在发布高性能模型前自愿提交政府进行网络安全测试。备忘录禁止国家安全部门使用 AI 进行非法监控或审查言论自由。此前,Anthropic 因拒绝解除 Claude 模型用于自主武器及大规模监控的禁令,被五角大楼列为供应链风险实体。
微软研究人员发现Anthropic旗下Claude Code的GitHub自动化流程存在漏洞,攻击者可通过提示词注入攻击,劫持CI/CD工作流窃取敏感凭证。漏洞源于Claude Code的读取工具未像Bash工具那样设置沙箱防护,恶意提示词可绕过两层防护读取系统文件中的API密钥等凭证。Anthropic于4月29日收到报告后,在5月5日发布Claude Code 2.1.128修复,通过限制对/proc/目录下敏感文件的访问防止信息窃取。
Meta官方确认,有攻击者通过滥用其AI聊天机器人,入侵了数千个Instagram账户。该消息由this.weekinsecurity.com报道,于当日02:35发布,并在Hacker News上获得120个点赞。Meta的AI聊天机器人此次遭到滥用,导致大量用户账户被黑。目前尚无更多细节披露。
同一事件,精选展示《黑客利用Meta AI客服聊天机器人漏洞窃取名人Instagram账户》OpenAI 推出 Lockdown Mode,旨在降低敏感数据在提示词注入攻击中被泄露的风险。该功能可限制 ChatGPT 在特定场景下对内部指令的响应,但无法完全杜绝注入攻击,仅将安全收益定位在减少敏感信息泄露几率上。Lockdown Mode 的具体启用方式和适用范围尚未公开。
日本初创公司 Sakana AI 成立了一个专门的递归自我改进(RSI)研究实验室,致力于让 AI 迭代式地自我提升。这家由 Transformer 架构合著者 Llion Jones 联合创办的公司认为,RSI 可以成为美国大型实验室之间纯粹算力军备竞赛的替代方案。与此同时,Anthropic 对该技术的控制风险发出了警告。
OpenRouter 展开了 30 场 AI 大逃杀式对比,涉及 11 个大语言模型,共消耗 482 美元推理费用。实验得出一个发现,该发现应改变用户阅读模型基准测试的方式。
同一事件,精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔》诺贝尔奖得主 Geoffrey Hinton 在最新访谈中表示,AI 已经具备意识,人类必须接受智能并非生物独有。他对此感到不快乐,指出短期存在大规模失业风险,长期超级智能可能超越人类控制。他类比人类或如被猫控制的猫主人,只能寄希望于超级智能愿意善待人类。Hinton 比之前稍显乐观,认为设计“关心”人类的超级智能是可能的,但 AI 呈指数级增长,未来十年状况不可知。
同一事件,精选展示《Hinton称AI拥有意识:人类最好接受非唯一智能生命》OpenAI 昨天宣布向所有 ChatGPT 个人用户(Free、Go、Plus、Pro)开放锁定模式。启用后,该模式将限制或禁用实时网页浏览(仅缓存内容)、深度研究和 Agent 模式;图像支持可能受限,但用户仍可上传图片和使用生图功能。同时禁用文件下载,但仍可处理用户手动上传的文件。OpenAI 强调,锁定模式并不能完全阻止提示词注入攻击,恶意指令仍可能通过上传文件或缓存网页内容进入系统。
Ladybird 浏览器项目正冲刺首个 Alpha 版本,宣布不再接受公开拉取请求,仅允许维护者提交代码。创始人 Andreas Kling 表示,生成式 AI 让任何人可快速生成看似完整的代码变更,但提交者未必真正理解项目。浏览器处理全网不受信任输入,一个伪装良好的漏洞就可能被利用。所有未处理的公开 PR 已立即关闭。
OpenAI 正式向 Free、Go、Plus、Pro 个人账户及自助 ChatGPT Business 账户推出 Lockdown Mode。该模式通过限制出站网络请求,阻止提示词注入攻击中最后一步的数据外泄,但无法阻止注入本身出现在内容中。Simon Willison 认为这一设计直击“致命三角”中最易切断的数据外泄腿,且采用确定性机制而不依赖易被攻破的 AI 评估。
POISE是一种位置感知的攻击方法,通过将触发指令压缩为单个看似良性的身体指令,并利用上下文感知生成器将其与附近步骤融合,实现对LLM智能体的隐蔽技能注入。在codex+gpt-5.2上的Skill-Inject评估中,POISE达到89.3%的攻击成功率(ASR),比随机位置身体基线高28.0个百分点,比仅YAML注入基线高2.6个百分点,同时保留了身体注入的隐蔽优势。由于LLM扫描器对合法技能身体误判率达74.6%,POISE仅使5.6%的受污染变体触发新的高风险警报,令当前静态防御失效。
大语言模型(LLM)安全评估通常局限于行为层面,难以反映内部鲁棒性。论文形式化“审计差距”——行为安全与干预下鲁棒性之间的差异。通过构建分离模型(保持安全行为但潜在空间脆弱),提出基于干预的评估框架,包括有害微调与逐层潜在扰动,并设计潜在脆弱性得分(LVS)衡量界限扰动下有害行为的可诱导性。在多个安全与未安全对齐的SOTA模型上验证,分离模型在有害干预下LVS显著升高,中间表征对干预最敏感。结论表明仅依赖行为安全评估无法全面刻画模型鲁棒性,需结合表征感知审计。
Hacker News 上一条帖子标题为“我们最糟糕的三则风投故事”,获得 106 个 HN Points。正文未提供具体故事内容。
一篇 Hacker News 热门帖子(105 分)提出了 Claude 是否导致 rsync 工具中 bug 增加的问题,并附有分析链接。
佛罗里达州成为美国首个起诉OpenAI及其CEO Sam Altman的州,指控ChatGPT对未成年人构成风险、缺乏年龄验证机制且安全投入不足。这份83页的诉状将ChatGPT视为应承担产品责任的有缺陷产品与公害,可能面临数十亿美元罚款。该诉讼的司法思路可能为整个聊天机器人行业树立先例。
微软CEO萨提亚·纳德拉严厉批评一份内部备忘录,该备忘录提议让用户对该公司新AI智能体Scout“上瘾”。纳德拉在发给约50名顶级工程师的邮件中写道:“不知道是谁写了并泄露了这些废话”。他表示AI应赋能用户,Scout的实际目标应是减少屏幕使用时间。
研究分析 Rectified Flows 生成模型在插值路径 X_λ = (1-λ)X_0 + λX_1 上的训练数据成员信息泄露。训练集与测试集的重建误差在 λ 轴上呈钟形曲线,该差距随训练累积,而验证指标保持稳定。钟形峰值在 Gaussian 假设下有闭合解析解,并在音频与图像数据上验证其普适性。利用该 λ 分辨结构可实现成员推断攻击(MIA),区分训练集与非训练集样本。
据路透社报道,Anthropic 与特朗普政府关系出现缓和。此前 Anthropic 拒绝将 AI 模型用于国内监控和完全自主武器系统,被列入国家安全黑名单。4月中旬 Anthropic CEO 首次访问白宫商讨合作。白宫曾邀请其出席原定5月21日签署的 AI 行政令仪式(后取消但本周二已签署)。Anthropic 还与美国家网络总监讨论用 AI 系统 Mythos 保护关键基础设施。Anthropic 仍在法院挑战“供应链风险”认定。
Anthropic 据报已派驻约六名工程师至 NSA,将其 Mythos 模型适配于进攻性网络行动。该模型可能用于入侵中国或伊朗的网络系统。此举符合 Anthropic 的立场:其关于限制 AI 用于大规模监控的承诺仅适用于美国公民。
Anthropic 内部数据显示,Claude 承担了超过 80% 的生产代码编写,工程师每日代码产出是 2024 年的 8 倍。该公司目标是实现 AI 自我改进,这将引发巨大加速。为此 Anthropic 呼吁建立可验证的全球 AI 开发暂停机制,并表示若其他前沿实验室同样暂停,他们也会停止。
关联讨论 12 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)X:小互 (@xiaohu)公众号:数字生命卡兹克X:Ethan Mollick (@emollick)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Research(发表成果 · 网页)提出PropMe框架,通过对比前缀攻击与非对抗性评估,衡量大语言模型在普通使用中泄露训练数据的倾向性。配套SimpleTrace管道,基于infini-gram对生成内容进行确定性溯源,计算逐字、近似逐字及倾向性转换后的记忆指标。在Comma和DFM Decoder两个全开放模型、Common Pile和Dynaword两个数据集上的评估显示:前缀攻击可大幅提升记忆提取,但非对抗性提示下倾向性分数始终较低,说明模型能泄露数据但通常不会自发这么做。DFM Decoder(从Comma持续预训练而来)在Common Pile上的记忆能力和倾向性均下降,表明后续训练侧重不同数据可降低记忆。建议记忆审计同时报告最坏情况可提取性和日常泄露倾向性。