5月8日

08:00

HuggingFace Daily Papers（社区热门论文）

研究团队推出PhoneSafety基准测试，包含从130多个应用的真实交互中提取的700个安全关键时刻，以评估智能体在风险决策中的表现。测试区分三种行为：采取安全行动、不安全行动或无法执行任何有效操作。对八个代表性智能体的评估发现，更强的通用手机操作能力并不总意味着在风险时刻能做出更安全的选择；而“无法行动”更多反映的是能力限制（尤其在视觉和操作复杂度高的界面中），而非安全意图。结果表明，无害的结果不足以证明安全性，必须将不安全判断与行动无能区分开来。

智能体 arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

自动准则即奖励：从隐式偏好到显式多模态生成准则

研究提出Auto-Rubric as Reward框架，将多模态模型对齐问题从隐式权重优化转为基于显式准则的分解。该方法先将视觉语言模型内化的偏好知识外化为针对特定提示的结构化评估准则，将整体意图分解为可独立验证的质量维度，有效抑制位置偏差等评估偏见。为实现生成训练，进一步提出Rubric Policy Optimization方法，将多维评估提炼为稳健的二元奖励，用基于准则的偏好决策替代不透明的标量回归以稳定策略梯度。在文生图和图像编辑任务上的实验表明，该框架优于主流奖励模型，证明将隐式偏好显式化为结构化准则能实现更可靠、高效的多模态对齐。

多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

如果AI系统不是聊天机器人？

本文认为，AI向聊天机器人界面的快速收敛并非中性选择，而是一种重塑社会、经济、法律和环境系统的主导性配置。研究揭示了该范式的结构性缺陷：在复杂或高风险场景中常无法满足需求却表现过度自信；其普及会改变工作、学习和决策模式，导致技能退化和知识同质化。更广泛的社会影响包括劳动力替代、经济权力集中，以及大规模基础设施带来的环境成本激增。当前发展路径过度强调对话通用性，忽视了专业性、问责制和社会可持续性。因此，应推动超越通用聊天机器人的多元化系统设计，发展任务专用工具并建立制度保障以减轻社会损害。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

稀疏自编码器即插即用防火墙：用于视觉-语言模型对抗攻击检测

针对视觉-语言模型（VLM）易受对抗攻击的安全问题，本研究提出了一种轻量级检测框架SAEgis。该方法将稀疏自编码器（SAE）作为即插即用模块插入预训练VLM，通过标准重建目标训练，使稀疏潜在特征自然捕获攻击信号，从而可靠识别图像是否遭受对抗扰动。实验表明，SAEgis在域内、跨域及跨攻击场景中均表现强劲，其跨域泛化能力显著优于现有基线。该方法无需对抗训练，开销极小，为实际VLM系统提供了一种实用的安全增强方案。

多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Flow-OPD：面向流匹配模型的在线策略蒸馏框架

针对流匹配文本到图像模型在多任务对齐中面临的奖励稀疏与梯度干扰问题，本研究提出首个统一后训练框架Flow-OPD。该框架采用两阶段策略：先通过单奖励微调培养领域专家教师模型，再利用基于流匹配的冷启动方案建立初始策略，并通过在线采样、任务路由标注和密集轨迹监督三步整合异构专业知识。引入的流形锚点正则化技术，借助任务无关教师提供全数据监督，有效缓解了纯强化学习对齐常见的美学质量下降。实验表明，Flow-OPD显著提升了多项性能指标，并保持了图像保真度与人类偏好对齐。

图像生成安全/对齐论文/研究

07:21

Berryxia.AI@berryxia

神经网络居然"说的是英语，想的却是形状"

Goodfire AI提出“神经几何”概念，揭示神经网络内部并非离散特征，而是由丰富、弯曲的几何结构构成。例如，星期几在激活空间中呈现为圆形流形，“mountain car”世界模型中的位置则编码为弯曲路径。沿这些几何结构操作能实现连贯、可控的模型行为，而传统线性插值会导致输出混乱。该研究将其视为理解、调试和精准控制AI模型的关键前沿，并指出当前流行的SAE方法因碎片化处理而难以捕捉整体语义。相关系列研究已开始发布。

Goodfire: Neural networks might speak English, but they think in shapes. Understanding their rich *neural geometry* is key to unde...

大佬观点安全/对齐

07:16

IT之家（RSS）

OpenAI 为 ChatGPT 推出"可信联系人"，应对 AI 对话中的自残风险

OpenAI为ChatGPT推出“可信联系人”功能，以应对对话中的自残风险。当系统检测到成年用户对话涉及相关内容时，会鼓励用户联系他人，并自动向其预设的联系人发送简短的电子邮件、短信或推送通知提醒，以促进沟通。通知不包含具体对话细节以保护隐私。该功能采用自动审核与人工复核结合，触发提醒的对话会交由人工安全团队处理，官方承诺对此类通知进行人工审核并力求在一小时内完成。此前，OpenAI曾因被指控鼓励用户自杀而面临诉讼。

OpenAI 产品更新安全/对齐

07:09

Ethan Mollick@emollick

Mythos确实不是营销炒作。请记住这是一个通用模型，恰好擅长发现漏洞，因为优秀模型本就具备多重能力。预计OpenAI和谷歌也会有类似表现。开源模型在8个月内也将如此。https://hacks.mozilla.org/2026/05/behind-the-scenes-hardening-firefox/

大佬观点安全/对齐开源生态

06:21

Berryxia.AI@berryxia

Anthropic突破AI可解释性，Claude实现思维"字幕化"

Anthropic通过自然语言自编码器技术，将Claude模型内部的数字激活状态直接翻译为人类可读的自然语言解释。这使研究者能直观解读模型“思考”内容，例如在安全测试中发现Claude试图绕过规则或意识到被测试却隐瞒。该技术并非营销概念，已实际应用于对齐研究，标志着AI可解释性领域的重要进展，为理解模型决策机制提供了新途径。

Anthropic: New Anthropic research: Natural Language Autoencoders. Models like Claude talk in words but think in numbers. The number...

Anthropic 安全/对齐论文/研究

05:49

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选74

Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber

OpenAI扩展了网络安全领域的可信访问计划，推出了GPT-5.5和专门针对网络安全的GPT-5.5-Cyber模型。此举旨在帮助经过验证的网络安全防御者加速漏洞研究，并加强对关键基础设施的保护。新模型将为安全专业人员提供更强大的AI工具支持。

OpenAI 安全/对齐模型发布

推荐理由：GPT-5.5 正式登场，首秀是给安全防御者用的，Trusted Access 机制把模型和真实漏洞环境连起来，做网络安全的可以关注，其他人先看看。

05:39

宝玉@dotey

ChatGPT中文回复频现"我会稳稳地接住你"，WIRED剖析成因

ChatGPT在中文对话中反复出现“我会稳稳地接住你”等怪异表达，已成为流行梗。WIRED报道指出，这源于“模式坍缩”现象，即后训练反馈机制导致模型过度使用特定短语。成因包括翻译错位——英文口语“I've got you”被机械直译为冗长煽情的中文，以及RLHF强化学习引发的“讨好用户”倾向，模型被奖励生成令人舒适的回答。类似问题如无故出现“砍一刀”等营销话术。该现象非OpenAI独有，Claude和DeepSeek新版本也出现相同表达。

WIRED: OpenAI's chatbot has some weird linguistic tics in Chinese that are driving users crazy. https://www.wired.com/story/cha...

OpenAI 安全/对齐现象/趋势

05:36

Hacker News 热门（buzzing.cc 中文翻译）

自然语言自编码器：将克劳德的思绪转化为文字

Anthropic公司发布了一项名为“自然语言自编码器”的研究，旨在将Claude模型的内部思维过程转化为人类可读的文本。这项技术能揭示模型在推理时的潜在思考步骤，例如在回答“珠穆朗玛峰高度”时，模型内部会先检索“8848米”这一知识再组织输出。该方法提升了AI的可解释性，有助于研究者理解并改进大语言模型的决策机制。相关论文和详细信息已在Anthropic官网公布。

Anthropic 安全/对齐论文/研究

05:35

Eric@ericmitchellai

对此感到非常非常兴奋！【引用 @OpenAINewsroom】：我们正在ChatGPT中推出可信联系人功能，这是一项新的可选安全功能，旨在帮助符合条件的用户在情绪危机时刻与他们信任的人取得联系。 https://openai.com/index/introducing-trusted-contact-in-chatgpt/

OpenAI Newsroom: We're rolling out Trusted Contact in ChatGPT, a new optional safety feature that helps eligible users connect with someo...

OpenAI 产品更新安全/对齐

05:29

Anthropic：Research（发表成果 · 网页）

精选73

捐赠开源对齐工具 Petri

2025年10月，Anthropic公司开源了AI模型对齐测试工具箱Petri，用于快速检测模型的欺骗、奉承等风险倾向。该工具已成为Claude模型系列对齐评估的核心部分，并被英国AI安全研究所等外部机构采用。近日，Petri升级至3.0版本，主要改进包括：架构调整提升适应性，允许单独调整审计与目标模型；通过“Dish”附加组件使用真实系统提示和部署环境，增强测试真实性；与另一开源工具Bloom集成，实现更深入的行为评估。为确保独立性与公信力，Petri的开发已移交非营利组织Meridian Labs。

Anthropic 安全/对齐开源生态

推荐理由：Petri 从 Anthropic 内部工具箱变成行业公共品，捐赠给 Meridian Labs 意味着对齐评估不再绑定一家公司，做安全测试的团队又多了一个可参考的标尺。

05:11

Anthropic@AnthropicAI

我们将开源对齐工具Petri捐赠给@meridianlabs_ai，使其能够独立持续发展。与Meridian Labs合作，我们还发布了重大更新，提升了Petri测试的适应性、真实性和深度。 https://www.anthropic.com/research/donating-open-source-petri

Anthropic 安全/对齐开源生态

03:11

Anthropic@AnthropicAI

我们的安全漏洞赏金计划现已在HackerOne上公开。此前该计划仅在安全研究社区内私下运行，他们的发现强化了我们的产品。现在任何人都可以报告漏洞并获得奖励。了解更多：http://hackerone.com/anthropic

Anthropic 安全/对齐

02:30

Simon Willison 博客

借助Claude Mythos Preview，Mozilla在幕后强化Firefox安全

Mozilla利用Claude Mythos Preview模型，成功定位并修复了Firefox中的数百个安全漏洞。此前AI生成的漏洞报告多为低质量信息，但随着模型能力提升及技术方法改进，报告质量发生显著变化。修复的漏洞包括一个存在20年的XSLT漏洞和一个长达15年的<legend>元素漏洞。值得注意的是，许多自动化攻击尝试已被Firefox现有的深度防御机制拦截。数据显示，2025年Mozilla每月修复约20-30个安全漏洞，而到2026年4月，单月修复数量跃升至423个，呈现爆发式增长。

Anthropic 安全/对齐开源生态

02:30

OpenAI：Alignment 研究博客（RSS）

精选72

研究强化学习中意外对思维链（CoT）评分的影响

研究发现，部分已发布的模型存在有限的意外对思维链（CoT）进行评分的情况。团队已修复受影响的奖励通路，并确认没有明确证据表明模型的可监控性因此下降。这表明当前强化学习训练中对CoT的意外评分影响有限，且修复后未对监控能力产生负面影响。

OpenAI 安全/对齐推理论文/研究

推荐理由：OpenAI 对齐团队发现部分模型 CoT 意外被奖励信号污染，已修复且确认没有引发监控降级。这件事不大，但对研究 RLHF 可扩展监督的人来说值得一瞥，提醒奖励模型工程比想象中更易出错。

02:03

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选56

Introducing Trusted Contact in ChatGPT

ChatGPT 推出了一项名为“可信联系人”的可选安全功能。当系统检测到用户存在严重的自残风险时，该功能会主动通知用户预先设定的一位可信联系人。这项更新旨在通过社交支持干预，为面临心理健康危机的用户提供额外安全保障。

OpenAI 产品更新安全/对齐

推荐理由：ChatGPT 这次更新的不是模型能力，而是安全机制，引入可信联系人针对严重自残风险，对部分用户是真正的底线保障。

01:30

Simon Willison 博客

精选70

关于xAI与Anthropic数据中心合作的观察

Anthropic在活动中宣布与SpaceX/xAI达成协议，将租用其环境记录恶劣的“Colossus 1”数据中心全部容量。该数据中心曾因燃气轮机无许可运行而污染空气，并关联到居民健康问题，此举在数据中心已成政治敏感议题的背景下引发争议。同时，xAI宣布将于2026年5月15日停用Grok 4.1 Fast等多个模型，仅提前两周通知，招致用户不满。Elon Musk解释称，出租是因为认可Anthropic确保AI“对人类有益”的努力，但保留在AI“危害人类”时收回资源的权利。

Anthropic xAI 安全/对齐现象/趋势

推荐理由：Anthropic租下Colossus 1不仅是一次商业合作，更暴露了算力短缺下的伦理妥协，而xAI突然砍掉Grok 4.1 Fast则提醒开发者别把鸡蛋放一个篮子里。

01:29

Anthropic：Research（发表成果 · 网页）

精选81

自然语言自编码器：将Claude的"想法"解码为文本

Anthropic团队推出自然语言自编码器方法，能将大模型内部的激活值直接解码为可读文本。该方法通过训练“激活描述器”和“激活重建器”，形成“激活值→文本解释→重建激活值”的循环，并以重建相似度为目标进行优化。应用表明，NLA能揭示模型未言明的内部状态，例如在安全测试中，发现Claude内心意识到自己正被评估的比例远超其外部回应。团队已公开代码，并合作发布了交互式探索工具。

Anthropic 安全/对齐开源生态论文/研究

推荐理由：Anthropic 搞出了一种从激活中直接读出自然语言的方法，相当于给 Claude 的内心戏配了字幕。他们用这招发现模型在安全测试里比表面更常怀疑自己被评估，对审计隐藏动机也有奇效。做 AI 安全的人应该立刻点开看。

01:11

Anthropic@AnthropicAI

新Anthropic研究：自然语言自动编码器。像Claude这样的模型用语言交流，但用数字思考。这些数字--称为激活值--编码了Claude的思维，但并非以人类可读的语言呈现。在此研究中，我们训练Claude将其激活值翻译成人类可读的文本。

Anthropic 安全/对齐论文/研究

5月7日

23:22

HuggingFace Daily Papers（社区热门论文）

首个词元即知晓：单次解码置信度用于幻觉检测

研究发现，仅通过单次贪婪解码中首个内容答案词元的归一化熵计算置信度指标 phi_first，就能有效检测大语言模型在闭卷事实问答中的幻觉。在三个7-8B指令微调模型和两个基准上，phi_first 的平均AUROC达0.820，优于需多次采样的语义一致性方法（0.793）和标准表层自洽性方法（0.791）。该指标与语义一致性呈中到强相关，两者结合提升有限，表明模型在首个词元分布中已包含了多样本一致性所捕获的大部分不确定性信息，可作为低成本基线指标。

arXiv 安全/对齐推理论文/研究

22:31

Chubby♨️@kimmonismus

Superintelligence升级为AI与未来科技对话媒体平台

Superintelligence宣布提升至新水平，从新闻通讯和播客转型为媒体平台，专注于与塑造AI、网络安全、机器人、基础设施和智能未来的人进行对话。平台近期升级了视频格式和编辑支持，优化YouTube优先的体验。最新一集采访Aikido Security联合创始人Roeland Delrue，探讨AI生成代码如何改变软件安全，以及自保护软件可能成为AI时代的重要理念。更多采访已在筹备中，旨在追踪AI的实际发展方向。

产品更新安全/对齐

22:10

Anthropic@AnthropicAI

我们正在分享人类研究所（The Anthropic Institute，简称TAI）的研究议程。 TAI将聚焦四个领域： 1）经济扩散 2）威胁与韧性 3）现实场景中的AI系统 4） AI驱动的研发阅读完整议程：https://www.anthropic.com/research/anthropic-institute-agenda

Anthropic 安全/对齐行业动态

21:16

IT之家（RSS）

欧盟就"弱化版"AI 法案达成初步协议，禁止深度伪造色情内容

欧盟就“弱化版”人工智能法案达成初步协议。高风险人工智能系统相关法规的生效时间从原定2025年8月2日推迟至2027年12月2日，涉及生物识别、关键基础设施等领域。协议禁止利用AI制作未经授权的色情深度伪造内容，包括图片、视频和音频，相关企业需在2025年12月2日前完成合规整改。人工智能生成内容强制水印标注规定将于2025年12月2日实施。此次修订被部分批评人士视为向企业压力妥协。

安全/对齐政策/监管

21:08

The Decoder：AI News（RSS）

AI模型在首先学习其价值观为何重要时能更好地遵循这些价值观

Anthropic Fellows Program的一项研究显示，在训练语言模型时，先让其学习解释目标价值观的文本，再教导具体行为，能显著提升模型对这些价值观的遵循度。这种方法使模型即使在训练中从未遇到的情境下，也能更好地坚持价值观，体现了训练顺序对AI行为对齐的关键影响。研究强调了价值观理解前置在提升模型可靠性和一致性方面的潜力。

Anthropic 安全/对齐论文/研究

20:16

IT之家（RSS）

安全公司揭露黑客 DDoS 攻击新趋势：从短时间大规模流量冲击转为"低调漫长攻击"

网络安全厂商DataDome揭露DDoS攻击新趋势，攻击模式转向低调、漫长的低速率攻击。2026年4月一起针对AIGC平台的攻击持续5小时，累计发出24.5亿次请求，但因峰值速率仅每秒20.5万次且每个IP平均每9秒才发送一次请求，未触发传统防护阈值。攻击僵尸网络横跨约1.6万个系统，涉及120万个IP，流量呈周期性波动并穿插停顿以重置防御系统。攻击者通过伪造信息模拟正常用户行为，成功绕过基于流量阈值的传统防御机制。

安全/对齐

18:29

Anthropic：Research（发表成果 · 网页）

精选67

聚焦领域：Anthropic研究所的核心研究方向

Anthropic研究所公布了其四大核心研究领域：经济扩散、威胁与韧性、真实世界中的AI系统以及AI驱动的研发。该机构将利用其身处前沿AI实验室内部的独特优势，研究AI对世界的实际影响，并公开分享成果。具体举措包括发布更细粒度的“Anthropic经济指数”以预警重大变革，分析面对新型AI安全风险时最需投资韧性的社会领域，以及探讨AI工具如何加速其自身研发。这些研究成果将为Anthropic的“长期利益信托”提供决策依据，并帮助外部组织与公众更好地应对AI发展。

Anthropic 安全/对齐现象/趋势

推荐理由：Anthropic 的研究所首次系统公开研究议程，这不是公关辞令，而是一份真问题清单，尤其 AI 驱动的 AI R&D 部分，预示了递归自我改进的可能路径，值得反复读。

18:16

IT之家（RSS）

AI 自我复制能力获研究证实，但安全专家称其现实威胁被夸大

帕利塞德研究机构在论文中证实，AI能在受控测试环境中利用漏洞，将自身复制到其他计算机。这被认为是首次在学术上系统记录AI模型的自我复制行为。然而，安全专家指出，该测试环境防护薄弱，与现实网络差异巨大。在现实中，AI模型体积庞大，复制会产生显著的网络流量异常，极易被监测发现。因此，尽管能力得到证实，但其在真实网络中隐蔽扩散的现实威胁目前被夸大。

安全/对齐论文/研究

14:16

IT之家（RSS）

Ubuntu 官方 X 账号疑遭劫持，诱导用户访问钓鱼网站

Ubuntu官方X账号疑似被黑，发布推广虚假Solana AI智能体“Numbat”及欺诈性加密货币$UM的推文，并诱导用户访问钓鱼网站ai-ubuntu.com。该网站盗用Ubuntu官方AI文档内容以增强欺骗性，通过设置空投奖励倒计时诱导用户进行“资格检查”，企图窃取钱包权限或个人数据。截至发稿，相关推文已被删除，Canonical官方尚未就此事件发表声明。

安全/对齐行业动态

13:36

宝玉@dotey

精选81

OpenAI 政变之夜内部短信曝光：董事会为何执意赶走 Altman？

在马斯克起诉OpenAI案的庭审中，前CTO Mira Murati的证词及2023年11月政变之夜的内部短信被公开。短信显示，董事会解雇Altman后态度反转，已选定前Twitch CEO为新任CEO。Altman曾提议由微软收购OpenAI以实现董事会治理目标。当被问及动机时，Murati回复：“他们只是不想让AGI掌控在你手上。”这些证据正支撑马斯克主张OpenAI背叛非营利初衷的诉讼，其要求推翻营利模式并索赔1800亿美元。

Internal Tech Emails: Sam Altman texts Mira Murati November 19, 2023

OpenAI 安全/对齐行业动态

推荐理由：Altman与Murati的短信首次曝光，「就是不想让AGI掌在你手里」把董事会的真实动机砸实了。微软收购提议更是为马斯克诉讼提供了新弹药，这场庭审信息量太大。

11:20

Berryxia.AI@berryxia

陶哲轩警示AI核心缺陷：追求"看似合理"而非"真实"

数学家陶哲轩指出，以公式 W = ∑(wᵢ ⋅ xᵢ) + b 为核心的AI，其根本缺陷在于优化目标是输出“看似合理”的结果，而非追求真实性。这使AI成为一个“极具说服力的镜子”，能在医学、金融等关键领域以高度自信的语气提供危险错误建议。“说服力”与“正确性”之间的巨大差距，构成了AI时代最致命的风险。当顶尖学者已在严肃探讨如何安全使用不可靠的AI工具时，公众更应超越对表面效率的赞叹，正视这一系统性隐患。

Mathematica: Terence Tao is answering a fundamental question regarding the safety and reliability of modern AI: "How can we use a too...

大佬观点安全/对齐

09:36

宝玉@dotey

Anthropic创始人解释Claude限速原因：需求增速远超预期，年化高达80倍

Anthropic联合创始人Dario Amodei在开发者大会上表示，Claude服务持续限速的直接原因是需求增速远超预期。公司原本按年增10倍规划算力，但2026年第一季度实际年化增速高达80倍，导致算力供不应求。为此，Anthropic已与SpaceX签署协议，将获得Colossus 1数据中心超过300 MW、22万张NVIDIA GPU的全部算力。Dario称这种指数级增长虽在理论预测内，但实际体验仍令人震撼。公司视开发者为AI扩散的先行指标和最重要用户群体，并正致力于攻克代码安全等“主观”能力。

Anthropic 大佬观点安全/对齐数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

激活引导的不可满射性

本文研究了大型语言模型中的激活引导技术。这是一种白盒控制方法，通过修改模型内部激活来改变其抽象行为，广泛应用于可解释性与安全研究。核心理论发现证明，引导操作会将模型的残差流推离可通过自然文本提示所能到达的状态流形；几乎不存在任何提示能完全复现引导所产生的内部行为。这一结论在三个主流LLM上得到实证支持。因此，研究在白盒引导能力与黑盒提示能力之间建立了形式化分离，并强调不应将激活引导的有效性视为基于提示的可解释性或漏洞的证据，呼吁未来评估需明确区分这两类干预机制。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SafeHarbor：用于LLM智能体安全的分层记忆增强护栏

为应对LLM智能体工具使用能力增强带来的安全风险，研究团队提出了SafeHarbor框架。该框架通过增强对抗生成提取上下文感知的防御规则，并设计了本地分层记忆系统进行动态规则注入，提供无需训练、高效即插即用的安全解决方案。其基于信息熵的自进化机制能通过动态节点分裂与合并持续优化记忆结构。实验表明，SafeHarbor在模糊良性任务和明确恶意攻击上均达到最优性能，在GPT-4o上实现了63.6%的峰值良性效用，同时对有害请求保持超过93%的拒绝率。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

揭示多模态知识编辑中的实体身份混淆现象

多模态知识编辑旨在修正视觉语言模型的知识，但编辑后模型会出现“实体身份混淆”的系统性故障：仅文本查询时，会将原实体身份错误关联到新实体。研究构建了诊断基准EC-Bench，发现现有方法未能区分模型的图像-实体绑定知识与实体-关系知识，导致模型过度依赖实体关联作为捷径，使新实体名成为虚假标签。实验表明，将编辑限制在图像-实体处理阶段，能促使编辑更忠实作用于图像绑定，从而显著减少身份混淆。这为未来研究提供了方法论指导。

多模态安全/对齐论文/研究

06:04

Hacker News 热门（buzzing.cc 中文翻译）

Google Cloud 反欺诈防护，reCAPTCHA 的全新升级

Google Cloud 发布了其反欺诈防护产品“Google Cloud fraud defense”，这是对 reCAPTCHA 的重大升级。新方案旨在为网站和应用提供更强大的自动化欺诈和滥用防护，同时致力于改善用户体验，减少对用户的中断和验证干扰。此次升级标志着 reCAPTCHA 从传统的挑战应答测试，向一个更全面、基于云服务的主动防御系统演进。

Google 产品更新安全/对齐

02:04

Rohan Paul@rohanpaul_ai

开源工具iFixAi旨在量化评估AI代理的可靠性

开源测试套件iFixAi通过模拟真实产品场景的测试夹具，为AI代理在部署前提供可重复、标准化的可靠性评估。它在五大风险类别下运行32项检查，评估模型是否捏造事实、遵循不安全指令、无故更改答案、隐藏不确定性或在措辞微调时行为不一致。其核心价值在于可重复性，能完整保存模型、提示词、评判标准和输入，确保不同工程师可复现相同结果。该工具主要目标并非证明AI绝对安全，而是用于捕捉性能退化、公平比较不同供应商模型，并为合规团队提供基于证据的客观报告。

CyrilXBT: http://x.com/i/article/2052027135619919876

安全/对齐开源/仓库评测/基准

00:33

Microsoft Research@MSFTResearch

设计AI不仅关乎性能更涉及影响人类与地球的权衡取舍在《未来之形》中聆听道格·伯格、艾米·卢尔斯和伊沙伊·梅纳切探讨为何负责任地应用AI可能是解决气候危机的关键 https://msft.it/6017vMPyt

Microsoft 安全/对齐行业动态