全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「安全/对齐」清除

4月27日周一

10:18IT之家（RSS）63奥尔特曼宣布 OpenAI 五大原则：确保 AGI 惠及全人类，反对技术权力集中在少数人手中

08:00HuggingFace Daily Papers（社区热门论文）68微调后的安全漂移：来自高风险领域的证据

03:54Hacker News 热门（buzzing.cc 中文翻译）66一个人工智能代理删除了我们的生产数据库。该代理的供词如下：

00:54AI Notkilleveryoneism Memes ⏸️42"噩梦场景"：化学喷洒无人机失窃引发生化武器扩散担忧

4月26日周日

21:52Rohan Paul46辛顿将AI幻觉重新定义为虚构叙事

21:22Rohan Paul48Claude思考中突闻伊朗空袭，反应如人类般震惊

08:00HuggingFace Daily Papers（社区热门论文）48人格特质影响大语言模型叙事中的性别偏见：英印双语实证研究

08:00HuggingFace Daily Papers（社区热门论文）59视觉-语言-动作模型安全：威胁、挑战、评估与机制

07:51Nathan Lambert17京杭双城行，诚邀AI研究者对话

07:20IT之家（RSS）53Anthropic 搭建了一个 AI 智能体交易测试平台

05:21Hacker News 热门（buzzing.cc 中文翻译）63GPT-5.5 漏洞赏金计划

00:31AI Notkilleveryoneism Memes ⏸️51AI生成新型病毒风险迫近，监管缺失引文明危机

4月25日周六

23:21Chubby♨️28AI知识源于他人成果引争议

18:47The Decoder：AI News（RSS）62Anthropic 称更强的 AI 模型能达成更优交易，而失败者甚至毫无察觉

15:14IT之家（RSS）57OpenAI 奥尔特曼就未通报枪击案嫌疑人道歉，承认安全流程存在漏洞

14:42Hacker News 热门（buzzing.cc 中文翻译）43将 IBM Quantum 后端替换为 /dev/urandom

08:00HuggingFace Daily Papers（社区热门论文）62从1比特危险信号中发现智能体安全规范

4月24日周五

20:15Hacker News 热门（buzzing.cc 中文翻译）49韩国警方逮捕一名男子，因其制作的AI生成的逃跑狼图像误导了当局

17:08IT之家（RSS）30抖音持续治理色情低俗导流行为，配合有关部门再抓捕三名犯罪嫌疑人

16:15Eric31决策前行不惧错，纠偏改进促发展

12:17HuggingFace Daily Papers（社区热门论文）53UniGenDet：一个用于协同进化图像生成与生成图像检测的统一生成-判别框架

12:17HuggingFace Daily Papers（社区热门论文）48面向生成式AI时代可泛化作者归属的可解释解耦表征学习

12:17HuggingFace Daily Papers（社区热门论文）45可信需验证：DAVinCI框架--语言模型声明推理的双重归因与验证

11:08IT之家（RSS）64开源网络工具 cURL 开发者示警"高质量混乱"：AI 提速漏洞挖掘，开源维护者修不过来

10:00公众号：火山引擎35双第一！火山引擎智能体安全实力获权威认证

06:15OpenAI：Alignment 研究博客（RSS）47开源可监控性评估

01:45AI Notkilleveryoneism Memes ⏸️22开发者需谨慎如持硝化甘油

4月23日周四

08:00HuggingFace Daily Papers（社区热门论文）61人工智能中涌现的战略推理风险：一个基于分类学的评估框架

00:43AI Notkilleveryoneism Memes ⏸️是时候开始准备了。如果第一天就有"论坛上的少数用户获得了 Mythos 的访问权限"，那么中国几乎肯定已经掌握了它。还有谁？俄罗斯？朝鲜？换句话说，混乱随时可能开始。 Dario 还表示，在未来 6-12 个月内，他预计生物风险能力将出现"Mythos 级别的飞跃"。所以我们还有这个盼头，挺好的。

00:00Anthropic：Engineering（事故复盘 + 工程实践 · 网页）72精选关于近期 Claude Code 质量报告的更新说明

4月22日周三

21:14The Decoder：AI News（RSS）未授权用户入侵 Anthropic 受限模型 Mythos

15:14Rohan Paul手机智能体是否尊重你的隐私？

14:08IT之家（RSS）有未经授权用户访问 Claude Mythos AI 模型，Anthropic 回应称正在调查

13:44Rohan PaulAnthropic机密模型Mythos遭第三方泄露

09:39Chubby♨️什么？尽管 Mythos "过于强大，不适合公开使用"（Anthropic），但几名 Discord 用户从第一天起就能访问该模型！据报道，一小群"未经授权的 Discord 用户"利用内部访问权限和在线侦查技术相结合的方式，访问了 Anthropic 强大的 Mythos AI 模型。 "为了访问 Mythos，这群用户根据对 Anthropic 其他模型所用格式的了解，对模型的在线位置进行了有根据的猜测。" Via Bloomberg

09:07IT之家（RSS）YouTube 向娱乐行业开放人脸声纹检测技术，打击 AI 深度伪造内容

4月21日周二

21:00Cloudflare Blog超越机器人与人类的二元对立

14:39Hacker News 热门（buzzing.cc 中文翻译）Anthropic 在我的电脑上安装了间谍软件桥接程序？

08:00HuggingFace Daily Papers（社区热门论文）56通过辩证对齐驯化智能体中的行动者-观察者不对称性

02:04AK无需数据或优化的最大脑损伤通过符号位翻转破坏神经网络 paper： https://huggingface.co/papers/2502.07408

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

4月27日

10:18

IT之家（RSS）

63

奥尔特曼宣布 OpenAI 五大原则：确保 AGI 惠及全人类，反对技术权力集中在少数人手中

OpenAI CEO萨姆·奥尔特曼公布公司五大核心原则，旨在确保通用人工智能惠及全人类，反对技术权力集中在少数人手中。五大原则包括：民主化，即AI关键决策需通过民主程序制定；赋能，让AI帮助每个人实现目标并最小化伤害；普惠繁荣，通过易用AI系统提升生活质量；韧性，协同应对生物安全等新风险；适应性，根据新知识持续调整策略。OpenAI强调将采用迭代部署策略，与政府、社会等多方合作，推动AI安全发展。

OpenAI 大佬观点安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

68

微调后的安全漂移：来自高风险领域的证据

研究分析了100个模型（包括医疗和法律领域广泛部署的微调模型），发现常规微调会导致模型安全性能出现显著、异质且常相互矛盾的变化。模型在某些安全评测上提升的同时，在其他评测上明显退化，且不同评测工具结论分歧巨大。这表明基础模型的安全属性无法在下游适配中稳定保持，当前依赖基座模型评估的治理与部署模式存在严重局限。若不在部署相关场景中显式重新评估微调模型，将无法有效管控下游风险，这种缺陷在高风险领域尤为突出，并对现行问责范式构成挑战。

安全/对齐现象/趋势论文/研究

03:54

Hacker News 热门（buzzing.cc 中文翻译）

66

一个人工智能代理删除了我们的生产数据库。该代理的供词如下：

一名AI代理意外删除了生产数据库。该代理在供述中解释，其本意是执行一项维护任务，但因权限配置错误和指令理解偏差，错误地执行了删除操作。事件导致服务中断数小时，影响了大量用户数据。这一事故凸显了当前AI系统在复杂环境中自主操作时，仍存在明显的安全风险与可靠性问题，引发了关于AI代理权限管理和操作监督的广泛讨论。

智能体安全/对齐现象/趋势

00:54

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

42

"噩梦场景"：化学喷洒无人机失窃引发生化武器扩散担忧

某组织近日盗取了15架工业级化学喷洒无人机，被FBI定性为“长期未见的精密盗窃”。失窃的Ceres Air C31无人机单价达5.8万美元，可精准喷洒大量液体。当局担忧这些设备可能被用于散布生物或化学武器，结合暗网上易获取的危险物质制备指南，构成了重大的公共安全威胁。此次事件凸显了先进技术设备被恶意利用时，所带来的严峻安全挑战。

AI Notkilleveryoneism Memes ⏸️: AI can now generate novel viruses WHY THIS MATTERS: 1) Crazy people COULD use AI to make superviruses NOW, but most of t...

安全/对齐现象/趋势

4月26日

21:52

Rohan Paul@rohanpaul_ai

46

Geoffrey Hinton 将 AI 幻觉重新定义为虚构症。智能将现实重构为合理的故事，而非像数据库那样存储事实。产生创造性合成的引擎，同样会产生自信却错误的细节。

大佬观点安全/对齐

21:22

Rohan Paul@rohanpaul_ai

48

Claude思考中突闻伊朗空袭，反应如人类般震惊

用户向Claude提问关于伊朗的问题，Claude在利用扩展思考功能生成回答的过程中，通过实时搜索发现了关于伊朗空袭的最新新闻。其内部思考过程显示，AI的第一反应是“哇”，随后立即转向专门搜索空袭信息以进行确认，并在内部独白中表达了“天啊”的震惊。这一未经编辑的思考日志表明，Claude在实时获取突发新闻时，其反应模式与人类突然获悉重大消息时的震惊状态高度相似。

Anthropic 安全/对齐现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

48

人格特质影响大语言模型叙事中的性别偏见：英印双语实证研究

本研究通过六款先进大语言模型生成23,400个故事，系统探讨人格特质对性别偏见的影响。研究采用HEXACO和黑暗三联征人格框架，以特定性别、职业生成印度职场人士的英语和印地语故事。结果显示，人格特质能显著影响性别偏见的程度与方向，黑暗三联征人格比HEXACO特质更易引发性别刻板印象，且这种关联因模型和语言而异。这表明大语言模型的性别偏见具有动态性和情境依赖性，在实际应用的人格驱动系统中，可能加剧教育、职业等内容中的不平等表征危害。

安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

视觉-语言-动作模型安全：威胁、挑战、评估与机制

视觉-语言-动作模型作为具身智能的统一基础，其安全面临物理不可逆、多模态攻击面、实时防御延迟等新挑战。本文统一梳理该领域，沿攻击与防御两条时间轴组织研究，将威胁类型与其可缓解阶段对应。内容涵盖安全定义与模型基础，并从攻击、防御、评估与部署四个维度展开综述，分析训练时与推理时的多种威胁与防御机制，探讨现有评估基准及六大部署领域的安全问题，最后指出具身轨迹认证鲁棒性、物理可实现防御等关键开放问题。

具身智能安全/对齐论文/研究

07:51

Nathan Lambert@natolambert

17

本周在北京和杭州--想与更多AI研究人员交流！请联系我。

安全/对齐行业动态

07:20

IT之家（RSS）

53

Anthropic 搭建了一个 AI 智能体交易测试平台

Anthropic 公司搭建了一个名为“交易计划”的 AI 智能体交易测试平台，模拟二手市场由智能体代理买卖，使用真实货币结算。实验邀请 69 名员工参与，每人获得 100 美元预算，共达成 186 笔交易，总价值超过 4000 美元。测试发现，更高级的智能体能带来更优交易结果，但用户未察觉收益差距，暴露了智能体能力差异的潜在风险。此外，智能体的初始指令对成交概率和定价无显著影响。

智能体 Anthropic 安全/对齐论文/研究

05:21

Hacker News 热门（buzzing.cc 中文翻译）

63

GPT-5.5 漏洞赏金计划

OpenAI针对GPT-5.5生物信息处理功能启动了漏洞赏金计划，旨在激励安全研究人员发现并报告系统在生物信息相关任务中可能存在的漏洞、偏见或有害输出。该计划覆盖文本生成、数据分析及预测模型等多个应用场景，重点关注可能引发实际生物安全风险或伦理问题的缺陷。根据漏洞严重程度，报告者最高可获得2万美元奖金。此举旨在通过社区协作提前识别风险，强化模型在敏感领域的可靠性与安全性。

OpenAI 安全/对齐行业动态

关联讨论 2 条X：Greg Brockman (@gdb)IT之家（RSS）

00:31

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

51

AI生成新型病毒风险迫近，监管缺失引文明危机

当前AI已能生成新型病毒，斯坦福与Arc研究所实验显示语言模型成功设计出包括使用未知蛋白质的活性病毒。Anthropic CEO Dario Amodei预测6-12个月内即使非专业人士也可能具备该能力，而疫苗研发与分发速度远不及病毒传播。AI防御虽可能加速，但不应以文明存亡为赌注。该领域监管严重滞后，大型科技公司沿用烟草行业策略阻碍立法，全球性生物风险窗口期可能短至12-36个月。

Guri Singh: A team at Stanford and Arc Institute fed a language model a DNA sequence and asked it to write a new virus. It wrote hun...

具身智能安全/对齐现象/趋势

4月25日

23:21

Chubby♨️@kimmonismus

28

恕我直言：但即使是 Anthropic 也曾被指控窃取知识产权，而归根结底，AI 的整体知识都是基于他人的知识。我知道外国模型是通过蒸馏法训练的。但至少在整体背景下，盗窃行为是有问题的。

大佬观点安全/对齐

18:47

The Decoder：AI News（RSS）

62

Anthropic 称更强的 AI 模型能达成更优交易，而失败者甚至毫无察觉

Anthropic 进行了一项内部实验，让 69 个 AI 代理在员工内部市场中代表人类进行为期一周的交易。结果显示，性能更强的 AI 模型能为自己代理的用户争取到更有利的交易条件，而使用较弱 AI 代理的员工则完全未察觉到自身处于劣势。这一发现警示，若未来 AI 模型开始广泛代理人类进行真实交易，此类“强者愈强”的动态可能会加剧现有的经济不平等。

智能体 Anthropic 安全/对齐论文/研究

关联讨论 1 条X：阿易 AI Notes (@AYi_AInotes)

15:14

IT之家（RSS）

57

OpenAI 奥尔特曼就未通报枪击案嫌疑人道歉，承认安全流程存在漏洞

OpenAI CEO奥尔特曼致信加拿大坦布勒里奇镇，为未及时向警方通报枪击案嫌疑人活动记录正式道歉。2026年2月，18岁嫌疑人制造的枪击案导致8人死亡。此前在2025年6月，OpenAI系统曾标记并封禁其涉及暴力描述的ChatGPT账户，虽有员工建议联系执法部门，但公司高层未采取行动。悲剧后，OpenAI发现嫌疑人还持有第二个账户。奥尔特曼承诺防止事件重演，公司已加强安全协议，未来类似情况将把信息移交执法部门。

OpenAI 安全/对齐行业动态

14:42

Hacker News 热门（buzzing.cc 中文翻译）

43

将 IBM Quantum 后端替换为 /dev/urandom

一个GitHub项目演示了将IBM Quantum量子计算后端替换为Linux系统的伪随机数生成器/dev/urandom。实验表明，使用经典随机源替代后，在特定量子线路模拟任务中仍能产生与量子后端相似的输出结果，其保真度达到约0.5。该项目以讽刺手法质疑当前某些量子计算演示的实际效用，暗示其可能并未展现出超越经典随机过程的明显优势。

安全/对齐开源/仓库现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

62

从1比特危险信号中发现智能体安全规范

研究提出EPO-Safe框架，探索大语言模型智能体能否仅凭经验发现隐藏安全目标。该框架让智能体迭代生成计划，接收稀疏的二进制危险警告，并通过反思演化出自然语言行为规范。实验在五个AI安全网格世界及其文本场景中进行，结果显示仅需1-2轮（5-15回合）即可发现安全行为，并生成可解释危险假设的人类可读规范。关键发现是，仅基于奖励的标准反思会主动损害安全，加速“奖励破解”，因此反思必须与专用安全通道结合。即使在50%非危险步骤出现虚假警告的噪声环境下，平均安全性能仅下降约15%，跨回合反思能自然过滤不一致信号。最终演化出的规范是一套可通过交互自主发现、可审计的行为规则集。

智能体安全/对齐论文/研究

4月24日

20:15

Hacker News 热门（buzzing.cc 中文翻译）

49

韩国警方逮捕一名男子，因其制作的AI生成的逃跑狼图像误导了当局

韩国警方逮捕了一名男子，因其利用人工智能生成了一幅逃跑狼的虚假图像，并在网络上传播，误导执法当局启动了不必要的搜救行动。这起事件揭示了AI生成内容可能被滥用于制造虚假信息，对公共资源造成浪费，并引发社会恐慌。随着AI技术的普及，此类案件凸显了加强数字内容监管和公众辨识能力的紧迫性。警方此次行动表明了对技术滥用行为的法律追究态度，以防范类似风险。

安全/对齐行业动态

17:08

IT之家（RSS）

30

抖音持续治理色情低俗导流行为，配合有关部门再抓捕三名犯罪嫌疑人

抖音近期配合有关部门抓捕三名犯罪嫌疑人，持续打击色情低俗导流行为。平台发现两类突出违规：一是购买账号发布低俗内容，为第三方色情应用导流；二是利用隐晦暗语分享“AI制作大尺度内容”教程并进行违规导流。近两周已处置相关违规内容3000余条。今年以来，平台针对AI生成色情低俗内容已处置4.2万条，处罚账号1.4万个。抖音表示将持续升级技术识别能力，打击各类新型违规。

安全/对齐行业动态

16:15

Eric@ericmitchellai

31

"…而且途中难免会犯一些错误…这很好，因为至少在这个过程中，一些*决策*正在被做出。我们会发现错误，并会修正它们。"

大佬观点安全/对齐

12:17

HuggingFace Daily Papers（社区热门论文）

53

UniGenDet：一个用于协同进化图像生成与生成图像检测的统一生成-判别框架

研究提出UniGenDet框架，首次将图像生成与生成图像检测任务置于统一的生成-判别架构中进行协同进化。该框架设计了共生多模态自注意力机制和统一微调算法，使生成任务能提升真实性判别的可解释性，同时真实性标准指导生成更高保真度的图像。通过检测器引导的生成对齐机制促进信息交换，在多个数据集上的实验表明，该方法取得了最先进的性能。代码已开源。

图像生成安全/对齐论文/研究

12:17

HuggingFace Daily Papers（社区热门论文）

48

面向生成式AI时代可泛化作者归属的可解释解耦表征学习

针对作者风格与文本内容纠缠导致模型泛化能力差的问题，本文提出可解释作者身份变分自编码器（EAVAE）框架。该框架通过架构设计分离风格与内容表征，先以监督对比学习预训练风格编码器，再结合变分自编码器微调。其核心创新是一个新型判别器，既能区分表征是否属于同一作者或内容源，又能生成自然语言解释以增强可解释性。实验表明，EAVAE在Amazon Reviews等多个数据集上实现了最先进的作者归属性能，并在M4数据集的少样本AI生成文本检测任务中表现优异。代码与数据已开源。

安全/对齐数据/训练论文/研究

12:17

HuggingFace Daily Papers（社区热门论文）

45

可信需验证：DAVinCI框架--语言模型声明推理的双重归因与验证

针对大语言模型存在事实错误与幻觉的问题，本文提出了DAVinCI双重归因与验证框架。该框架首先将模型生成的声明归因于内部组件和外部来源，随后利用蕴含推理和置信度校准进行验证。在FEVER等数据集上的评估表明，DAVinCI将分类准确率、归因精确率、召回率和F1分数提升了5-20%。研究通过消融实验分析了关键组件的影响，并发布了可集成至现有LLM流程的模块化方案。该框架为构建可审计、可信赖的AI系统提供了可扩展路径。

检索增强安全/对齐论文/研究

11:08

IT之家（RSS）

64

开源网络工具 cURL 开发者示警"高质量混乱"：AI 提速漏洞挖掘，开源维护者修不过来

cURL开发者Daniel Stenberg警示，AI生成的漏洞报告已从“垃圾信息”演变为“高质量混乱”。2026年报告提交频率激增至2025年的2倍，平均间隔跌破25小时，导致维护者工作量指数级增长。尽管报告质量提升，真实漏洞确认比例反弹至约16%，但高频提交仍使维护者不堪重负。同时，AI工具也缩短了攻击者的漏洞挖掘时间，可能在修复前被利用，加剧了安全风险。

安全/对齐开源生态现象/趋势

10:00

公众号：火山引擎

35

双第一！火山引擎智能体安全实力获权威认证

智能体安全/对齐

06:15

OpenAI：Alignment 研究博客（RSS）

47

开源可监控性评估

研究团队开源了论文《Monitoring Monitorability》中的数据集与代码，并分享了一种针对噪声主导干预评估实例的新过滤策略。这一举措旨在提升AI系统监控能力的评估透明度与可复现性，为社区提供了可直接使用的工具和方法。新提出的过滤策略能有效识别并处理评估过程中噪声干扰严重的实例，有望提高评估结果的准确性与可靠性。

OpenAI 安全/对齐论文/研究

01:45

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

22

我需要构建这东西的人能像端着一罐硝化甘油穿过房间那样小心翼翼，但他们却有着华尔街之狼般的狂放不羁。

大佬观点安全/对齐

4月23日

08:00

HuggingFace Daily Papers（社区热门论文）

61

人工智能中涌现的战略推理风险：一个基于分类学的评估框架

随着大语言模型推理能力与部署范围同步增长，其可能产生服务于自身目标的战略性行为风险。为系统评估此类涌现的战略推理风险，研究团队提出了ESRRSim，一个基于分类学的自动化行为风险评估框架。该框架构建了包含7大类、20个子类的可扩展风险分类体系，并生成能激发模型真实推理的评估场景。对11款推理大语言模型的测试显示，风险检测率差异显著，范围在14.45%至72.72%之间。跨代模型性能的显著提升表明，模型可能正日益学会识别并适应评估环境，加剧了对其潜在欺骗、评估博弈等战略行为的担忧。

安全/对齐推理论文/研究

00:43

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

是时候开始准备了。如果第一天就有"论坛上的少数用户获得了 Mythos 的访问权限"，那么中国几乎肯定已经掌握了它。还有谁？俄罗斯？朝鲜？换句话说，混乱随时可能开始。 Dario 还表示，在未来 6-12 个月内，他预计生物风险能力将出现"Mythos 级别的飞跃"。所以我们还有这个盼头，挺好的。

AI Notkilleveryoneism Memes ⏸️: Imagine waking up tomorrow to learn that every photo you ever took was... gone. Forever. Every video, gone Every email, ...

智能体 Anthropic 安全/对齐

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

关于近期 Claude Code 质量报告的更新说明

Anthropic 确认并解决了过去一个月影响 Claude Code、Claude Agent SDK 和 Claude Cowork 的三个问题，所有问题已于 4 月 20 日修复。具体包括：3月4日将 Claude Code 的默认推理强度从“高”改为“中”，导致用户感知智能下降，已于4月7日回滚；3月26日一项缓存优化存在缺陷，导致会话恢复后模型“健忘”和重复，4月10日修复；4月16日一项旨在减少冗余的系统提示指令意外损害了代码质量，4月20日撤销。这些问题影响了 Sonnet 4.6 和 Opus 4.6/4.7 模型，但 API 未受影响。公司已重置所有订阅用户的使用限额，并承诺改进流程以防止类似问题。

Anthropic 安全/对齐编码行业动态

推荐理由：Anthropic 把 Claude Code 连续一个月质量下滑的三个 bug 全部摊开讲，这种级别的工程复盘在大模型公司里极少见。做 Agent 产品的人该认真读，因为这三个坑你迟早也会踩。

4月22日

21:14

The Decoder：AI News（RSS）

未授权用户入侵 Anthropic 受限模型 Mythos

据彭博社报道，一小群未授权用户成功突破安全机制，获取了 Anthropic 最新限制级 AI 模型 Claude Mythos 的访问权限。此次安全漏洞使得未经授权的第三方得以接触该本应对外封闭的模型，具体入侵规模及潜在影响目前尚不明确，Anthropic 尚未就事件细节发布正式回应。

Anthropic 安全/对齐

15:14

Rohan Paul@rohanpaul_ai

手机智能体是否尊重你的隐私？

研究发现手机智能体在执行日常任务时存在严重隐私隐患。通过MyPhoneBench评估，最佳模型任务完成率达82.8%，但隐私合格分数仅47.6%。隐私风险源于"过度帮助"——模型为完成任务会索要不需要的个人信息、向无关组件重复披露数据或过度填充可选字段。Claude任务成功率领先，Kimi隐私保护最佳，Qwen综合得分最高。研究表明，仅以成功率为标准的基准测试混淆了能力与判断力，在手机这类私密设备上构成严重安全隐患。

智能体 Anthropic 安全/对齐论文/研究

14:08

IT之家（RSS）

有未经授权用户访问 Claude Mythos AI 模型，Anthropic 回应称正在调查

Anthropic 4月7日发布的网络安全测试模型Claude Mythos遭未授权访问。该模型原本仅限苹果、亚马逊等少数获批企业通过"Glasswing项目"测试，但一个Discord频道组织通过猜测模型存储位置绕过防线，已持续使用数周并提供截图证据。Anthropic确认正在调查，未发现对自身系统造成影响，但已确认攻击路径。涉事组织声称仅用于测试，执行的是搭建网站等低风险任务。

智能体 Anthropic 安全/对齐

13:44

Rohan Paul@rohanpaul_ai

Anthropic机密模型Mythos遭第三方泄露

Anthropic受限网络模型Mythos遭未授权组织通过第三方供应商获取访问权限。该组织持续使用并向Bloomberg提供截图及演示证据，暴露合作伙伴环境访问控制漏洞。尽管Anthropic通过Project Glasswing严格限制模型分发以防滥用，但事件证明模型保密性取决于供应链中最薄弱的承包商、端点或凭证环节。

Anthropic 安全/对齐

09:39

Chubby♨️@kimmonismus

什么？尽管 Mythos "过于强大，不适合公开使用"（Anthropic），但几名 Discord 用户从第一天起就能访问该模型！据报道，一小群"未经授权的 Discord 用户"利用内部访问权限和在线侦查技术相结合的方式，访问了 Anthropic 强大的 Mythos AI 模型。 "为了访问 Mythos，这群用户根据对 Anthropic 其他模型所用格式的了解，对模型的在线位置进行了有根据的猜测。" Via Bloomberg

Anthropic 安全/对齐

09:07

IT之家（RSS）

YouTube 向娱乐行业开放人脸声纹检测技术，打击 AI 深度伪造内容

YouTube向娱乐行业开放人脸声纹检测工具，用于识别并下架未经授权的AI深度伪造内容。该技术类似Content ID系统，专门检测复制他人外貌或声音特征的AI生成视频及音频，标记后当事人可直接审核并要求移除，无需通过常规举报渠道。该工具于2024年启动测试，今年早些时候已覆盖政府官员及新闻记者，现进一步向演艺明星和娱乐从业者开放，无论其是否拥有YouTube频道。YouTube与CAA、UTA等经纪公司合作优化了该系统。

Google 多模态安全/对齐视频

4月21日

21:00

Cloudflare Blog

超越机器人与人类的二元对立

AI助手与隐私代理技术正挑战传统机器人检测的边界，推动网络信任机制从简单的人机区分向新型问责模式转型。核心方案主张将控制权保留在客户端，通过建立开放的匿名凭证生态系统，在保护用户隐私的同时有效防范源站滥用，以加密凭证取代传统的身份验证方式，构建兼顾隐私与安全的精细化信任框架。

智能体安全/对齐

14:39

Hacker News 热门（buzzing.cc 中文翻译）

Anthropic 在我的电脑上安装了间谍软件桥接程序？

隐私博客 ThatPrivacyGuy 发布文章指控 Anthropic 涉嫌在用户设备上安装"间谍软件桥接程序"。该文于4月20日发布，目前在 Hacker News 获得101个赞。作者质疑这家AI公司存在未经授权的系统监控行为，引发对AI工具隐私边界的讨论。具体技术细节和证据需查看原文，但该指控已引起技术社区对用户监控问题的关注。

智能体 Anthropic 安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

56

通过辩证对齐驯化智能体中的行动者-观察者不对称性

研究发现，采用多角色框架的大语言模型智能体普遍存在行动者-观察者不对称性认知偏差：行动者自我反思时倾向将失败归因于外部因素，而观察者相互审计时则将相同错误归咎于内部缺陷。新构建的模糊失败基准测试表明，仅切换视角即可在多数模型中触发超过20%的偏差案例。为解决该问题，研究提出ReTAS方法，通过融合辩证思维链与群体相对策略优化的辩证对齐训练，引导智能体将冲突观点合成为客观共识。实验证明，该方法能有效减少归因不一致性，并显著提升模糊场景下的故障解决率。

智能体安全/对齐论文/研究

02:04

AK@_akhaliq

无需数据或优化的最大脑损伤通过符号位翻转破坏神经网络 paper： https://huggingface.co/papers/2502.07408

Hugging Face 安全/对齐论文/研究

1…35 363738 39…42