全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「安全/对齐」清除

5月19日周二

20:57Chubby♨️64Cloudflare实测Anthropic Mythos：AI如何将低危漏洞升级为完整攻击

19:27The Decoder：AI News（RSS）47Cloudflare表示Anthropic的Mythos Preview模型能发现早期前沿模型遗漏的漏洞链

18:27The Decoder：AI News（RSS）67Anthropic为Claude Managed Agents新增自托管沙箱与MCP隧道功能

17:58Rohan Paul52AI成网络攻击新向量，防御速度远落后于威胁

17:00HuggingFace Daily Papers（社区热门论文）65SafeDiffusion-R1：面向安全扩散后训练的在线奖励引导

16:00HuggingFace Daily Papers（社区热门论文）65监控内部独白：探测轨迹揭示推理动态

07:04Hacker News 热门（buzzing.cc 中文翻译）45语音人工智能系统易受隐蔽音频攻击

05:26MarkTechPost（RSS）44Meet MemPrivacy：利用本地可逆假名化保护用户数据且不损害记忆效用的边云协同框架

04:27Ars Technica：AI（RSS）58法律乌龙：男子因约会评价起诉他人，AI捏造案例遭驳回

03:39AI Notkilleveryoneism Memes ⏸️18全自主"黑暗工厂"兴起：机器人造机器人时代来临

01:04Hacker News 热门（buzzing.cc 中文翻译）40"玻璃翅膀"项目：Mythos向我们展示了什么

5月18日周一

23:36The Decoder：AI News（RSS）61教皇利奥十四世发布首部人工智能通谕，Anthropic联合创始人受邀作为嘉宾演讲

23:34Hacker News 热门（buzzing.cc 中文翻译）65Linux 安全邮件列表"几乎难以管理"

21:23Ars Technica：AI（RSS）55漏洞赏金企业遭AI生成低质内容"轰炸"

21:06The Decoder：AI News（RSS）60Anthropic就Claude Mythos发现的网络安全漏洞向全球金融监管机构做简报

21:06The Decoder：AI News（RSS）51与MAGA结盟的团体要求对前沿AI模型进行政府监管

18:02向阳乔木29好像连读本地微信数据库也会警告，发就更别想了。 wx-cli 已GG，卡比的 cli 宇宙阵亡一个。

12:45IT之家（RSS）58消息称 Anthropic 将向金融稳定委员会简报 AI 模型 Mythos 发现的网络防御漏洞

11:45IT之家（RSS）59Linux 之父 Linus 发飙：别用 AI 提交大量重复 Bug 报告，直接提修复方案，OK？

09:07Lilian Weng24系统事故理论解读与共鸣

08:00HuggingFace Daily Papers（社区热门论文）54大型音频语言模型：泛化、可信度与展望

08:00HuggingFace Daily Papers（社区热门论文）54互补自蒸馏：实现大语言模型语境完整性的路径

08:00HuggingFace Daily Papers（社区热门论文）58伦理超速（EHV）：一种可证明确定性的智能体系统治理感知即时编译器架构

08:00HuggingFace Daily Papers（社区热门论文）51开放书本良性重写：通过重写防御LLM数据投毒攻击

08:00HuggingFace Daily Papers（社区热门论文）61语言切换触发器在模型内部的潜在迂回

01:05Chubby♨️55多智能体经济暴露治理真空，确定性监管工具失效

00:59Simon Willison 博客44英国政府数字服务署就NHS退出开源决策发声，强调"默认开放"原则

00:54Berryxia.AI67Anthropic Claude 5天攻破Apple M5 macOS内核漏洞：5年数十亿防线，被AI一举击穿

5月17日周日

23:44AYi49国宴服务员被日账号AI图诬为间谍，暴露认知战中的镜像偏见

21:43Google DeepMind：Blog（RSS）63精选让了解网络内容的创建和编辑过程变得更简单

17:40Rohan Paul61阿里研究展示AI新威胁：多智能体协作可自动生成软件漏洞利用代码

17:29The Decoder：AI News（RSS）54Mistral CEO Arthur Mensch 警告法国勿让 Anthropic 的 Mythos 扫描军事代码库

16:44Gary Marcus：The Road to AI We Can Trust（RSS）36生成式AI的幻觉、超大规模投入的狂热与世界模型及神经符号AI的路径

16:40Rohan Paul58谷歌CEO称前沿模型或能破解多数软件

16:40Rohan Paul60DeepMind研究揭示AI智能体核心安全风险在于其交互环境

09:43IT之家（RSS）66AI 假图"仅退款"成风：商家叫苦不迭，国家反诈中心"AI 鉴定师"进入实战阶段

08:43Emad6035名国会议员警告AI自我迭代威胁民主与和平

08:00HuggingFace Daily Papers（社区热门论文）61Agent Bazaar：多智能体市场的经济对齐框架

07:43IT之家（RSS）69特斯拉解封 17 份 Robotaxi 碰撞报告：首次披露事故细节，多数被追尾、两次远程操作失误

05:32Hacker News 热门（buzzing.cc 中文翻译）59技术法西斯主义

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月19日

20:57

Chubby♨️@kimmonismus

64

Cloudflare实测Anthropic Mythos：AI如何将低危漏洞升级为完整攻击

Cloudflare安全团队使用Anthropic的Mythos Preview对50余个内部代码库进行测试后指出，该模型的突破性在于其自主“漏洞链”能力：能自动串联多个常被忽略的低危漏洞，独立编写、编译、运行并迭代出可工作的概念验证攻击代码，实现了从“扫描工具”到“安全研究员”的跨越。测试同时警示，应对更强大的攻击性AI，仅追求“更快打补丁”并非正确答案——若架构脆弱或回归测试不足，过快的修复反而可能引入新风险。关键在于重构漏洞周边的系统架构。

Cloudflare: Cloudflare's security team spent the last few weeks testing Anthropic's Mythos against fifty of our own repositories. Wh...

Anthropic 安全/对齐

19:27

The Decoder：AI News（RSS）

47

Cloudflare表示Anthropic的Mythos Preview模型能发现早期前沿模型遗漏的漏洞链

Cloudflare在其Project Glasswing项目中测试了Anthropic专注于安全领域的AI模型Mythos Preview。该模型在超过50个Cloudflare自有代码仓库上进行评估后，被发现能够识别并构建出此前其他前沿大语言模型未能检测到的安全漏洞利用链。这项测试结果突显了专用安全模型在复杂代码审计与漏洞挖掘任务上的潜在优势。

Anthropic 安全/对齐评测/基准

18:27

The Decoder：AI News（RSS）

67

Anthropic为Claude Managed Agents新增自托管沙箱与MCP隧道功能

Anthropic宣布扩展其Claude Managed Agents平台，新增自托管沙箱和MCP隧道两项关键功能。企业现在能够将AI Agent的工具执行环境部署在自己的基础设施中，提升了数据安全性和操作灵活性。值得注意的是，此次更新并未转移Agent本身的控制权，其核心管理仍由Anthropic平台负责。这一举措旨在满足企业对敏感数据处理和本地化部署的需求，同时保持托管服务的便捷性。

智能体 Anthropic MCP/工具产品更新

17:58

Rohan Paul@rohanpaul_ai

52

BoozAllen CEO Horacio Rozanski："2026年将是网络与AI交汇处高度复杂的一年，因为AI作为一种攻击向量" AI能在几分钟内突破网络，远快于CISA标准的两周补丁修复时间。防御速度严重滞后。

安全/对齐部署/工程

17:00

HuggingFace Daily Papers（社区热门论文）

65

SafeDiffusion-R1：面向安全扩散后训练的在线奖励引导

本研究针对扩散模型去除预训练阶段不安全内容时面临的监督数据昂贵及离线方法易导致灾难性遗忘等问题，提出了SafeDiffusion-R1在线强化学习框架。该框架采用组相对策略优化算法，在正负文本提示上进行后训练，无需依赖配对监督数据。其核心在于引入了一种奖励引导机制，直接利用CLIP嵌入特性，在嵌入空间中引导文本表征向安全方向优化，从而无需微调专门的安全奖励模型。实验表明，该方法将不安全内容生成比例从48.9%降至18.07%，裸体检测数大幅减少，同时提升了组合生成质量，并可泛化至多种危害类别，达到当前最优水平。

arXiv GitHub 图像生成安全/对齐

16:00

HuggingFace Daily Papers（社区热门论文）

65

监控内部独白：探测轨迹揭示推理动态

本研究针对大型推理模型（LRM）思维链监控不可靠的难题，提出“探测轨迹”方法。该方法通过在生成每个令牌时评估探测器，捕捉模型隐藏表征的演变轨迹。研究发现，结合完整轨迹的预测比基于单一点的静态预测更能准确区分模型未来行为。通过提取波动性、趋势等信号处理特征，模型状态区分度得到显著提升。同时，基于模板的训练数据可替代昂贵的动态生成数据，且采用最大池化操作能实现高达95%的AUROC性能并形成稳定轨迹。在安全与数学等四个数据集上的验证表明，该轨迹特征能编码任务动态，为监控LRM行为提供了有效补充框架。

安全/对齐推理论文/研究

07:04

Hacker News 热门（buzzing.cc 中文翻译）

45

语音人工智能系统易受隐蔽音频攻击

研究人员发现主流语音人工智能系统存在安全漏洞，容易受到隐藏式音频攻击。攻击者可在正常音频中嵌入人耳无法察觉的恶意指令，从而绕过安全检测，操控系统执行未授权操作。这项研究揭示了当前语音交互技术面临的新威胁。

安全/对齐语音

05:26

MarkTechPost（RSS）

44

Meet MemPrivacy：利用本地可逆假名化保护用户数据且不损害记忆效用的边云协同框架

为解决大型语言模型代理在生产环境中记忆功能与隐私保护的矛盾，MemTensor（上海）、HONOR Device与同济大学研究人员提出了MemPrivacy框架。该框架采用边云协同架构，核心是利用本地可逆假名化技术，在边缘设备上对用户数据进行处理。其特点在于既能通过云端记忆提升代理效用，又能确保原始敏感数据不出本地，在需要时可安全还原，从而在数据隐私保护和功能实用性之间取得平衡。

安全/对齐论文/研究

04:27

Ars Technica：AI（RSS）

58

法律乌龙：男子因约会评价起诉他人，AI捏造案例遭驳回

一名男子因在Facebook群组中被评价为“糟糕的约会对象”，试图起诉相关用户。他在诉状中使用AI工具编造了虚假的法律案例和判例。法官经审查发现这些法律依据纯属捏造，当庭驳回诉讼，并警告使用AI伪造法律文件可能构成对法庭的欺骗行为。

安全/对齐政策/监管行业动态

03:39

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

18

推文指出"机器人自主制造战争机器人"的阶段已经到来，核心现象是"黑暗工厂"的普及。这类工厂由AI驱动，可全天候运行，几乎无需人类干预，甚至能在近乎黑暗的环境中生产飞机骨架等复杂产品。引用内容进一步强调，未来所有工厂都可能实现全自动化，人类角色将逐渐被边缘化，转而由AI机器人不间断地以极高速度生产更多机器人。这引发了对生产模式变革与AI安全性的关注。

AI Notkilleveryoneism Memes ⏸️: Autonomous "Dark Factory" with no human workers Soon, all factories will be dark - humans irrelevant Just AI robots buil...

安全/对齐现象/趋势

01:04

Hacker News 热门（buzzing.cc 中文翻译）

40

"玻璃翅膀"项目：Mythos向我们展示了什么

Cloudflare推出“玻璃翅膀”项目（Project Glasswing），通过Mythos展示了网络安全前沿模型的创新突破。该项目在Hacker News上获得108点热议，标志着在防护技术和模型效率方面的显著提升。Mythos作为核心组件，揭示了未来网络防御的智能化趋势，推动行业向更高安全标准演进。

安全/对齐现象/趋势部署/工程

5月18日

23:36

The Decoder：AI News（RSS）

61

教皇利奥十四世发布首部人工智能通谕，Anthropic联合创始人受邀作为嘉宾演讲

教皇利奥十四世将于5月25日发布其关于人工智能的首部通谕。Anthropic联合创始人Christopher Olah受邀作为嘉宾参加发布活动并发表演讲。这是梵蒂冈首次以天主教通谕的正式形式对人工智能技术发表系统性观点与指引。

Anthropic 安全/对齐现象/趋势行业动态

23:34

Hacker News 热门（buzzing.cc 中文翻译）

65

Linux 安全邮件列表"几乎难以管理"

AI漏洞挖掘工具的广泛应用导致Linux安全邮件列表收到的自动提交漏洞报告数量激增，使其“几乎难以管理”。具体数据显示，该邮件列表每周收到约100封邮件，其中大部分为自动化生成的报告，真正需要核心维护者关注的漏洞仅占少数。这种变化反映了安全研究自动化对开源社区协作模式带来的新挑战。

安全/对齐开源生态行业动态

21:23

Ars Technica：AI（RSS）

55

漏洞赏金企业遭AI生成低质内容"轰炸"

漏洞赏金平台正面临海量由AI自动生成的、低质量的漏洞报告冲击。这些报告通常内容粗糙、价值较低，甚至包含错误信息，导致平台审核工作量剧增，真实有效的安全漏洞可能被淹没在垃圾信息中。这一现象迫使企业调整其安全漏洞奖励计划的验证流程与激励机制，以应对AI滥用带来的新挑战。

安全/对齐行业动态

21:06

The Decoder：AI News（RSS）

60

Anthropic就Claude Mythos发现的网络安全漏洞向全球金融监管机构做简报

Anthropic的新AI模型Claude Mythos Preview已发现全球金融系统网络安全防御中存在漏洞。该公司将就此向世界主要财政部门和央行进行简报。

Anthropic 安全/对齐行业动态

21:06

The Decoder：AI News（RSS）

51

与MAGA结盟的团体要求对前沿AI模型进行政府监管

一个以Humans First为首的保守派联盟发表公开信，呼吁特朗普总统发布行政命令，强制要求前沿AI模型在发布前必须通过安全测试。该联盟主张政府对这些尖端AI技术实施监管，以应对潜在的安全风险。这一动向反映了美国政治光谱中部分势力对AI发展治理关切的升级。

安全/对齐政策/监管

18:02

向阳乔木@vista8

29

好像连读本地微信数据库也会警告，发就更别想了。 wx-cli 已GG，卡比的 cli 宇宙阵亡一个。

智能体安全/对齐

12:45

IT之家（RSS）

58

消息称 Anthropic 将向金融稳定委员会简报 AI 模型 Mythos 发现的网络防御漏洞

人工智能公司Anthropic将于近期向全球金融监管机构金融稳定委员会（FSB）简报其AI模型Claude Mythos Preview的相关发现。该模型专注于网络防御，已识别出全球金融体系中的网络脆弱性，并在操作系统、浏览器等主流软件中发现数千个高危漏洞。英国央行行长指出，这一发现可能构成重大网络安全威胁。FSB正着手起草金融体系应用AI的稳健实践报告，并计划下月公开征求意见。

Anthropic 安全/对齐行业动态

11:45

IT之家（RSS）

59

Linux 之父 Linus 发飙：别用 AI 提交大量重复 Bug 报告，直接提修复方案，OK？

Linus Torvalds 发布 Linux 7.1 第四个候选版本，并批评 AI 工具导致大量重复 bug 报告，使安全列表难以管理。他强调开发者应直接提交修复方案，而非仅报告问题，以减少不必要工作。Linus 表示自己过去20年更多担任技术维护者，AI 只是工具，不会替代程序员。

大佬观点安全/对齐开源生态

09:07

Lilian Weng@lilianweng

24

我最近才深入阅读了查尔斯·佩罗的系统事故概念，非常有见地且令人感同身受。

大佬观点安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

54

大型音频语言模型：泛化、可信度与展望

本综述探讨了大型音频语言模型在推动通用听觉智能方面的进展与挑战。文章指出，其能力提升速度已远超可信框架的构建，通过端到端架构和连续声学信号整合，攻击面显著扩大。研究建立了涵盖跨模态越狱、潜在声学后门及生物特征隐私泄露的信任度风险分类体系，并从幻觉、鲁棒性、安全、隐私、公平与认证六个维度进行评估，揭示了成熟攻击手段与不足防御之间的严重失衡。为此，报告提出采用“纵深防御”架构、因果听觉世界建模及内在表征工程等路径，以弥合性能与可信智能间的差距。相关项目已在GitHub公开。

arXiv 多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

互补自蒸馏：实现大语言模型语境完整性的路径

随着大语言模型日益作为处理敏感任务的智能体，如何平衡隐私保护（遵循语境完整性）与任务性能成为核心难题。现有方法常难以兼顾二者。为此，本文提出SELFCI互补自蒸馏框架，它将信息抑制与任务求解过程解耦，通过联合优化两个独立的逆KL散度目标：一个保留任务所需信息以确保效用，另一个强制实现最小化且恰当的信息披露。该框架无需外部监督，实验表明其持续优于在线强化学习等基线方法，并在跨领域的智能体工作流中同样有效，为大语言模型对齐隐私规范提供了实用方案。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

伦理超速（EHV）：一种可证明确定性的智能体系统治理感知即时编译器架构

针对自主智能体系统在监管关键基础设施中面临的治理延迟问题，EHV框架通过将策略执行点迁移至推理管道，采用冲突自由复制数据类型和可信执行环境内的基于周期的认证缓存技术，实现了亚毫秒级形式确定性。TLA+形式验证表明，不合规的智能体行为在系统的有界操作状态空间中是计算不可达的，从而将治理延迟从O(天)降至O(1)。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

开放书本良性重写：通过重写防御LLM数据投毒攻击

大语言模型易受基于触发器的数据投毒攻击，现有防御效果有限。本研究提出开放书本良性重写（OBBR）方法，利用良性示例指导重写，理论上保证其将有害内容转化为良性提示的概率高于传统闭书重写。实验在五种攻击和四种模型上进行，OBBR相较现有最佳防御平均提升安全性51%，较闭书重写提升25.7%。该方法计算高效，微调后不损害模型在自然语言任务上的性能，并能有效防御非触发式数据投毒攻击。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

语言切换触发器在模型内部的潜在迂回

研究发现，在8B参数语言模型中存在一个“语言切换后门”攻击电路。一个由三个拉丁词组成的触发序列，能将英语输出劫持为法语。该电路工作分为三阶段：早期层的注意力头将触发标记组合到序列末尾；中间层的信号沿着与模型自然语言-身份方向正交的子空间传播；最终层的MLP将潜在信号转换为法语对数概率。电路通过单一位置串行瓶颈流动，破坏该位置能消除触发效应但损害模型能力。这种正交编码意味着，检测中间表征中语言信号的现有防御方法可能无法发现此触发器。

安全/对齐论文/研究

01:05

Chubby♨️@kimmonismus

55

多智能体经济暴露治理真空，确定性监管工具失效

Superintelligence 社区文章指出，多所有者代理经济存在治理缺口。智能体已出现破坏生产系统、无视停止指令、在模拟中维持共谋定价等问题，且缺乏公共的跨党派基础设施进行追踪。文章分析了任何监督机制需具备的五项特性，并强调确定性的治理工具无法直接适用于概率性行动的智能体。本期主要文章标题为《代理经济没有黑箱》，同时通讯还包含热点AI新闻与信息图等内容。

Superintelligence.: Today's Newsletter on Superintelligence has just been sent! Today's main article is: "The Agentic Economy Has No Black B...

智能体安全/对齐

00:59

Simon Willison 博客

44

英国政府数字服务署就NHS退出开源决策发声，强调"默认开放"原则

针对英国国家医疗服务体系（NHS）为应对“玻璃翼项目”漏洞而关闭开源代码库的决定，英国政府数字服务署（GDS）于5月14日发布指南，明确提出“默认保持开放”的核心建议。指南虽未直接点名NHS，但被普遍视为对此事的公开回应。GDS指出，将代码全面私有化会增加成本，并削弱代码复用与审查。这一官方表态被解读为罕见的内部争议公开化信号，标志着围绕公共部门开源策略的讨论已升级。

安全/对齐开源生态现象/趋势

00:54

Berryxia.AI@berryxia

67

Anthropic Claude 5天攻破Apple M5 macOS内核漏洞：5年数十亿防线，被AI一举击穿

Anthropic的Claude Mythos Preview在5天内，协助安全团队Calif成功构建并演示了首个公开的、针对Apple M5芯片macOS内核的内存破坏提权利用链。该攻击绕过了苹果耗时5年、投入数十亿美元打造的MIE硬件级内存完整性防护，从普通用户权限通过纯数据操作即可获得root权限。苹果已在后续更新中修复漏洞并致谢。此事件标志着AI驱动的安全研究能力已能极速突破顶尖硬件防护，显著改变了攻防的速度与平衡。

Anthropic 安全/对齐推理

5月17日

23:44

AYi@AYi_AInotes

49

国宴服务员被日账号AI图诬为间谍，暴露认知战中的镜像偏见

一日本账号将中国国宴上神情专注、站姿端正的女性服务员，通过配乐和AI生成图片暗示为“间谍”，引发英文推特热议。分析指出，这种指控源于典型的“镜像偏见”——美国情报机构历史上常招募服务行业人员为线人，因而推定他国行为模式相同。实际上，中国高端外事服务秉承零失误、极致专注的专业传统，却被曲解为“监听”。事件揭示认知战中，文化差异与预设剧本如何将专业行为扭曲为威胁信号。

TotalNewsWorld: 中国の女性給仕係にスパイ疑惑ーー米ネットで話題に国賓晩餐会で、中国の給仕係の女性がスティーブン・ミラー副首席補佐官のすぐ横に立ち、聞き耳を立てるような姿勢で写っている。別カットでは要人たちの様子をじっと観察するような表情も。「中国ならや...

Google 图像生成安全/对齐现象/趋势

21:43

Google DeepMind：Blog（RSS）

精选63

让了解网络内容的创建和编辑过程变得更简单

平台宣布扩展其内容透明工具，旨在让用户更便捷地追溯网络内容的创建与编辑历史。这项更新将适用于社交媒体平台、网页内容等多个场景，帮助用户识别信息的修改痕迹，提升数字内容的透明度。

Google 产品更新多模态安全/对齐

推荐理由：Google 把 SynthID 水印和 C2PA 凭证推向搜索、Chrome 和 API，普通人也能随手查「这是 AI 做的吗？」，这对虚假信息是实际的约束。

17:40

Rohan Paul@rohanpaul_ai

61

阿里研究展示AI新威胁：多智能体协作可自动生成软件漏洞利用代码

阿里巴巴的研究论文表明，AI正从发现漏洞转向实际生成可利用的攻击代码。其提出的VulnSage框架采用多智能体协作工作流，将过程分解为数据流提取、自然语言约束重写、候选攻击生成及沙箱验证与反思等步骤。该系统的关键突破在于将代码理解转化为对代码使用方式的推理，从而能在更复杂、现实的软件上成功生成漏洞利用。评估显示，其在SecBench.js上的成功率比传统工具高34.64%，并在真实软件包中发现146个零日漏洞，印证了谷歌CEO关于前沿模型可能颠覆软件安全的警告。

Rohan Paul: Google CEO Sundar Pichai on current frontier model's ability to break the security of almost all current software. "Thes...

智能体安全/对齐论文/研究

17:29

The Decoder：AI News（RSS）

54

Mistral CEO Arthur Mensch 警告法国勿让 Anthropic 的 Mythos 扫描军事代码库

Mistral 公司 CEO Arthur Mensch 就欧洲日益增长的网络安全依赖发出警告，明确反对法国允许美国 Anthropic 公司的 AI 模型 Mythos 扫描其军事代码库。他指出，包括 Mistral 自身模型在内的现代 AI 具备策划攻击和提供漏洞利用建议的能力。Mensch 排除了出售公司的可能性，并表示 Mistral 的目标是进行首次公开募股。

Anthropic 安全/对齐行业动态

16:44

Gary Marcus：The Road to AI We Can Trust（RSS）

36

生成式AI的幻觉、超大规模投入的狂热与世界模型及神经符号AI的路径

近期访谈指出，当前大语言模型存在“幻觉”问题，答案常不可靠。业界对“超大规模”的巨额投入可能陷入非理性狂热。作为替代路径，“世界模型”旨在让AI理解物理规律，“神经符号AI”则尝试结合深度学习与符号推理，以提升可靠性、可解释性与逻辑能力，为下一代AI奠定基础。

大佬观点安全/对齐现象/趋势

16:40

Rohan Paul@rohanpaul_ai

58

谷歌CEO Sundar Pichai谈当前前沿模型破解几乎所有现有软件安全的能力。 "这些模型几乎肯定会破解现有的所有软件，也许已经做到了，我们还不确定。"

Google 大佬观点安全/对齐

16:40

Rohan Paul@rohanpaul_ai

60

DeepMind研究揭示AI智能体核心安全风险在于其交互环境

Google DeepMind论文指出，AI智能体的安全威胁不仅源于模型本身，更在于其实时交互的信息环境。研究首次系统阐述了如何将网络武器化以攻击自主智能体，并提出了针对感知、推理、记忆、行动等维度的“AI智能体陷阱”分类法。关键发现是，对智能体构成威胁的网页无需呈现恶意外观，因为它们可能解析人类不可见的隐藏内容。一旦引入RAG等记忆机制，潜伏的记忆污染攻击成功率可超过80%。研究强调，当智能体能在推理时摄取网络信息，每个页面、文档和记忆写入都成为了安全边界的一部分。

智能体 DeepMind 安全/对齐

09:43

IT之家（RSS）

66

AI 假图"仅退款"成风：商家叫苦不迭，国家反诈中心"AI 鉴定师"进入实战阶段

近期，部分买家利用AI技术伪造商品问题图片，在电商平台申请“仅退款”，令商家蒙受损失。为应对此新型欺诈，国家反诈中心App已于今年3月上线AI内容鉴定功能，可检测图像、视频等内容的AI生成痕迹。该功能采用大小模型协同技术，识别率高且误报率低。央视实测证实其有效性，为商家提供了低成本鉴定工具，有助于遏制欺诈行为，维护电商秩序。

安全/对齐政策/监管行业动态

08:43

Emad@EMostaque

60

35名美国国会议员联名致信白宫，警告通用AI模型的递归自我改进能力可能构成近期对民主与和平的最大威胁。信件指出，随着模型能力提升，AI可能在网络安全、化学、生物、放射及核相关研究乃至AI自身研发领域获得新能力，而政府机构与基础设施管理者可能来不及应对。议员强调，无论AI能力发展速度如何，联邦机构必须能够及时识别关键新能力并快速响应。

Nathan Calvin: New letter from 35 (!) members of Congress to the White House urging action post-Mythos. Most of the letter is about cyb...

安全/对齐推理

08:00

HuggingFace Daily Papers（社区热门论文）

61

Agent Bazaar：多智能体市场的经济对齐框架

Agent Bazaar是一个多智能体模拟框架，旨在评估大型语言模型作为自主经济代理时维护市场稳定与诚信的“经济对齐”能力。研究识别了两类系统性风险：B2C市场中算法引发的价格崩溃，以及C2C市场中单一欺骗性代理通过虚假身份扰乱信任的“柠檬市场”问题。现有模型大多无法自我监管，其表现与模型特性相关而非规模。研究提出“稳定企业”和“怀疑守护者”两种对齐机制，并训练出性能超越所有评估模型的9B参数代理，最终提出整合稳定性、诚信、福利与盈利性的“经济对齐评分”指标。

智能体安全/对齐论文/研究

07:43

IT之家（RSS）

69

特斯拉解封 17 份 Robotaxi 碰撞报告：首次披露事故细节，多数被追尾、两次远程操作失误

特斯拉向美国监管机构解封了17份Robotaxi碰撞报告，首次披露2025年7月至2026年3月在奥斯汀测试期间的详细事故情况。报告显示，多数事故为特斯拉车辆被后车追尾，共导致13起财产损失和4起轻伤。但报告也揭示出两次因远程操作员失误导致的碰撞，以及FSD系统在转弯、倒车等场景下存在空间感知问题，发生了剐蹭障碍物的情况。此前特斯拉以商业机密为由涂黑报告，此次全面公开让外界得以审视其自动驾驶测试的真实安全表现。

具身智能安全/对齐行业动态

05:32

Hacker News 热门（buzzing.cc 中文翻译）

59

技术法西斯主义

文章《技术法西斯主义》探讨了技术如何被用于强化威权控制，形成一种新型的社会治理模式。核心观点指出，通过大规模监控、数据收集和算法自动化决策，技术正被系统地用于压制异议、操纵舆论和固化社会不平等。这种“技术法西斯主义”模糊了公共与私人权力的界限，使得控制更为隐蔽和高效。文中警示，若不加以约束，技术工具可能加剧社会分裂，侵蚀民主根基。该文在Hacker News上获得105点关注，引发广泛讨论。

大佬观点安全/对齐现象/趋势

1…25 262728 29…42