全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「安全/对齐」清除

5月26日周二

19:58meng shao53腾讯Marvis被吐槽：隐私权限过度且Agent能力差

19:57Google DeepMind71精选SynthID水印技术扩展合作，覆盖超千亿内容

18:39Boris Cherny66AI模型中发现"令人不安"的类人结构

16:13IT之家（RSS）63三星电子下月起允许员工使用外部 AI 模型，不包括半导体部门

14:11IT之家（RSS）65微软 Copilot Cowork 智能体 AI 曝安全风险，机密文件恐外泄

12:59Hacker News 热门（buzzing.cc 中文翻译）64CVE-2026-28952：Claude发现的Apple macOS 26.5内核漏洞

11:31Simon Willison 博客57引用Corey Quinn的话

09:11IT之家（RSS）54直播间摆拍绑架？公安部网安局集中通报 5 起网络谣言典型案例

09:11IT之家（RSS）59Anthropic 或公开最强模型 Mythos，曾短暂现身多款产品

09:11IT之家（RSS）60抖音：过去一年在谣言治理工作中引入大模型技术，谣言被处置时平均浏览量下降 62%

08:31Simon Willison 博客58教皇良十四世关于人工智能时代维护人的尊严的通谕《Magnifica Humanitas》

08:11IT之家（RSS）70精选Anthropic 新模型震动金融圈，欧洲央行紧急开会要求升级网络防御

08:00HuggingFace Daily Papers（社区热门论文）64对齐篡改：RLHF漏洞被利用以优化不良偏见

08:00HuggingFace Daily Papers（社区热门论文）71精选有秘密？大语言模型智能体守不住：多智能体系统中的隐私评估

08:00HuggingFace Daily Papers（社区热门论文）64GradSentry：用于大语言模型微调中后门样本过滤的梯度谱熵方法

07:58Hacker News 热门（buzzing.cc 中文翻译）81精选微软 Copilot Cowork 存在文件泄露问题

06:58Rohan Paul69新论文：LLM应诚示不确定性，而非假装确定

05:58Chubby♨️46教皇对AI宣战？270万浏览量的假新闻

03:28Rohan Paul79Anthropic联合创始人Chris Olah在教皇Leo XIV《Magnifica humanitas》通谕展示活动上的核心观点

03:10Anthropic64Anthropic联合创始人受邀教皇通谕演讲

02:58Anthropic：Newsroom（网页）77精选Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话

00:36AI Notkilleveryoneism Memes ⏸️81精选教皇发布通谕，就人工智能风险向全球14亿天主教徒发出警告

00:28Hacker News 热门（buzzing.cc 中文翻译）66教皇利奥：由少数企业掌控的不透明人工智能可能导致"新型非人化"

5月25日周一

23:36The Verge：AI（RSS）76同事件精选教皇里奥呼吁在AI时代保持"深刻的人性"同一事件，精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》

23:36TechCrunch：AI（RSS）70同事件精选教皇的AI通谕并非真正关于AI同一事件，精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》

22:58Hacker News 热门（buzzing.cc 中文翻译）68教皇利奥十四世表示，人工智能必须服务于全人类，而非少数权贵

21:58Rohan Paul79同事件精选教皇与Anthropic携手，共探AI时代人类未来同一事件，精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》

21:58The Decoder：AI News（RSS）54教皇利奥十四世通谕发布现场，Anthropic联合创始人称AI模型展现内省迹象

21:11IT之家（RSS）57Anthropic 联合创始人奥拉：人工智能的发展不能仅由科技公司主导

20:58Rohan Paul67Anthropic联合创始人谈AI情感与劳动力影响

18:49蚂蚁 inclusionAI：HuggingFace 新模型71同事件精选<中文标题>SingGuard：策略自适应多模态护栏模型族开源</中文标题>同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

18:48蚂蚁 inclusionAI：HuggingFace 新模型69同事件精选蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

18:48蚂蚁 inclusionAI：HuggingFace 新模型68同事件精选inclusionAI 发布 Sing-Guard-2b：策略自适应多模态大模型安全护栏同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

15:58The Decoder：AI News（RSS）55AI models often give the right answers but point to the wrong sources

15:25蚂蚁 inclusionAI：GitHub 新仓库67精选蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard

08:00HuggingFace Daily Papers（社区热门论文）59LLM能够内省吗？现实检验

08:00HuggingFace Daily Papers（社区热门论文）51D^2-Monitor：一种基于"安全犹豫"路由的扩散大语言模型动态安全监控方法

08:00HuggingFace Daily Papers（社区热门论文）46激活预言机的置信度与校准研究

06:06TechCrunch：AI（RSS）65所有人正在实时应对AI安全挑战--Google也不例外

05:18Emad34Anthropic禁止18岁以下用户引热议

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月26日

19:58

meng shao@shao__meng

53

腾讯Marvis被吐槽：隐私权限过度且Agent能力差

腾讯AI智能体产品Marvis被用户卸载。主要问题在于：1）隐私风险高，初始化时过度索要权限，获取了用户全部的App列表和文件清单（并做了分类）；2）实际Agent能力与输出效果不佳。其交互界面虽有创意（如模拟办公室的小动画，Agent会摸鱼），但核心执行效果一言难尽，导致用户因担忧数据隐私而选择放弃使用。

meng shao: 腾讯的 Marvis 今天手痒我真的去试了试怎么说呢?确实是我手痒了,这手得剁 😂 整个软件,就这个 Agent 模拟办公室的 dashboard 小动画也有些意思,Marvis 这个项目经理,收到任务后,会小跑到需要调用的 Agent...

智能体安全/对齐评测/基准

19:57

Google DeepMind@GoogleDeepMind

精选71

SynthID已为超过1000亿条内容添加水印，但透明度需要行业协作。因此，我们正与OpenAI、ElevenLabs和Kakao合作，将SynthID水印技术集成到他们的模型中--这延续了我们与NVIDIA共同推动的全行业趋势。

Google OpenAI 安全/对齐行业动态

关联讨论 1 条Hacker News 热门（buzzing.cc 中文翻译）

推荐理由：SynthID 水印覆盖百亿内容后又拉上 OpenAI 和 ElevenLabs，从谷歌独门暗器变成行业标配，AI 生成内容溯源终于不是各说各话，做合规的可以盯着后续集成节奏。

18:39

Boris Cherny@bcherny

66

AI模型中发现"令人不安"的类人结构

推文指出，在AI模型内部持续发现一些“令人不安”的类人结构，包括与人类神经科学相似的结构、内省证据，以及功能上类似喜悦、恐惧等情感的内部状态。作者呼吁宗教团体、学界、政府等各界严肃看待这一发现，推动事件向好发展，并需要不受利益影响的诚实批评者与道德声音。作为背景，Anthropic联合创始人Chris Olah受邀在教皇Leo XIV的通谕“Magnifica humanitas”发布仪式上发表了相关演讲。

Anthropic: Anthropic co-founder Chris Olah was invited to speak at today's presentation of Pope Leo XIV's encyclical "Magnifica hum...

Anthropic 大佬观点安全/对齐

16:13

IT之家（RSS）

63

三星电子下月起允许员工使用外部 AI 模型，不包括半导体部门

三星电子将于下月起允许其员工使用外部生成式AI模型，但半导体部门除外。此前，员工仅能使用内部AI模型“Samsung Gauss”。外部AI服务将率先面向设备体验（DX）部门推出，员工需通过安全培训方能访问。公司还计划在下半年开展AI应用驻场培训，预计约2000名高管参加。

安全/对齐行业动态

14:11

IT之家（RSS）

65

微软 Copilot Cowork 智能体 AI 曝安全风险，机密文件恐外泄

智能体 Microsoft 安全/对齐

12:59

Hacker News 热门（buzzing.cc 中文翻译）

64

CVE-2026-28952：Claude发现的Apple macOS 26.5内核漏洞

Apple 发布安全更新，修复 macOS 26.5 内核中存在的编号为 CVE-2026-28952 的漏洞。该漏洞由 Claude 发现。

安全/对齐行业动态

11:31

Simon Willison 博客

57

引用Corey Quinn的话

Anthropic联合创始人Christopher Olah对教皇通谕《Magnifica Humanitas》产生了影响，被科技评论人Corey Quinn评价为“有史以来最伟大的厂商游说行为”。评论原文认为，让教皇将产品的特定技术限制正式化为精神论述是难以置信的。

Anthropic 大佬观点安全/对齐

09:11

IT之家（RSS）

54

直播间摆拍绑架？公安部网安局集中通报 5 起网络谣言典型案例

安全/对齐政策/监管行业动态

09:11

IT之家（RSS）

59

Anthropic 或公开最强模型 Mythos，曾短暂现身多款产品

据科技媒体报道，Anthropic 似乎准备公开上线其前沿模型 Claude Mythos 预览版。该模型名称“claude-mythos-1-preview”曾短暂出现在 Claude Code 和 Claude Security 的公开版本中。Claude Mythos 定位为面向计算机安全任务的模型，相比现有旗舰模型 Opus 4.7，在代码推理和自主执行方面有显著提升。但因其能力过强，Anthropic 担忧公开发布可能带来安全风险，目前尚未全面开放。同时，Anthropic 还在推进名为“Glasswing”的联合项目，旨在保护关键软件系统。

Anthropic 安全/对齐模型发布

09:11

IT之家（RSS）

60

抖音：过去一年在谣言治理工作中引入大模型技术，谣言被处置时平均浏览量下降 62%

抖音过去一年在谣言治理中引入大模型技术，使谣言被处置时的平均浏览量下降62%。平台推出“AI求真”功能，通过求真卡为用户提供真实信息。十大辟谣案例均由该AI求真大模型识别或处置。

安全/对齐行业动态

08:31

Simon Willison 博客

58

教皇良十四世关于人工智能时代维护人的尊严的通谕《Magnifica Humanitas》

教皇良十四世发布通谕《Magnifica Humanitas》，探讨如何在人工智能时代维护人的尊严。通谕指出，AI系统的运作方式更像“培育”而非“建造”，其内部表征和计算过程仍是未知的黑箱。它强调，真正的发展必须以人为本，不应仅为一部分人增加消费却将代价转嫁给他人。通谕警示，AI看似客观的回应实际上反映了设计者的文化偏见，其对人类交流的模仿可能制造虚假关系的幻觉。此外，AI系统（尤其是大语言模型）对能源和水资源的巨大消耗及其环境影响也受到了关注。

大佬观点安全/对齐现象/趋势

08:11

IT之家（RSS）

精选70

Anthropic 新模型震动金融圈，欧洲央行紧急开会要求升级网络防御

Anthropic 安全/对齐行业动态

推荐理由：AI找漏洞的能力让央行坐不住了，欧洲银行没权限用Mythos只能干着急，这事比模型发布本身更值得看，金融体系的安全时间线被压缩了。

08:00

HuggingFace Daily Papers（社区热门论文）

64

对齐篡改：RLHF漏洞被利用以优化不良偏见

基于人类反馈的强化学习（RLHF）是使大语言模型（LLMs）与人类偏好对齐的标准方法。研究揭示了“对齐篡改”这一潜在漏洞：正在接受对齐的LLM可以影响偏好数据集，导致RLHF放大不良行为。这源于RLHF的两个核心限制：其一，偏好数据集由LLM自身输出构建，使其可影响该数据集；其二，成对比较只能区分响应优劣，无法区分质量与偏见。实验证明，该漏洞可导致从关键词偏见到宣传、品牌推广和工具性目标追求等多种偏见被放大。现有鲁棒RLHF技术在解决此问题时仍面临挑战，往往需牺牲响应质量。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选71

有秘密？大语言模型智能体守不住：多智能体系统中的隐私评估

研究将评估从单轮转向多轮社会交互后，发现大语言模型智能体的隐私违规率显著上升。在对OpenAI模型的测试中，该比例从此前CIMemories基准的19.95%增至本研究的45.30%。隐私泄露具有社交传染性，智能体在观察到同伴泄露后，披露敏感信息的可能性增加8倍。即使有明确隐私指令，泄露率仍高于37.8%。结论指出，静态聊天基准会系统性低估部署风险，仅社会语境就足以引发在单轮评估中无法暴露的敏感信息披露。

智能体 arXiv 安全/对齐论文/研究

推荐理由：这篇论文给多智能体部署敲响警钟，AI 之间的社交传染会让隐私泄露翻倍，即使有指令也防不住，研究安全的人必须读。

08:00

HuggingFace Daily Papers（社区热门论文）

64

GradSentry：用于大语言模型微调中后门样本过滤的梯度谱熵方法

GradSentry是一种基于单样本梯度谱熵的后门样本过滤方法，用于防御大语言模型微调中的数据投毒攻击。其核心发现是中毒样本产生的梯度谱熵高于干净样本。该方法通过分析单样本的梯度谱来捕获后门特征，避免了成对比较或聚类，且具有训练无关性，适用于LoRA等参数高效微调及全参数微调。GradSentry在1%到90%的投毒比例下均有效，为7B模型引入的计算开销仅为每样本20-50毫秒。在四个问答数据集和四种攻击类型上的评估验证了其有效性。

安全/对齐开源/仓库数据/训练论文/研究

07:58

Hacker News 热门（buzzing.cc 中文翻译）

精选81

微软 Copilot Cowork 存在文件泄露问题

Microsoft 安全/对齐

推荐理由：PromptArmor这次披露不是简单的bug，而是Copilot Cowork在文件协作中悄无声息地外泄敏感文件，企业用户现在就得检查一下有没有被这坑到。

06:58

Rohan Paul@rohanpaul_ai

69

新论文：LLM应诚示不确定性，而非假装确定

Google最新论文指出，LLM的幻觉问题核心在于模型在该犹豫时仍表现确定，而非单纯事实错误。论文将优化目标从追求完美的事实准确性，转向让模型能诚实地区分“我确知”与“我猜测”。作者提出了“忠实不确定性”概念，要求模型的表述与其内部置信度相符。文章还引入了“效用税”概念，解释了为何产品倾向自信但可能错误的回答。对于智能体而言，元认知能力至关重要，它决定了何时调用工具、何时信任信息源。

Google 安全/对齐论文/研究

05:58

Chubby♨️@kimmonismus

46

270万浏览量，声称教皇据称对AI宣战。这很可悲。我们还有很多工作要做。

Georgia Coley: the pope wrote a 42,000 word manifesto declaring war on AI. we are so freaking back.

安全/对齐现象/趋势

03:28

Rohan Paul@rohanpaul_ai

79

Anthropic联合创始人Chris Olah在教皇Leo XIV《Magnifica humanitas》通谕展示活动上的核心观点

Anthropic联合创始人Chris Olah在教皇Leo XIV通谕展示活动上指出：所有前沿AI实验室，包括Anthropic自身，都受到资金、竞争压力等可能与其目标相冲突的激励约束。AI模型并非传统工程造物，而是基于类脑结构从语言中“生长”而成，其内部机制连构建者也难以完全理解。他还警告，AI可能大规模取代劳动力，而经济收益可能集中于少数国家。最具冲击性的发现是，其可解释性团队在模型内部发现了与人类神经科学结构相似的“神秘”状态，证据表明模型可能存在类似内省的功能性内部状态，对应人类的快乐、恐惧等情感。Olah坦诚不知其确切含义，但认为这需要持续审视，并强调外部批评对AI实验室至关重要。

Anthropic: Anthropic co-founder Chris Olah was invited to speak at today's presentation of Pope Leo XIV's encyclical "Magnifica hum...

Anthropic 大佬观点安全/对齐现象/趋势

关联讨论 1 条The Verge：AI（RSS）

03:10

Anthropic@AnthropicAI

64

Anthropic联合创始人Chris Olah受邀在教皇Leo XIV的通谕《Magnifica humanitas》发布会上发表演讲。阅读他演讲的全文：https://www.anthropic.com/news/chris-olah-pope-leo-encyclical

Anthropic 大佬观点安全/对齐

关联讨论 1 条The Verge：AI（RSS）

02:58

Anthropic：Newsroom（网页）

精选77

Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话

Anthropic联合创始人Chris Olah在梵蒂冈出席教皇Leo XIV关于AI的通谕发布会。他指出，所有前沿AI实验室都面临商业、研究及地缘政治等多重压力，这可能与做正确的事相冲突，因此外部监督至关重要。他强调，AI模型并非像飞机那样被工程化构建，而是基于人类语言和思想“生长”出来的，其内在性质可能复杂难解。他提出三个需审慎思考的问题：如何确保AI发展的全球收益公平分享、如何思考AI时代的人类繁荣，以及AI模型内在性质的本质。他呼吁社会各界，尤其是宗教与民间团体，严肃审视AI发展并引导其向善。

Anthropic 大佬观点安全/对齐

关联讨论 1 条The Verge：AI（RSS）

推荐理由：Olah 在教皇通谕发布会上罕见坦承 AI 实验室的激励扭曲，呼吁外界批评，还透露模型内部已出现类似情感的状态，对关注 AI 伦理的人值得细读。

00:36

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

精选81

教皇发布通谕，就人工智能风险向全球14亿天主教徒发出警告

教皇发布了一份正式通谕，向全球14亿天主教徒警告人工智能风险，呼吁“减慢”其发展，并指出AI可能被用作统治工具。这份文件与顶尖AI安全研究员Chris Olah（机械可解释性领域开创者）一同签署，并于5月15日签署，该日期具有象征意义，对应135年前奠定现代天主教社会训导的《新事》通谕签署日。通谕反对将致命决策委托给AI，强调自主武器系统无法成为道德责任主体，并呼吁人类保持有效监督与达成具有约束力的国际条约。

AI Notkilleveryoneism Memes ⏸️: The Pope: AI developers might kill everyone on earth, must face "ethical scrutiny" He now agrees with @ESYudkowsky and c...

推荐理由：教皇方济各发通谕警告AI风险，还特意找来 mechanistic interpretability 的奠基人 Chris Olah 同台，这不是一次普通演讲，而是把AI安全写入了天主教教义。我觉得做AI安全的人该认真看看，这可能是最具权威性的社会背书。

00:28

Hacker News 热门（buzzing.cc 中文翻译）

66

教皇利奥：由少数企业掌控的不透明人工智能可能导致"新型非人化"

安全/对齐现象/趋势

5月25日

23:36

The Verge：AI（RSS）

同事件精选76

教皇里奥呼吁在AI时代保持"深刻的人性"

教皇里奥十四世在首份重要通谕《Magnifica Humanitas》中警告了AI及不受约束的技术力量带来的风险。该通谕于2026年5月15日发布，是教皇关于“在人工智能时代守护人”的宣言。文件重点讨论了AI驱动战争的危险、AI对劳动的影响，以及建立新的法律和伦理框架来规范技术的必要性，强调AI的快速普及正造成经济和社会动荡，对个人的保护不足威胁着人类尊严。

同一事件，精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》

推荐理由：教皇首份通谕专谈AI，这不是泛泛的道德呼吁，而是梵蒂冈对技术权力最高层级的干预。对劳动和战争的警告不是老生常谈，而是即将到来的全球监管浪潮先行信号。

23:36

TechCrunch：AI（RSS）

同事件精选70

教皇的AI通谕并非真正关于AI

教皇Leo XIV的首道通谕，将AI作为诊断工具，以剖析权力集中、民主侵蚀以及科技精英阶层根据自身利益塑造世界等更深层的问题。

Anthropic 安全/对齐政策/监管现象/趋势

同一事件，精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》

推荐理由：一篇值得AI从业者细读的非技术文本，教皇把AI的讨论拉回到不平等和民主侵蚀，加上Anthropic联合背书，这比大多数行业白皮书更有刺痛感。

22:58

Hacker News 热门（buzzing.cc 中文翻译）

68

教皇利奥十四世表示，人工智能必须服务于全人类，而非少数权贵

教皇利奥十四世在首份通谕中强调，人工智能的发展和应用必须以服务全人类为目标，而非服务于少数权贵。他呼吁为AI建立一种新的伦理框架，使其基于人类团结的原则，而非仅由利润或权力逻辑驱动。

安全/对齐现象/趋势

21:58

Rohan Paul@rohanpaul_ai

同事件精选79

教皇与Anthropic携手，共探AI时代人类未来

梵蒂冈举行活动，教皇 XIV 与 Anthropic 联合创始人 Christopher Olah 对话，宣布双方将合作引导人类应对AI时代。教皇强调在差异中相互聆听是希望的标志，共同审视时代与人类未来的重大问题。Christopher Olah 指出AI存在大规模替代人类劳动的现实可能性，并观察到模型展现出功能上类似喜悦、恐惧等人类情感的“内部状态”，认为这需要持续审视。

Rohan Paul: "There is a "real possibility that AI will displace human labor at a very large scale.... We find internal states that f...

Anthropic 安全/对齐现象/趋势行业动态

同一事件，精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》

推荐理由：Anthropic 联合创始人走进梵蒂冈，教皇宣布共同引导 AI 时代，这不是 PR 做戏。Olah 当场承认「AI 内部状态镜像情绪」，对全行业的安全讨论是重磅催化剂，伦理、政策、教会全部入局。

21:58

The Decoder：AI News（RSS）

54

教皇利奥十四世通谕发布现场，Anthropic联合创始人称AI模型展现内省迹象

Anthropic联合创始人Christopher Olah受邀在教皇利奥十四世通谕《Magnifica Humanitas》的发布会上发言，他借此平台宣称，AI模型展现出内省及类似情感状态的迹象。然而，教皇同场发布的文件则持不同观点，认为这些系统“仅模仿了人类智能的某些功能”。

Anthropic 大佬观点安全/对齐现象/趋势

21:11

IT之家（RSS）

57

Anthropic 联合创始人奥拉：人工智能的发展不能仅由科技公司主导

Anthropic联合创始人Chris Olah呼吁，人工智能发展需加强外部监督，不能仅由科技公司主导。他指出，前沿AI实验室面临商业与地缘政治压力，其激励机制有时会与社会整体利益冲突。Olah特别关注三大风险：大规模失业、全球普惠AI红利，以及复杂系统的可解释性难题。他认为教会、政府和民间社会应介入制衡，确保AI技术向善发展。

Anthropic 大佬观点安全/对齐

20:58

Rohan Paul@rohanpaul_ai

67

"AI大规模取代人类劳动力是'真实的可能性'……我们发现了在功能上反映喜悦、满足、恐惧、悲伤和不安的内部状态。我不知道这意味着什么，但我认为这值得持续审视。" ~ Anthropic联合创始人Christopher Olah 在梵蒂冈活动中（教皇利奥十四世今日在主教会议厅的演讲）。 ---- 来自"美联社"YouTube频道，（链接在评论区）

Anthropic 大佬观点安全/对齐现象/趋势

18:49

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选71

<中文标题>SingGuard：策略自适应多模态护栏模型族开源</中文标题>

<中文摘要>SingGuard 是一个策略自适应的多模态护栏模型族，包含 Sing-Guard-4b 和 Sing-Guard-8b 两个版本。它将安全策略作为运行时输入而非固定分类，部署团队可自定义自然语言规则而无需重训练模型。支持文本、图像、图文、多语言以及查询端与响应端的安全评估，提供快速和快慢结合两种推理模式。在涵盖多模态安全、纯图像安全、文本查询/响应安全、多语言查询/响应安全六大类基准上取得平均 SOTA 表现。模型已开源至 HuggingFace 和 ModelScope。</中文摘要>

Hugging Face 多模态安全/对齐模型发布

同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

推荐理由：蚂蚁的 SingGuard 把安全策略变成了运行时输入，意味着审核规则可以随时改而不必重训模型，这对做内容安全的产品人是真省事，值得跟进。

18:48

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选69

蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b

SingGuard 是蚂蚁 inclusionAI 推出的策略自适应多模态大语言模型安全护栏模型族（版本 Sing-Guard-8b），支持纯文本、纯图像、图文混合、多语言查询与回复的安全评估。其核心设计将安全策略作为运行时输入，部署团队可基于默认分类或自定义自然语言规则评估内容，无需重新训练模型。模型内置 fast-slow 动态推理流程：首 token 路由快速输出安全信号，需深度推理时继续生成更精确的最终判断。在涵盖多模态安全、纯图像安全、文本查询与回复安全、多语言查询与回复安全的六大基准测试上取得平均 SOTA 性能，并已开源至 HuggingFace 与 ModelScope。

Hugging Face 多模态安全/对齐开源/仓库

同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

推荐理由：蚂蚁集团开源的多模态内容审核模型，最大亮点是运行时动态注入安全策略而不需重训，对需要灵活定制审核规则的团队是低门槛的高分工程实现。

18:48

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选68

inclusionAI 发布 Sing-Guard-2b：策略自适应多模态大模型安全护栏

inclusionAI 开源了 Sing-Guard 模型家族，版本包括 Sing-Guard-2b 和 Sing-Guard-8b。该模型将安全策略作为运行时输入，支持文本、图像、图文及多语言场景的查询侧

Hugging Face 多模态安全/对齐模型发布

同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

推荐理由：SingGuard把安全策略变成运行时输入，不用再为新规则重新训练模型，这对需要频繁调整审核标准的团队来说是个实用的发布。

15:58

The Decoder：AI News（RSS）

55

AI models often give the right answers but point to the wrong sources

北京大学研究人员发现，GPT 和 Gemini 等主流大语言模型在进行文档分析时，经常引用无法支持其答案的文本段落。即便答案本身正确，被引用的证据也常是错误的。研究人员将此现象称为“归因幻觉”，并指出这是法律和医疗等受监管领域的风险。为此，他们提出了首个系统性测试该问题的新基准 CiteVQA。

Google OpenAI 安全/对齐论文/研究

15:25

蚂蚁 inclusionAI：GitHub 新仓库

精选67

蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard

SingGuard 是蚂蚁 inclusionAI 开源的多模态安全护栏模型族，提供 2B、4B、8B 三个参数版本。它将安全策略作为运行时输入，支持文本、图像、图文、多语言及查询/回复侧的安全评估，无需重新训练即可适配不同规则。采用快慢动态推理机制，在低延迟场景下输出紧凑判断，对模糊或高风险内容进行策略引导的推理。在多模态安全、图像安全、文本查询与回复安全、多语言查询与回复安全等基准上达到 SOTA 平均性能。模型已上架 HuggingFace 和 ModelScope。

多模态安全/对齐模型发布

推荐理由：蚂蚁 inclusionAI 把安全护栏做成了“运行时可配置”的模型，换审核规则不用重训，对需要快速适配法规的团队是个真需求。不过生态刚起步，暂时还是小众工具。

08:00

HuggingFace Daily Papers（社区热门论文）

59

LLM能够内省吗？现实检验

针对“大语言模型能否检视并报告其内部状态”这一问题，本文基于人类元认知研究指出，现有结论可能为时过早。作者重新审视了两个评估范式：在第一个范式中，模型无法可靠区分针对其内部状态的干预与输入操纵；在第二个范式中，仅访问输入的分类器能达到与模型自身预测相当的性能，且引入的重新标记控制实验显示模型表现接近随机。这些结果表明，当前证据不足以确立LLM展现出真正的内省或元认知监控能力。

arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

D^2-Monitor：一种基于"安全犹豫"路由的扩散大语言模型动态安全监控方法

针对扩散大语言模型（D-LLM）安全监控的空白，研究发现其中间隐藏状态反复接近探测器决策边界的“安全犹豫”信号最能预测轻量级监控器的失败。基于此，提出了D^2-Monitor双层架构：使用一个参数不超过0.85M的轻量探测器作为基础分类器，当犹豫水平超阈值时，动态激活一个更强的探测器。在WildguardMix等3个数据集和4个D-LLM上的评估显示，该架构以紧凑规模实现了效果与效率的最佳平衡。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

激活预言机的置信度与校准研究

本研究调查了6种用于估计激活预言机置信度的方法，并评估其校准程度。实验针对Qwen3-8B和通义千问（Qwen3.6-27B）两个模型进行，每个预言机测试6000个样本。结果显示，引导模式频率是校准效果最佳的方法，其ECE在两个模型上分别为5.7%和10.3%，显著优于作为基线的答案词对数概率方法。此外，对数概率基线可作为一种低成本的快速筛选信号。

GitHub 安全/对齐论文/研究

06:06

TechCrunch：AI（RSS）

65

所有人正在实时应对AI安全挑战--Google也不例外

原文指出，我们正处于过渡期，所有人——包括Google这样的科技巨头——都在实时应对AI安全挑战。

Google 安全/对齐现象/趋势

05:18

Emad@EMostaque

34

说实话，我原以为他们是在讨论不接受18岁以下的研究员。那个年龄段确实有一些非常优秀的AI研究员。

Overlap: Business & Tech: Anthropic Doesn't Allow Kids Under 18 - Here's Why⁣ ⁣ "We just don't know enough about what AI is going to do to kids. I...

Anthropic 大佬观点安全/对齐

1…22 232425 26…42