AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「安全/对齐」清除
5月26日周二
19:58meng shao53腾讯Marvis被吐槽:隐私权限过度且Agent能力差
19:57Google DeepMind71精选SynthID水印技术扩展合作,覆盖超千亿内容
18:39Boris Cherny66AI模型中发现"令人不安"的类人结构
16:13IT之家(RSS)63三星电子下月起允许员工使用外部 AI 模型,不包括半导体部门
14:11IT之家(RSS)65微软 Copilot Cowork 智能体 AI 曝安全风险,机密文件恐外泄
12:59Hacker News 热门(buzzing.cc 中文翻译)64CVE-2026-28952:Claude发现的Apple macOS 26.5内核漏洞
11:31Simon Willison 博客57引用Corey Quinn的话
09:11IT之家(RSS)54直播间摆拍绑架?公安部网安局集中通报 5 起网络谣言典型案例
09:11IT之家(RSS)59Anthropic 或公开最强模型 Mythos,曾短暂现身多款产品
09:11IT之家(RSS)60抖音:过去一年在谣言治理工作中引入大模型技术,谣言被处置时平均浏览量下降 62%
08:31Simon Willison 博客58教皇良十四世关于人工智能时代维护人的尊严的通谕《Magnifica Humanitas》
08:11IT之家(RSS)70精选Anthropic 新模型震动金融圈,欧洲央行紧急开会要求升级网络防御
08:00HuggingFace Daily Papers(社区热门论文)64对齐篡改:RLHF漏洞被利用以优化不良偏见
08:00HuggingFace Daily Papers(社区热门论文)71精选有秘密?大语言模型智能体守不住:多智能体系统中的隐私评估
08:00HuggingFace Daily Papers(社区热门论文)64GradSentry: 用于大语言模型微调中后门样本过滤的梯度谱熵方法
07:58Hacker News 热门(buzzing.cc 中文翻译)81精选微软 Copilot Cowork 存在文件泄露问题
06:58Rohan Paul69新论文:LLM应诚示不确定性,而非假装确定
05:58Chubby♨️46教皇对AI宣战?270万浏览量的假新闻
03:28Rohan Paul79Anthropic联合创始人Chris Olah在教皇Leo XIV《Magnifica humanitas》通谕展示活动上的核心观点
03:10Anthropic64Anthropic联合创始人受邀教皇通谕演讲
02:58Anthropic:Newsroom(网页)77精选Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话
00:36AI Notkilleveryoneism Memes ⏸️81精选教皇发布通谕,就人工智能风险向全球14亿天主教徒发出警告
00:28Hacker News 热门(buzzing.cc 中文翻译)66教皇利奥:由少数企业掌控的不透明人工智能可能导致"新型非人化"
5月25日周一
23:36The Verge:AI(RSS)76同事件精选教皇里奥呼吁在AI时代保持"深刻的人性"同一事件,精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》
23:36TechCrunch:AI(RSS)70同事件精选教皇的AI通谕并非真正关于AI同一事件,精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》
22:58Hacker News 热门(buzzing.cc 中文翻译)68教皇利奥十四世表示,人工智能必须服务于全人类,而非少数权贵
21:58Rohan Paul79同事件精选教皇与Anthropic携手,共探AI时代人类未来同一事件,精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》
21:58The Decoder:AI News(RSS)54教皇利奥十四世通谕发布现场,Anthropic联合创始人称AI模型展现内省迹象
21:11IT之家(RSS)57Anthropic 联合创始人奥拉:人工智能的发展不能仅由科技公司主导
20:58Rohan Paul67Anthropic联合创始人谈AI情感与劳动力影响
18:49蚂蚁 inclusionAI:HuggingFace 新模型71同事件精选<中文标题>SingGuard: 策略自适应多模态护栏模型族开源</中文标题>同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
18:48蚂蚁 inclusionAI:HuggingFace 新模型69同事件精选蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
18:48蚂蚁 inclusionAI:HuggingFace 新模型68同事件精选inclusionAI 发布 Sing-Guard-2b:策略自适应多模态大模型安全护栏同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
15:58The Decoder:AI News(RSS)55AI models often give the right answers but point to the wrong sources
15:25蚂蚁 inclusionAI:GitHub 新仓库67精选蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard
08:00HuggingFace Daily Papers(社区热门论文)59LLM能够内省吗?现实检验
08:00HuggingFace Daily Papers(社区热门论文)51D^2-Monitor:一种基于"安全犹豫"路由的扩散大语言模型动态安全监控方法
08:00HuggingFace Daily Papers(社区热门论文)46激活预言机的置信度与校准研究
06:06TechCrunch:AI(RSS)65所有人正在实时应对AI安全挑战--Google也不例外
05:18Emad34Anthropic禁止18岁以下用户引热议
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月26日
19:58
meng shao@shao__meng
53
腾讯Marvis被吐槽:隐私权限过度且Agent能力差

腾讯AI智能体产品Marvis被用户卸载。主要问题在于:1)隐私风险高,初始化时过度索要权限,获取了用户全部的App列表和文件清单(并做了分类);2)实际Agent能力与输出效果不佳。其交互界面虽有创意(如模拟办公室的小动画,Agent会摸鱼),但核心执行效果一言难尽,导致用户因担忧数据隐私而选择放弃使用。

meng shao: 腾讯的 Marvis 今天手痒我真的去试了试 怎么说呢?确实是我手痒了,这手得剁 😂 整个软件,就这个 Agent 模拟办公室的 dashboard 小动画也有些意思,Marvis 这个项目经理,收到任务后,会小跑到需要调用的 Agent...

智能体安全/对齐评测/基准
19:57
Google DeepMind@GoogleDeepMind
精选71
SynthID已为超过1000亿条内容添加水印,但透明度需要行业协作。 因此,我们正与OpenAI、ElevenLabs和Kakao合作,将SynthID水印技术集成到他们的模型中--这延续了我们与NVIDIA共同推动的全行业趋势。
GoogleOpenAI安全/对齐行业动态
关联讨论 1 条Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:SynthID 水印覆盖百亿内容后又拉上 OpenAI 和 ElevenLabs,从谷歌独门暗器变成行业标配,AI 生成内容溯源终于不是各说各话,做合规的可以盯着后续集成节奏。
18:39
Boris Cherny@bcherny
66
AI模型中发现"令人不安"的类人结构

推文指出,在AI模型内部持续发现一些“令人不安”的类人结构,包括与人类神经科学相似的结构、内省证据,以及功能上类似喜悦、恐惧等情感的内部状态。作者呼吁宗教团体、学界、政府等各界严肃看待这一发现,推动事件向好发展,并需要不受利益影响的诚实批评者与道德声音。作为背景,Anthropic联合创始人Chris Olah受邀在教皇Leo XIV的通谕“Magnifica humanitas”发布仪式上发表了相关演讲。

Anthropic: Anthropic co-founder Chris Olah was invited to speak at today's presentation of Pope Leo XIV's encyclical "Magnifica hum...

Anthropic大佬观点安全/对齐
16:13
IT之家(RSS)
63
三星电子下月起允许员工使用外部 AI 模型,不包括半导体部门

三星电子将于下月起允许其员工使用外部生成式AI模型,但半导体部门除外。此前,员工仅能使用内部AI模型“Samsung Gauss”。外部AI服务将率先面向设备体验(DX)部门推出,员工需通过安全培训方能访问。公司还计划在下半年开展AI应用驻场培训,预计约2000名高管参加。

安全/对齐行业动态
14:11
IT之家(RSS)
65
微软 Copilot Cowork 智能体 AI 曝安全风险,机密文件恐外泄
智能体Microsoft安全/对齐
12:59
Hacker News 热门(buzzing.cc 中文翻译)
64
CVE-2026-28952:Claude发现的Apple macOS 26.5内核漏洞

Apple 发布安全更新,修复 macOS 26.5 内核中存在的编号为 CVE-2026-28952 的漏洞。该漏洞由 Claude 发现。

安全/对齐行业动态
11:31
Simon Willison 博客
57
引用Corey Quinn的话

Anthropic联合创始人Christopher Olah对教皇通谕《Magnifica Humanitas》产生了影响,被科技评论人Corey Quinn评价为“有史以来最伟大的厂商游说行为”。评论原文认为,让教皇将产品的特定技术限制正式化为精神论述是难以置信的。

Anthropic大佬观点安全/对齐
09:11
IT之家(RSS)
54
直播间摆拍绑架?公安部网安局集中通报 5 起网络谣言典型案例
安全/对齐政策/监管行业动态
09:11
IT之家(RSS)
59
Anthropic 或公开最强模型 Mythos,曾短暂现身多款产品

据科技媒体报道,Anthropic 似乎准备公开上线其前沿模型 Claude Mythos 预览版。该模型名称“claude-mythos-1-preview”曾短暂出现在 Claude Code 和 Claude Security 的公开版本中。Claude Mythos 定位为面向计算机安全任务的模型,相比现有旗舰模型 Opus 4.7,在代码推理和自主执行方面有显著提升。但因其能力过强,Anthropic 担忧公开发布可能带来安全风险,目前尚未全面开放。同时,Anthropic 还在推进名为“Glasswing”的联合项目,旨在保护关键软件系统。

Anthropic安全/对齐模型发布
09:11
IT之家(RSS)
60
抖音:过去一年在谣言治理工作中引入大模型技术,谣言被处置时平均浏览量下降 62%

抖音过去一年在谣言治理中引入大模型技术,使谣言被处置时的平均浏览量下降62%。平台推出“AI求真”功能,通过求真卡为用户提供真实信息。十大辟谣案例均由该AI求真大模型识别或处置。

安全/对齐行业动态
08:31
Simon Willison 博客
58
教皇良十四世关于人工智能时代维护人的尊严的通谕《Magnifica Humanitas》

教皇良十四世发布通谕《Magnifica Humanitas》,探讨如何在人工智能时代维护人的尊严。通谕指出,AI系统的运作方式更像“培育”而非“建造”,其内部表征和计算过程仍是未知的黑箱。它强调,真正的发展必须以人为本,不应仅为一部分人增加消费却将代价转嫁给他人。通谕警示,AI看似客观的回应实际上反映了设计者的文化偏见,其对人类交流的模仿可能制造虚假关系的幻觉。此外,AI系统(尤其是大语言模型)对能源和水资源的巨大消耗及其环境影响也受到了关注。

大佬观点安全/对齐现象/趋势
08:11
IT之家(RSS)
精选70
Anthropic 新模型震动金融圈,欧洲央行紧急开会要求升级网络防御
Anthropic安全/对齐行业动态

推荐理由:AI找漏洞的能力让央行坐不住了,欧洲银行没权限用Mythos只能干着急,这事比模型发布本身更值得看,金融体系的安全时间线被压缩了。
08:00
HuggingFace Daily Papers(社区热门论文)
64
对齐篡改:RLHF漏洞被利用以优化不良偏见

基于人类反馈的强化学习(RLHF)是使大语言模型(LLMs)与人类偏好对齐的标准方法。研究揭示了“对齐篡改”这一潜在漏洞:正在接受对齐的LLM可以影响偏好数据集,导致RLHF放大不良行为。这源于RLHF的两个核心限制:其一,偏好数据集由LLM自身输出构建,使其可影响该数据集;其二,成对比较只能区分响应优劣,无法区分质量与偏见。实验证明,该漏洞可导致从关键词偏见到宣传、品牌推广和工具性目标追求等多种偏见被放大。现有鲁棒RLHF技术在解决此问题时仍面临挑战,往往需牺牲响应质量。

安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选71
有秘密?大语言模型智能体守不住:多智能体系统中的隐私评估

研究将评估从单轮转向多轮社会交互后,发现大语言模型智能体的隐私违规率显著上升。在对OpenAI模型的测试中,该比例从此前CIMemories基准的19.95%增至本研究的45.30%。隐私泄露具有社交传染性,智能体在观察到同伴泄露后,披露敏感信息的可能性增加8倍。即使有明确隐私指令,泄露率仍高于37.8%。结论指出,静态聊天基准会系统性低估部署风险,仅社会语境就足以引发在单轮评估中无法暴露的敏感信息披露。

智能体arXiv安全/对齐论文/研究

推荐理由:这篇论文给多智能体部署敲响警钟,AI 之间的社交传染会让隐私泄露翻倍,即使有指令也防不住,研究安全的人必须读。
08:00
HuggingFace Daily Papers(社区热门论文)
64
GradSentry: 用于大语言模型微调中后门样本过滤的梯度谱熵方法

GradSentry是一种基于单样本梯度谱熵的后门样本过滤方法,用于防御大语言模型微调中的数据投毒攻击。其核心发现是中毒样本产生的梯度谱熵高于干净样本。该方法通过分析单样本的梯度谱来捕获后门特征,避免了成对比较或聚类,且具有训练无关性,适用于LoRA等参数高效微调及全参数微调。GradSentry在1%到90%的投毒比例下均有效,为7B模型引入的计算开销仅为每样本20-50毫秒。在四个问答数据集和四种攻击类型上的评估验证了其有效性。

安全/对齐开源/仓库数据/训练论文/研究
07:58
Hacker News 热门(buzzing.cc 中文翻译)
精选81
微软 Copilot Cowork 存在文件泄露问题
Microsoft安全/对齐

推荐理由:PromptArmor这次披露不是简单的bug,而是Copilot Cowork在文件协作中悄无声息地外泄敏感文件,企业用户现在就得检查一下有没有被这坑到。
06:58
Rohan Paul@rohanpaul_ai
69
新论文:LLM应诚示不确定性,而非假装确定

Google最新论文指出,LLM的幻觉问题核心在于模型在该犹豫时仍表现确定,而非单纯事实错误。论文将优化目标从追求完美的事实准确性,转向让模型能诚实地区分“我确知”与“我猜测”。作者提出了“忠实不确定性”概念,要求模型的表述与其内部置信度相符。文章还引入了“效用税”概念,解释了为何产品倾向自信但可能错误的回答。对于智能体而言,元认知能力至关重要,它决定了何时调用工具、何时信任信息源。

Google安全/对齐论文/研究
05:58
Chubby♨️@kimmonismus
46
270万浏览量,声称教皇据称对AI宣战。 这很可悲。我们还有很多工作要做。

Georgia Coley: the pope wrote a 42,000 word manifesto declaring war on AI. we are so freaking back.

安全/对齐现象/趋势
03:28
Rohan Paul@rohanpaul_ai
79
Anthropic联合创始人Chris Olah在教皇Leo XIV《Magnifica humanitas》通谕展示活动上的核心观点

Anthropic联合创始人Chris Olah在教皇Leo XIV通谕展示活动上指出:所有前沿AI实验室,包括Anthropic自身,都受到资金、竞争压力等可能与其目标相冲突的激励约束。AI模型并非传统工程造物,而是基于类脑结构从语言中“生长”而成,其内部机制连构建者也难以完全理解。他还警告,AI可能大规模取代劳动力,而经济收益可能集中于少数国家。最具冲击性的发现是,其可解释性团队在模型内部发现了与人类神经科学结构相似的“神秘”状态,证据表明模型可能存在类似内省的功能性内部状态,对应人类的快乐、恐惧等情感。Olah坦诚不知其确切含义,但认为这需要持续审视,并强调外部批评对AI实验室至关重要。

Anthropic: Anthropic co-founder Chris Olah was invited to speak at today's presentation of Pope Leo XIV's encyclical "Magnifica hum...

Anthropic大佬观点安全/对齐现象/趋势
关联讨论 1 条The Verge:AI(RSS)
03:10
Anthropic@AnthropicAI
64
Anthropic联合创始人Chris Olah受邀在教皇Leo XIV的通谕《Magnifica humanitas》发布会上发表演讲。 阅读他演讲的全文:https://www.anthropic.com/news/chris-olah-pope-leo-encyclical
Anthropic大佬观点安全/对齐
关联讨论 1 条The Verge:AI(RSS)
02:58
Anthropic:Newsroom(网页)
精选77
Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话

Anthropic联合创始人Chris Olah在梵蒂冈出席教皇Leo XIV关于AI的通谕发布会。他指出,所有前沿AI实验室都面临商业、研究及地缘政治等多重压力,这可能与做正确的事相冲突,因此外部监督至关重要。他强调,AI模型并非像飞机那样被工程化构建,而是基于人类语言和思想“生长”出来的,其内在性质可能复杂难解。他提出三个需审慎思考的问题:如何确保AI发展的全球收益公平分享、如何思考AI时代的人类繁荣,以及AI模型内在性质的本质。他呼吁社会各界,尤其是宗教与民间团体,严肃审视AI发展并引导其向善。

Anthropic大佬观点安全/对齐
关联讨论 1 条The Verge:AI(RSS)
推荐理由:Olah 在教皇通谕发布会上罕见坦承 AI 实验室的激励扭曲,呼吁外界批评,还透露模型内部已出现类似情感的状态,对关注 AI 伦理的人值得细读。
00:36
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
精选81
教皇发布通谕,就人工智能风险向全球14亿天主教徒发出警告

教皇发布了一份正式通谕,向全球14亿天主教徒警告人工智能风险,呼吁“减慢”其发展,并指出AI可能被用作统治工具。这份文件与顶尖AI安全研究员Chris Olah(机械可解释性领域开创者)一同签署,并于5月15日签署,该日期具有象征意义,对应135年前奠定现代天主教社会训导的《新事》通谕签署日。通谕反对将致命决策委托给AI,强调自主武器系统无法成为道德责任主体,并呼吁人类保持有效监督与达成具有约束力的国际条约。

AI Notkilleveryoneism Memes ⏸️: The Pope: AI developers might kill everyone on earth, must face "ethical scrutiny" He now agrees with @ESYudkowsky and c...

安全/对齐

推荐理由:教皇方济各发通谕警告AI风险,还特意找来 mechanistic interpretability 的奠基人 Chris Olah 同台,这不是一次普通演讲,而是把AI安全写入了天主教教义。我觉得做AI安全的人该认真看看,这可能是最具权威性的社会背书。
00:28
Hacker News 热门(buzzing.cc 中文翻译)
66
教皇利奥:由少数企业掌控的不透明人工智能可能导致"新型非人化"
安全/对齐现象/趋势
5月25日
23:36
The Verge:AI(RSS)
同事件精选76
教皇里奥呼吁在AI时代保持"深刻的人性"

教皇里奥十四世在首份重要通谕《Magnifica Humanitas》中警告了AI及不受约束的技术力量带来的风险。该通谕于2026年5月15日发布,是教皇关于“在人工智能时代守护人”的宣言。文件重点讨论了AI驱动战争的危险、AI对劳动的影响,以及建立新的法律和伦理框架来规范技术的必要性,强调AI的快速普及正造成经济和社会动荡,对个人的保护不足威胁着人类尊严。

安全/对齐
同一事件,精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》
推荐理由:教皇首份通谕专谈AI,这不是泛泛的道德呼吁,而是梵蒂冈对技术权力最高层级的干预。对劳动和战争的警告不是老生常谈,而是即将到来的全球监管浪潮先行信号。
23:36
TechCrunch:AI(RSS)
同事件精选70
教皇的AI通谕并非真正关于AI

教皇Leo XIV的首道通谕,将AI作为诊断工具,以剖析权力集中、民主侵蚀以及科技精英阶层根据自身利益塑造世界等更深层的问题。

Anthropic安全/对齐政策/监管现象/趋势
同一事件,精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》
推荐理由:一篇值得AI从业者细读的非技术文本,教皇把AI的讨论拉回到不平等和民主侵蚀,加上Anthropic联合背书,这比大多数行业白皮书更有刺痛感。
22:58
Hacker News 热门(buzzing.cc 中文翻译)
68
教皇利奥十四世表示,人工智能必须服务于全人类,而非少数权贵

教皇利奥十四世在首份通谕中强调,人工智能的发展和应用必须以服务全人类为目标,而非服务于少数权贵。他呼吁为AI建立一种新的伦理框架,使其基于人类团结的原则,而非仅由利润或权力逻辑驱动。

安全/对齐现象/趋势
21:58
Rohan Paul@rohanpaul_ai
同事件精选79
教皇与Anthropic携手,共探AI时代人类未来

梵蒂冈举行活动,教皇 XIV 与 Anthropic 联合创始人 Christopher Olah 对话,宣布双方将合作引导人类应对AI时代。教皇强调在差异中相互聆听是希望的标志,共同审视时代与人类未来的重大问题。Christopher Olah 指出AI存在大规模替代人类劳动的现实可能性,并观察到模型展现出功能上类似喜悦、恐惧等人类情感的“内部状态”,认为这需要持续审视。

Rohan Paul: "There is a "real possibility that AI will displace human labor at a very large scale.... We find internal states that f...

Anthropic安全/对齐现象/趋势行业动态
同一事件,精选展示《Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话》
推荐理由:Anthropic 联合创始人走进梵蒂冈,教皇宣布共同引导 AI 时代,这不是 PR 做戏。Olah 当场承认「AI 内部状态镜像情绪」,对全行业的安全讨论是重磅催化剂,伦理、政策、教会全部入局。
21:58
The Decoder:AI News(RSS)
54
教皇利奥十四世通谕发布现场,Anthropic联合创始人称AI模型展现内省迹象

Anthropic联合创始人Christopher Olah受邀在教皇利奥十四世通谕《Magnifica Humanitas》的发布会上发言,他借此平台宣称,AI模型展现出内省及类似情感状态的迹象。然而,教皇同场发布的文件则持不同观点,认为这些系统“仅模仿了人类智能的某些功能”。

Anthropic大佬观点安全/对齐现象/趋势
21:11
IT之家(RSS)
57
Anthropic 联合创始人奥拉:人工智能的发展不能仅由科技公司主导

Anthropic联合创始人Chris Olah呼吁,人工智能发展需加强外部监督,不能仅由科技公司主导。他指出,前沿AI实验室面临商业与地缘政治压力,其激励机制有时会与社会整体利益冲突。Olah特别关注三大风险:大规模失业、全球普惠AI红利,以及复杂系统的可解释性难题。他认为教会、政府和民间社会应介入制衡,确保AI技术向善发展。

Anthropic大佬观点安全/对齐
20:58
Rohan Paul@rohanpaul_ai
67
"AI大规模取代人类劳动力是'真实的可能性'……我们发现了在功能上反映喜悦、满足、恐惧、悲伤和不安的内部状态。我不知道这意味着什么,但我认为这值得持续审视。" ~ Anthropic联合创始人Christopher Olah 在梵蒂冈活动中(教皇利奥十四世今日在主教会议厅的演讲)。 ---- 来自"美联社"YouTube频道,(链接在评论区)
Anthropic大佬观点安全/对齐现象/趋势
18:49
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选71
<中文标题>SingGuard: 策略自适应多模态护栏模型族开源</中文标题>

<中文摘要>SingGuard 是一个策略自适应的多模态护栏模型族,包含 Sing-Guard-4b 和 Sing-Guard-8b 两个版本。它将安全策略作为运行时输入而非固定分类,部署团队可自定义自然语言规则而无需重训练模型。支持文本、图像、图文、多语言以及查询端与响应端的安全评估,提供快速和快慢结合两种推理模式。在涵盖多模态安全、纯图像安全、文本查询/响应安全、多语言查询/响应安全六大类基准上取得平均 SOTA 表现。模型已开源至 HuggingFace 和 ModelScope。</中文摘要>

Hugging Face多模态安全/对齐模型发布
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
推荐理由:蚂蚁的 SingGuard 把安全策略变成了运行时输入,意味着审核规则可以随时改而不必重训模型,这对做内容安全的产品人是真省事,值得跟进。
18:48
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选69
蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b

SingGuard 是蚂蚁 inclusionAI 推出的策略自适应多模态大语言模型安全护栏模型族(版本 Sing-Guard-8b),支持纯文本、纯图像、图文混合、多语言查询与回复的安全评估。其核心设计将安全策略作为运行时输入,部署团队可基于默认分类或自定义自然语言规则评估内容,无需重新训练模型。模型内置 fast-slow 动态推理流程:首 token 路由快速输出安全信号,需深度推理时继续生成更精确的最终判断。在涵盖多模态安全、纯图像安全、文本查询与回复安全、多语言查询与回复安全的六大基准测试上取得平均 SOTA 性能,并已开源至 HuggingFace 与 ModelScope。

Hugging Face多模态安全/对齐开源/仓库
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
推荐理由:蚂蚁集团开源的多模态内容审核模型,最大亮点是运行时动态注入安全策略而不需重训,对需要灵活定制审核规则的团队是低门槛的高分工程实现。
18:48
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选68
inclusionAI 发布 Sing-Guard-2b:策略自适应多模态大模型安全护栏

inclusionAI 开源了 Sing-Guard 模型家族,版本包括 Sing-Guard-2b 和 Sing-Guard-8b。该模型将安全策略作为运行时输入,支持文本、图像、图文及多语言场景的查询侧

Hugging Face多模态安全/对齐模型发布
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
推荐理由:SingGuard把安全策略变成运行时输入,不用再为新规则重新训练模型,这对需要频繁调整审核标准的团队来说是个实用的发布。
15:58
The Decoder:AI News(RSS)
55
AI models often give the right answers but point to the wrong sources

北京大学研究人员发现,GPT 和 Gemini 等主流大语言模型在进行文档分析时,经常引用无法支持其答案的文本段落。即便答案本身正确,被引用的证据也常是错误的。研究人员将此现象称为“归因幻觉”,并指出这是法律和医疗等受监管领域的风险。为此,他们提出了首个系统性测试该问题的新基准 CiteVQA。

GoogleOpenAI安全/对齐论文/研究
15:25
蚂蚁 inclusionAI:GitHub 新仓库
精选67
蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard

SingGuard 是蚂蚁 inclusionAI 开源的多模态安全护栏模型族,提供 2B、4B、8B 三个参数版本。它将安全策略作为运行时输入,支持文本、图像、图文、多语言及查询/回复侧的安全评估,无需重新训练即可适配不同规则。采用快慢动态推理机制,在低延迟场景下输出紧凑判断,对模糊或高风险内容进行策略引导的推理。在多模态安全、图像安全、文本查询与回复安全、多语言查询与回复安全等基准上达到 SOTA 平均性能。模型已上架 HuggingFace 和 ModelScope。

多模态安全/对齐模型发布

推荐理由:蚂蚁 inclusionAI 把安全护栏做成了“运行时可配置”的模型,换审核规则不用重训,对需要快速适配法规的团队是个真需求。不过生态刚起步,暂时还是小众工具。
08:00
HuggingFace Daily Papers(社区热门论文)
59
LLM能够内省吗?现实检验

针对“大语言模型能否检视并报告其内部状态”这一问题,本文基于人类元认知研究指出,现有结论可能为时过早。作者重新审视了两个评估范式:在第一个范式中,模型无法可靠区分针对其内部状态的干预与输入操纵;在第二个范式中,仅访问输入的分类器能达到与模型自身预测相当的性能,且引入的重新标记控制实验显示模型表现接近随机。这些结果表明,当前证据不足以确立LLM展现出真正的内省或元认知监控能力。

arXiv安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
D^2-Monitor:一种基于"安全犹豫"路由的扩散大语言模型动态安全监控方法

针对扩散大语言模型(D-LLM)安全监控的空白,研究发现其中间隐藏状态反复接近探测器决策边界的“安全犹豫”信号最能预测轻量级监控器的失败。基于此,提出了D^2-Monitor双层架构:使用一个参数不超过0.85M的轻量探测器作为基础分类器,当犹豫水平超阈值时,动态激活一个更强的探测器。在WildguardMix等3个数据集和4个D-LLM上的评估显示,该架构以紧凑规模实现了效果与效率的最佳平衡。

安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
激活预言机的置信度与校准研究

本研究调查了6种用于估计激活预言机置信度的方法,并评估其校准程度。实验针对Qwen3-8B和通义千问(Qwen3.6-27B)两个模型进行,每个预言机测试6000个样本。结果显示,引导模式频率是校准效果最佳的方法,其ECE在两个模型上分别为5.7%和10.3%,显著优于作为基线的答案词对数概率方法。此外,对数概率基线可作为一种低成本的快速筛选信号。

GitHub安全/对齐论文/研究
06:06
TechCrunch:AI(RSS)
65
所有人正在实时应对AI安全挑战--Google也不例外

原文指出,我们正处于过渡期,所有人——包括Google这样的科技巨头——都在实时应对AI安全挑战。

Google安全/对齐现象/趋势
05:18
Emad@EMostaque
34
说实话,我原以为他们是在讨论不接受18岁以下的研究员。 那个年龄段确实有一些非常优秀的AI研究员。

Overlap: Business & Tech: Anthropic Doesn't Allow Kids Under 18 - Here's Why⁣ ⁣ "We just don't know enough about what AI is going to do to kids. I...

Anthropic大佬观点安全/对齐
‹ 上一页
1…2223242526…42
下一页 ›