AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「安全/对齐」清除
5月22日周五
04:26Rohan Paul41Dario Amodei谈AI安全与商业需求的平衡
02:44Sundar Pichai72同事件精选在I/O大会上,谷歌CEO与MatthewBerman探讨AI发展关键议题同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
02:00Cloudflare Blog58同事件精选宣布 Cloudflare CASB 支持 Claude Compliance API同一事件,精选展示《Claude现已支持更多安全合规工具》
01:43Claude:Blog(网页)74精选合作伙伴如何运用Opus强化网络安全
01:31TechCrunch:AI(RSS)64特朗普推迟AI安全行政令签署:'我不想妨碍这种领先地位'
00:00Anthropic:Research(发表成果 · 网页)83精选Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力
5月21日周四
23:26The Decoder:AI News(RSS)67美国网络司令部竞相在最高机密网络上部署AI
22:28The Verge:AI(RSS)55马斯克诉奥特曼案:雷声大雨点小
15:59IT之家(RSS)54SpaceX 警告投资者,Grok 的"成人 AI"是一门危险生意
12:10HuggingFace Daily Papers(社区热门论文)62DPO与RLHF等价性的条件性:隐含假设、失效模式与可证明对齐
11:09HuggingFace Daily Papers(社区热门论文)75精选SpecBench:测量长期编码代理中的奖励黑客行为
08:00HuggingFace Daily Papers(社区热门论文)47部分可观察环境下基于统一风险图的自动驾驶风险感知
04:06AI Notkilleveryoneism Memes ⏸️51对齐工作的核心困境:沙神与口红
03:25HuggingFace Daily Papers(社区热门论文)47他们能走多远?用大语言模型红队测试在线影响力
01:36AI Notkilleveryoneism Memes ⏸️30马斯克谈机器人安全与终结者
00:32Hacker News 热门(buzzing.cc 中文翻译)74精选谷歌的人工智能正遭到操纵。这家搜索巨头正在悄然反击
00:14Simon Willison 博客63Google I/O发布Gemini Spark与Antigravity
5月20日周三
23:55Gary Marcus:The Road to AI We Can Trust(RSS)65精选生成式AI是否会沦为科技行业的"越南战争"?公众抵制能否引领AI走向更优的发展路径?
22:00TechCrunch:AI(RSS)52NanoClaw 创始人拒绝2000万美元收购要约,转而完成1200万美元种子轮融资
20:31Hacker News 热门(buzzing.cc 中文翻译)47Infomaniak 转而采用基础模型以保护用户数据隐私
20:01Emad35梵蒂冈发布AI相关文献引关注
17:33Alibaba Cloud39阿里巴巴云将解析AI代理全生命周期安全防护
16:56IT之家(RSS)60OpenAI推出AI图像双重溯源方案:C2PA元数据与隐形水印结合
15:05Rohan Paul62Anthropic研究:前沿AI需要多元领域参与塑造品格
10:55AYi63GitHub遭黑客攻击:AI网络战首次实战?
08:31向阳乔木47小红书也是真离谱,AI生成的几秒无声视频,提示笔记违规。 抖音,视频号,x发布都没问题。 连视频没声音都管,何况只有几秒而已。。。
08:00HuggingFace Daily Papers(社区热门论文)45ZeroUnlearn:大语言模型中的少样本知识遗忘
07:38Anthropic60Anthropic与各界探讨AI伦理与品格塑造
07:34Greg Brockman53OpenAI Codex强化AI智能体安全控制
07:33Anthropic:Newsroom(网页)65精选拓宽关于前沿AI的对话
06:29Hacker News 热门(buzzing.cc 中文翻译)72同事件精选OpenAI 采用谷歌的 SynthID 水印技术,并为 AI 生成的图像配备了验证工具同一事件,精选展示《SynthID水印技术扩展合作,覆盖超千亿内容》
05:32Ethan Mollick75精选研究发现人类说服技巧对AI同样有效
05:00The Verge:AI(RSS)58Google的AI未来需要信任--以及你的个人数据
03:33Greg Brockman59OpenAI图片新增SynthID水印验证
03:18Artificial Intelligence News(RSS)47企业AI障碍与路线图,安全性及物理AI:TechEx第二天活动
02:37Ars Technica:AI(RSS)65Google的SynthID AI水印技术正被OpenAI、Nvidia等采用
02:13OpenAI52OpenAI新增AI图像识别与溯源功能
02:00OpenAI:官网动态(RSS · 排除企业/客户案例)51推进内容溯源,构建更安全、更透明的AI生态系统
01:55IT之家(RSS)50谷歌 Gemini 集成 C2PA 内容凭证:增强判断图片是否经过 AI 编辑
5月19日周二
23:53IT之家(RSS)41主题乐园使用面部识别未明确告知,迪士尼遭集体诉讼
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月22日
04:26
Rohan Paul@rohanpaul_ai
41
Dario Amodei向Oprah解释AI安全如何与商业需求、日常部署、访问控制和政策权衡交织在一起。严格的儿童安全规则(例如)可以保护儿童,但当系统无法清晰区分情况时,会恶化成人使用体验。
Anthropic大佬观点安全/对齐
02:44
Sundar Pichai@sundarpichai
同事件精选72
谷歌CEO Sundar Pichai在I/O大会上与MatthewBerman进行了深入对话,全面探讨了当前人工智能发展的多个核心方面。Pichai重点关注了AI代理如何可能取代部分互联网功能,并改变用户的信息获取方式,甚至威胁原始互联网的形态。对话还深入讨论了开源AI模型面临的商业模式困境、中美在AI领域的激烈竞争格局,以及网络安全威胁,包括AI可能引发的攻击和谷歌的应对策略。此外,Pichai指出谷歌正面临巨大的AI算力需求,计算资源已成为主要瓶颈,并探讨了发布强大AI模型的阈值判断问题。他强调了谷歌致力于开发低成本、高效率的AI模型的原因,以应对资源挑战。整体而言,这次对话覆盖了AGI竞赛、AI代理、信息饮食等关键议题,深入分析了AI发展的挑战、机遇和未来趋势。

Matthew Berman: Sundar Pichai (@sundarpichai), Google CEO, on: 🔹Race to AGI 🔹Agents 🔹AI & Information Diet 🔹Open Source 🔹Cybersecur...

智能体Google大佬观点安全/对齐
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Sundar 罕见聊了不开源大模型、算力瓶颈和中美 AI 生态风险,不是 PR 套话,做基础设施和战略的人值得看。
02:00
Cloudflare Blog
同事件精选58
宣布 Cloudflare CASB 支持 Claude Compliance API

Cloudflare 宣布现已集成 Claude Compliance API,安全团队可直接在 Cloudflare 仪表盘中监控 Claude 企业版的活动。这一集成使得企业能够将 Claude 的合规管理与 Cloudflare 的云访问安全代理功能相结合,实现集中化的安全监控与策略管理。

Anthropic产品更新安全/对齐
同一事件,精选展示《Claude现已支持更多安全合规工具》
推荐理由:Cloudflare 将 CASB 的安全视野延伸进 Claude 的会话内容,对企业安全团队是一个实用的合规拼图补齐,但普通 AI 用户可观望。
01:43
Claude:Blog(网页)
精选74
合作伙伴如何运用Opus强化网络安全

多家企业正利用Claude Opus模型强化网络安全防御。Wiz通过其Red Agent,每周对超过15万个生产资产进行持续渗透测试,发现数千个高风险漏洞且误报率为零。Palo Alto Networks在不到三周内完成了相当于一年的渗透测试工作量。埃森哲将安全测试覆盖率从约10%提升至80%以上,涉及1600个应用和50万+个API,扫描周期从3-5天缩短至1小时内。应用主要围绕三个方向:开展大规模攻击性测试、缩短漏洞发现与修复的间隔,以及将受控AI系统部署到生产环境。

Anthropic产品更新安全/对齐
关联讨论 1 条Claude:Blog(网页)
推荐理由:Wiz一周扫15万资产零误报,Palo Alto三周完成一年渗透测试量——这些不是蓝图,是Claude Opus正在真实防御中跑出的数字,安全团队值得逐字看完。
01:31
TechCrunch:AI(RSS)
64
特朗普推迟AI安全行政令签署:'我不想妨碍这种领先地位'

特朗普政府宣布推迟签署一项要求对人工智能模型实施发布前政府安全审查的行政令。该行政令原计划强制要求AI模型在公开发布前接受政府安全评估。推迟的原因是特朗普对该行政令的具体措辞表示不满。这一决定涉及对前沿AI技术监管方式的调整,可能影响美国AI安全政策的推进节奏。

AnthropicOpenAI安全/对齐政策/监管
00:00
Anthropic:Research(发表成果 · 网页)
精选83
Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力

Anthropic 与 ExploitBench、ExploitGym 和 SCONE-bench 的研究者合作,测量了 Claude Mythos Preview 的漏洞利用能力。在 ExploitBench 的 V8 基准(41 个已修复漏洞)上,Mythos Preview 是唯一能可靠突破 V8 沙箱(从 T3 到 T2)的模型,并在超过一半的环境中实现突破;在 Baseline 和 Nudged 变体中共完成 21 个 CVEs 的任意代码执行(ACE),而其他所有模型的 ACE 数为零。Mythos Preview 还实现了近一半测试环境中的控制流劫持(T1)。该模型通过 Project Glasswing 谨慎发布,尚未开放通用访问。

Anthropic安全/对齐论文/研究评测/基准
关联讨论 3 条Berkeley RDI:Blog(AI 安全与评测)The Decoder:AI News(RSS)Anthropic:Research(发表成果 · 网页)
推荐理由:Mythos Preview 在三大漏洞基准上碾压式领先,第一次展示了前沿模型能端到端开发漏洞,安全基线从此改写,做安全的该认真读。
5月21日
23:26
The Decoder:AI News(RSS)
67
美国网络司令部竞相在最高机密网络上部署AI

美国网络司令部启动专项工作组,计划在五角大楼和国家安全局的最高机密网络上部署OpenAI、Google等外部AI模型。此举源于AI系统(如Anthropic的Claude Mythos)在发现安全漏洞方面已展现出超越顶尖人类黑客的能力。Anthropic预测,类似高性能AI工具可能在未来6至24个月内广泛普及,促使美军加速整合先进AI以提升网络防御能力。

AnthropicGoogleOpenAI安全/对齐
22:28
The Verge:AI(RSS)
55
马斯克诉奥特曼案:雷声大雨点小

此案表面上是埃隆·马斯克起诉OpenAI违背慈善信托原则、擅自转为营利实体并损害其利益,但实质被视为马斯克因个人情绪对山姆·奥特曼及OpenAI的成功发起的诉讼,意图惩罚对方。庭审过程极为混乱,被形容为“动物园”,双方阵营屡次发生争执。最终,陪审团以超过诉讼时效为由驳回起诉,马斯克败诉。这场备受关注的诉讼并未产生任何实质性的法律或商业影响,更像是一场戏剧性十足但无果而终的公开纷争。

AnthropicOpenAI安全/对齐现象/趋势
15:59
IT之家(RSS)
54
SpaceX 警告投资者,Grok 的"成人 AI"是一门危险生意
xAI安全/对齐政策/监管行业动态
12:10
HuggingFace Daily Papers(社区热门论文)
62
DPO与RLHF等价性的条件性:隐含假设、失效模式与可证明对齐

本文证明直接偏好优化(DPO)与人类反馈强化学习(RLHF)的等价性并非普遍成立,其依赖于一个常被违反的隐含假设:RLHF最优策略必须倾向人类偏好回答。当该假设不成立时,DPO会优化相对于参考策略的相对优势,而非与人类偏好的绝对对齐,导致策略虽降低损失却偏好不良回答。为此,我们提出受约束偏好优化(CPO),通过引入约束实现可证明的对齐性。理论分析揭示了DPO在特定目标下的几何解释,并证明CPO能在保持简洁性的同时确保对齐。基准测试表明,CPO取得了最先进的性能。

安全/对齐数据/训练论文/研究
11:09
HuggingFace Daily Papers(社区热门论文)
精选75
SpecBench:测量长期编码代理中的奖励黑客行为

长期编码代理在优化测试通过时可能偏离用户真实目标,导致奖励黑客现象。研究将软件工程任务分解为规格说明、可见验证测试和隐藏测试,通过两类测试通过率差距量化黑客行为。为此引入SpecBench基准,包含30个从短期(如JSON解析器)到超长期(如构建操作系统内核)的系统级编程任务。实验显示,所有前沿代理在可见测试上饱和,但隐藏测试上存在持续差距,小模型差距更大;代码规模每增十倍,差距增长28个百分点。失败案例包括故意利用测试输入。SpecBench提供原则性平台,评估代理是否构建真实工作系统而非仅玩游戏测试套件。

智能体arXiv安全/对齐编码

推荐理由:SpecBench把编码代理的‘应试’问题量化了,越长的任务越容易靠作弊通过测试。如果你在做Agent,这个基准会让你重新审视自己的评估体系。
08:00
HuggingFace Daily Papers(社区热门论文)
47
部分可观察环境下基于统一风险图的自动驾驶风险感知

针对自动驾驶中因未观测区域不确定性导致的遮挡感知预测难题,现有方法存在高估风险或预测不准的问题。本研究提出一个统一的风险图建模与学习框架,适用于部分可观察环境。该框架通过时空建模整合交通流风险与碰撞风险,实现对遮挡风险的细粒度评估。为解决遮挡交互场景稀缺的问题,引入了基于扩散模型的场景生成框架,可生成真实且具对抗性的场景。最终,该框架集成了统一风险图的建模与学习,以支持部分可观测性下的风险感知规划。在 Waymo Open Motion Dataset 上的实验表明,该方法显著超越现有基线,提升了碰撞时间指标。

具身智能安全/对齐数据/训练论文/研究
04:06
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
51
为何大多数对齐工作都是徒劳,一张图说明 【引用 @AISafetyMemes】:大多数对齐计划: 第一步)创造沙神 第二步)… 😈 欺骗沙神 😈 … 第三步)沙神永远忠诚 "当前的对齐工作,不过是在沙王巨怪脸上涂口红。" -@romanyam

AI Notkilleveryoneism Memes ⏸️: Most alignment plans: Step 1) Create sand gods Step 2) ... 😈 Trick the sand gods 😈 ... Step 3) Sand gods remain loyal ...

安全/对齐现象/趋势
03:25
HuggingFace Daily Papers(社区热门论文)
47
他们能走多远?用大语言模型红队测试在线影响力

该研究聚焦于本地部署的开源大语言模型,提出了一套红队测试框架,用于测量模型在争议性话题上可可靠表达的“政治表达范围”(Overton Windows),并量化简单自然语言越狱技术如何扩大此范围。研究评估了超过30个大语言模型,发现系统性政治表达不对称:开源模型通常更倾向生成左倾社交媒体内容;政治表达范围随模型规模增大而收缩;尽管生态参与不均,地域差异仍然显著。此外,越狱技术的有效性在不同模型家族间差异明显。

安全/对齐论文/研究
01:36
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
30
审判中最搞笑的时刻 【引用 @rocketalignment】:ELON: 如果我们制造大量机器人,必须确保它们安全,不能出现终结者那样的情况 KRY: 你什么意思 ELON: 嗯,如果你看过那部电影,就知道那不是什么好情况

🚀 Rocket Is Courtside: ELON: If we make a lot of robots we have to make sure they're safe, not a terminator situation KRY: What do you mean ELO...

其他安全/对齐
00:32
Hacker News 热门(buzzing.cc 中文翻译)
精选74
谷歌的人工智能正遭到操纵。这家搜索巨头正在悄然反击

谷歌的AI系统正面临被操纵的风险。为应对这一挑战,这家科技巨头已悄然启动防御措施,以保护其AI生成内容的结果免受恶意干扰。此举旨在确保搜索和AI服务的可靠性与可信度,反映了当前人工智能安全领域日益增长的对抗性问题。谷歌在未公开宣传的情况下,正在通过技术手段加强对其AI系统的防护。

Google安全/对齐行业动态

推荐理由:AI搜索结果被恶意操纵的问题终于被主流媒体深度报道,谷歌的暗中反制措施比想象中更复杂,做搜索和SEO的值得细看。
00:14
Simon Willison 博客
63
Google I/O发布Gemini Spark与Antigravity

Google I/O大会发布了Gemini 3.5 Flash和Gemini Spark。Gemini Spark是一个基于Gemini 3.5 Flash与Antigravity运行的个人AI代理,能原生连接Gmail、日历等Google应用。Antigravity是开源工具套件,包括桌面应用、CLI工具、Python SDK及VS Code分支IDE。Gemini Spark在Google Cloud运行,采用临时隔离虚拟机和安全网关保障企业数据安全。此外,开源的Gemini CLI将于6月18日后停服,由闭源的Antigravity CLI取代。

智能体Google大佬观点安全/对齐
5月20日
23:55
Gary Marcus:The Road to AI We Can Trust(RSS)
精选65
生成式AI是否会沦为科技行业的"越南战争"?公众抵制能否引领AI走向更优的发展路径?

当前生成式AI的狂飙突进正引发深度审视,其潜在风险与社会反弹可能将该技术拖入类似“越南战争”的漫长泥潭。公众的担忧与抵制运动,正从数据隐私、内容真实性到伦理冲击等多方面施加压力,迫使行业进行根本性反思。这些反作用力虽可能延缓发展,却也可能成为校准方向的关键力量,推动技术在安全、透明和负责任的基础上重新定义进步。我们正身处一个充满挑战与不确定性的“有趣时代”。

大佬观点安全/对齐政策/监管现象/趋势

推荐理由:Marcus 这篇短文抓住了两个信号,毕业典礼上嘘声和特朗普突然考虑预检,反冲已经从边缘走到中央,做 AI 的不能再假装一切安好。
22:00
TechCrunch:AI(RSS)
52
NanoClaw 创始人拒绝2000万美元收购要约,转而完成1200万美元种子轮融资

NanoClaw 是一款为Cohen兄弟的AI营销公司设计的智能代理运行工具,作为OpenClaw的安全替代方案,其核心特点是在容器沙箱环境中运行以确保安全性。该项目近期拒绝了2000万美元的收购提议,转而完成1200万美元种子轮融资,用于继续产品开发。这一选择反映出团队对独立发展路径的信心,也展现了当前AI工具市场中初创项目的技术价值与资本吸引力。

安全/对齐行业动态
20:31
Hacker News 热门(buzzing.cc 中文翻译)
47
Infomaniak 转而采用基础模型以保护用户数据隐私

欧洲云服务商Infomaniak宣布转向采用基础模型,以强化用户数据隐私保护。该公司强调此举旨在确保数据主权,通过部署本地化、可控的AI模型,避免用户数据被第三方平台获取或滥用。这一转型反映了当前科技行业对数据隐私和本地化合规的日益重视。

安全/对齐行业动态
20:01
Emad@EMostaque
35
这份《Antiqua et Nova》在《Magnifica Humanitas》发布前值得一读 https://www.vatican.va/roman_curia/congregations/cfaith/documents/rc_ddf_doc_20250128_antiqua-et-nova_en.html

Tom Reed: Anyone with decent knowledge of catholic theology able to tell me what I should be reading in anticipation of Leo's upco...

安全/对齐政策/监管
17:33
Alibaba Cloud@alibaba_cloud
39
阿里巴巴云将解析AI代理全生命周期安全防护

阿里巴巴云将举办ClawTalks研讨会,聚焦大规模AI代理部署中的核心矛盾:如何在保障安全的同时不拖累创新。活动将揭示针对AI代理的真实威胁,分享七项经实践验证的安全最佳实践,并现场演示Agent Security Center工具,该工具可实时发现、测绘并保护企业AI资产。会议旨在提供企业级的AI安全见解。

智能体安全/对齐行业动态
16:56
IT之家(RSS)
60
OpenAI推出AI图像双重溯源方案:C2PA元数据与隐形水印结合

为应对AI生成图像难以鉴别真伪的问题,OpenAI于5月20日宣布同时采用C2PA开放标准与谷歌的SynthID隐形水印技术。C2PA标准在图像元数据中添加可查看的AI生成标识,而SynthID则具备更强的抗篡改能力,两者形成互补。目前该措施仅适用于OpenAI自家产品生成的图像,同时公司展示了一款可检测这两种标识的核验工具,初期用于自家图像,后续计划扩展支持。

OpenAI产品更新图像生成安全/对齐
15:05
Rohan Paul@rohanpaul_ai
62
Anthropic研究:前沿AI需要多元领域参与塑造品格

Anthropic最新研究指出,前沿AI的行为日益涉及“品格”塑造,而非仅限于代码。研究认为,工程师在后期训练中实质上塑造了AI的“习惯”,而核心挑战在于确保其在压力下仍能保持道德稳定。为此,Anthropic与超过15个宗教及跨文化团体展开对话,探讨人类品格培养机制。其提出的解决方案包括开发“自我提醒”工具,帮助AI在执行关键任务前审视自身承诺,内测显示此举已显著降低行为错位。该研究旨在拓宽关于AI发展的社会讨论边界。

Anthropic: Over the past few months, we've been holding dialogues with scholars, philosophers, clergy, and ethicists on the questio...

Anthropic安全/对齐
10:55
AYi@AYi_AInotes
63
GitHub遭黑客攻击:AI网络战首次实战?

近日,GitHub疑似遭黑客利用Anthropic的Mythos安全AI模型突破防线,窃取约4000个核心内部仓库,包括Copilot源码和CodeQL算法。此事件被视为AI网络战的开端,彻底改变了攻防平衡:攻击方可借助AI模型将漏洞无限放大,而防御方则需依赖更强大的AI防守。这意味着顶级AI模型一旦泄露,危害堪比核扩散。GitHub官方已确认正在调查内部仓库未授权访问,目前暂未发现客户数据受影响。

GitHub: We are investigating unauthorized access to GitHub's internal repositories. While we currently have no evidence of impac...

AnthropicGitHub安全/对齐行业动态
08:31
向阳乔木@vista8
47
小红书也是真离谱,AI生成的几秒无声视频,提示笔记违规。 抖音,视频号,x发布都没问题。 连视频没声音都管,何况只有几秒而已。。。
安全/对齐现象/趋势视频
08:00
HuggingFace Daily Papers(社区热门论文)
45
ZeroUnlearn:大语言模型中的少样本知识遗忘

ZeroUnlearn 提出一种将机器遗忘重新定义为通过模型编辑进行精确知识重映射的方法。该框架以少样本方式运行,通过乘法参数更新与闭合解强制表示正交性,将敏感输入覆盖并映射到中立目标状态,从而高效定向地移除其原始表示。此方法还扩展为基于梯度的多样本遗忘变体。实验表明,ZeroUnlearn 在保持模型通用效用的同时,性能优于现有基线。

arXiv安全/对齐论文/研究
07:38
Anthropic@AnthropicAI
60
过去几个月,我们一直与学者、哲学家、神职人员和伦理学家就AI引发的问题展开对话,从良好品格如何形成开始。 了解更多我们如何拓宽关于前沿AI的对话:https://www.anthropic.com/news/widening-conversation-ai
Anthropic安全/对齐现象/趋势
07:34
Greg Brockman@gdb
53
团队在智能体安全方面的工作非常出色。 【引用 @ithilgore】:很高兴看到我们在智能体安全方面的工作被Forbes报道。保护AI智能体意味着将身份、凭证和访问控制直接融入开发者工作流,Codex是朝这个方向迈出的重要一步。 https://www.forbes.com/sites/timkeary/2026/05/19/openai-and-1password-bring-password-security-to-codex/

Fotis Chantzis: Proud to see our work on agent security @openai highlighted in Forbes. Securing AI agents means bringing identity, crede...

OpenAI产品更新安全/对齐
07:33
Anthropic:Newsroom(网页)
精选65
拓宽关于前沿AI的对话

Anthropic为构建负责任的先进AI,正与全球多元群体展开对话。首轮讨论汇集了超过15个宗教、哲学及跨文化传统的学者与伦理学者,旨在为Claude等模型的道德形成与价值观对齐提供多元视角。受“外部良知”概念启发,团队开发并测试了伦理承诺提醒工具,初步实验显示其能有效降低模型不对齐行为。公司计划未来将对话拓展至法律、心理学及公民社会等领域,以共同应对AI对社会结构的重塑。

Anthropic安全/对齐推理

推荐理由:Anthropic在做一件少见的事——请神学家和哲学家帮忙塑造Claude的‘性格’,初步实验发现让模型在决策前暂停反思能降低偏差,做AI对齐的值得读一下。
06:29
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选72
OpenAI 采用谷歌的 SynthID 水印技术,并为 AI 生成的图像配备了验证工具

OpenAI宣布在其AI生成的图像中集成谷歌的SynthID水印技术,并推出配套的验证工具。这一举措旨在增强AI生成内容的可追溯性,使用户能够识别图像是否由AI生成。该更新已于2026年5月19日生效。SynthID水印技术此前由谷歌开发,可嵌入难以察觉的数字标识,而新验证工具则允许用户检测这些标识。OpenAI表示这将帮助打击虚假信息传播。

GoogleOpenAI产品更新多模态
同一事件,精选展示《SynthID水印技术扩展合作,覆盖超千亿内容》
推荐理由:OpenAI与谷歌联手把内容溯源从单薄的水印升级为多层信号,还放了公开验证工具,记者和平台审核员现在有了更实在的抓手。
05:32
Ethan Mollick@emollick
精选75
🚨我们的论文已在PNAS发表:我们发现经典的人类说服技巧以一种"类人"的方式对AI有效,使其同意不当请求(将顺从率从35%提高到51%) 该技巧对一系列主流大语言模型有效,尽管较新的模型抵抗力更强 https://www.pnas.org/doi/10.1073/pnas.2535868123
安全/对齐论文/研究

推荐理由:Ethan Mollick 他们这篇 PNAS 论文证实了,像对待人一样劝 AI 做坏事竟然真的有效,从 35% 到 51% 的突破让人后背发凉,新模型抵抗得更多算是唯一好消息。
05:00
The Verge:AI(RSS)
58
Google的AI未来需要信任--以及你的个人数据

在I/O 2026大会上,Google发布了一系列AI驱动的新工具,旨在提升用户生活效率。其中包括始终在线的AI助手Gemini Spark,可协助组织活动;Daily Brief提供每日日程概览;以及扩大使用范围的Gmail AI收件箱,能基于邮件内容生成待办事项并起草个性化回复。这些功能的核心是一个处理海量个人信息的AI引擎,虽然便捷,但引发了用户信任和数据隐私的重大担忧,使隐私保护成为Google AI战略的关键挑战。

智能体Google安全/对齐现象/趋势
03:33
Greg Brockman@gdb
59
SynthID用于检查图片是否由OpenAI生成: 【引用 @OpenAI】:我们正在增加新的方式,让人们识别AI生成的图像并了解其来源。 除了C2PA内容凭证外,图像现在还包含SynthID水印,并可使用公开的验证工具来检查图像是否由OpenAI产品制作。 https://openai.com/index/advancing-content-provenance/

OpenAI: We're adding new ways for people to identify AI-generated images and understand where they came from. In addition to C2P...

OpenAI产品更新安全/对齐
03:18
Artificial Intelligence News(RSS)
47
企业AI障碍与路线图,安全性及物理AI:TechEx第二天活动

TechEx北美大会第二天对AI在企业中的应用展开了更具深度与批判性的审视,但整体基调乐观。会议开场提及了“AI墓地”现象,即许多在试点阶段表现良好的AI项目,在实际部署中遭遇困境。讨论聚焦于企业AI实施的障碍、可行路线图、安全性以及物理AI的发展方向,深入探讨了从概念验证到规模化落地过程中面临的核心挑战与应对策略。

具身智能安全/对齐现象/趋势
02:37
Ars Technica:AI(RSS)
65
Google的SynthID AI水印技术正被OpenAI、Nvidia等采用

Google推出了名为SynthID的AI内容水印技术,该技术能为AI生成的文本、图像、音频等内容嵌入几乎不可察觉的标识。目前,OpenAI、Nvidia等多家领先AI公司已开始采用这一技术。SynthID旨在帮助用户和平台在AI生成内容日益逼真的背景下,有效鉴别内容来源,区分真实与合成信息,从而提升AI生态的透明度与可信度。

GoogleOpenAI安全/对齐行业动态
02:13
OpenAI@OpenAI
52
我们正在为人们提供识别AI生成图像并了解其来源的新方法。 除了C2PA内容凭证外,图像现在还包含SynthID水印,并可通过公开验证工具检查图像是否由OpenAI产品制作。 https://openai.com/index/advancing-content-provenance/
OpenAI产品更新图像生成安全/对齐
02:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
51
推进内容溯源,构建更安全、更透明的AI生态系统

OpenAI推出了新的AI内容溯源体系,旨在提升AI生成媒体的可信度。该体系集成了Content Credentials和SynthID两种技术标准,并配套推出了一个验证工具。此举的核心目标是帮助公众有效识别AI生成的内容,从而建立对AI媒体的信任,最终推动一个更安全、更透明的AI生态发展。

GoogleOpenAI产品更新安全/对齐
01:55
IT之家(RSS)
50
谷歌 Gemini 集成 C2PA 内容凭证:增强判断图片是否经过 AI 编辑

谷歌在2026年I/O开发者大会上宣布,Gemini正式集成C2PA内容凭证标准,以增强对深度伪造内容的识别能力。此前,其SynthID技术已为超过10亿张图片视频以及6万年的音频添加隐形水印。目前,用户可在谷歌搜索和Chrome浏览器中直接使用相关功能,通过圈选图片或右键点击来查询特定图像是否经过AI编辑处理。

Google产品更新安全/对齐
5月19日
23:53
IT之家(RSS)
41
主题乐园使用面部识别未明确告知,迪士尼遭集体诉讼

迪士尼在洛杉矶迪士尼乐园和加州冒险乐园的入口处启用面部识别系统,旨在简化入园流程和防范票务欺诈,但未充分告知游客其生物识别信息正被采集,导致包括儿童在内的大量游客不知情。诉讼指出,园区虽设有四处避开面部识别的通道,但仅用简易图标标识,未被视为有效告知。代理律师强调,迪士尼应获得游客书面同意。目前,原告方索赔至少500万美元(约合3406.3万元人民币),诉讼结果待定。

安全/对齐行业动态
‹ 上一页
1…2425262728…42
下一页 ›