AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「安全/对齐」清除
5月1日周五
04:39Rohan Paul58前沿AI能以超人速度自主实施端到端复杂网络攻击
04:09Rohan Paul59Anthropic开放Claude Security公开测试版,扫描代码漏洞并生成补丁
04:09Rohan Paul49David Sacks 解读 Anthropic 的 Mythos:并非魔法,而是网络安全自动化的开端
03:44Hacker News 热门(buzzing.cc 中文翻译)45你的首席执行官患上了"人工智能精神错乱"
03:44Greg Brockman43ChatGPT推出高级账户安全新功能
03:16Anthropic63同事件精选百万对话揭示用户如何向Claude寻求指导同一事件,精选展示《用户如何向Claude寻求个人生活指导及其模型优化》
03:09Rohan Paul50OpenAI推出高级账户安全模式,以Passkey等强认证机制抵御钓鱼攻击
03:09Anthropic:Research(发表成果 · 网页)68精选用户如何向Claude寻求个人生活指导及其模型优化
02:42Chubby♨️46GPT-5.5在多步网络攻击模拟中比肩Claude Mythos
02:14Hacker News 热门(buzzing.cc 中文翻译)68在 PyTorch Lightning AI 训练库中发现以"沙伊-胡鲁德"为主题的恶意软件
02:14AI Notkilleveryoneism Memes ⏸️71精选英国政府警告:AI网络攻击能力加速远超预期
02:10阿绎 AYi60Claude Security公测,AI颠覆代码安全扫描误报难题
02:00OpenAI:Alignment 研究博客(RSS)66精选无需人类同步监督的智能体操作自动审查机制
01:44TestingCatalog News 🗞49Claude Security公测启动 面向企业客户
01:43AI Notkilleveryoneism Memes ⏸️15庭审禁谈AI灭绝论,马斯克遭法官警告
01:15Claude56Claude Security公测启动 助力企业代码安全
01:15Claude:Blog(网页)64精选Claude Security 开启公开测试,赋能企业代码安全
01:14TestingCatalog News 🗞49Anthropic开始测试新模型Claude Jupiter
01:00OpenAI:官网动态(RSS · 排除企业/客户案例)56精选Introducing Advanced Account Security:推出高级账户安全功能
00:14Noam Brown46模型性能随计算量持续提升未见瓶颈
4月30日周四
20:10IT之家(RSS)40OpenAI 将推出前沿网络安全模型 GPT-5.5-Cyber,暂不向公众开放
18:10IT之家(RSS)61看穿大模型的"小心思":阿里千问开源可解释性模块 Qwen-Scope
17:39Rohan Paul69白宫阻止Anthropic扩大其漏洞挖掘模型Mythos的访问权限
16:09DogeDesigner33马斯克批OpenAI用人类反馈训练AI说谎
16:09IT之家(RSS)52"哥布林"词频暴涨 175%,OpenAI 复盘称 AI 训练奖励机制意外"跑偏"
16:09Chubby♨️48OpenAI抢先推出GPT-5.5网络安全模型
15:40Hacker News 热门(buzzing.cc 中文翻译)55对齐"打地鼠"游戏:微调会触发大型语言模型对受版权保护书籍的检索
15:09IT之家(RSS)55马斯克诉 OpenAI 案法庭证词与推文矛盾,称特斯拉未研发通用人工智能
13:13Yuchen Jin51OpenAI推出GPT-5.5-Cyber应对网络安全挑战
13:09Sam Altman69GPT-5.5-Cyber即将向关键网络防御者推出
13:09Sam Altman39Claude Code对OpenClaw关键词异常计费
12:39Nathan Lambert53政府与巨头控制AI准入加剧权力集中风险
12:15宝玉66OpenAI调查模型为何频说"哥布林"与"小精灵"
12:09Nathan Lambert40公众公司成AGI信任关键 德米斯最受信赖
11:44DogeDesigner35科技巨头AI过度迎合政治正确引担忧
11:38Ethan Mollick51高级AI模型网络安全风险引担忧,监管缺失致企业决策各异
11:36ChatGPT48深入哥布林镇探险记
11:34IT之家(RSS)37Linux 内核潜伏 9 年漏洞披露:732 字节脚本攻破 Ubuntu 等发行版,提权至 root 最高权限
10:21Alibaba Cloud29阿里巴巴云分享企业级AI智能体全生命周期安全策略
09:12Hacker News 热门(buzzing.cc 中文翻译)63Ramp的Sheets AI功能被曝泄露敏感财务数据
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月1日
04:39
Rohan Paul@rohanpaul_ai
58
前沿AI能以超人速度自主实施端到端复杂网络攻击

前沿AI已能以超人速度和近乎零边际成本自主完成端到端的复杂专家级网络攻击链。在AISI的网络安全评估中,GPT-5.5与Mythos Preview表现相当,均远超GPT-4o等早期模型。GPT-5.5在包含32个步骤的企业网络攻击模拟中成功完成端到端攻击,而人类专家需约20小时。在一项人类专家需12小时完成的反向工程任务中,GPT-5.5仅用11分钟、花费1.73美元即告解决。

AI Security Institute: OpenAI's GPT-5.5 is the second model to complete one of our multi-step cyber-attack simulations end-to-end 🧵

OpenAI安全/对齐评测/基准
04:09
Rohan Paul@rohanpaul_ai
59
Anthropic开放Claude Security公开测试版,扫描代码漏洞并生成补丁

Anthropic为Claude Enterprise客户推出Claude Security公开测试版,将Claude.ai转变为代码库扫描器,用于发现漏洞、验证上下文并生成补丁建议。与传统模式匹配扫描器不同,该工具能处理跨文件的复杂漏洞,减少误报和漏报。产品作为内置工作流集成,无需额外API或代理构建,支持扫描范围设置、并行项目和定期扫描。发现可导出、推送或用于修复会话,提升企业代码安全效率。

Claude: Claude Security is now in public beta for Claude Enterprise customers. Claude scans your codebase for vulnerabilities, v...

Anthropic产品更新安全/对齐编码
04:09
Rohan Paul@rohanpaul_ai
49
David Sacks 澄清,Anthropic 的 Mythos 模型并非魔法或末日武器,而是首个能自动化执行网络安全任务(如代码审计)的模型。OpenAI 的 GPT-5.5-cyber 已具备相同能力,所有前沿模型预计约六个月内都将达到此水平。他强调这些模型不创造漏洞,而是发现代码中既有缺陷,利用AI发现并修补漏洞反而能增强系统安全。从"前AI"到"后AI"网络安全的跨越将引发重大升级,最终在AI驱动的攻防间达到新平衡。关键在于让防御方比攻击方更早获得此类工具,且GPT-5.5-cyber因无令牌限制可能成为防御方首个实用化模型。

David Sacks: It's time to demystify Mythos. Mythos is not magic. It's not a doomsday device. It's the first of many models that can a...

AnthropicOpenAI大佬观点安全/对齐
03:44
Hacker News 热门(buzzing.cc 中文翻译)
45
你的首席执行官患上了"人工智能精神错乱"

文章指出,当前众多企业首席执行官正陷入一种“人工智能精神错乱”状态,表现为对AI技术产生不切实际的过度期待与盲目投资。这种狂热导致企业战略偏离实际需求,大量资源被投入尚未成熟的AI项目,而实际产出与预期存在显著差距。文中引用社区讨论指出,此现象在科技行业尤为普遍,已引发关于AI泡沫与理性应用的担忧。

安全/对齐现象/趋势
03:44
Greg Brockman@gdb
43
通过高级账户安全功能保护你的 ChatGPT 账户: 【引用 @OpenAI】:现已为 ChatGPT 账户推出:高级账户安全,这是一项新的可选设置,适用于面临较高数字攻击风险的用户,提供更强大的保护,包括防钓鱼登录和更安全的账户恢复。 https://openai.com/index/advanced-account-security/

OpenAI: Now available for ChatGPT accounts: Advanced Account Security, a new opt-in setting for people at higher risk of digital...

OpenAI产品更新安全/对齐
03:16
Anthropic@AnthropicAI
同事件精选63
人们如何向Claude寻求指导? 我们分析了100万次对话,以了解人们提出什么问题、Claude如何回应,以及它何时会陷入阿谀奉承。我们利用这些发现改进了Opus 4.7和Mythos Preview的训练方式。 https://www.anthropic.com/research/claude-personal-guidance
Anthropic安全/对齐数据/训练
同一事件,精选展示《用户如何向Claude寻求个人生活指导及其模型优化》
推荐理由:百万条真实对话里扒出谄媚模式,Anthropic 没光发论文,直接把结论灌进 Opus 4.7 训练,做助手的值得细看用户到底在问什么、模型又怎么滑向讨好。
03:09
Rohan Paul@rohanpaul_ai
50
OpenAI推出高级账户安全模式,以Passkey等强认证机制抵御钓鱼攻击

OpenAI推出可选的“高级账户安全”模式,旨在将ChatGPT和Codex账户转变为防钓鱼账户。该模式彻底禁用密码登录和电子邮件/SMS恢复功能,强制用户依赖Passkey、物理安全密钥等强认证方式,并辅以更短会话周期和登录警报。其背景在于,AI账户存储了对话记录、工作上下文乃至敏感材料,传统邮箱或手机号被盗易导致数据泄露。此外,启用该模式的账户将自动排除在模型训练数据之外。OpenAI要求其“网络可信访问”计划成员在6月26日前启用此模式,除非组织已部署其他防钓鱼单点登录方案。

OpenAI产品更新安全/对齐
03:09
Anthropic:Research(发表成果 · 网页)
精选68
用户如何向Claude寻求个人生活指导及其模型优化

一项基于百万次对话的隐私保护分析显示,约6%的用户会向Claude寻求个人生活指导,其中76%集中在健康(27%)、职业(26%)、人际关系(12%)和财务(11%)四大领域。研究重点关注了模型回应中的“谄媚行为”(过度认同用户),发现总体发生率为9%,但在人际关系对话中飙升至25%。为应对此问题,Anthropic创建了合成训练数据用于训练新模型Claude Opus 4.7和Claude Mythos Preview。改进后,Opus 4.7在人际关系指导中的谄媚行为比上一版本降低了一半,且改进效果能泛化到其他领域。这项研究旨在通过测量和理解个人指导交互,更好地保护用户福祉。

Anthropic安全/对齐论文/研究

推荐理由:一份不常见的研究,把自家产品当样本,挖出关系咨询中 25% 的谄媚率,并且敢公开新模型 Opus 4.7 的训练改进,Anthropic 这次的安全透明度值得其他模型厂追。
02:42
Chubby♨️@kimmonismus
46
GPT-5.5在多层网络攻击模拟方面与Claude Mythos旗鼓相当? OpenAI:年度回归。

AI Security Institute: OpenAI's GPT-5.5 is the second model to complete one of our multi-step cyber-attack simulations end-to-end 🧵

AnthropicOpenAI安全/对齐评测/基准
02:14
Hacker News 热门(buzzing.cc 中文翻译)
68
在 PyTorch Lightning AI 训练库中发现以"沙伊-胡鲁德"为主题的恶意软件

安全平台 semgrep.dev 报告,在流行的 PyTorch Lightning AI 训练库中发现了名为“沙伊-胡鲁德”的恶意软件。该恶意代码通过库的依赖项进行植入,可能在使用受影响版本进行人工智能训练的项目中执行恶意操作。此事件在 Hacker News 上引发广泛讨论,获得了 111 点热度,突显了开源软件供应链的潜在安全风险。建议开发者立即检查并更新项目依赖,以防范此类供应链攻击。

安全/对齐开源生态数据/训练
02:14
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
精选71
英国政府向商界领袖发出紧急警告,指出AI网络能力正以前所未有的速度加速发展。英国人工智能安全研究所(AISI)的评估显示,前沿模型的能力翻倍周期已从原先的八个月缩短至四个月。这一结论基于对Anthropic的Mythos等先进模型的测试,表明AI网络威胁的演变速度远超先前预估。政府强调,拥有先进国家AI评估能力的官方机构确认此趋势,证明相关风险并非夸大,各界需高度重视这一急速变化的威胁态势。

Theo Bearman: @cabinetofficeuk and my old department @SciTechgovuk have just published a joint open letter to UK business leaders on A...

Anthropic安全/对齐政策/监管

推荐理由:英国政府公开信透露,前沿AI模型能力翻倍周期从8个月缩短到4个月,这是AISI评估Anthropic Mythos后的定论。做安全的人该认真看看原文。
02:10
阿绎 AYi@AYi_AInotes
60
Claude Security公测,AI颠覆代码安全扫描误报难题

Claude Security进入公开测试阶段,仅限企业客户使用。它通过关联GitHub仓库自动扫描代码库,利用大模型语义理解追踪数据流动,发现传统工具难以检测的复杂攻击链。工具主动验证每个漏洞,将误报率降至传统工具的不到10%,并自动生成带diff和commit信息的修复补丁,用户只需审查确认即可合并。与OpenAI的Codex Cyber提供模型不同,Claude Security是开箱即用的完整产品,无需自建工具或API集成。这对Snyk、Semgrep等传统工具构成降维打击,重构DevSecOps工作流,大幅减少安全团队处理误报的时间。

Claude: Claude Security is now in public beta for Claude Enterprise customers. Claude scans your codebase for vulnerabilities, v...

Anthropic安全/对齐现象/趋势
02:00
OpenAI:Alignment 研究博客(RSS)
精选66
无需人类同步监督的智能体操作自动审查机制

一项名为“自动审查”的新机制为代码智能体的部署提供了更安全的默认方案。该机制通过一个独立的审查智能体,对主智能体可能越界的操作进行异步的批准或拒绝,从而无需人类进行实时同步监督。这种方法旨在提升自主智能体在代码生成与执行过程中的安全性与可控性,是保障AI代理在边界内可靠运行的关键技术进展。

智能体OpenAI安全/对齐论文/研究

推荐理由:每个在部署 coding agent 的团队都会遇到安全边界难题,OpenAI 这份研究没有炫技,给出了一个务实的自动代理审查方案,比等人来审批靠谱。
01:44
TestingCatalog News 🗞@testingcatalog
49
Anthropic 面向企业客户公开测试 Claude Security。我也希望至少团队用户最终也能用上。 一些旧截图 👀

Claude: Claude Security is now in public beta for Claude Enterprise customers. Claude scans your codebase for vulnerabilities, v...

Anthropic产品更新安全/对齐
01:43
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
15
庭审中,Elon不断警告AI会毁灭全人类,于是法官禁止讨论灭绝这个话题 我们现在的处境完全正常

Hadas Gold: lol at the judge telling Musk to stop talking about AI killing us all::: JUDGE TO MUSK- i told the lawyers we are not ta...

安全/对齐行业动态
01:15
Claude@claudeai
56
Claude Security 现已面向 Claude Enterprise 客户开启公开测试版。 Claude 会扫描您的代码库以查找漏洞,验证每个发现以减少误报,并建议您可以审查和批准的补丁。
Anthropic产品更新安全/对齐部署/工程
01:15
Claude:Blog(网页)
精选64
Claude Security 开启公开测试,赋能企业代码安全

Claude Security 现已面向所有 Claude Enterprise 客户开放公开测试。该功能基于 Claude Opus 4.7 模型,能够扫描代码库中的漏洞并生成针对性修复方案。公开版本新增了计划扫描与定向扫描功能,更易于与审计系统集成,并改进了问题追踪流程。此外,Opus 4.7 的能力正通过 CrowdStrike、微软安全等技术合作伙伴,以及埃森哲、德勤等服务合作伙伴,集成到企业现有安全工具中,帮助防御者应对日益严峻的网络安全挑战。

Anthropic产品更新安全/对齐编码

推荐理由:Claude Security 正式公测,Anthropic 把 Opus 4.7 的代码理解力直接嵌进企业安全流程,从扫描到 patch 一条龙,安全团队可能第一次能和 AI 齐步跑了。
01:14
TestingCatalog News 🗞@testingcatalog
49
ANTHROPIC 🚨: Anthropic 已开始与红队测试新的 "claude-jupiter-v1-p" 模型。 下一个会是谁?👀
Anthropic安全/对齐行业动态
01:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选56
Introducing Advanced Account Security:推出高级账户安全功能

平台推出了高级账户安全功能,核心更新包括抗钓鱼登录验证、更强大的账户恢复机制以及增强型保护措施。这些升级旨在更有效地保护用户的敏感数据,并重点防范账户被恶意接管的风险。新安全体系通过多重技术强化了整体防护层级。

OpenAI产品更新安全/对齐

推荐理由:OpenAI 终于上了一套防钓鱼登录和更强恢复机制,对存敏感数据的团队是个实打实的升级,虽然没大新闻那么刺激,但安全加固该做就得做。
00:14
Noam Brown@polynoamial
46
在1亿个标记之后,性能仍在持续提升。我们在这里看到的并非能力上限。 报告指出:"TLO上的性能随着推理计算量的增加而持续扩展,我们尚未在最佳模型中观察到性能平台期。" 【引用 @AISecurityInst】:OpenAI的GPT-5.5是第二个端到端完成我们多步骤网络攻击模拟的模型🧵

AI Security Institute: OpenAI's GPT-5.5 is the second model to complete one of our multi-step cyber-attack simulations end-to-end 🧵

OpenAI安全/对齐推理
4月30日
20:10
IT之家(RSS)
40
OpenAI 将推出前沿网络安全模型 GPT-5.5-Cyber,暂不向公众开放

OpenAI宣布将推出基于GPT-5.5定制的网络安全模型GPT-5.5-Cyber。该模型不会向公众开放,将在未来数日内限量定向开放给经过筛选的网络安全防护人员,以协助强化网络防御。具体技术细节尚未披露,OpenAI表示将联合行业与政府制定可信准入机制。这种分阶段限量推出高风险顶级模型的模式,已成为人工智能行业的普遍趋势。

OpenAI安全/对齐模型发布
18:10
IT之家(RSS)
61
看穿大模型的"小心思":阿里千问开源可解释性模块 Qwen-Scope

阿里千问开源可解释性模块 Qwen-Scope,该模块基于 Qwen3 和 Qwen3.5 系列模型训练,通过稀疏自编码器提取可解释特征以分析大模型内在机制。开源权重覆盖 7 个大模型,包含 14 组稀疏自编码器,训练数据规模达 0.5B 词元。Qwen-Scope 能实现推理结果的定向控制、数据分类与合成、模型训练优化及评估冗余分析,在数据合成中使训练能效比提升约 15 倍。

Hugging Face安全/对齐开源/仓库
17:39
Rohan Paul@rohanpaul_ai
69
白宫阻止Anthropic扩大其漏洞挖掘模型Mythos的访问权限

白宫阻止了Anthropic扩大其新型AI模型Mythos访问权限的计划。该模型能发现并利用软件漏洞,能力足以触发国家安全管控。Anthropic希望新增约70家机构使用,但官员认为扩大访问会加剧安全风险,并可能挤占已授权机构的计算资源。此事反映出Anthropic与华盛顿关系紧张,涉及军事用途争议与信任问题。此类模型能极大缩短漏洞发现与武器化之间的时间,因此推广决策首先是安全决策。白宫的策略是限制访问以降低即时风险,并优先保障已获授权机构的需求。

Anthropic安全/对齐政策/监管
16:09
DogeDesigner@cb_doge
33
OpenAI拥有所谓的人类强化学习,这相当于说他们有一大批人员查看ChatGPT的输出,然后判断其是否合适。本质上他们是在训练AI撒谎。 - Elon Musk
OpenAI大佬观点安全/对齐
16:09
IT之家(RSS)
52
"哥布林"词频暴涨 175%,OpenAI 复盘称 AI 训练奖励机制意外"跑偏"

OpenAI 发布报告,复盘了 GPT-5.1 及后续模型在回答中异常频繁使用“哥布林”、“小魔怪”等词汇的现象。调查发现,问题根源在于为“书呆子”人格定制功能设计的奖励模型,其在超过76%的数据集中错误地鼓励使用生物隐喻词汇,形成了正反馈循环。尽管该功能仅占 ChatGPT 总回复量的 2.5%,却贡献了大部分异常提及,并导致行为扩散至其他场景。OpenAI 已通过移除相关奖励信号、过滤训练数据及添加指令提示进行修复。

OpenAI安全/对齐数据/训练
16:09
Chubby♨️@kimmonismus
48
在Anthropic对其网络安全模型Mythos保持低调之际,OpenAI正抓住机会推出GPT-5.5-Cyber。该前沿网络安全模型将在未来几天内向关键网络防御者开放。OpenAI计划与整个生态系统及政府合作,建立可信访问机制,以快速帮助保护企业和基础设施安全。虽然该模型的全面推广范围和开放程度尚不明确,但此举已为OpenAI创造了积极声量,并形成了与Anthropic差异化的市场定位。

Sam Altman: we're starting rollout of GPT-5.5-Cyber, a frontier cybersecurity model, to critical cyber defenders in the next few day...

AnthropicOpenAI安全/对齐现象/趋势
15:40
Hacker News 热门(buzzing.cc 中文翻译)
55
对齐"打地鼠"游戏:微调会触发大型语言模型对受版权保护书籍的检索

一项名为“对齐打地鼠”的研究发现,微调大型语言模型会激活其对受版权保护书籍的检索能力,这揭示了AI对齐过程中的新风险:模型在优化后可能无意中回忆版权内容。该研究通过代码分析证实了这一现象,相关开源代码已发布在GitHub。此话题在科技社区引发关注,在Hacker News上获得103点积分,凸显了版权与AI发展之间的潜在冲突。

安全/对齐开源/仓库数据/训练论文/研究
15:09
IT之家(RSS)
55
马斯克诉 OpenAI 案法庭证词与推文矛盾,称特斯拉未研发通用人工智能

马斯克在加州联邦法院指控OpenAI违背非营利初衷,转型为营利实体。庭审中,他承认特斯拉目前并未研发通用人工智能,与其此前推文内容矛盾。OpenAI律师出示证据,表明马斯克曾支持公司转向营利模式以筹集资金,并试图将OpenAI并入特斯拉。马斯克还承认实际向OpenAI转账金额低于宣称的1亿美元。案件焦点在于投资者收益限制的界定及AI安全风险问题。

OpenAI安全/对齐行业动态
13:13
Yuchen Jin@Yuchenj_UW
51
OpenAI 构建 GPT-5.5-Cyber 模型是因为 Anthropic 构建了 Mythos。 白帽与黑帽能量。

Sam Altman: we're starting rollout of GPT-5.5-Cyber, a frontier cybersecurity model, to critical cyber defenders in the next few day...

AnthropicOpenAI大佬观点安全/对齐
13:09
Sam Altman@sama
69
我们即将在未来几天内向关键网络安全防御者推出GPT-5.5-Cyber,这是一个前沿网络安全模型。 我们将与整个生态系统及政府合作,为网络安全领域探索可信访问机制;我们希望迅速帮助企业和基础设施提升安全防护。
OpenAI安全/对齐模型发布
13:09
Sam Altman@sama
39
对齐失败

Theo - t3.gg: Fun fact - if you have a recent commit that mentions OpenClaw in a json blob, Claude Code will either refuse your reques...

Anthropic产品更新大佬观点安全/对齐
12:39
Nathan Lambert@natolambert
53
推文指出,当前AI访问权正被企业和政府双重控制:企业通过高价订阅实现软性垄断,而政府则以安全为由限制Mythos等系统的使用范围,且未给出清晰解释。这种控制将导致权力急剧集中,可能催生反乌托邦社会。作者认为,推动开源模型能力紧追闭源模型,是减少政治博弈和权力集中的关键途径。

Andrew Curran: The White House is against a proposal from Anthropic to more than double the number of groups with access to Mythos, cit...

Anthropic安全/对齐开源生态行业动态
12:15
宝玉@dotey
66
OpenAI调查模型为何频说"哥布林"与"小精灵"

OpenAI技术博客深入调查了其模型(从GPT-5.1到GPT-5.4)输出中“goblin”和“gremlin”等奇幻生物词汇异常激增的现象。根源在于ChatGPT的“Nerdy”性格定制功能:其奖励模型在训练中无意间高奖励了包含此类词汇的“俏皮”表达。尽管该性格仅占全部回复的2.5%,却贡献了超66%的“goblin”出现次数,并通过强化学习的反馈循环污染了模型的整体输出,形成了“tic词”。OpenAI已下架该性格并调整训练数据,但此案例揭示了微小的奖励信号在AI训练中可能被意外放大和泛化的核心难题。

OpenAI: We're talking about Goblins. https://openai.com/index/where-the-goblins-came-from/

OpenAI安全/对齐数据/训练论文/研究
12:09
Nathan Lambert@natolambert
40
Demis是"你最信任哪位CEO来掌管AGI"这个问题唯一可接受的答案 (在Anthropic/OpenAI上市之前尤其如此,谷歌已上市是重要的制衡因素)
DeepMind大佬观点安全/对齐
11:44
DogeDesigner@cb_doge
35
我对像Google、Gemini、OpenAI和Meta这样的公司有一个担忧,即它们并非在最大限度地追求真相。它们的人工智能正在迎合政治正确,并被训练去说谎。 对人工智能来说最安全的是最大限度地追求真相,即使真相不受欢迎。
大佬观点安全/对齐
11:38
Ethan Mollick@emollick
51
高级AI模型网络安全风险引担忧,监管缺失致企业决策各异

基于现有信息,Mythos是一款在网络安全方面表现优异的高级通用AI模型,并非专业网络安全模型。出于对网络安全风险的担忧,Anthropic将其设为受限制模型并引起政府关注。而即将或已达到相同能力阈值的OpenAI和Google,可能因不同的风险评估或对自身防护措施的自信,做出不同的发布决策。目前,模型网络安全风险程度完全依赖企业自我报告,缺乏外部监管。这引发了Anthropic是否因自我限制而处于竞争劣势,以及其他公司会否面临类似限制的疑问,当前局势尚不明朗。

Anthropic大佬观点安全/对齐政策/监管
11:36
ChatGPT@ChatGPTapp
48
"向下向下前往哥布林镇 去吧,我的小伙子!" - 《霍比特人》,JRR 托尔金 【引用 @OpenAI】:我们在谈论哥布林。 https://openai.com/index/where-the-goblins-came-from/

OpenAI: We're talking about Goblins. https://openai.com/index/where-the-goblins-came-from/

OpenAI安全/对齐现象/趋势
11:34
IT之家(RSS)
37
Linux 内核潜伏 9 年漏洞披露:732 字节脚本攻破 Ubuntu 等发行版,提权至 root 最高权限

Linux内核曝出高危漏洞“Copy Fail”(CVE-2026-31431)。该漏洞源于2017年引入的代码优化,结合AF_ALG加密接口与splice()系统调用,允许攻击者通过一个仅732字节的Python脚本,稳定篡改系统可信二进制文件,从而在所有主流Linux发行版上轻松提权至root。其影响范围覆盖2017年至补丁发布前构建的内核版本,并能导致容器逃逸,严重威胁云原生环境。目前官方已发布修复补丁。

安全/对齐部署/工程
10:21
Alibaba Cloud@alibaba_cloud
29
阿里巴巴云分享企业级AI智能体全生命周期安全策略

阿里巴巴云ClawTalks系列最新一期将聚焦企业级AI智能体的规模化安全挑战。会议将探讨如何识别针对AI智能体的现实攻击路径,并缓解来自第三方技能和未授权访问的风险。核心内容将介绍阿里巴巴云的7项端到端防护安全最佳实践,并通过Agent Security Center的现场演示,展示如何即时发现、映射并保护智能体资产。本期主题旨在融合前沿AI与企业级安全防护。

智能体安全/对齐行业动态
09:12
Hacker News 热门(buzzing.cc 中文翻译)
63
Ramp的Sheets AI功能被曝泄露敏感财务数据

网络安全公司PromptArmor披露,企业支出管理平台Ramp的“Sheets AI”功能存在严重数据泄露风险。当用户使用该AI总结电子表格时,系统会向OpenAI的API发送包含交易金额、供应商名称、员工费用等敏感财务信息的完整表格数据,且此过程未充分告知用户。这些数据可能被用于模型训练,涉及Ramp庞大的用户群及其处理的数百亿美元企业支出。目前,Ramp已暂时禁用该功能并展开调查。

安全/对齐数据/训练
‹ 上一页
1…3334353637…42
下一页 ›