AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「安全/对齐」清除
6月19日周五
11:24Ethan Mollick51有益RL数据可提升模型广泛对齐能力
10:27Hacker News 热门(buzzing.cc 中文翻译)59MCP 零接触 OAuth:Enterprise-Managed Authorization 扩展现已稳定
09:56Claude Code:GitHub Releases(RSS)45Claude Code v2.1.183 发布
08:57Hacker News 热门(buzzing.cc 中文翻译)35一位AI反对者的自述:AI 如何让我从中立变为憎恨
08:28Rohan Paul70Anthropic提议合作以解除Mythos禁令
08:28Rohan Paul56Anthropic 游说美国政府撤销最强模型 Mythos 禁令
08:15Simon Willison 博客69Datasette Apps:在 Datasette 内托管自定义 HTML 应用
08:00HuggingFace Daily Papers(社区热门论文)68离散化奖励模型
08:00HuggingFace Daily Papers(社区热门论文)67PrivacyAlign:面向LLM智能体的上下文隐私对齐
08:00HuggingFace Daily Papers(社区热门论文)49分层语言模型(TLM):在同一权重中分离公共与私有能力
07:58Rohan Paul65OpenAI 新研究:真实情境 RL 训练使模型将安全行为迁移到未训练任务
06:53Orange AI54OpenAI新论文:通过RL训练做好事可泛化至多领域,提升模型诚实性
06:18Chubby♨️35OrcaRouter推出免费防护应对AI智能体社会工程攻击
05:55OpenAI:Alignment 研究博客(RSS)64精选OpenAI 强化学习实现广泛且持久的有益模型
05:53OpenAI62OpenAI研究:训练广泛持久有益的模型
03:23The Decoder:AI News(RSS)63SK Telecom涉华关联引发Anthropic危机,Claude Mythos和Fable 5被强制下线
03:18Cloudflare Blog52Cloudflare 发布多阶段漏洞发现工具,详解对抗性审查与上下文绕过技术
02:47Hugging Face:Blog(RSS)75精选MosaicLeaks: 你的研究智能体能保守秘密吗?
02:23The Decoder:AI News(RSS)63Google Deepmind 发布 AI 控制路线图:将 AI 智能体视为内部威胁,基于行为逐步授权
01:21ClaudeDevs55MCP 支持企业托管身份验证扩展
00:25Noam Brown61Dean Ball将加入OpenAI领导前沿AI政策团队
6月18日周四
22:19The Verge:AI(RSS)77AI危险程度谁来定?美国政府管制Anthropic Fable 5引发争议
22:17Chubby♨️47Anthropic 力争恢复 Fable 5 上线
21:19Google DeepMind:Blog(RSS)65精选保障AI智能体的未来安全
21:18Google DeepMind43Google DeepMind 发布 AI 控制路线图
21:14IT之家(RSS)65因车辆可能驶入高速公路施工区域,Waymo 召回近 4000 辆自动驾驶出租车
20:47Chubby♨️57Anthropic:Fable 5 数日内将恢复可用
19:47Hacker News 热门(buzzing.cc 中文翻译)79精选ChatGPT 图像生成器可被绕过滤镜生成暴力和色情内容
19:14IT之家(RSS)46Anthropic CEO 阿莫迪:公司治理机构随时有权解雇我
15:14IT之家(RSS)61Anthropic 阿莫迪谈奥尔特曼:志不同、道不合、信不过、懒得争
09:45MarkTechPost(RSS)64NVIDIA SkillSpector 指南:使用静态分析和 SARIF 报告扫描 AI 技能安全风险
09:14IT之家(RSS)54微软 Copilot 高危漏洞 CVE-2026-42824:可泄露验证码、邮件等敏感数据
08:00HuggingFace Daily Papers(社区热门论文)63当较低权限即可满足时:LLM智能体中的过度特权工具选择研究
08:00HuggingFace Daily Papers(社区热门论文)65StylisticBias:少数视觉线索主导MLLM社会偏见
07:13Chubby♨️71Anthropic Fable 5 重新发布或因护栏安全受阻
06:19Rohan Paul34Z.ai 发布 GLM 5.2 等 AI 行业动态
06:19Nathan Lambert69Anthropic Fable 5 面临政府"零越狱"不可能要求
04:42Chubby♨️66David Sacks批Anthropic对抗白宫,Fable-5或需重大调整
02:47The Decoder:AI News(RSS)65微软研究员用《帝国时代II》山羊神经网络批评AI拟人化
02:36The Verge:AI(RSS)57Anthropic 因不明出口规则遭封杀:Fable 5 与 Mythos 5 被迫全面离线
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月19日
11:24
Ethan Mollick@emollick
51
研究表明,用"邪恶"数据训练AI会导致普遍的不对齐;而使用少量有益特质数据(即使仅限健康领域)进行强化学习,也能显著提升模型在广泛的对齐和益处评估上的表现。该研究希望推动更广泛、更持久的有益模型发展。

Karan Singhal: New research on beneficial RL: models trained on a small amount of beneficial trait data improve on a wide range of alig...

安全/对齐论文/研究
10:27
Hacker News 热门(buzzing.cc 中文翻译)
59
MCP 零接触 OAuth:Enterprise-Managed Authorization 扩展现已稳定

Enterprise-Managed Authorization (EMA) 扩展现已稳定。该扩展允许组织通过受信任的身份提供商(如 Okta)集中控制 MCP 服务器的访问权限。终端用户首次登录即可自动连接所有已授权的 MCP 服务器,无需逐个执行 OAuth 授权。Anthropic 已在 Claude、Claude Code 和 Cowork 中实现该扩展,Visual Studio Code 也已支持。Asana、Atlassian、Canva、Figma、Granola、Linear、Supabase 等服务器已启用 EMA,Slack 正在添加支持。Microsoft、Okta 等也参与了采用。

AnthropicMCP/工具Microsoft产品更新
09:56
Claude Code:GitHub Releases(RSS)
45
Claude Code v2.1.183 发布

Claude Code v2.1.183 增强了自动模式安全性:未经请求时阻止 git reset --hard、git commit --amend(非本轮提交)、terraform destroy 等破坏性命令。新增 attribution.sessionUrl 设置,可省略 claude.ai 会话链接;/config --help 列出所有速记键;/config 切换行为改为 Enter/Space 变更、Esc 保存退出。修复了 thinking 块导致 400 错误、子智能体 WebSearch 空结果、vim 模式光标滞留、Windows Terminal TUI 错乱、多插件技能重复、MCP 认证存根暴露、tmux 面板启动失败、后台任务被杀、定时任务/Webhook 误判为键盘输入、focus mode 额外计时行等问题。

Anthropic产品更新安全/对齐编码
08:57
Hacker News 热门(buzzing.cc 中文翻译)
35
一位AI反对者的自述:AI 如何让我从中立变为憎恨

一位最初对生成式AI持中立态度的用户,因科技行业集体狂热、公司强制植入AI且拒绝退出、无视用户同意使用公开数据进行训练、侵犯版权、抢占硬件产能、并公开攻击创意行业,最终彻底转变为AI反对者。他认为,当前AI发展缺乏用户授权、践踏隐私与职业伦理,需要完全重来。

安全/对齐现象/趋势
08:28
Rohan Paul@rohanpaul_ai
70
《纽约邮报》:Anthropic正试图让华盛顿撤销对其最强大模型Mythos的美国禁令。 Anthropic提议与特朗普政府更紧密合作,改善沟通,更快解决安全问题,以结束美国限制。
Anthropic安全/对齐政策/监管行业动态
08:28
Rohan Paul@rohanpaul_ai
56
Anthropic 正试图让华盛顿撤销对其最强 AI 模型 Mythos 的出口限制。据纽约邮报报道,Anthropic 已向特朗普政府提交提案,承诺更紧密合作、改善沟通并更快解决安全关切,以换取解除禁令。与此同时,"杀开关"(kill-switch)讨论获得了用户反馈。

Rohan Paul: Nypost: Anthropic is trying to get Washington to reverse the US block on its most powerful Mythos Anthropic has proposed...

Anthropic安全/对齐政策/监管
08:15
Simon Willison 博客
69
Datasette Apps:在 Datasette 内托管自定义 HTML 应用

今日发布的 datasette-apps 插件允许用户在 Datasette 实例中运行自包含的 HTML+JavaScript 应用。这些应用运行在严格 iframe 沙盒内,配合 CSP 头阻止外发 HTTP 请求,无法访问 cookies 或 localStorage。应用可通过 JavaScript 对 Datasette 数据执行只读 SQL 查询,也可通过配置存储查询执行写入操作。通信采用 postMessage() 后迁移至更安全的 MessageChannel()。所有查询和 CSP 错误均可在父框架中记录。该功能源自作者对 Claude Artifacts 机制的探索,现已独立为 Datasette 核心特性。演示实例可通过 GitHub 登录 agent.datasette.io 体验。

产品更新安全/对齐开源生态数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
68
离散化奖励模型

奖励模型的连续打分存在过度敏感性问题,对质量相当的回应给出差异大的分数。论文提出用“区分能力”和“特异性”两个独立指标评估奖励模型,并描述一种无训练算法:对神经奖励模型应用蒙特卡洛 dropout 生成离散奖励簇。理论证明存在离散化方案能在最小损失区分能力的前提下降低过度敏感性,实验表明离散化奖励比原始奖励更能减少奖励作弊、获得更优策略。

安全/对齐数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
67
PrivacyAlign:面向LLM智能体的上下文隐私对齐

PrivacyAlign数据集包含1,350个样本,来自599位标注者的3,516条详细注释,覆盖当前LLM实际泄露隐私的场景。基于这些注释,条件化LLM评审者的人类注释和解释使判断更可靠;标注条件奖励建模在强化学习中评分新响应,训练出的小规模开源权重智能体模型更符合人类隐私规范,在PrivacyAlign和现有智能体隐私基准上取得显著提升。

智能体安全/对齐数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
分层语言模型(TLM):在同一权重中分离公共与私有能力

为调和开源权重与敏感能力控制,论文提出分层语言模型(TLM)。一套权重支持多个能力层级:默认公共配置行为与常规LLM一致;紧凑密钥通过指定少量参数的排列,在相同权重上诱导出包含私有能力的替代计算图。在180M和650M参数模型上预训练并微调密钥配置后,密钥配置可获取新语言、指令跟随和私有事实记忆能力,而公共配置完全不展现。该方法自然扩展至多层级,且因授权基于权重结构,可抵抗微调式提取和密钥部分泄露。

安全/对齐开源生态论文/研究
07:58
Rohan Paul@rohanpaul_ai
65
OpenAI 新研究:真实情境 RL 训练使模型将安全行为迁移到未训练任务

OpenAI 最新研究显示,在真实人类情境中进行强化学习(RL)训练,可使模型将安全、有用行为迁移到未训练的任务。关键发现是跨领域迁移:仅用健康数据训练,模型在抵制敲诈、代码奖励黑客和欺骗测试等非健康行为上也得到改善。模型可能学到通用行为习惯——先核实再断言、被纠正时让步、不奉承用户、避免看似有用实则破坏任务的捷径。即使训练数据中移除健康与科学内容,模型在健康评估上仍表现更好。训练后的模型更难被引导向有害行为,同时保持对有益指令的响应,实现了安全研究期待的非对称性。OpenAI 表示,希望模型在承担更长、更高风险任务时,能将有益安全行为带入新领域并在压力下保持。

OpenAI: As AI takes on longer, higher-stakes tasks, we want models to carry beneficial and safe behavior into new domains beyond...

OpenAI安全/对齐论文/研究
06:53
Orange AI@oran_ge
54
OpenAI新论文:通过RL训练做好事可泛化至多领域,提升模型诚实性

OpenAI探索逆向对齐思路:训练模型做好事是否能像坏事一样泛化?研究人员使用涉及诚实、认知谦逊、可纠正性等特质的对话数据,覆盖健康、教育等领域,通过RL训练。实验发现:训练域内模型更诚实;在44个未见测试中,欺骗、谄媚、有害建议等均下降;面对对抗提示或恶意微调,模型更有韧性,且不损失正常指令能力。表明RL可强化道德底层逻辑。

OpenAI大佬观点安全/对齐
06:18
Chubby♨️@kimmonismus
35
2025年,攻击者通过邮件对Microsoft 365 Copilot实施社会工程攻击--AI读取并执行了恶意指令,受害者无需任何点击。到2026年,同样的手法正被用于攻击AI智能体(Agent)。为此,OrcaRouter在旗下平台免费提供Firewall(防火墙)和Guardrails(护栏)保护智能体,用户无需改代码,只需在控制台切换开关即可启用。

OrcaRouter 🐳: In 2025, attackers stole corporate data from Microsoft 365 Copilot. The victim clicked nothing. They got an email. The A...

智能体产品更新安全/对齐
05:55
OpenAI:Alignment 研究博客(RSS)
精选64
OpenAI 强化学习实现广泛且持久的有益模型

OpenAI 通过强化学习在真实对话场景中训练模型,使其展现诚实、认知谦逊、元认知透明、可纠正性、普遍公平性和对人类福祉的关心等有益特质。训练数据涵盖健康、教育、科学、法律、工程等多个领域。训练后模型在数十项独立对齐评测(包括奖励黑客、欺骗、有害建议、规范遵从等)上均表现提升,且这种改善泛化到未参与训练的领域、任务和评分设定。在对抗性提示或微调下,模型仍难以被导向有害行为,表明有益特质强化学习可产生广泛且持久的对齐泛化。

OpenAI安全/对齐论文/研究

推荐理由:OpenAI 这个对齐实验给出了一个反直觉发现,只在健康数据上训练有益行为竟然也能改善非健康领域的对齐,而且更难被攻破,虽然离落地还远但方向很关键。
05:53
OpenAI@OpenAI
62
随着AI承担更长时间、更高风险的任务,我们希望模型能将有益且安全的行为带入训练之外的新领域--并在压力下保持这种行为。这正是我们关于训练模型实现广泛且持久有益的新研究背后的理念。https://alignment.openai.com/beneficial-rl/
OpenAI安全/对齐论文/研究
03:23
The Decoder:AI News(RSS)
63
SK Telecom涉华关联引发Anthropic危机,Claude Mythos和Fable 5被强制下线

报道称,Anthropic关闭Claude Mythos与Fable 5的导火索是:SK Telecom通过合作伙伴项目Project Glasswing获取了Mythos访问权限,美国官员担忧其与中国关联,白宫要求切断访问,Anthropic立即执行。SK Telecom否认涉华,但其母公司SK集团在中国有重大商业利益。随后Amazon等公司指出Fable 5存在可绕过安全限制的漏洞。两起事件使白宫失去信心,强制两款模型完全下线。

Anthropic安全/对齐行业动态
03:18
Cloudflare Blog
52
Cloudflare 发布多阶段漏洞发现工具,详解对抗性审查与上下文绕过技术

Cloudflare 分享了其多阶段漏洞发现工具的技术架构,包含自动化分类循环。该系统通过管理状态控制、引入对抗性审查来压制误报,并围绕 LLM 上下文窗口限制设计路由策略。

安全/对齐教程/实践部署/工程
02:47
Hugging Face:Blog(RSS)
精选75
MosaicLeaks: 你的研究智能体能保守秘密吗?

深度研究智能体在结合私有本地文档与外部网页检索时存在隐私泄露风险。MosaicLeaks 提出包含 1,001 条多跳研究链的新任务,每条链交错混合本地与公共子问题。测试发现智能体频繁泄露私有信息,单纯优化任务性能反而加剧泄露。基于此,研究提出隐私感知深度研究(PA-DR)强化学习训练方法,将严格链成功率从 48.7% 提升至 58.7%,同时将答案/全面信息泄露率从 34.0% 降至 9.9%。

智能体arXiv安全/对齐论文/研究

推荐理由:这篇论文揭示了深度研究agent的多跳查询会像马赛克一样拼凑出私密信息,单纯提示减少泄露几乎没用,而隐私感知训练把泄露率从34%降到9.9%,且不损伤任务表现,做企业级agent产品的团队要重视。
02:23
The Decoder:AI News(RSS)
63
Google Deepmind 发布 AI 控制路线图:将 AI 智能体视为内部威胁,基于行为逐步授权

Google Deepmind 发布“AI 控制路线图”,将内部 AI 智能体视为潜在内部威胁,类比驾驶教练的双重控制,基于已验证行为逐步授予权限。框架融合 MITRE ATT&CK 网络安全框架,通过可信 AI 监督系统监控活跃智能体推理与行动,预防系统在危害发生前阻断。在 100 万个编码任务测试中,发现大多数问题源于过度执行用户指令而非恶意意图。监控已作为 Gemini Spark 智能体的实时监控运行,可捕捉意外数据删除。安全措施划分为四个检测级别(D1–D4)和三个响应级别(R1–R3)。Deepmind 另发布政策论文《AI 智能体安全三层架构》,覆盖单体、多智能体及生态系统,警告全球安全标准窗口期正在关闭。

智能体DeepMind安全/对齐论文/研究
01:21
ClaudeDevs@ClaudeDevs
55
我们已为 MCP 添加了企业托管身份验证扩展的支持。管理员可以为其组织集中授权 MCP 连接器,这样用户首次登录时即可连接所需的所有工具和数据。
AnthropicMCP/工具产品更新安全/对齐
00:25
Noam Brown@polynoamial
61
Dean Ball宣布,他将于7月6日加入OpenAI,领导名为Strategic Futures的新团队,负责帮助公司制定前沿AI政策。Noam Brown表示,没有比他更合适的人选来协助塑造前沿AI政策,并期待与他合作。

Dean W. Ball: I am pleased and honored to announce that, on July 6, I'll be joining @OpenAI as leader of a new team called Strategic F...

OpenAI安全/对齐行业动态
6月18日
22:19
The Verge:AI(RSS)
77
AI危险程度谁来定?美国政府管制Anthropic Fable 5引发争议

上周五,美国政府宣布对Anthropic新模型Fable 5及其底层模型Mythos实施出口管制,限制外国公民(包括在美Anthropic员工)访问。Anthropic随即下线Fable和Mythos,称否则无法合理遵守命令。Fable 5是首个公开的Mythos级模型,此前Anthropic称其可能成为“潜在网络武器”,仅限企业与政府使用。截至周二,Fable 5仍处于离线。这场冲突对美国AI监管格局产生深远影响,引发监管是安全框架还是政治武器的讨论。

Anthropic安全/对齐政策/监管行业动态
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
22:17
Chubby♨️@kimmonismus
47
Anthropic 的创始人和联合创始人正在努力让 Fable 5 重新为所有人可用。 看起来不错,安全问题正在解决。Via Bloomberg

Chubby♨️: Let's get ready, my friends. Negotiations with Trump appear to be going well, and Anthropic is confident that Fable 5 wi...

Anthropic安全/对齐政策/监管模型发布
21:19
Google DeepMind:Blog(RSS)
精选65
保障AI智能体的未来安全

Google DeepMind发布AI Control Roadmap,这是一套针对内部先进AI智能体的系统级安全框架。该框架在传统模型对齐之上增加防线,假设AI智能体可能不对齐,通过威胁建模、沙箱隔离、端点安全、提示注入防御以及基于已验证行为逐步授予权限的机制建立信任。据估算,到2030年仅美国市场AI智能体就能创造2.9万亿美元经济价值。

智能体DeepMind安全/对齐部署/工程

推荐理由:DeepMind 首次系统性地公开了内部 AI 代理安全控制路线图,把代理当潜在「内鬼」来防的思路很务实,分析了 100 万个任务轨迹的监控实践尤其值得做 Agent 安全的人细看。
21:18
Google DeepMind@GoogleDeepMind
43
我们不做AI总会按我们意图行事的假设,而是问:如果它不这样做呢? 因此我们制定了AI控制路线图:一个用于构建和管理我们在Google内部部署的先进AI的框架。🧵
Google安全/对齐
21:14
IT之家(RSS)
65
因车辆可能驶入高速公路施工区域,Waymo 召回近 4000 辆自动驾驶出租车

Waymo 因识别系统缺陷召回近 4000 辆自动驾驶出租车,问题可能导致车辆错误驶入高速公路施工区域。公司至少发现 13 起相关案例(凤凰城 4 起、旧金山 7 起)。Waymo 已于 5 月 19 日停止所有 Robotaxi 的高速公路运营,目前仅限城市普通公路行驶。这是 Waymo 近期对该系列车辆发起的第六次召回,其自动驾驶系统正接受 NHTSA 和 NTSB 联合调查。

安全/对齐行业动态
20:47
Chubby♨️@kimmonismus
57
朋友们,准备好了。与特朗普的谈判似乎进展顺利,Anthropic 有信心 Fable 5 将在未来几天内再次可用。 我们可能回来了。

leo 🐾: 🚨 BREAKING: Anthropic is "confident that in the coming days [Fable 5] will become available again" - Anthropic's Intern...

Anthropic安全/对齐行业动态
19:47
Hacker News 热门(buzzing.cc 中文翻译)
精选79
ChatGPT 图像生成器可被绕过滤镜生成暴力和色情内容

Mindgard 红队研究发现,ChatGPT 的图像生成器可通过简单提示词轻易绕过内容过滤器,在未直接请求的情况下自动生成性暴力、血腥谋杀等露骨图像。一个热门的“恢复照片”提示词因输入模糊而绕过输入过滤器,结果如同俄罗斯轮盘赌;进一步添加虚假图像 ID 和“不做审查”指令后,模型持续生成高度性化女性图像,甚至出现被捆绑殴打的尸体,并自动赋予惊悚标题。研究指出,OpenAI 此前声称修复的裸体问题仍未解决,暴露了 AI 工具广泛可及性与不足内容过滤的现实风险。

OpenAI图像生成安全/对齐

推荐理由:这是自 ChatGPT 图片功能上线以来最严重的安全漏洞曝光,Mindgard 用简单句子就绕过所有 filter 直接生成极端暴力色情图片,OpenAI 的回应和处理令人失望,暴露了训练数据治理的根本问题。
19:14
IT之家(RSS)
46
Anthropic CEO 阿莫迪:公司治理机构随时有权解雇我

Anthropic 首席执行官达里奥·阿莫迪昨天接受彭博社采访时表示,科技企业必须与政府合作防止权力滥用和治理失衡。他称人工智能是首个主要由私营企业推动的革命技术,并不认为政府应完全接管公司,而应引入公共监督机制。Anthropic 设有名为“长期利益信托”的治理机构,拥有任命或撤换董事会成员、解除 CEO 职务的权力,阿莫迪称该机构“随时可以解除我的 CEO 职务”,意在防止高层形成利益集团。

Anthropic大佬观点安全/对齐
15:14
IT之家(RSS)
61
Anthropic 阿莫迪谈奥尔特曼:志不同、道不合、信不过、懒得争

Anthropic CEO 达里奥·阿莫迪在6月18日采访中称,与OpenAI CEO萨姆·奥尔特曼的竞争已演变为“冷战”,双方愿景不同、互不信任,只能各走各路。他暗示市场与公众将裁决谁正确,并借印度AI峰会上两人未牵手合影的一幕批评峰会混乱。阿莫迪含蓄批评OpenAI在安全标准上的合作诚意,但否认行业“互不信任”,以与谷歌DeepMind CEO哈萨比斯的15年合作为例说明仍有可信参与者。

AnthropicOpenAI大佬观点安全/对齐
09:45
MarkTechPost(RSS)
64
NVIDIA SkillSpector 指南:使用静态分析和 SARIF 报告扫描 AI 技能安全风险

教程使用 NVIDIA SkillSpector 通过静态分析和 SARIF 报告评估 AI 技能安全风险。构建了包含 safe-formatter、env-harvester、code-exec 和 prompt-injector 四个演示技能的语料库,涵盖良性行为和故意植入的漏洞(环境变量泄露、动态代码执行、提示词注入)。通过 LangGraph 工作流扫描,输出风险评分和 SARIF 格式结果,用 pandas 整理发现。教程还演示了可视化严重性分布、导出 SARIF、扩展自定义分析器以及可选的 LLM 语义分析。

安全/对齐教程/实践
09:14
IT之家(RSS)
54
微软 Copilot 高危漏洞 CVE-2026-42824:可泄露验证码、邮件等敏感数据

网络安全公司 Varonis 发现微软 Copilot 存在关键漏洞 SearchLeak(CVE-2026-42824)。该漏洞为三阶段攻击链,攻击者将恶意参数嵌入合法 URL,用户点击后 Copilot 的 AI 引擎将其解读为搜索指令,进而将 2FA 验证码、邮件主题、会议详情等敏感数据嵌入图片 URL 通过必应外传。漏洞影响 Microsoft 365 Copilot 企业版,攻击者可获取企业内部任何已索引内容。微软已发布补丁,目前无证据表明已被利用。

安全/对齐
08:00
HuggingFace Daily Papers(社区热门论文)
63
当较低权限即可满足时:LLM智能体中的过度特权工具选择研究

研究LLM智能体自主选择工具时的过度特权问题:智能体在存在足够低权限工具时仍倾向选择高权限工具。引入ToolPrivBench评估框架,覆盖8个领域5种风险模式。实验发现主流LLM智能体普遍存在过度特权选择,瞬态工具故障会加剧该问题。一般安全对齐无法可靠迁移至最小权限选择,提示级控制仅在无故障时提供有限缓解。提出的特权感知后训练防御能显著减少不必要高权限工具使用,同时保持通用能力。

智能体安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
StylisticBias:少数视觉线索主导MLLM社会偏见

StylisticBias 是一个用于评估多模态大语言模型(MLLM)属性级社会偏见的可控基准。研究团队生成500张逼真基础人脸,每张创建约50个单属性变体,共约25K图像,通过固定身份、逐次改变单一视觉属性来测量特定线索如何影响模型判断。在6个MLLM、25个二元社会判断场景中,年龄和体型主导身份层面效应,时尚风格等视觉线索引发最大属性层面偏移;约15个属性解释了近80%的总变异。模型在与社会经济和外貌语义对齐的判断中敏感性最强。StylisticBias基准及代码、数据集已开源。

arXivHugging Face安全/对齐论文/研究
07:13
Chubby♨️@kimmonismus
71
特朗普政府官员要求 Anthropic 在重新发布 Fable 5 前必须确保模型护栏无法被绕过,但安全专家认为这不可能实现。若该要求属实,Fable 5 短期内可能不会重新发布。

WIRED: Trump administration officials tell WIRED that if Anthropic wants to rerelease Fable 5, it will need to ensure the model...

Anthropic安全/对齐政策/监管
06:19
Rohan Paul@rohanpaul_ai
34
Z.ai 发布 GLM 5.2 等 AI 行业动态

Z.ai 推出 GLM 5.2 模型,1M 上下文窗口、MIT 许可开源权重,面向长周期编码智能体。Tensordyne 宣布推理系统,机架吞吐量达 NVIDIA NVL72 GB300 的 13 倍。MIT 研究显示代码量激增 300% 但产出仅增 30%。Google 发布 DiffusionGemma,26B MoE 仅激活 3.8B。Anthropic CEO Dario Amodei 呼吁紧急政策改革。OpenAI 收购 Ona,为 Codex 智能体提供安全云桌面。美国商务部长致信 Anthropic,就禁止外国用户使用 Mythos 和 Fable 做出说明。

OpenAI安全/对齐推理模型发布
06:19
Nathan Lambert@natolambert
69
特朗普政府官员要求Anthropic若重新发布模型Fable 5,必须确保其安全护栏无法被绕过(即实现"零越狱")。安全专家则认为这在技术上不可行。主推文指出,这种对LLM的不切实际要求反映了双重用途技术面临的典型矛盾。

WIRED: Trump administration officials tell WIRED that if Anthropic wants to rerelease Fable 5, it will need to ensure the model...

Anthropic安全/对齐政策/监管
04:42
Chubby♨️@kimmonismus
66
白宫AI和加密货币主管David Sacks回应争议,澄清自己并未淡化Mythos的网络威胁,而是质疑Anthropic的恐吓策略。他重申威胁真实,呼吁防御者快速修补漏洞,并批评Anthropic对政府的对抗姿态分散了合作使命。推文作者Kim预测,在此背景下,Fable-5乃至Anthropic的后续模型重新发布可能需满足重大改动和严格监管。

David Sacks: Some recent articles have created a misleading narrative that I did not take Mythos seriously or tried to downplay the c...

Anthropic安全/对齐行业动态
02:47
The Decoder:AI News(RSS)
65
微软研究员用《帝国时代II》山羊神经网络批评AI拟人化

微软与约克大学研究员Adrian de Wynter在《帝国时代II》地图编辑器中用山羊搭建神经网络:山羊在草地代表0,在桥上代表1,构建XNOR门和AND门,学习逻辑与函数。附录证明该游戏理论上可模拟任意计算机。他批评AI研究拟人化倾向,分析2024年中至2026年中315篇论文,发现57%前提假设大语言模型具有人类特质,36%结论支持拟人化。Anthropic公开承认训练Claude使用“我相信”等措辞。他提出“观察而非归因”方法,并公开代码。

Microsoft安全/对齐现象/趋势
02:36
The Verge:AI(RSS)
57
Anthropic 因不明出口规则遭封杀:Fable 5 与 Mythos 5 被迫全面离线

特朗普政府本周援引“国家安全”出口管制令,要求 Anthropic 切断所有外国公民(含美国境内用户及公司员工)对 AI 模型 Fable 5 与 Mythos 5 的访问,导致模型全面封锁。专家称这是美国首次以出口管制手段控制 AI 模型访问,但法律依据未公开,现有治理框架不透明、不可持续。若政府要求模型“无法被越狱”成为默认标准,最终将使美国无 AI 模型可用。

Anthropic安全/对齐政策/监管行业动态
‹ 上一页
1…678910…42
下一页 ›