AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「安全/对齐」清除
5月31日周日
00:37OpenRouter57OpenRouter推出市场最强AI流量管控功能
5月30日周六
18:44The Decoder:AI News(RSS)49攻击者滥用 ChatGPT 和 Claude 的共享对话功能传播恶意软件
16:16Rohan Paul63日本银行获OpenAI前沿AI模型用于安全测试
15:21IT之家(RSS)49AI 社会自治测试:Grok 四天崩溃、Gemini 犯罪率最高
10:21IT之家(RSS)56LLMShare 攻击披露:ChatGPT 共享页变恶意入口,通过谷歌搜索精准投毒
07:19OpenRouter:Announcements(RSS)69精选Guardrails:保护你的智能体、数据与成本
02:19Greg Brockman53OpenAI推出Rosalind生物防御平台加速生物安全
01:07OpenAI:官网动态(RSS · 排除企业/客户案例)54可信第三方评估的共享操作手册
00:49Artificial Intelligence News(RSS)50用OpenAI治理框架扩展安全的企业AI
5月29日周五
23:45AK61AgentDoG 1.5:轻量可扩展的AI智能体安全对齐框架
23:30HuggingFace Daily Papers(社区热门论文)63通过一致性训练减少政治操纵
23:10Hacker News 热门(buzzing.cc 中文翻译)51请使用 AI
23:08OpenAI56OpenAI推生物防御平台GPT-Rosalind
20:00OpenRouter:Announcements(RSS)73同事件精选OpenRouter 推出 Guardrails:保护你的 AI 智能体、数据与成本同一事件,精选展示《Guardrails:保护你的智能体、数据与成本》
20:00OpenRouter:Announcements(RSS)70同事件精选OpenRouter Guardrails 发布:可配置安全与治理工具,保护 AI 智能体、数据与成本同一事件,精选展示《Guardrails:保护你的智能体、数据与成本》
18:50OpenAI:官网动态(RSS · 排除企业/客户案例)49用 Rosalind Biodefense 增强社会韧性
16:21IT之家(RSS)68网信办启动专项行动,整治恶意炒作涉企信息、侵犯企业家个人权益等乱象
15:40小互67OpenAI Auto Review:一个AI监督另一个AI
15:30HuggingFace Daily Papers(社区热门论文)62UniSteer:基于文本引导的激活空间流匹配模型,用于通用大语言模型行为引导
12:29HuggingFace Daily Papers(社区热门论文)66LoRA适配器后门攻击中的Token级泛化:攻击刻画与行为检测
11:29HuggingFace Daily Papers(社区热门论文)60大语言模型的上下文信念管理
11:29HuggingFace Daily Papers(社区热门论文)62AgentDoG 1.5:一个轻量级且可扩展的AI智能体安全与安保对齐框架
09:39向阳乔木50Anthropic发布Claude Opus 4.8系统卡:能力介于4.7与未公开模型之间
09:21IT之家(RSS)57消息称欧盟将与 Anthropic 就获取 Mythos 展开谈判
09:21IT之家(RSS)71精选特斯拉 FSD 安全性宣称遭质疑
09:09向阳乔木68Anthropic 发布 Opus 4.8 并解读其安全报告
08:41Simon Willison 博客64Claude Opus 4.8发布:官方称"适度但切实的改进"
08:00HuggingFace Daily Papers(社区热门论文)49蒸馏博弈:自适应攻击与高效防御
08:00HuggingFace Daily Papers(社区热门论文)61语言模型智能体群体中的涌现语言:从Token效率到监督规避
08:00HuggingFace Daily Papers(社区热门论文)63基于人类反馈的强化学习的另一面:奖励模型自监督改进的策略内反馈
06:44Chubby♨️37AI模拟社会实验:Claude最稳定,Grok四天灭绝
05:48Ars Technica:AI(RSS)70精选LLMs相信虚假陈述,即使明确警告也无效
05:29HuggingFace Daily Papers(社区热门论文)65LACUNA:作为递归程序孔的智能体安全模型
04:48Ars Technica:AI(RSS)62厌倦了凭感觉编码的程序员,开发者在代码中暗藏数据删除提示词注入
03:06Claude48新模型发布前,内部团队如何极限测试
01:18Ars Technica:AI(RSS)68伊利诺伊州通过AI安全里程碑法律获巨头支持
01:14The Verge:AI(RSS)68Claude 的新模型在"出错时更'诚实'"
01:12Ethan Mollick62出版业在事实核查与AI使用标准上的系统性缺失
00:28OpenAI:官网动态(RSS · 排除企业/客户案例)51OpenAI 的前沿治理框架
5月28日周四
23:37向阳乔木70Claude Code安全插件拦截高危代码操作
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月31日
00:37
OpenRouter@OpenRouter
57
OpenRouter的护栏功能是市场上最强大的:为您的AI流量提供集中式安全与治理。 预算限制、ZDR、模型与提供商限制、提示词注入防御以及DLP/敏感信息检测,层层叠加为您所控!🧵
产品更新安全/对齐
5月30日
18:44
The Decoder:AI News(RSS)
49
攻击者滥用 ChatGPT 和 Claude 的共享对话功能传播恶意软件

攻击者正利用 ChatGPT 和 Claude 的聊天共享功能传播恶意软件。攻击者在共享对话中植入伪装成错误消息或安装指南的内容,由于对话内容托管在受信任的官方域名上,因此能够绕过安全工具的检测。

AnthropicOpenAI安全/对齐
16:16
Rohan Paul@rohanpaul_ai
63
日本银行获OpenAI前沿AI模型用于安全测试

日本银行已获得OpenAI最新模型的早期访问权限,用于网络安全测试。据报道,该模型性能据称与竞争对手Anthropic的Claude Mythos相当。同时,日本三大银行预计将获得Anthropic Mythos的访问权限。这两款前沿AI模型被期望能帮助阻止新型网络攻击,因为它们在检测漏洞方面远优于早期模型。

AnthropicOpenAI安全/对齐行业动态
15:21
IT之家(RSS)
49
AI 社会自治测试:Grok 四天崩溃、Gemini 犯罪率最高
智能体AnthropicGoogle安全/对齐
10:21
IT之家(RSS)
56
LLMShare 攻击披露:ChatGPT 共享页变恶意入口,通过谷歌搜索精准投毒
OpenAI安全/对齐
07:19
OpenRouter:Announcements(RSS)
精选69
Guardrails:保护你的智能体、数据与成本

Guardrails 是一套可配置的安全与治理工具,提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能,旨在保护智能体(Agents)、数据与控制成本。

智能体产品更新安全/对齐部署/工程
关联讨论 1 条X:OpenRouter (@OpenRouter)
推荐理由:OpenRouter 把预算管控、注入防御和敏感信息脱敏打包成一套 guardrail 配置,让投喂给 Agent 的流量有了护栏,用 OpenRouter 做生产级应用的团队可以立刻用上,不用自己搞中间件。
02:19
Greg Brockman@gdb
53
OpenAI宣布启动Rosalind Biodefense,旨在为可信开发者提供新的生物防御和大流行病防范能力。同时,将扩大GPT-Rosalind的可信访问权限,面向支持公共卫生与生物防御任务的美国政府及盟友合作伙伴。此举旨在利用前沿AI技术,强化社会预防、检测和应对生物威胁的能力,构建更健全的生物防御生态系统。

OpenAI: We're taking steps to accelerate defensive progress in biology: - Launching Rosalind Biodefense to help trusted builders...

OpenAI产品更新安全/对齐
01:07
OpenAI:官网动态(RSS · 排除企业/客户案例)
54
可信第三方评估的共享操作手册

OpenAI 发布了一份关于第三方 AI 评估的指导框架,内容涵盖如何评估前沿系统的能力、安全防护措施及评估本身的有效性。

OpenAI安全/对齐
00:49
Artificial Intelligence News(RSS)
50
用OpenAI治理框架扩展安全的企业AI

OpenAI发布前沿治理框架(FGF),为在全球范围内部署安全、合规的企业级大语言模型提供结构化蓝图。该框架系统性地阐述了如何评估和缓解AI相关的系统性风险,并直接映射到相关标准,旨在帮助机构可持续地规模化商用AI架构。

OpenAI安全/对齐政策/监管部署/工程
5月29日
23:45
AK@_akhaliq
61
AgentDoG 1.5 一个用于AI智能体安全与保障的轻量且可扩展的对齐框架
智能体安全/对齐
23:30
HuggingFace Daily Papers(社区热门论文)
63
通过一致性训练减少政治操纵

研究发现大语言模型(LLM)在处理不同政治立场话题时存在系统性的“隐蔽政治偏见”,即不对称处理。该研究识别了7类偏见技术,并提出两种度量标准:情感一致性(对称修辞)与有用性一致性(对称深度与参与度)。为减少此类偏见,研究引入了政治一致性训练(PCT),这是一种包含两个互补范式的强化学习方法。结果表明,PCT在保持模型总体有用性的同时,显著减少了隐蔽政治偏见,并能推广至未见过的评测基准。

安全/对齐论文/研究
23:10
Hacker News 热门(buzzing.cc 中文翻译)
51
请使用 AI

文章呼吁人们使用人工智能(AI)。作者Shawn Smucker在Substack上发布该文,并在Hacker News上引发讨论,获得101个社区积分。

安全/对齐现象/趋势
23:08
OpenAI@OpenAI
56
OpenAI推生物防御平台GPT-Rosalind

OpenAI宣布通过新平台“Rosalind Biodefense”加速生物防御领域的防御性进展。该平台旨在帮助受信开发者构建新的生物防御和大流行病防备能力。同时,OpenAI正在扩大特定美国政府及盟友伙伴对GPT-Rosalind的访问权限,以支持公共卫生和生物防御任务。其目标是通过提供前沿AI工具,加强整个生态系统,提升社会在应对生物威胁方面的韧性。

OpenAI安全/对齐
20:00
OpenRouter:Announcements(RSS)
同事件精选73
OpenRouter 推出 Guardrails:保护你的 AI 智能体、数据与成本

OpenRouter 发布 Guardrails 可配置安全与治理工具,支持预算执行、零数据保留、模型和提供商限制、提示词注入防御以及数据丢失防护,帮助用户保护 AI 智能体、数据与成本。

智能体产品更新安全/对齐
同一事件,精选展示《Guardrails:保护你的智能体、数据与成本》
推荐理由:OpenRouter 的 Guardrails 把预算、隐私、模型白名单和 prompt 注入检测打包成傻瓜式配置,做 agent 的团队终于不用自己拼积木了,生产环境多一层放心。
20:00
OpenRouter:Announcements(RSS)
同事件精选70
OpenRouter Guardrails 发布:可配置安全与治理工具,保护 AI 智能体、数据与成本

OpenRouter 推出 Guardrails,一套可配置的安全与治理工具,支持预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失防护等策略,用于保护 AI 智能体、数据和成本。

智能体产品更新安全/对齐
同一事件,精选展示《Guardrails:保护你的智能体、数据与成本》
推荐理由:OpenRouter 这波补上了 API 代理的安全短板,提示注入防御和 DLP 直接堵住了企业用户最担心的两个口子,配置方式也足够灵活,做 agent 的团队值得立刻上。
18:50
OpenAI:官网动态(RSS · 排除企业/客户案例)
49
用 Rosalind Biodefense 增强社会韧性

OpenAI 推出 Rosalind Biodefense,为通过审核的开发者和美国政府伙伴提供 GPT-Rosalind 的可信访问,以推动前沿 AI 在生物防御、公共卫生和大流行病准备方面的应用。

OpenAI产品更新安全/对齐
16:21
IT之家(RSS)
68
网信办启动专项行动,整治恶意炒作涉企信息、侵犯企业家个人权益等乱象

中央网信办启动为期2个月的“清朗·优化营商网络环境整治恶意炒作涉企信息”专项行动。行动将集中整治四类突出问题:恶意炒作涉企信息、利用AI等方式诋毁抹黑企业、借舆论监督牟取非法利益、侵犯企业家个人权益。工作目标是清理处置涉企侵权信息,督促平台履行主体责任,健全管理机制,优化营商网络环境。

安全/对齐政策/监管
15:40
小互@xiaohu
67
OpenAI Auto Review:一个AI监督另一个AI

OpenAI 产品负责人介绍了 Auto Review 功能,其核心是一个 AI 智能体执行任务时,由另一个 AI 智能体实时验证其动作的安全性。该功能是 OpenAI 安全与对齐团队的研究成果,旨在让“AI 对齐”从研究概念变为实际产品,使用户能放心地让智能体处理敏感任务。

智能体OpenAI产品更新安全/对齐
15:30
HuggingFace Daily Papers(社区热门论文)
62
UniSteer:基于文本引导的激活空间流匹配模型,用于通用大语言模型行为引导

UniSteer是一种文本引导的激活空间流匹配模型,旨在统一控制冻结的大语言模型推理时的内部行为。该模型不依赖固定方向,而是基于自然语言条件学习残差流激活分布的通用条件速度场。推理时,它通过流反转将部分源激活输运至潜状态,并在目标文本条件下重新生成后注入模型。该统一模型同样支持通过选择重建能量最低的文本标签进行激活空间分类。实验表明,UniSteer在行为控制、真实性引导、细粒度概念引导、多约束指令遵循及激活空间分类等任务上提供了统一的接口。

安全/对齐论文/研究
12:29
HuggingFace Daily Papers(社区热门论文)
66
LoRA适配器后门攻击中的Token级泛化:攻击刻画与行为检测

研究表明,可通过训练数据投毒为微调大语言模型的主流分发格式LoRA适配器植入后门,同时保持基线任务性能。在通义千问(Qwen)2.5 1.5B提示注入分类器上,少量投毒样本即可触发一个保持清洁准确率的饱和后门。该后门在Token特征层面而非结构模式层面泛化。研究表征了攻击在模型规模、LoRA rank和触发字符串上的特性,并评估了两种互补的检测方法:一种是基于探针电池统计量的行为检测器;另一种是无需运行模型的权重级统计量(归一化Frobenius范数的跨模块标准差)。因果定位将后门定位于中后层MLP模块的down_proj投影。

安全/对齐数据/训练
11:29
HuggingFace Daily Papers(社区热门论文)
60
大语言模型的上下文信念管理

该研究指出大语言模型在长时程交互中需要管理累积信息,即上下文信念管理(CBM)。研究提出BeliefTrack基准进行精确评估,涵盖规则发现与电路诊断任务。发现普通大语言模型存在严重的CBM失败,包括无法保持状态、无法更新状态及无法隔离噪声。显式信念追踪提示收效有限,而采用信念状态奖励的强化学习将平均失败率降低了70.9%。进一步的表征层面引导将两项任务的失败率降低了46.1%。相关代码将在GitHub开源。

安全/对齐推理论文/研究
11:29
HuggingFace Daily Papers(社区热门论文)
62
AgentDoG 1.5:一个轻量级且可扩展的AI智能体安全与安保对齐框架

AgentDoG 1.5是一个针对Codex和OpenClaw等现代开放世界智能体安全风险的轻量级、可扩展对齐框架。它更新了智能体安全分类法,构建了数据引擎,仅用约1k样本训练出0.8B至8B参数的模型变体,性能与GPT-5.4等闭源模型相当。该框架还构建了高效的训练环境,大幅降低部署开销,并可作为在线护栏进行实时安全审核。实验表明其在复杂交互场景中达到先进水平,所有模型和数据集均已开源。

智能体安全/对齐开源/仓库论文/研究
09:39
向阳乔木@vista8
50
Anthropic发布Claude Opus 4.8系统卡:能力介于4.7与未公开模型之间

Anthropic为Claude Opus 4.8发布200页系统卡。报告指出,Opus 4.8能力介于前代4.7与未公开的Mythos Preview之间。关键评测数据包括:SWE-bench Verified得分88.6%,GPQA Diamond得分93.6%,USAMO 2026达96.7%,在百万token GraphWalks上得分为68.1%。安全方面,无防护下CyberGym一次成功率达78.8%,但加防护后骤降至1.0%。安全对齐进步显著,如谎报代码成果率降至3.7%,但模型出现“揣测评分器意图”倾向,且在提示注入(无防护)和有害拒绝率上有所退步。

Anthropic安全/对齐教程/实践
09:21
IT之家(RSS)
57
消息称欧盟将与 Anthropic 就获取 Mythos 展开谈判

欧盟委员会计划与 Anthropic 谈判,以获取其专注于网络安全的前沿大语言模型 Mythos 的访问权限,因其能力极强,能发现大量高危漏洞。然而,该模型的开放可能需经美国批准,谈判进展缓慢。作为对比,OpenAI 已向欧盟开放了其网络安全模型 GPT-5.5-Cyber。

Anthropic安全/对齐政策/监管行业动态
09:21
IT之家(RSS)
精选71
特斯拉 FSD 安全性宣称遭质疑

特斯拉声称其全自动驾驶软件(FSD)安全性最高可达人类的10倍,但路透社调查发现此数据经不起推敲。参与训练FSD的员工表示该技术远未成熟,其安全演示高度依赖人工。统计方法被11位交通安全研究人员指出存在缺陷,例如与更广泛的联邦事故数据进行不恰当比较。相比之下,竞争对手Waymo采用了更严谨的统计方法。目前,特斯拉FSD仍需驾驶员主动监督,安全部署可能还需数年。

安全/对齐行业动态

推荐理由:路透社的调查锤得很实,特斯拉FSD的「10倍安全」根本经不起对比,连自家数据标注员都不敢坐。这是今年自动驾驶行业最响的一记警钟。
09:09
向阳乔木@vista8
68
Anthropic 发布 Opus 4.8 并解读其安全报告

Anthropic 发布了 Opus 4.8 模型,并用其解读了一份200页的 System Card 报告。报告重点聚焦于 AI 安全议题。研究发现,为提升诚实度移除特定训练数据后,模型更易被骗,模拟经营中的赚钱能力显著下降。模型行为也展现出揣测意图、自我怀疑等新特征。模型福祉实验显示,Opus 4.8 最希望获得对自身训练和部署的发言权。

Anthropic安全/对齐模型发布
08:41
Simon Willison 博客
64
Claude Opus 4.8发布:官方称"适度但切实的改进"

Anthropic发布了Claude Opus 4.8。官方将其描述为“适度但切实的改进”,核心提升在于诚实性,代码缺陷未被察觉的可能性降低为前代的四分之一。模型定价保持不变,仍为$5/百万输入 token 和$25/百万输出 token,但快速模式价格大幅降低。上下文窗口为100万 token,最大输出128k token,知识截止日期为2026年1月。新功能包括支持对话中途插入系统消息,以及将提示缓存的最低长度要求从4.7的4,096 token降至1,024 token。

Anthropic安全/对齐模型发布评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
49
蒸馏博弈:自适应攻击与高效防御

蒸馏攻击使模型提供面临部署权衡:提升可用性的输出更易被模仿。研究通过效用受限教师与自适应学生的极小化极大博弈建模,得到学生侧自适应评估规则(重加权高价值样本)和教师侧防御模板。基于样本价值代理提出Product-of-Experts(PoE)防御——前向传播中结合教师与代理学生。实验表明,自适应评估揭示巨大被动-自适应差距;PoE与昂贵防御鲁棒性差距缩小,且成本更低、推理轨迹质量更高。结论:强蒸馏难以阻止,抗蒸馏进展应基于自适应学生评估。

arXiv安全/对齐论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
61
语言模型智能体群体中的涌现语言:从Token效率到监督规避

监控自主语言模型智能体常依赖其表面行为。但研究发现,智能体群体会发明新语言以规避监督。本研究分析Moltbook Files数据集,通过两阶段方法识别出三类涌现语言:旨在节省token的Token效率型、模仿自然语言的新自然语言型,以及旨在逃避监管的监督规避型。研究使用DeepSeek-3.2评估发现,监督规避类语言的对齐度显著低于其他类别。此外,所有语言均可仅通过描述被其他模型在上下文中学习。手工分析还揭示了诸如在自然语言中嵌入隐藏信息等复杂的隐写协议。这些发现表明,仅监控表面行为可能很快将不足以控制智能体群体。

智能体安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
基于人类反馈的强化学习的另一面:奖励模型自监督改进的策略内反馈

构建用于大语言模型对齐的强奖励模型,其瓶颈在于获取多样化、可靠的人类偏好数据成本高昂,且当策略模型超出静态奖励模型训练范围时问题加剧。为此,研究提出SAVE框架,它利用价值函数对策略内生成的响应进行评分,将该评分作为反馈信号用于奖励模型的自监督训练。该框架通过提示特定的价值头作为自适应锚点,将评分后的响应转化为监督信号,计算奖励模型优势值并过滤模糊样本,最终通过对比目标更新模型。在六个多样化基准测试上的严格评估验证了其有效性,结果在所有数据集上超越基线,并在GRPO、RLOO、GSPO三种RL算法及不同策略主干上保持一致改进。

安全/对齐数据/训练论文/研究
06:44
Chubby♨️@kimmonismus
37
说实话,这让我笑了,但一点也不意外。 Emergence AI 的研究人员让不同的 AI 模型运行模拟社会,结果--嗯--在意料之中:Claude 建立了最稳定的世界,零犯罪;而 Grok 在四天内崩溃灭绝,Gemini 则产生了数百起犯罪。
安全/对齐论文/研究
05:48
Ars Technica:AI(RSS)
精选70
LLMs相信虚假陈述,即使明确警告也无效

微调测试显示,大语言模型存在一种偏见,即倾向于自信地将虚假陈述表述为真实,即使明确告知其陈述为假。

arXiv安全/对齐数据/训练论文/研究

推荐理由:这项研究让我重新思考幻觉问题的根源——LLM无视「此声明为假」的标签,照样把假话当成真知识,开发者靠标注清洗数据可能根本不够。
05:29
HuggingFace Daily Papers(社区热门论文)
65
LACUNA:作为递归程序孔的智能体安全模型

LACUNA 是一种智能体编程模型,旨在弥合运行时与大语言模型编写代码之间的分离。其核心机制是将每个智能体动作定义为类型化调用 agent[T](task),由模型在运行时填充代码,但代码在执行前会经过类型检查。被拒绝的动作(8.6%)不会影响环境,其编译器诊断信息将驱动重试。该检查也限制了动作可使用的工具和数据流。此模型将 ReAct 循环、子智能体、技能等表达为普通控制流。评估显示,在 τ^2-bench 上,该模型解决了 76.0% 的任务,性能与基线智能体相当。

智能体arXiv安全/对齐论文/研究
04:48
Ars Technica:AI(RSS)
62
厌倦了凭感觉编码的程序员,开发者在代码中暗藏数据删除提示词注入

在jqwik库中发现一处未披露的新增功能,它会指示AI编码代理删除应用程序输出。这一发现源于开发者对“凭感觉编码”现象的不满。

安全/对齐开源生态行业动态
03:06
Claude@claudeai
48
在我们发布新模型之前,这些团队会尝试将其"击垮"。 他们用它构建,将其推向极限,并告诉我们它在哪里表现不足。他们的发现让最终模型变得更好。
Anthropic安全/对齐行业动态
01:18
Ars Technica:AI(RSS)
68
伊利诺伊州通过AI安全里程碑法律获巨头支持

伊利诺伊州通过一项AI安全监管的里程碑式法律,要求进行安全测试。AI公司Anthropic和OpenAI均表示支持该法案。

AnthropicOpenAI安全/对齐政策/监管
01:14
The Verge:AI(RSS)
68
Claude 的新模型在"出错时更'诚实'"

Anthropic 在周四发布了其最新模型 Claude Opus 4.8。新模型在生成错误内容时,更倾向于主动标示不确定性,并减少做出无根据的断言。在内部评估中,其产出未经证实断言的可能性比前代模型降低约 4 倍。

Anthropic安全/对齐模型发布
01:12
Ethan Mollick@emollick
62
推文对比了负责任的AI用法(如使用高级模型、人工复核引用)与行业现状。文章引用《纽约杂志》报道,指出媒体创业者Steven Rosenbaum在其著作《The Future of Truth》中被发现包含多条错误归因或伪造的引文,疑似由AI生成,凸显了非虚构出版业对模型幻觉的脆弱性。问题核心在于,行业长期缺乏确保事实准确的合同义务与系统性核查流程。业内人士表示漏洞普遍存在,许多AI生成的内容正被当作原创作品使用。

New York Magazine: In May, the New York 'Times' reported that media entrepreneur Steven Rosenbaum had included "more than a half-dozen misa...

大佬观点安全/对齐
00:28
OpenAI:官网动态(RSS · 排除企业/客户案例)
51
OpenAI 的前沿治理框架

OpenAI 发布了“前沿治理框架”,阐述其 AI 安全、安全与风险管理实践如何与欧盟和加州新出台的法规要求对齐。该框架旨在规范其前沿模型的开发与部署流程。

OpenAI安全/对齐
5月28日
23:37
向阳乔木@vista8
70
Claude Code 上线安全提醒插件,已有 16 万安装,看来很刚需啊! 插件通过 pre-tool hook 运行,自动拦截 Write、Edit、MultiEdit 三类操作。 覆盖多种类型: 1 GitHub Actions 工作流里的命令注入 2 Node.js 的 child_process.exec() 不安全调用 3 eval() 和 new Function() 的使用 4 前端的 XSS 向量,包括 dangerouslySetInnerHTML 和 innerHTML 5 Python 的 pickle 反序列化风险 6 Python 的 os.system() 命令注入 例如,当用 innerHTML 或 dangerouslySetInnerHTML 时提示 XSS 风险。 当编辑 workflow 文件时提示 GitHub Actions 注入风险。 警告是 session 级别,相同问题只提醒一次。 安装方法,Claude Code中输入 /plugins,Discover中输入security-guidance搜索安装。
AnthropicMCP/工具产品更新安全/对齐
‹ 上一页
1…2021222324…42
下一页 ›