全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「安全/对齐」清除

6月14日周五

19:00EleutherAI：Blog弱到强泛化实验

00:00EleutherAI：Blog无需神谕概念标签的自由形式最小二乘概念擦除

12月20日周三

06:00EleutherAI：Blog基于 Oracle 概念标签的最小二乘概念擦除

10月30日周一

00:00LMSYS：Blog（Chatbot Arena 团队）ToxicChat：真实用户-AI交互场景下的内容审核基准测试

10月26日周四

08:00EleutherAI：Blog基础模型透明度指数如何扭曲透明度

10月25日周三

08:00Lilian Weng：Lil'Log（RSS）40LLMs 上的对抗攻击

10月7日周六

09:10Ilya Sutskever29唯智力论将令人失望

9月19日周二

01:10Ilya Sutskever实用对齐工作既至关重要又立竿见影。请考虑申请：

10月26日周二

04:00EleutherAI：Blog使用 GPT-3 对分解认知的初步探索

6月3日周四

05:30EleutherAI：Blog为何发布大语言模型？

3月21日周日

08:00Lilian Weng：Lil'Log（RSS）36降低语言模型中的毒性

8月1日周二

08:00Lilian Weng：Lil'Log（RSS）46如何解释机器学习模型的预测？

没有更多了

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月14日

19:00

EleutherAI：Blog

弱到强泛化实验

研究团队正在总结一项关于弱到强泛化的实验项目成果，探索如何利用较弱模型的监督信号来训练更强模型，以应对超人类AI对齐难题。该实验旨在验证强模型能否在弱监督下泛化出超越监督者水平的性能，为安全地引导未来超人类智能提供关键实证基础与可行路径。

安全/对齐论文/研究

00:00

EleutherAI：Blog

无需神谕概念标签的自由形式最小二乘概念擦除

该方法提出自由形式最小二乘概念擦除技术，在推理阶段无需依赖神谕概念标签即可实现比 LEACE 更精细的模型编辑。通过自由形式优化框架，技术突破传统方法对标注数据的依赖，在保持模型原有能力的同时，精准定位和移除目标概念表征，显著提升概念编辑的灵活性与精确度，为无监督概念操控提供高效解决方案。

安全/对齐论文/研究

12月20日

06:00

EleutherAI：Blog

基于 Oracle 概念标签的最小二乘概念擦除

研究团队提出了一种基于最小二乘法的概念擦除方法，在推理阶段利用 Oracle 概念标签，实现了比 LEACE 更精准的概念编辑。该方法通过引入真实的概念标签作为监督信号，能够对神经网络内部表示进行更精细的干预，在保持模型其他功能的同时，实现了更精确的概念移除和表示编辑。

安全/对齐论文/研究

10月30日

00:00

LMSYS：Blog（Chatbot Arena 团队）

ToxicChat：真实用户-AI交互场景下的内容审核基准测试

研究团队发布ToxicChat基准测试，包含10,000条真实用户-AI对话数据，用于检测对话系统毒性内容。该数据集从Vicuna和Chatbot Arena平台采集，除常规有害内容外，特别标注了"越狱"诱导攻击样本。通过Perspective API与人工协作标注，团队在保持96.11%一致性的同时减少60%工作量。数据显示真实场景中毒性查询占7.22%，多采用隐含诱导而非直接脏话。该基准已在Hugging Face开源。

安全/对齐数据/训练

10月26日

08:00

EleutherAI：Blog

基础模型透明度指数如何扭曲透明度

由于提供的正文内容仅包含一句话"Evaluating transparency requires precision."，缺乏撰写100-200字摘要所需的必要信息（如具体发布内容、数据指标、关键变化等），无法完成符合要求的摘要撰写。请提供完整正文内容以便提取关键信息点。

安全/对齐论文/研究

10月25日

08:00

Lilian Weng：Lil'Log（RSS）

40

LLMs 上的对抗攻击

随着 ChatGPT 等大型语言模型在现实世界中的广泛应用，安全对齐技术如 RLHF 被用于构建模型的默认安全行为，但对抗攻击或越狱提示可能触发模型输出不安全内容。尽管图像领域的对抗攻击研究较为成熟，文本攻击因离散数据缺乏直接梯度信号而更具挑战性，攻击大型语言模型本质上是控制模型输出特定类型的不安全内容。

OpenAI 安全/对齐

10月7日

09:10

Ilya Sutskever@ilyasut

29

如果你把智力置于所有其他人类品质之上，你会过得很糟糕

大佬观点安全/对齐

9月19日

01:10

Ilya Sutskever@ilyasut

实用对齐工作既至关重要又立竿见影。请考虑申请：

Jan Leike: If you're into practical alignment, consider applying to @lilianweng's team. They're building some really exciting stuff...

OpenAI 安全/对齐

10月26日

04:00

EleutherAI：Blog

使用 GPT-3 对分解认知的初步探索

研究团队利用分解认知（factored cognition）策略，使原本无法完成简单数学运算的 GPT-3 成功处理复杂算术任务。实验通过将复杂玩具任务拆解为可管理的子任务，验证分解方法在现实模型中的可行性。结果表明，即使不具备基础数学能力，该模型仍可通过任务分解解决其原生能力无法处理的复杂问题，为扩展语言模型能力边界提供了初步证据。

安全/对齐推理论文/研究

6月3日

05:30

EleutherAI：Blog

为何发布大语言模型？

创造并开源大语言模型对AI安全具有净收益价值。文章论证了公开发布大模型能够提升AI系统的安全性与透明度，详细阐述了支持开放源代码策略的核心理由，解释了这种发布方式为何有助于推动AI安全领域的整体发展，而非增加潜在风险。

安全/对齐开源生态

3月21日

08:00

Lilian Weng：Lil'Log（RSS）

36

降低语言模型中的毒性

大型预训练语言模型因使用海量网络数据进行训练，不可避免地会习得部分毒性行为与偏见。为确保其在真实应用场景中的安全部署，必须对模型生成过程进行严格的安全控制。文章将从三个核心方面探讨降低语言模型毒性的方法：训练数据集的筛选与收集、对有毒内容的检测机制，以及模型本身的去毒化技术。

OpenAI 安全/对齐教程/实践

8月1日

08:00

Lilian Weng：Lil'Log（RSS）

46

如何解释机器学习模型的预测？

随着机器学习模型渗透到医疗保健、司法系统和金融行业等关键领域，理解其决策过程并确保符合伦理要求或法律规范变得至关重要。本文回顾了模型可解释性的研究进展，覆盖两个主要方面：一是可解释模型及其特定解释方法，二是针对黑盒模型的解释策略。文章还探讨了可解释人工智能的开放讨论，强调提升模型透明度和可信度的必要性，以促进负责任的应用。这些研究为模型在敏感领域的部署提供了理论支持。

安全/对齐教程/实践

1…40 4142

下一页 ›