AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 202 条
全部一手资讯X论文
标签「安全/对齐」清除
3月21日周日
08:00Lilian Weng:Lil'Log(RSS)36降低语言模型中的毒性
8月1日周二
08:00Lilian Weng:Lil'Log(RSS)46如何解释机器学习模型的预测?
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
3月21日
08:00
Lilian Weng:Lil'Log(RSS)
36
降低语言模型中的毒性

大型预训练语言模型因使用海量网络数据进行训练,不可避免地会习得部分毒性行为与偏见。为确保其在真实应用场景中的安全部署,必须对模型生成过程进行严格的安全控制。文章将从三个核心方面探讨降低语言模型毒性的方法:训练数据集的筛选与收集、对有毒内容的检测机制,以及模型本身的去毒化技术。

OpenAI安全/对齐教程/实践
8月1日
08:00
Lilian Weng:Lil'Log(RSS)
46
如何解释机器学习模型的预测?

随着机器学习模型渗透到医疗保健、司法系统和金融行业等关键领域,理解其决策过程并确保符合伦理要求或法律规范变得至关重要。本文回顾了模型可解释性的研究进展,覆盖两个主要方面:一是可解释模型及其特定解释方法,二是针对黑盒模型的解释策略。文章还探讨了可解释人工智能的开放讨论,强调提升模型透明度和可信度的必要性,以促进负责任的应用。这些研究为模型在敏感领域的部署提供了理论支持。

安全/对齐教程/实践
‹ 上一页
123456
下一页 ›