Lilian Weng：Lil'Log（RSS）

随着机器学习模型渗透到医疗保健、司法系统和金融行业等关键领域，理解其决策过程并确保符合伦理要求或法律规范变得至关重要。本文回顾了模型可解释性的研究进展，覆盖两个主要方面：一是可解释模型及其特定解释方法，二是针对黑盒模型的解释策略。文章还探讨了可解释人工智能的开放讨论，强调提升模型透明度和可信度的必要性，以促进负责任的应用。这些研究为模型在敏感领域的部署提供了理论支持。

安全/对齐教程/实践