4月8日

08:00

Lilian Weng：Lil'Log（RSS）

精选55

该文章系统梳理了策略梯度算法的发展脉络，深入解析其工作原理，并详细介绍了从基础到前沿的多种算法，包括PPO、SAC、TD3、IMPALA等主流方法。文章自2018年起持续更新，陆续新增了D4PG、SVPG、PPG等新算法，并补充了关于PPO的最新讨论。文中还提供了韩语及中文等多个语言版本的翻译，便于不同读者参考。

智能体 OpenAI 教程/实践数据/训练

推荐理由：这篇是当年策略梯度方法的“圣经”级综述，现在看虽然有些过时，但想理解PPO、SAC的来龙去脉还得从这儿啃起。

2月19日

08:00

Lilian Weng：Lil'Log（RSS）

深入浅出强化学习（长文）

这是一篇系统性的强化学习入门综述，内容涵盖从基础概念到经典算法的完整知识路径。文章旨在为初学者搭建清晰的认知框架，避免其在专业术语中迷失。它详细梳理了强化学习的主要算法，并于近期更新了SARSA和Q-learning算法的描述，使两者的差异更加清晰。作为一篇长文，它还提供了中文翻译版本，以帮助中文读者理解这一人工智能的重要分支。

教程/实践数据/训练

10月15日

08:00

Lilian Weng：Lil'Log（RSS）

学习词嵌入

词嵌入是一种将词汇表示为数值向量的密集表达方法，能够通过多种语言模型学习得到。这种表示形式可以揭示词语之间隐藏的关系，例如“猫”与“小猫”的向量差类似于“狗”与“小狗”的向量差。文章介绍了几种用于学习词嵌入的模型，并阐述了其损失函数的设计原理，旨在帮助机器学习模型理解和处理自然语言文本。

教程/实践数据/训练

9月28日

08:00

Lilian Weng：Lil'Log（RSS）

基于信息论的深度学习剖析

Naftali Tishby教授在生前演讲中提出，信息论可应用于研究深度神经网络的训练过程，核心是信息瓶颈