AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「数据/训练」清除
4月8日周日
08:00Lilian Weng:Lil'Log(RSS)55精选策略梯度算法
2月19日周一
08:00Lilian Weng:Lil'Log(RSS)36深入浅出强化学习(长文)
10月15日周日
08:00Lilian Weng:Lil'Log(RSS)22学习词嵌入
9月28日周四
08:00Lilian Weng:Lil'Log(RSS)35基于信息论的深度学习剖析
7月8日周六
08:00Lilian Weng:Lil'Log(RSS)17基于RNN预测股票价格:第一部分
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月8日
08:00
Lilian Weng:Lil'Log(RSS)
精选55
策略梯度算法

该文章系统梳理了策略梯度算法的发展脉络,深入解析其工作原理,并详细介绍了从基础到前沿的多种算法,包括PPO、SAC、TD3、IMPALA等主流方法。文章自2018年起持续更新,陆续新增了D4PG、SVPG、PPG等新算法,并补充了关于PPO的最新讨论。文中还提供了韩语及中文等多个语言版本的翻译,便于不同读者参考。

智能体OpenAI教程/实践数据/训练

推荐理由:这篇是当年策略梯度方法的“圣经”级综述,现在看虽然有些过时,但想理解PPO、SAC的来龙去脉还得从这儿啃起。
2月19日
08:00
Lilian Weng:Lil'Log(RSS)
36
深入浅出强化学习(长文)

这是一篇系统性的强化学习入门综述,内容涵盖从基础概念到经典算法的完整知识路径。文章旨在为初学者搭建清晰的认知框架,避免其在专业术语中迷失。它详细梳理了强化学习的主要算法,并于近期更新了SARSA和Q-learning算法的描述,使两者的差异更加清晰。作为一篇长文,它还提供了中文翻译版本,以帮助中文读者理解这一人工智能的重要分支。

教程/实践数据/训练
10月15日
08:00
Lilian Weng:Lil'Log(RSS)
22
学习词嵌入

词嵌入是一种将词汇表示为数值向量的密集表达方法,能够通过多种语言模型学习得到。这种表示形式可以揭示词语之间隐藏的关系,例如“猫”与“小猫”的向量差类似于“狗”与“小狗”的向量差。文章介绍了几种用于学习词嵌入的模型,并阐述了其损失函数的设计原理,旨在帮助机器学习模型理解和处理自然语言文本。

教程/实践数据/训练
9月28日
08:00
Lilian Weng:Lil'Log(RSS)
35
基于信息论的深度学习剖析

Naftali Tishby教授在生前演讲中提出,信息论可应用于研究深度神经网络的训练过程,核心是信息瓶颈

教程/实践数据/训练
7月8日
08:00
Lilian Weng:Lil'Log(RSS)
17
基于RNN预测股票价格:第一部分

该教程介绍了如何使用Tensorflow构建循环神经网络(RNN)来预测股票市场价格,其中第一部分重点针对标准普尔500指数进行预测。教程提供了完整可运行的代码,托管于GitHub仓库。

教程/实践数据/训练
‹ 上一页
1…414243
下一页 ›