Open main menu
1Man
全部课程
支持
登录
Home
强化学习入门
2 - 强化学习基础(下)
2-1 Max贝曼优化方程(一)
2-2 Max贝曼优化方程(二)
2-3 动态优化框架
2-4 Car Rental Example
2-5 Grid World Example
2-6 贴现因子会对最优解产生什么影响?
2-7 贪婪收敛
2-8 蒙特卡洛抽样和算法
2-9 TD算法
2-10 比较TD和蒙特卡洛方法(一)
2-11 比较TD和蒙特卡洛方法(二)
2-12 N-step TD 算法
2-13 策略估计方法总结(一)
2-14 策略估计方法总结(二)
2-15 Sarsa算法(一)
2-16 Sarsa算法(二)
2-17 Q-learning算法
2-18 表格方法