Open main menu
1Man
全部课程
支持
登录
本站将于 2025 年 3 月正式停止服务(详情请阅读 2024 年 9 月发送的邮件)
Home
强化学习入门
1 - 强化学习基础(上)
1-1 机器学习的类型
1-2 监督学习的“智能”VS强化学习的“智能”
1-3 强化学习的各个领域中的应用(一)
1-4 强化学习的各个领域中的应用(二)
1-5 强化学习的各个领域中的应用(三)
1-6 强化学习框架、强化学习四元组
1-7 奖励、状态、行为(一)
1-8 奖励、状态、行为(二)
1-9 从行为到策略
1-10 摇臂赌博机
1-11 Thomason Sampling..Being Conservative
1-12 Upper Confidence Bound ..Being Optimist
1-13 强化学习优化框架
1-14 如何设计值函数?
1-15 小结(一)
1-16 小结(二)
1-17 马尔科夫决策过程(一)
1-18 马尔科夫决策过程(二)
1-19 值函数的迭代算法 (一)
1-20 值函数的迭代算法(二)