请稍等 ...

强化学习

我不知道我这么理解是否正确，监督与非监督学习实际都是基于历史数据，或者提供的数据来进行学习而强化学习使用的数据更偏向于随机生成的，通过agent interact with the environment

慕设计8031987 2018-10-04 13:30:14

源自：2-3 监督学习，非监督学习，半监督学习和增强学习

810

收起

提交取消

1回答

liuyubobobo 回答被采纳获得+3积分 2018-10-04 13:43:08

大体理解正确。

强化学习也需要基于历史数据做训练，但执行的任务不是简单的分类或者回归，而是要通过和环境交互实时获得当前的状况，并给予反馈，依此循环。

比如Alpha Go需要通过是是获得对手落子后的棋局，来判断出下一步的下法；比如无人车需要根据各种传感器获得的当前汽车周边的信息，给出下一步汽车要如何行为（加速？减速？拐弯？停车？等等等等）：）

3 回复有任何疑惑可以回复我~

收起回答

提问者慕设计8031987 #1
```
非常感谢！
```
回复有任何疑惑可以回复我~ 2018-10-04 21:10:01

相似问题

请问在深度学习的循环神经网络中，有没有引入强化学习的方法，如果没有，如何引入

请教老师强化学习和深度学习有别分别？哪个更接近机器人

关于强化学习

请问老师, 强化学习的states量级有限制吗?

增强学习与在线学习

登录后可查看更多问答，登录/注册

Python3入门机器学习经典算法与应用

参与学习 5981 人
提交作业 300 份
解答问题 2456 个

Python3+sklearn，兼顾原理、算法底层实现和框架使用。

了解课程

本课精华内容

问答作业

PCA降维的把握和依据分别是什么？比如把一个近似直线分布的二维点数据降维成直线？

3.4k 19

关于线性回归中归一化处理和不对归一化处理的问题

4.4k 17

数据归一化为什么有用？对归一化无法直观理解

3.9k 15

如何判断欠拟合是因为模型选择错误还是超参数选择错误？

2.1k 15

学好具体算法和机器学习的实际应用之间有哪些距离？

2.0k 14

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

强化学习

正在回答

1回答

相似问题