采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
我不知道我这么理解是否正确,监督与非监督学习实际都是基于历史数据,或者提供的数据来进行学习而强化学习使用的数据更偏向于随机生成的,通过agent interact with the environment
大体理解正确。
强化学习也需要基于历史数据做训练,但执行的任务不是简单的分类或者回归,而是要通过和环境交互实时获得当前的状况,并给予反馈,依此循环。
比如Alpha Go需要通过是是获得对手落子后的棋局,来判断出下一步的下法;比如无人车需要根据各种传感器获得的当前汽车周边的信息,给出下一步汽车要如何行为(加速?减速?拐弯?停车?等等等等):)
非常感谢!
登录后可查看更多问答,登录/注册
Python3+sklearn,兼顾原理、算法底层实现和框架使用。
2.1k 19
3.0k 17
2.5k 15
1.3k 15
1.2k 14