请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

强化学习

我不知道我这么理解是否正确,监督与非监督学习实际都是基于历史数据,或者提供的数据来进行学习而强化学习使用的数据更偏向于随机生成的,通过agent interact with the environment

正在回答

1回答

大体理解正确。


强化学习也需要基于历史数据做训练,但执行的任务不是简单的分类或者回归,而是要通过和环境交互实时获得当前的状况,并给予反馈,依此循环。


比如Alpha Go需要通过是是获得对手落子后的棋局,来判断出下一步的下法;比如无人车需要根据各种传感器获得的当前汽车周边的信息,给出下一步汽车要如何行为(加速?减速?拐弯?停车?等等等等):)

2 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信