采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
你好老师,问题在视频的1分26秒处:z1中包含了x1和x2的信息。 这里不太理解,当z1输出时,还没有x2,那么为什么z1中会有x2的信息呢?
分Encoder还是Decoder
如果是Encoder,那么x1, x2, ..., xn是同时存在的,这个时候经过attention后,z1的输出会有x2等的信息。
但如果是Decoder,x1的时候还没有x2, 所以不会有x2的信息。在训练时,其实我们是有x2的数据的,所以要用lookahead attention强制让x1无法attend x2
理解了,谢谢
登录后可查看更多问答,登录/注册
Tensorflow2.0实战—以实战促理论的方式学习深度学习
3.3k 1
1.8k 3
1.7k 19
1.8k 13
2.6k 7
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号