请稍等 ...

为什么z1中会有x2的信息呢？

你好老师，问题在视频的1分26秒处：z1中包含了x1和x2的信息。
这里不太理解，当z1输出时，还没有x2，那么为什么z1中会有x2的信息呢？

慕标9016513 2021-11-29 20:35:43

源自：10-12 Encoder-Decoder架构与缩放点击注意力

519

收起

提交取消

1回答

正十七 2021-12-07 22:43:17

分Encoder还是Decoder

如果是Encoder，那么x1, x2, ..., xn是同时存在的，这个时候经过attention后，z1的输出会有x2等的信息。

但如果是Decoder，x1的时候还没有x2, 所以不会有x2的信息。在训练时，其实我们是有x2的数据的，所以要用lookahead attention强制让x1无法attend x2

0 回复有任何疑惑可以回复我~

提问者慕标9016513 #1
```
理解了，谢谢
```
回复有任何疑惑可以回复我~ 2021-12-23 10:12:56

相似问题

在用户功能模块中有两个获取用户信息的接口

为什么页面未展示全所有信息，也能把信息（如：处理器的内容）都输出来？试过把window.scrollTo(0,1500)注释后，执行也是成功的。

OSPF协议消息类型中的“链路状态数据库描述信息”和“链路状态更新信息”有什么区别？

请问为什么这里的会话窗口没有历史信息展示，是这段代码出错了吗

注册时，错误信息无法返回，没法查看具体错误信息

登录后可查看更多问答，登录/注册

Google老师亲授 TensorFlow2.0 入门到进阶

参与学习 1849 人
解答问题 896 个

Tensorflow2.0实战—以实战促理论的方式学习深度学习

了解课程

本课精华内容

问答

如何确定神经网络的层数以及每一层的神经元数目？

3.3k 1

tensorflow如何进行超参数搜索呢？

1.8k 3

老师我运行那个第二章第一个程序的第二段出现下面的问题时咋回事啊

1.7k 19

使用函数式API训练wide and deep模型出错

1.8k 13

RuntimeError: 。。does not set or modifies parameter layer_size

2.6k 7

查看更多本课问答

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号