老师您的板书写的是embedding_img输入到LSTM,但是input为[img, a, b, c, d]。 那么,
- 第一步的input其实是[embedding_img, a, b, c, d] 对么?因为后面的代码concat之后应该是这样
- 为什么是[embedding_img, a, b, c, d]而不是[embedding_img, a, b, c, d,e],为什么要进行最后一个词的截断呢?
- 截断还不损失的前提是最后一个被截断的都是eos,但是在之前的代码中显示,只有不足长度的句子才会在最后填充eos,这样有的句子结尾是eos,有的则不是。所以难道不是应该所有的句子不管是截断还是填充都需要设置最后一位为eos。
- 我理解的LSTM不是每一个time_step输入的是一个单词的embedding,但是这里为什么在第一步的时候一次性就把整个句子的embedding都输入了呢?我看论文觉得是第一步输入图片特征,之后的每一步再输入单个单词?觉得这个模型的输入整个shape不是很明白