状态的传递-慕课网

1回答

正十七 2020-02-26 13:48:08

先回答问题1和2，

可以参考GRU的API文档，https://www.tensorflow.org/api_docs/python/tf/keras/layers/GRU

可以看到，initial_state只给第一次调用这个的时候用，然后如果没有默认就是全0的矩阵。

然后回到我们的encoder和decoder的实现，encoder中，我们调用initialize_hidden_state来初始化hidden state, 这一步也是初始化为0的矩阵，这里是让大家知道这个东西的shape，在调GRU的时候带不带这个参数是一样的。

而且，initial_state是只在初始化的时候有用，在中间步骤中是无效的，因为此时，GRU会自带隐含状态。而在encoder和decoder中的使用也有不同，encoder中，处理的x是一个长度为n的一维向量，即一个句子。这里只有一次调用就一下子处理了整个句子，因为只有一次调用，所以传initial_state是对的。而在decoder中，因为要每一步计算attention，所以GRU的调用是一步一步的，此时如果每次传initial_state就不对了，因为它只有第一步调用的时候起作用。

总而言之，一句话那就是GRU的中间状态是有cell自动传的，我们能够改变的只是初始化的状态。

问题3，你的理解是对的。stateful = True控制的就是状态会不会传到下一个batch。

0 回复有任何疑惑可以回复我~

收起回答

状态的传递

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

如何确定神经网络的层数以及每一层的神经元数目？

tensorflow如何进行超参数搜索呢？

老师我运行那个第二章第一个程序的第二段出现下面的问题时咋回事啊

使用函数式API训练wide and deep模型出错

RuntimeError: 。。does not set or modifies parameter layer_size

热搜

最近搜索清空