q估计值那，为什么做什么切片，没听明白，老师能讲明白原理吗-慕课网

# 在 Q_eval_net 中，计算状态 s_j 的估计 Q 值 with tf.variable_scope('Q_eval'): a_indices = tf.stack([tf.range(tf.shape(self.a)[0], dtype=tf.int32), self.a], axis=1) # tf.gather_nd 用 indices 定义的形状来对 params 进行切片 self.q_eval_by_a = tf.gather_nd(params=self.q_eval, indices=a_indices)

1回答

Oscar 2019-12-17 21:06:37

根据 Deep Q Network 的推导公式，和 tf.gather_nd 的方法定义。

切片是 slicing 的翻译，请看上面 tf.gather_nd 的文档。

1 回复有任何疑惑可以回复我~

收起回答

提问者 Jerry_Lnj #1

看了莫烦老师讲解，知道要用为什么这么做，但是没看懂这两句代码，是怎么操作的。不知道能否附上具体含数字的解释。比如DQN走迷宫游戏。在本例子中Q_eval网络输出的是[None, 4]的矩阵，4个参数对应所有动作的q值，之后运行这两步，矩阵的shape如何变化，怎么取值的，因为最后要变成[None, ]的shape

回复有任何疑惑可以回复我~ 2019-12-18 04:41:06

提问者 Jerry_Lnj #2

我搞懂了，我搞错self.a，我以为self.a是[0,1,2,3]是四个动作对应的数字，其实应该是每个样本所选取的动作，维度应该是[None, ]。获得每个样本选取动作的a_indices, 再去eval网络算出来的q_eval做一个gather_nd，获得Q_eval网络对应该样本选取动作的Q值

回复有任何疑惑可以回复我~ 2019-12-18 04:55:31

q估计值那，为什么做什么切片，没听明白，老师能讲明白原理吗

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

在转换成逻辑矩阵时出错zero-size array to reduction operation maximum which has no identity

老师好，能否增加一块讲解内容，讲解一下在windows环境下和linux环境下安装和配制tensorflow开发环境的课程

安装tensorflow 显示没有合适的版本

photoshop的train.py不能保存模型文件：generator_weight

请问一下，我从virtualbox导入课程提供的IMOOC.vdi虚拟机文件，为什么进去之后全是命令行视图，不像课程里讲的那样有界面的

热搜

最近搜索清空