# 在 Q_eval_net 中,计算状态 s_j 的估计 Q 值
with tf.variable_scope('Q_eval'):
a_indices = tf.stack([tf.range(tf.shape(self.a)[0], dtype=tf.int32), self.a], axis=1)
# tf.gather_nd 用 indices 定义的形状来对 params 进行切片
self.q_eval_by_a = tf.gather_nd(params=self.q_eval, indices=a_indices)
这里为什么要做什么切片,没听懂,老师让我们去官网插。但是为什么需要做这些处理,官网也没有,只有函数功能。能否解释一下
16.8k 10
1.8k 9
1.7k 8
1.9k 7
1.5k 7