采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师您好,关于实现缩放点积注意力这里mask这一步(如下代码),不是很理解,能麻烦您再讲解一下吗?谢谢
if mask is not None: # 使得在softmax后值趋近于0 scaled_attention_logits += (mask * -1e9)
这是一个trick,在mask里,应该被忽略的我们会设成1,应该被保留的会设成0,而如果mask相应位置上为1,那么我们就给对应的logits 加上一个超级小的负数, -1000000000, 这样,对应的logits也就变成了一个超级小的数。然后在计算softmax的时候,一个超级小的数的指数会无限接近与0。也就是它对应的attention的权重就是0了。
非常感谢!
为什么设置mask的时候不直接把应该保留的设置成1 忽略的设置成0或者是0+eps呢
登录后可查看更多问答,登录/注册
Tensorflow2.0实战—以实战促理论的方式学习深度学习
2.9k 1
1.4k 3
1.2k 19
1.4k 13
2.0k 7