请稍等 ...

关于mask

老师您好，关于实现缩放点积注意力这里mask这一步（如下代码），不是很理解，能麻烦您再讲解一下吗？谢谢

    
    if mask is not None:
        # 使得在softmax后值趋近于0
        scaled_attention_logits += (mask * -1e9)

manbaneverout 2020-05-08 21:55:53

源自：10-18 缩放点积注意力机制实现(1)

1018

收起

提交取消

1回答

正十七 2020-05-08 22:57:06

这是一个trick，在mask里，应该被忽略的我们会设成1，应该被保留的会设成0，而如果mask相应位置上为1，那么我们就给对应的logits 加上一个超级小的负数， -1000000000，这样，对应的logits也就变成了一个超级小的数。然后在计算softmax的时候，一个超级小的数的指数会无限接近与0。也就是它对应的attention的权重就是0了。

1 回复有任何疑惑可以回复我~

收起回答

提问者 manbaneverout #1
```
非常感谢！
```
回复有任何疑惑可以回复我~ 2020-05-12 10:49:16

慕仔8505825 #2

为什么设置mask的时候不直接把应该保留的设置成1 忽略的设置成0或者是0+eps呢

回复有任何疑惑可以回复我~ 2020-11-11 19:08:24

相似问题

mask的使用。

关于mask的疑问

mask组件的层级莫名其妙的被改

各个多任务网络的名字

关于外部图标样式

登录后可查看更多问答，登录/注册

Google老师亲授 TensorFlow2.0 入门到进阶

参与学习 1849 人
解答问题 896 个

Tensorflow2.0实战—以实战促理论的方式学习深度学习

了解课程

本课精华内容

问答

如何确定神经网络的层数以及每一层的神经元数目？

2.9k 1

tensorflow如何进行超参数搜索呢？

1.4k 3

老师我运行那个第二章第一个程序的第二段出现下面的问题时咋回事啊

1.3k 19

使用函数式API训练wide and deep模型出错

1.4k 13

RuntimeError: 。。does not set or modifies parameter layer_size

2.1k 7

查看更多本课问答

意见反馈帮助中心 APP下载

官方微信

关于mask

正在回答

1回答

相似问题