采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
query 是编码器(Encoder)的一组输出,它和Key解码器(Decoder)的一个输出值做加性、点乘或卷积的运算就得到了注意力权重(attention_weight)?然后Value又是编码器(Encoder)的一组输出?它和注意力权重(attention_weight)再作用,就得到了E?整体理解下来有点懵,还望老师能解答一下,谢谢
同学你好,attention的本质在这节课的前面章节也介绍过的,本质就是:寻址+作用(addressing+apply). Transformer的Encoder里面的是自注意力,也就是序列数据的每个单元在自身序列其他单元上“寻址+作用”,以此来抽取自身的时序关系,同样,Decoder里面第一个也是,所以他们叫“自注意力”,但是Decoder里面第二个就不是自注意力了,但他仍然符合“寻址+作用”这种注意力机制的流程:当前单元(Query), 到底是那些Key(Encoder后输出)对当前解码的作用大(Energy), 然后将这个Energy的“作用”到Encoder的输出上,提取对我解码有作用的信息。
同学,我尽量用口语式的句子来解答,不知道你能否明白。但是我建议还是最好对着那个公式和代码,一点点弄明白才比较好
老师,看视频里面面Key和Value都对应Encoder后输出,为什么要分别搞一个Key和一个Value
登录后可查看更多问答,登录/注册
结合核心基础、算法模型设计和实用案例,系统入门深度学习
521 6
823 3
942 3
825 3
924 3
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号