请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

老师您好,到底怎样理解Query、key、Value?

query 是编码器(Encoder)的一组输出,它和Key解码器(Decoder)的一个输出值做加性、点乘或卷积的运算就得到了注意力权重(attention_weight)?然后Value又是编码器(Encoder)的一组输出?它和注意力权重(attention_weight)再作用,就得到了E?整体理解下来有点懵,还望老师能解答一下,谢谢

正在回答 回答被采纳积分+3

1回答

Markov_Xi 2023-02-06 17:24:20

同学你好,attention的本质在这节课的前面章节也介绍过的,本质就是:寻址+作用(addressing+apply). Transformer的Encoder里面的是自注意力,也就是序列数据的每个单元在自身序列其他单元上“寻址+作用”,以此来抽取自身的时序关系,同样,Decoder里面第一个也是,所以他们叫“自注意力”,但是Decoder里面第二个就不是自注意力了,但他仍然符合“寻址+作用”这种注意力机制的流程:当前单元(Query), 到底是那些Key(Encoder后输出)对当前解码的作用大(Energy), 然后将这个Energy的“作用”到Encoder的输出上,提取对我解码有作用的信息。

同学,我尽量用口语式的句子来解答,不知道你能否明白。但是我建议还是最好对着那个公式和代码,一点点弄明白才比较好

0 回复 有任何疑惑可以回复我~
  • 老师,看视频里面面Key和Value都对应Encoder后输出,为什么要分别搞一个Key和一个Value
    回复 有任何疑惑可以回复我~ 2025-04-23 16:45:13
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号