老师您好，到底怎样理解Query、key、Value?-慕课网

1回答

Markov_Xi 2023-02-06 17:24:20

同学你好，attention的本质在这节课的前面章节也介绍过的，本质就是：寻址+作用（addressing+apply）. Transformer的Encoder里面的是自注意力，也就是序列数据的每个单元在自身序列其他单元上“寻址+作用”，以此来抽取自身的时序关系，同样，Decoder里面第一个也是，所以他们叫“自注意力”，但是Decoder里面第二个就不是自注意力了，但他仍然符合“寻址+作用”这种注意力机制的流程：当前单元（Query）, 到底是那些Key(Encoder后输出)对当前解码的作用大（Energy）, 然后将这个Energy的“作用”到Encoder的输出上，提取对我解码有作用的信息。

同学，我尽量用口语式的句子来解答，不知道你能否明白。但是我建议还是最好对着那个公式和代码，一点点弄明白才比较好

0 回复有任何疑惑可以回复我~

收起回答

慕运维4180283 #1

老师，看视频里面面Key和Value都对应Encoder后输出，为什么要分别搞一个Key和一个Value

回复有任何疑惑可以回复我~ 2025-04-23 16:45:13

老师您好，到底怎样理解Query、key、Value?

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

老师我的config 里面没有HP这个函数

LayerNormalizaiton

课程中手势数据集

手示数据下载

迁移学习

【任务题】Transformer实现

【任务题】复现Gan项目

【任务题】LSTM模型搭建

【任务题】独立完成一个CNN的项目

【任务题】完善全连接网络

热搜

最近搜索清空