自 2017 年被提出以来,Transformer 已经席卷了整个 NLP 领域,红极一时的 BERT、GPT-2 都采用了基于 Transformer 的架构。既然这么好用,为什么不用到 CV 里?最近,Facebook AI 的研究者就进行了这方面的尝试,把 Transformer 用到了目标检测任务中,还取得了可以媲美 Faster R-CNN 的效果。目前,Transformer的设计思想已经延伸到CV领域的不同方向,并先后取得突破。为什么相比于原有的设计方案,Transformer的引入能够带来模型精度上的提升?存在哪些待优化的点?
关键凝练
1.什么是transformer?机制是什么?
2. transformer在哪些CV领域有着比较大的突破?这些模型存在哪些优缺点?