1.对于faster rcnn,我宏观的理解是:cnn网络从原始图片上获得feature map作为rpn的输入,rpn以feature map的每个点作为anchor中心生成9*h*w个推荐框,这9*h*w个推荐框截取一开始输入rpn的feature map的特征,做一些筛选之后将含有前景的框的内容输入两个fc层。
不知道理解的对不对,但这样理解的话我就不明白rpn一开始的3*3卷积在里面起到了什么作用了;
2.还有您视频里说的"原始图片和3*3区域之间的对应关系"那一段,也没太听懂,
对于sppnet和fast rcnn,是将选择性搜索的结果映射到feature map上,这个能理解,
但faster rcnn是如何做到类似这种“映射”的?(跟上面说的3*3卷积有什么联系吗?)
3.还有既然anchor是基于feature map生成的,那训练时那么多anchor推荐框是如何进行标注的?
1和2感觉还是我没能理解3*3滑动窗口导致的,3应该也是跟“映射”相关的,还望老师解惑。