老师请问fc以后有了2k个score和4k个coordinate,k是因为有k个box,但是我还是没懂这9个比例到底是怎么影响fc层输出的。是因为在计算loss的时候只和相应的scale和ratio对比吗?(我的意思是如果把2k个score和4k个coordinate push进NMS,得出来最大的那个box比如说是256^2上的1:2的某个anchor,就算出原图像这个点这个范围大小上和ground truth的loss吗?但是做完back prop以后根本没办法保证这个比例是1:2,很可能最后和这个比例没关系。我没有读faster-rcnn的源码,不知道有没有理解错)那这个样子其实在做conv的时候和box没有关系是吗?是在train的过程中网络才明白这k个box里面哪个对应哪个scale和ratio是吗?这个prior box到底有什么意义?
老师我在读YOLO v3 paper的时候说如果从这样的box size开始(论文里面没说开始做什么……怎么开始……)会使得训练更快,但是完全不懂如何初始化输出层成固定尺寸比例,只能初始化weight啊。