mrgloom 242 Report post Posted June 20, 2016 Пытаюсь понять как работает и почему работает трюк который описан тут, т.е. когда из "обычной" CNN полносвязные слои переделывают в свёрточные. Почему только после того как мы натренировали сеть мы меняем слои, можем ли мы учить сразу со свёрточными (вроде как это меньше параметров)? Или тогда нам нужно на выходе иметь попиксельную разметку и другой loss? Цитата Note that this model isn't totally appropriate for sliding-window detection since it was trained for whole-image classification. Nevertheless it can work just fine. Sliding-window training and finetuning can be done by defining a sliding-window ground truth and loss such that a loss map is made for every location and solving as usual. Как я понимаю этот подход может сэмулировать sliding window detector ? т.е. он лучше чем просто побить изображения на окошки и для каждого окошка вызывать CNN чтобы запредиктить класс. Вот тут например еще об этом (слайд 3) Цитата Fully connected layers: 1x1 spatial convolution kernels Allows network to process images of arbitrary size Тут похожий трюк (слайд 8-9), только слои как то утолщаются и используются deconvolution\upsampling layer. Так же тут используют что то похожее. Цитата Subsequent layers are fully connected, and applied in sliding window fashion at test time. The fully-connected layers can also be seen as 1x1 convolutions in a spatial setting. А так же тут говорят о чем то похожем (слайд 166 - 167) Еще оптимизация http://arxiv.org/pdf/1302.1700v1.pdf Share this post Link to post Share on other sites
Smorodov 578 Report post Posted June 20, 2016 Полносвязные слои могут быть представлены в виде сверточного. Фигурально, это просто другая расстановка скобок во взвешенной сумме. На выходе такой свертки будет количество слоев равное количеству выходов полносвязной сети. Если распишите на бумаге все очевидно получается. Сразу со сверточным учить можем, я пробовал, получается все точно так же как с полносвязным. Share this post Link to post Share on other sites