Да в этом и было дело.
Кстати попробовал сделать не сразу 64 32, а 5 раз по 2 2 и не заработало, хотя вот в unet как раз 2 2 используется.
https://github.com/jocicmarko/ultrasound-nerve-segmentation/blob/master/train.py#L55
Еще непонятно в чем смысл падинга и кропа в оригинальной сетке на caffe?
https://github.com/shelhamer/fcn.berkeleyvision.org/blob/master/voc-fcn32s/train.prototxt#L27
https://github.com/shelhamer/fcn.berkeleyvision.org/blob/master/voc-fcn32s/train.prototxt#L509
Запилил пример на keras по мотивам https://github.com/ZFTurbo/ZF_UNET_224_Pretrained_Model
Пока добавил unet, segnet, fcn.
https://github.com/mrgloom/keras-semantic-segmentation-example