С детектором движения всё намного сложнее. Вон в последней коллекции PETS2017 надо детектировать катера на воде. А там волны!
Я говорю не о детекторе движения, а о детекторе объектов, не обязательно его делать на видео, можно на изображении. Если использовать суперпиксели, то можно делать детектор с шагом в суперпиксель. И размер объекта подбирать кратным суперпикселям. А обычно рамку сдвигают по одному пикселю, что очень медленно. В качестве примера прикрепил статью по поиску автомобилей на снимке.
Возьмём другой пример: сегментацию на небо, здания, зелень, дорога. Типичная задача для камер, установленных в машине (навигация, приложения типа iOnRoad, всевозможная помощь водителю). Можно проводить сегментацию как в вашем примере, деля кадр на куски разного размера и формы. А дальше что? Как узнать, к чему относится тот или иной сегмент? Как обучить ту же нейросеть классифицировать сегменты по указанным выше типам? Я не знаю.
Чаще всего нейросети подают кадр целиком и она классифицирует, можно сказать, попиксельно. Что накладно.
А можно научить классифицировать суперпиксели. Это снизит размерность задачи в разы с одной стороны. А с другой повысится точность за счёт того, что границы суперпикселей часто совпадают с границами областей. Вот и применение, вот и постобработка.
jiang2015.pdf