Localization for N objects as regression

mrgloom · September 18, 2017

Возможно ли решить задачу локализации для N объектов (т.е. на каждом фото у нас всегда по N объектов), как задачу регрессии (т.е. если мы хотим предсказывать bbox, то регрессия на N*4 чисел)?

Для 1 объекта эта задача решается.

А для N объектов я попробовал в лоб и вроде как не работает

Правда немного другая формулировка задачи: на изображении может быть от 1 до N кругов и надо предсказать центр и радиус каждого круга.

https://github.com/mrgloom/position-and-radius-estimation-example

Я думаю не работает потому что объекты как бы получаются не ordered и в этом вся проблема.

Nuzhny · September 18, 2017

Не очень понятно, в чём сложность задачи.

mrgloom · September 19, 2017

Это всего лишь пример и сложности нет если решать алгоритмами computer vision, а хочется решить через CNN.

BeS · September 28, 2017

On 9/19/2017 at 5:13 PM, mrgloom said:

Это всего лишь пример и сложности нет если решать алгоритмами computer vision, а хочется решить через CNN.

А чем какой-нибудь YOLO - не регрессор? Вместо BBox'ов предсказывай окружности и вуаля)

mrgloom · October 2, 2017

Так то да, это работает как раз потому что предсказывается сдвиг и пр. вокруг клетки, которая имеет фиксированную позицию.

Но тогда непонятно например как работало тут - Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks

https://static.googleusercontent.com/media/research.google.com/ru//pubs/archive/42241.pdf

т.е. положение цифр меняется (на картинках цифры например лесенкой могут быть), т.е. грубо говоря сеть как то должна научится читать слева направо (т.е. чтобы вывести строку как ответ сеть должна уметь выдать буквы в правильном порядке).

BeS · October 2, 2017

9 hours ago, mrgloom said:

Так то да, это работает как раз потому что предсказывается сдвиг и пр. вокруг клетки, которая имеет фиксированную позицию.

Но тогда непонятно например как работало тут - Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks

https://static.googleusercontent.com/media/research.google.com/ru//pubs/archive/42241.pdf

т.е. положение цифр меняется (на картинках цифры например лесенкой могут быть), т.е. грубо говоря сеть как то должна научится читать слева направо (т.е. чтобы вывести строку как ответ сеть должна уметь выдать буквы в правильном порядке).

Ну либо сетка находит регион, где есть текст, а потом подбирает параметры пространственного преобразования, приводящие строку к осмысленному текст...вроде бы даже всякие там Spatial Transform Network для текстов использовали.

Войти

Localization for N objects as regression

Recommended Posts

mrgloom 242

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Nuzhny 243

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

mrgloom 242

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

BeS 53

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

mrgloom 242

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

BeS 53

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Создайте учётную запись или войдите для комментирования

Создать учётную запись

Войти

Сейчас на странице 0 пользователей

Навигация

Последняя активность