Перейти к содержимому
Compvision.ru

Recommended Posts

Возможно ли решить задачу локализации для N объектов (т.е. на каждом фото у нас всегда по N объектов), как задачу регрессии (т.е. если мы хотим предсказывать bbox, то регрессия на N*4 чисел)?

Для 1 объекта эта задача решается.

А для N объектов я попробовал в лоб и вроде как не работает

Правда немного другая формулировка задачи: на изображении может быть от 1 до N кругов и надо предсказать центр и радиус каждого круга.

https://github.com/mrgloom/position-and-radius-estimation-example

Я думаю не работает потому что объекты как бы получаются не ordered и в этом вся проблема.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Не очень понятно, в чём сложность задачи.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Это всего лишь пример и сложности нет если решать алгоритмами computer vision, а хочется решить через CNN.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
On 9/19/2017 at 5:13 PM, mrgloom said:

Это всего лишь пример и сложности нет если решать алгоритмами computer vision, а хочется решить через CNN.

А чем какой-нибудь YOLO - не регрессор? Вместо BBox'ов предсказывай окружности и вуаля)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Так то да, это работает как раз потому что предсказывается сдвиг и пр. вокруг клетки, которая имеет фиксированную позицию.

Но тогда непонятно например как работало тут - Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks

https://static.googleusercontent.com/media/research.google.com/ru//pubs/archive/42241.pdf

т.е. положение цифр меняется (на картинках цифры например лесенкой могут быть), т.е. грубо говоря сеть как то должна научится читать слева направо (т.е. чтобы вывести строку как ответ сеть должна уметь выдать буквы в правильном порядке).

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
9 hours ago, mrgloom said:

Так то да, это работает как раз потому что предсказывается сдвиг и пр. вокруг клетки, которая имеет фиксированную позицию.

Но тогда непонятно например как работало тут - Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks

https://static.googleusercontent.com/media/research.google.com/ru//pubs/archive/42241.pdf

т.е. положение цифр меняется (на картинках цифры например лесенкой могут быть), т.е. грубо говоря сеть как то должна научится читать слева направо (т.е. чтобы вывести строку как ответ сеть должна уметь выдать буквы в правильном порядке).

Ну либо сетка находит регион, где есть текст, а потом подбирает параметры пространственного преобразования, приводящие строку к осмысленному текст...вроде бы даже всякие там Spatial Transform Network для текстов использовали.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Создайте учётную запись или войдите для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать учётную запись

Зарегистрируйтесь для создания учётной записи. Это просто!

Зарегистрировать учётную запись

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас


  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу

×