Перейти к содержимому
Compvision.ru

Recommended Posts

Очередные успехи в распознавании пешеходов с помощью deep learning.

И очередное разоблачение этого самого deep learning как серебряной пули для решения задач ИИ.

 

P.S. Я же правильно понимаю, что сейчас нейросети во всех соревнованиях по распознаванию побеждают классический подход с bag of words? Интересно, а поисковики что используют?

  • Like 1

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

У меня о CAFFE и Deep Learning пока один позитив.

Делал детектор улыбки, классификатор пола по детектированному хааром лицу, детектор моргания глаз.

Пока все с точностью не ниже 95% работает.

Но это все классификаторы и количество классов ограничено небольшим числом.

Что касается улыбки, то сеть даже степень улыбки определяет (в виде вероятности) с большим количеством градаций. 

 

Детекторов на основе глубоких сетей пока не касался.

Есть например R-CNN см. github, но я хочу на С++, не люблю мешать кучу языков. 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А нейросети - это до сих пор чёрный ящик? Или по свёрточным слоям можно понять, почему сеть срабатывает именно так, а не иначе? Или, например, догадаться почему не правильно срабатывает на этом примере?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Можно было бы, но мозг способен одновременно сознательно анализировать не более 7-8 факторов, сеть обычно выделяет из поданного вектора значительно больше.

В простейших случаях можно понять на что реагирует сеть, например для изображения цифр.

В некоторых случаях помогает обратная свертка слоев, тогда последние нейроны отобразят на что они "клюют".

Но вот например сможет ли человек сходу формализовать отличия мужского и женского лица, или признаки возраста с градацией 10 лет?

 

Я использовал еще анализ ошибок сети, обучаем, прогоняем по всему набору картинок, те где сеть ошибается выбираем в отдельную папку.

Часто этих случаях даже человеку трудно провести классификацию объекта, или если это удается нужно добавить объектов похожих на те, на которых сеть ошиблась и переобучить.

  • Like 1

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

000821_annotated.jpg.png

 

teaser_vis.png

 

 

про интерпретацию HOG

http://web.mit.edu/vondrick/ihog/

Visualizing Object Detection Features by Carl Vondrick

http://web.mit.edu/vondrick/mthesis.pdf

http://web.mit.edu/vondrick/ihog/iccv.pdf

Exploring the representation capabilities of the HOG descriptor

 

 

про интерпретацию CNN

тут есть про deconvolution aka convolution transpose

http://www.robots.ox.ac.uk/~vedaldi/assets/teach/2015/vedaldi15aims-bigdata-lecture-4-deep-learning-handout.pdf

тут еще слайд 4 (3 метода)

http://places.csail.mit.edu/slide_iclr2015.pdf

но не очень понятно чем это помогает

  • Like 2

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Вот если говорить о HOG, то с ним надо быть однозначно осторожным. Практически всегда обязательна предобработка кадра в том смысле, что надо выделить области, где могут находиться пешеходы или автомобили. Также надо точно знать какого размера надо искать в этом месте объект. Примитивный поиск шаблоном разного размера по всему кадру будет выдавать туеву хучу ложных сработок.

В принципе, практически все так и делаю: и тот же Бененсон со своими стикселями, и даже Тошиба в своём чипе пытается строить карту глубины по моно камере, а потом в результатах использует CoHOG.

 

А за интерпретацию CNN спасибо, поразбираюсь.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Создайте учётную запись или войдите для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать учётную запись

Зарегистрируйтесь для создания учётной записи. Это просто!

Зарегистрировать учётную запись

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас


  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу

×