Успехи deep learning

Nuzhny · June 2, 2015

Очередные успехи в распознавании пешеходов с помощью deep learning.

И очередное разоблачение этого самого deep learning как серебряной пули для решения задач ИИ.

P.S. Я же правильно понимаю, что сейчас нейросети во всех соревнованиях по распознаванию побеждают классический подход с bag of words? Интересно, а поисковики что используют?

Smorodov · June 2, 2015

У меня о CAFFE и Deep Learning пока один позитив.

Делал детектор улыбки, классификатор пола по детектированному хааром лицу, детектор моргания глаз.

Пока все с точностью не ниже 95% работает.

Но это все классификаторы и количество классов ограничено небольшим числом.

Что касается улыбки, то сеть даже степень улыбки определяет (в виде вероятности) с большим количеством градаций.

Детекторов на основе глубоких сетей пока не касался.

Есть например R-CNN см. github, но я хочу на С++, не люблю мешать кучу языков.

Nuzhny · June 3, 2015

А нейросети - это до сих пор чёрный ящик? Или по свёрточным слоям можно понять, почему сеть срабатывает именно так, а не иначе? Или, например, догадаться почему не правильно срабатывает на этом примере?

Smorodov · June 3, 2015

Можно было бы, но мозг способен одновременно сознательно анализировать не более 7-8 факторов, сеть обычно выделяет из поданного вектора значительно больше.

В простейших случаях можно понять на что реагирует сеть, например для изображения цифр.

В некоторых случаях помогает обратная свертка слоев, тогда последние нейроны отобразят на что они "клюют".

Но вот например сможет ли человек сходу формализовать отличия мужского и женского лица, или признаки возраста с градацией 10 лет?

Я использовал еще анализ ошибок сети, обучаем, прогоняем по всему набору картинок, те где сеть ошибается выбираем в отдельную папку.

Часто этих случаях даже человеку трудно провести классификацию объекта, или если это удается нужно добавить объектов похожих на те, на которых сеть ошиблась и переобучить.

mrgloom · June 3, 2015

000821_annotated.jpg.png

про интерпретацию HOG

http://web.mit.edu/vondrick/ihog/

Visualizing Object Detection Features by Carl Vondrick

http://web.mit.edu/vondrick/mthesis.pdf

http://web.mit.edu/vondrick/ihog/iccv.pdf

Exploring the representation capabilities of the HOG descriptor

про интерпретацию CNN

тут есть про deconvolution aka convolution transpose

http://www.robots.ox.ac.uk/~vedaldi/assets/teach/2015/vedaldi15aims-bigdata-lecture-4-deep-learning-handout.pdf

тут еще слайд 4 (3 метода)

http://places.csail.mit.edu/slide_iclr2015.pdf

но не очень понятно чем это помогает

Nuzhny · June 3, 2015

Вот если говорить о HOG, то с ним надо быть однозначно осторожным. Практически всегда обязательна предобработка кадра в том смысле, что надо выделить области, где могут находиться пешеходы или автомобили. Также надо точно знать какого размера надо искать в этом месте объект. Примитивный поиск шаблоном разного размера по всему кадру будет выдавать туеву хучу ложных сработок.

В принципе, практически все так и делаю: и тот же Бененсон со своими стикселями, и даже Тошиба в своём чипе пытается строить карту глубины по моно камере, а потом в результатах использует CoHOG.

А за интерпретацию CNN спасибо, поразбираюсь.

Войти

Успехи deep learning

Recommended Posts

Nuzhny 243

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Smorodov 579

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Nuzhny 243

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Smorodov 579

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

mrgloom 242

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Nuzhny 243

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Создайте учётную запись или войдите для комментирования

Создать учётную запись

Войти

Сейчас на странице 0 пользователей

Навигация

Последняя активность