Jump to content
Compvision.ru

Recommended Posts

Очередные успехи в распознавании пешеходов с помощью deep learning.

И очередное разоблачение этого самого deep learning как серебряной пули для решения задач ИИ.

 

P.S. Я же правильно понимаю, что сейчас нейросети во всех соревнованиях по распознаванию побеждают классический подход с bag of words? Интересно, а поисковики что используют?

  • Like 1

Share this post


Link to post
Share on other sites

У меня о CAFFE и Deep Learning пока один позитив.

Делал детектор улыбки, классификатор пола по детектированному хааром лицу, детектор моргания глаз.

Пока все с точностью не ниже 95% работает.

Но это все классификаторы и количество классов ограничено небольшим числом.

Что касается улыбки, то сеть даже степень улыбки определяет (в виде вероятности) с большим количеством градаций. 

 

Детекторов на основе глубоких сетей пока не касался.

Есть например R-CNN см. github, но я хочу на С++, не люблю мешать кучу языков. 

Share this post


Link to post
Share on other sites

А нейросети - это до сих пор чёрный ящик? Или по свёрточным слоям можно понять, почему сеть срабатывает именно так, а не иначе? Или, например, догадаться почему не правильно срабатывает на этом примере?

Share this post


Link to post
Share on other sites

Можно было бы, но мозг способен одновременно сознательно анализировать не более 7-8 факторов, сеть обычно выделяет из поданного вектора значительно больше.

В простейших случаях можно понять на что реагирует сеть, например для изображения цифр.

В некоторых случаях помогает обратная свертка слоев, тогда последние нейроны отобразят на что они "клюют".

Но вот например сможет ли человек сходу формализовать отличия мужского и женского лица, или признаки возраста с градацией 10 лет?

 

Я использовал еще анализ ошибок сети, обучаем, прогоняем по всему набору картинок, те где сеть ошибается выбираем в отдельную папку.

Часто этих случаях даже человеку трудно провести классификацию объекта, или если это удается нужно добавить объектов похожих на те, на которых сеть ошиблась и переобучить.

  • Like 1

Share this post


Link to post
Share on other sites

000821_annotated.jpg.png

 

teaser_vis.png

 

 

про интерпретацию HOG

http://web.mit.edu/vondrick/ihog/

Visualizing Object Detection Features by Carl Vondrick

http://web.mit.edu/vondrick/mthesis.pdf

http://web.mit.edu/vondrick/ihog/iccv.pdf

Exploring the representation capabilities of the HOG descriptor

 

 

про интерпретацию CNN

тут есть про deconvolution aka convolution transpose

http://www.robots.ox.ac.uk/~vedaldi/assets/teach/2015/vedaldi15aims-bigdata-lecture-4-deep-learning-handout.pdf

тут еще слайд 4 (3 метода)

http://places.csail.mit.edu/slide_iclr2015.pdf

но не очень понятно чем это помогает

  • Like 2

Share this post


Link to post
Share on other sites

Вот если говорить о HOG, то с ним надо быть однозначно осторожным. Практически всегда обязательна предобработка кадра в том смысле, что надо выделить области, где могут находиться пешеходы или автомобили. Также надо точно знать какого размера надо искать в этом месте объект. Примитивный поиск шаблоном разного размера по всему кадру будет выдавать туеву хучу ложных сработок.

В принципе, практически все так и делаю: и тот же Бененсон со своими стикселями, и даже Тошиба в своём чипе пытается строить карту глубины по моно камере, а потом в результатах использует CoHOG.

 

А за интерпретацию CNN спасибо, поразбираюсь.

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now


  • Recently Browsing   0 members

    No registered users viewing this page.

×