Перейти к содержимому
Compvision.ru

BeS

Пользователи
  • Количество публикаций

    349
  • Зарегистрирован

  • Посещение

  • Days Won

    43

Все публикации пользователя BeS

  1. Любопытно. А видях нету? В динамике было бы интересно посмотреть как ваша сетка работает.
  2. Т.е. на выходе не полносвязанная сетка, а что-то типа feature map, как в томже RCNN? Ну для брутфорса выглядит очень даже не плохо)
  3. Faster-RCNN у меня работает ~100ms на кадр 1280x720 p.s. а у вас на картинке - это что-то вроде Selective Search поверх feature map'ки ?
  4. Всем привет, При тренировка сеток для классификации, обычно используются сбалансированные базы с +/- равным числом сэмплов для каждого класса + фона. А кто-то имеет опыт тренировки сетей на разбалансированных базах? Например, если я хочу зафайнтюнить какую-то крутую сетку (типа VGG16/googlenet), обученую на ImageNet, при помощи своей базы, содержащей очень много картинок(скажем пару миллионов) некоторого класса (или нескольких классов), то скорей всего при тренировке я убью фичи, которые были получены на ImageNet. Публикаций по теме я не встречал, может кто-то сталкивался с такой проблемой?
  5. Вообще на данный момент получается, что лучшие результаты дает способ, когда дергаем от крутой сетки сверточные слои и сверху, вместо полносвязанного выхода из сети, довешиваем еще несколько слоев и при тренировке обучаем только последние слои. Но это только для исследовательских задач хорошо, в продакшен такие неприподъемные сетки пихать не хорошо
  6. В таком случае получается, что не имеет особого смысла файнтюнить на большой базой, т.к. веса не будут уходить из некоторой эпсилон окрестности. Идея как раз в том, чтобы взять сетку натренированную на ImageNet и как правило показывающую крутые результаты, и задавить в ней фичи не относящиеся к необходимым классам, при этом затюнив нужные фичи...но что-то получается либо чутка веса подергать, либо убить всю предшествующую тренировку...
  7. Вообще говоря, размерность подпространства в общем случае подбирается руками, в завимисоти от того, каким объемом информации вы готовы пожертвовать.
  8. На CPU не пробовал, но на Titan X почти в реалтайме пашет.
  9. На русском ничего. Курить в сторону RCNN etc.
  10. Всем привет, А кто-то сталкивался с задачей переиспользования кусков сетей в caffe? Например, я хочу использовать часть сверточных слоев от VGG16 при тренировке своей кастомной сети, как именно это технически реализуется? Тупо копипаста из одного caffemodel в другой весов не работает...caffe такие файлы просто игнорит.
  11. Очень даже любопытно, неужто они втащили какие-то методы по компрессии сеток за счет предтренировки внутрь своего DIGITS'а
  12. Если взять какой-нибудь отечественный бандитский сериал, то там разнообразие физиономий будет впечатляющим) смотрели мы на этот датасет, но на мое письмо с просьбой дать доступ к нему мне так никто и не ответил.
  13. OpenCV + не_Cuda

    Регрессия между GPU и CPU версиями одного и того же алгоритма - это обычное явление. На GPU могли при оптимизации сделать какой-нибудь unfolding для снижения числа транзакций и общего ускорения вычислений, а на CPU честно считать во флотах или даблах, как результат - точность вычислений плывет и плывут результаты.
  14. А как он узнает, что прошелся по всем самплам? В caffe ведь, вроде бы batch каждый раз из базы берется случайным образом...
  15. Все итерации что ли пробежать? Вечером попробую. Но не думаю, что время работы будет сильно отличаться, т.к. в MNIST картинки маленькие, и современным картам разгуляться негде. Спидапы лучше при тренировке на ImageNet'е каком-нибудь тестировать
  16. Что вы подразумеваете под полным прогоном? До точности классификации 99.8% на моей GTX980Ti обучается ~10 секунд. p.s. в своем эксперименте исопльзовал топологию сети LeNet
  17. Кстати вам идея, вместо картинок и интернета использовать фильмы и сериалы Видео процессится значительно быстрее, чем картинки из поисковика, и собираются достаточно неплохие сэмплы.
  18. Ну если там действительно не хватает только label файла...то в нем обычно метки по порядку лежат. А вообще когда-то натыкался вот на такой дебаггер к tensor flow: https://github.com/ericjang/tdb Правда с tensor flow я еще не экспериментировал и дебаггер не пробовал.
  19. Запускать не пробовал, но судя по всему требуется еще файл с лэйблами и входные картинки.
  20. Хм, если время будет, приделаю к нему детектор RCNN, чтоб не только фэйсы детектировал. з.ы. а сколько трафика в день сжирает этот скрипт?
  21. Сам я пока DeepLab не тренировал, но судя по инструкции отсюда: https://bitbucket.org/deeplab/deeplab-public/ процесс не выглядит очень сложным. Также вроде бы тут есть уже потренированные модели: http://ccvl.stat.ucla.edu/software/deeplab/deeplab-largefov/. Вообще все эти сетки тренируются сначала на ImageNet, у которого >1M картинок с изображениями объектов различных классов...т.ч. база у них там совсем не маленькая. Но если добавить к ней еще пару сотен тысяч картинок, то вероятно станет лучше.
  22. Под такой объем если только FTP поднимать. Ну или на каком-нибудь rutracker'е в виде торрент-раздачи выложить. Думаю, для тренировки сеток такое было бы крайне полезно. з.ы. кстати, вспомнил, у DeepLab есть онлайн-сервис, где можно залить свою картинку и посмотреть. как он будет её сегментировать: http://www.robots.ox.ac.uk/~szheng/crfasrnndemo
  23. Можно попробовать семантическую сегментацию, DeepLab дает неплохие результаты при сегментации людей... з.ы. 50к изображений человеков? Может быть, если имеется возможность, вы поделитесь такой базой с общественностью?
  24. Всем привет, А кто-то пробовал для этого object detection алгоритма тренировать собственные сетки вместо штатных VGG16 и ZF, чтобы алгоритм работал в реальном времени и какие базы для этого использовали?
  25. А с лэндмарками которые получает, например, dlib не сравнивали? Вроде бы лучшие из публично доступных реализованы в этой библиотеке...
×