Перейти к содержимому
Compvision.ru

mrgloom

Пользователи
  • Количество публикаций

    2 302
  • Зарегистрирован

  • Посещение

  • Days Won

    142

Все публикации пользователя mrgloom

  1. Секция floodfill https://habrahabr.ru/company/intel/blog/266347/ т.е. в floodfill используется просто < max pixel difference или попадание в range который видимо строится на базе изначального seed'a. А вам надо в каждом окошке свой порог? Какая изначальная задача уточнить границу?
  2. Хм, мне тут сказали, что forward pass блокирует GPU (где найти подтверждение или опровержение?), т.е. второй поток будет ждать пока первый поток не сделает forward pass, но даже в таком случае выгода по идее есть, т.к. мы пока 1 поток работает загрузили батч со второго на GPU. А вот кстати по теме: https://habrahabr.ru/post/307140/
  3. Думаю, что можно, во всяком случае тренировка нескольких сетей работает на 1 GPU. По идее даже не нужно управлять потоками внутри GPU, просто задать максимальное число одновременных потоков на которые используют этот GPU снаружи исходя из ограничений по памяти. По идее вам надо написать scheduler у которого с одной стороны есть pool задач от пользователей, а с другой стороны набор железа, по идее можно запускать и на K задач одновременно на GPU и по одной задаче на CPU (минус сколько то CPU для загрузки данный на GPU, 1 CPU на GPU или 1 CPU на процесс который использует GPU). Думаю для scheduler'а есть какие то готовые решения, что то типа, но скорее это будет целая экосистема, если делать не велосипед.
  4. Похоже на интервал [0 10] Легче в репе спросить https://github.com/alexgkendall/caffe-segnet/issues
  5. Возможно для вас самый простой вариант будет распараллелить по данным. Можно прямо на bash, если на linux(учитывая, что run_script.sh запускает single threaded версию на 1 изображение): ls -v *.jpg | xargs --max-procs=`nproc` -n 1 ./run_script.sh > /dev/null Вопрос только сколько памяти будет на один поток тратится. p.s. с openblas у меня не получилось собрать Caffe так чтобы юзались все ядра, то ли неправильно собрал, то ли сам openblas не хочет в каких то условиях на всех ядрах работать (например может быть сеть маленькая). p.p.s. свёртки в Caffe работают через BLAS так что по идее должно хорошо ложится.
  6. Что то я сомневаюсь, что это невозможно на CPU, другой вопрос, что скорее это просто сделать скопировав сеть(но плохо по памяти), а если не копировать, то скорее всего что то надо лочить. А так самый простой вариант это отправлять на сеть изображения пачками(батчами), что на CPU, что на GPU, но тут есть вопрос про подгрузку данных, по идее этим должен заниматься 1 процесс в бэкграунде. Тут у меня есть код на питоне: https://github.com/mrgloom/kaggle-dogs-vs-cats-solution/blob/master/create_kaggle_submission_probability.py#L74 Но проблема в том, что я не заметил ускорения при процессинге батчами (возможно из-за вышеописанной проблемы про подгрузку в бэкграунде).
  7. Любой классификатор. Из opencv: SVM + LBP, HAAR, ICF, Gabor features. А так лучше лучше сырые кропы лиц + CNN (если не пугает встраивание новой либы в проект, на этом форуме пользуют Caffe и под VS2010 не соберется без боли). Может быть будет интересно https://www.kaggle.com/c/challenges-in-representation-learning-facial-expression-recognition-challenge
  8. Я как то смотрел https://www.robots.ox.ac.uk/~vgg/practicals/category-detection/index.html Но там получался результат какой то не очень, даже с hard negative mining.
  9. А кто то что то может порекомендовать в плане камер без rolling shatter \ jello effect? https://en.wikipedia.org/wiki/Rolling_shutter
  10. Есть еще такая компания http://www.visionlabs.ru/career/ Хотя они не отметились на megaface п.с. обычно людей раздражает когда не пишется название компании и зарплатная вилка.
  11. Кто нибудь гонял ResNet'ы на Caffe? похоже на форке от nvidia не работает(возможно из-за BN layer). Причем в официальном репозитории только deploy.prototxt https://github.com/KaimingHe/deep-residual-networks Вообщем ищу что то более менее стабильное.
  12. Да это я как раз пробовал какие то младшие модели, оно работало, но не уверен, что это 'оригинальные' варианты моделей. https://github.com/beniz/deepdetect/tree/master/templates/caffe
  13. Так ссылка выше это как бы официальная репа из model zoo, но там нет train.protoxt (т.е. нету метода инициализации весов и т.д.) и это проблематично, если мы хотим обучить с нуля. https://github.com/BVLC/caffe/wiki/Model-Zoo#resnets-deep-residual-networks-from-msra-at-imagenet-and-coco-2015
  14. Может кто то сталкивался с бесплатным решением для построения ортофотоплана( надо получить GeoTIFF ) на подобии платных Photoscan, Pix4D? Т.е. какие есть еще варианты кроме https://github.com/OpenDroneMap/OpenDroneMap
  15. Чо то я там про ортофотоплан не увидел. И что должно подаваться на вход для построение ортофотоплана? т.к. как я понимаю в классической постановке SFM имеет в результате sparse point cloud? Потом можно как то получить dense point cloud и по идее на этом этапе можно задать плоскость и спроецировать точки на плоскость, но судя по артефактам на ортофотоплане из фотоскана видимо так никто не делает, а как то проецируют кусочками мозаику. Примерный pipeline http://paulbourke.net/miscellaneous/photoscantutorial/
  16. Интересная преза по анализу спортивных мероприятий http://lihi.eew.technion.ac.il/files/Teaching/2012_winter_048921/PPT/Alex.pdf Еще был какой то стартап на эту тему, но я потерял ссылку.
  17. Геометрия объектов

    Что то мне подсказывает, что просто по геометрии руки будет не очень точно. Тут вот например рассказывается, что используется рисунок вен https://habrahabr.ru/post/126144/ Для сравнения 2-х контуров можно использовать http://docs.opencv.org/2.4/modules/imgproc/doc/structural_analysis_and_shape_descriptors.html#matchshapes Возможно придётся модифицировать, т.к. Hu moments инвариантны к масштабу. Для кончиков пальцев можно находить точки перегиба контура или вот http://picoledelimao.github.io/blog/2015/11/15/fingertip-detection-on-opencv/
  18. Проблемы с ExtractSURF() и CvMemStorage

    Наверно уже не актуально, но на GSoC 2012 был проект как я понял посвященный изначальной теме поста. http://correlatorgsoc2012.blogspot.ru
  19. Имеется ввиду постеризация? https://en.wikipedia.org/wiki/Posterization
  20. Вот например сравнение RGB и HSV для задачи классификации пикселей. https://github.com/mrgloom/Simple-skin-detection По сути можно посмотреть с той стороны, что RGB -> HSV нелинейное преобразование которое помогает лучше разделить пиксели на 2 класса.
  21. Surveillance dataset

    Есть ли какие то датасеты как №3 (Video sequence 3: Hall way) в приведенной ссылке, но больше по времени \ больше индивидов? http://ivylab.kaist.ac.kr/demo/vs/dataset.htm
  22. Surveillance dataset

    Ну да. Кстати в московском метро сейчас стоят какие то тумбы с надписью Аспект, вроде эта контора http://www.aspect.dubna.ru/new/index.php но что то про их эту тумбу ничего не гуглится, кто нибудь знает подробности? походу эта контора http://www.kabest.ru/solutions/
  23. Surveillance dataset

    Там по этой тематике ничего нету В идеале хотелось бы такой, только без bbox'ов поверх.
  24. Кхм, не уверен что это адекватная идея, но можно изображение разложить через SVD оставив только несколько собственных значений (Low rank approximation). http://stackoverflow.com/a/40046525/1179925 и потом использовать его как не зашумленное для подсчёта PSNR.
  25. Для PSNR надо 2 изображения одно чистое, а другое зашумленное. https://ru.wikipedia.org/wiki/Пиковое_отношение_сигнала_к_шуму
×