mrgloom
Пользователи-
Количество публикаций
2 302 -
Зарегистрирован
-
Посещение
-
Days Won
142
Все публикации пользователя mrgloom
-
Алгоритм сегментации по принципу скользящего окна и вычисление контраста
mrgloom replied to maxfashko's topic in OpenCV
Секция floodfill https://habrahabr.ru/company/intel/blog/266347/ т.е. в floodfill используется просто < max pixel difference или попадание в range который видимо строится на базе изначального seed'a. А вам надо в каждом окошке свой порог? Какая изначальная задача уточнить границу? -
Параллельная обработка файлов caffe
mrgloom replied to maxfashko's topic in Вопросы по нейросетям и ИИ
Хм, мне тут сказали, что forward pass блокирует GPU (где найти подтверждение или опровержение?), т.е. второй поток будет ждать пока первый поток не сделает forward pass, но даже в таком случае выгода по идее есть, т.к. мы пока 1 поток работает загрузили батч со второго на GPU. А вот кстати по теме: https://habrahabr.ru/post/307140/ -
Параллельная обработка файлов caffe
mrgloom replied to maxfashko's topic in Вопросы по нейросетям и ИИ
Думаю, что можно, во всяком случае тренировка нескольких сетей работает на 1 GPU. По идее даже не нужно управлять потоками внутри GPU, просто задать максимальное число одновременных потоков на которые используют этот GPU снаружи исходя из ограничений по памяти. По идее вам надо написать scheduler у которого с одной стороны есть pool задач от пользователей, а с другой стороны набор железа, по идее можно запускать и на K задач одновременно на GPU и по одной задаче на CPU (минус сколько то CPU для загрузки данный на GPU, 1 CPU на GPU или 1 CPU на процесс который использует GPU). Думаю для scheduler'а есть какие то готовые решения, что то типа, но скорее это будет целая экосистема, если делать не велосипед. -
Как взвешивать классы для семантической сегментации?
mrgloom replied to BeS's topic in Вопросы по нейросетям и ИИ
Похоже на интервал [0 10] Легче в репе спросить https://github.com/alexgkendall/caffe-segnet/issues- 6 replies
-
- caffe
- deep learning
- (и ещё %d)
-
Параллельная обработка файлов caffe
mrgloom replied to maxfashko's topic in Вопросы по нейросетям и ИИ
Возможно для вас самый простой вариант будет распараллелить по данным. Можно прямо на bash, если на linux(учитывая, что run_script.sh запускает single threaded версию на 1 изображение): ls -v *.jpg | xargs --max-procs=`nproc` -n 1 ./run_script.sh > /dev/null Вопрос только сколько памяти будет на один поток тратится. p.s. с openblas у меня не получилось собрать Caffe так чтобы юзались все ядра, то ли неправильно собрал, то ли сам openblas не хочет в каких то условиях на всех ядрах работать (например может быть сеть маленькая). p.p.s. свёртки в Caffe работают через BLAS так что по идее должно хорошо ложится. -
Параллельная обработка файлов caffe
mrgloom replied to maxfashko's topic in Вопросы по нейросетям и ИИ
Что то я сомневаюсь, что это невозможно на CPU, другой вопрос, что скорее это просто сделать скопировав сеть(но плохо по памяти), а если не копировать, то скорее всего что то надо лочить. А так самый простой вариант это отправлять на сеть изображения пачками(батчами), что на CPU, что на GPU, но тут есть вопрос про подгрузку данных, по идее этим должен заниматься 1 процесс в бэкграунде. Тут у меня есть код на питоне: https://github.com/mrgloom/kaggle-dogs-vs-cats-solution/blob/master/create_kaggle_submission_probability.py#L74 Но проблема в том, что я не заметил ускорения при процессинге батчами (возможно из-за вышеописанной проблемы про подгрузку в бэкграунде). -
Алгоритмы определения эмоций человека
mrgloom replied to Andrei1992's topic in Обсуждение общих вопросов
Любой классификатор. Из opencv: SVM + LBP, HAAR, ICF, Gabor features. А так лучше лучше сырые кропы лиц + CNN (если не пугает встраивание новой либы в проект, на этом форуме пользуют Caffe и под VS2010 не соберется без боли). Может быть будет интересно https://www.kaggle.com/c/challenges-in-representation-learning-facial-expression-recognition-challenge -
Я как то смотрел https://www.robots.ox.ac.uk/~vgg/practicals/category-detection/index.html Но там получался результат какой то не очень, даже с hard negative mining.
- 37 replies
-
- 1
-
- распознавание
- каскад
-
(и ещё %d)
Теги:
-
А кто то что то может порекомендовать в плане камер без rolling shatter \ jello effect? https://en.wikipedia.org/wiki/Rolling_shutter
-
Ищем С++ разработчика на разработку ядра сервиса по распознаванию лиц
mrgloom replied to polinaja's topic in Обсуждение общих вопросов
Есть еще такая компания http://www.visionlabs.ru/career/ Хотя они не отметились на megaface п.с. обычно людей раздражает когда не пишется название компании и зарплатная вилка. -
Кто нибудь гонял ResNet'ы на Caffe? похоже на форке от nvidia не работает(возможно из-за BN layer). Причем в официальном репозитории только deploy.prototxt https://github.com/KaimingHe/deep-residual-networks Вообщем ищу что то более менее стабильное.
-
Да это я как раз пробовал какие то младшие модели, оно работало, но не уверен, что это 'оригинальные' варианты моделей. https://github.com/beniz/deepdetect/tree/master/templates/caffe
-
Так ссылка выше это как бы официальная репа из model zoo, но там нет train.protoxt (т.е. нету метода инициализации весов и т.д.) и это проблематично, если мы хотим обучить с нуля. https://github.com/BVLC/caffe/wiki/Model-Zoo#resnets-deep-residual-networks-from-msra-at-imagenet-and-coco-2015
-
Может кто то сталкивался с бесплатным решением для построения ортофотоплана( надо получить GeoTIFF ) на подобии платных Photoscan, Pix4D? Т.е. какие есть еще варианты кроме https://github.com/OpenDroneMap/OpenDroneMap
-
Чо то я там про ортофотоплан не увидел. И что должно подаваться на вход для построение ортофотоплана? т.к. как я понимаю в классической постановке SFM имеет в результате sparse point cloud? Потом можно как то получить dense point cloud и по идее на этом этапе можно задать плоскость и спроецировать точки на плоскость, но судя по артефактам на ортофотоплане из фотоскана видимо так никто не делает, а как то проецируют кусочками мозаику. Примерный pipeline http://paulbourke.net/miscellaneous/photoscantutorial/
-
Интересная преза по анализу спортивных мероприятий http://lihi.eew.technion.ac.il/files/Teaching/2012_winter_048921/PPT/Alex.pdf Еще был какой то стартап на эту тему, но я потерял ссылку.
-
Что то мне подсказывает, что просто по геометрии руки будет не очень точно. Тут вот например рассказывается, что используется рисунок вен https://habrahabr.ru/post/126144/ Для сравнения 2-х контуров можно использовать http://docs.opencv.org/2.4/modules/imgproc/doc/structural_analysis_and_shape_descriptors.html#matchshapes Возможно придётся модифицировать, т.к. Hu moments инвариантны к масштабу. Для кончиков пальцев можно находить точки перегиба контура или вот http://picoledelimao.github.io/blog/2015/11/15/fingertip-detection-on-opencv/
-
Наверно уже не актуально, но на GSoC 2012 был проект как я понял посвященный изначальной теме поста. http://correlatorgsoc2012.blogspot.ru
-
Уменьшение объема памяти посредством уменьшения кол-ва цветов
mrgloom replied to thequelby's topic in OpenCV
Имеется ввиду постеризация? https://en.wikipedia.org/wiki/Posterization -
Вот например сравнение RGB и HSV для задачи классификации пикселей. https://github.com/mrgloom/Simple-skin-detection По сути можно посмотреть с той стороны, что RGB -> HSV нелинейное преобразование которое помогает лучше разделить пиксели на 2 класса.
-
Есть ли какие то датасеты как №3 (Video sequence 3: Hall way) в приведенной ссылке, но больше по времени \ больше индивидов? http://ivylab.kaist.ac.kr/demo/vs/dataset.htm
-
Ну да. Кстати в московском метро сейчас стоят какие то тумбы с надписью Аспект, вроде эта контора http://www.aspect.dubna.ru/new/index.php но что то про их эту тумбу ничего не гуглится, кто нибудь знает подробности? походу эта контора http://www.kabest.ru/solutions/
-
Там по этой тематике ничего нету В идеале хотелось бы такой, только без bbox'ов поверх.
-
Кхм, не уверен что это адекватная идея, но можно изображение разложить через SVD оставив только несколько собственных значений (Low rank approximation). http://stackoverflow.com/a/40046525/1179925 и потом использовать его как не зашумленное для подсчёта PSNR.
-
Для PSNR надо 2 изображения одно чистое, а другое зашумленное. https://ru.wikipedia.org/wiki/Пиковое_отношение_сигнала_к_шуму