Перейти к содержимому
Compvision.ru

Smorodov

Главные администраторы
  • Количество публикаций

    3 873
  • Зарегистрирован

  • Посещение

  • Days Won

    346

Сообщения, опубликованные пользователем Smorodov


  1. Ну, что то типа того, но размер файла не уверен что будет меньше, чем стандартный mpeg.

    Можно что типа RLE сжатия заюзать, в начале каждой строчки с пикселями, писать их количество в текущем блобе для этой строки, и дальше только значения пикселей.  


  2. Ну и в DLIB встроили весьма неплохой распознаватель: http://blog.dlib.net/2017/02/high-quality-face-recognition-with-deep.html , плюс на OpenCV вполне заводятся модельки от sphereface: https://github.com/wy1iu/sphereface  только не забудьте что в матлаб матрицы в памяти транспонированными хранятся относительно OpenCV-шных.


  3. В Opencv реализована только часть прямого прогона я имею ввиду dnn модуль конечно, а не ml, в ml - по нейросетям только классическая сеть прямого распространения (не глубокая и не сверточная).

    Обратного нет -> учить нельзя, да и GPU используется не особо интенсивно (opencl).

    TF - полноценный фреймворк для полного цикла разработки нейронок (и не только нейронок).

     

    • Thanks 1

  4. Тогда ваша проблема называется детектор лиц, распознавание - это обычно понимается как проблема различения людей.

    По классике, детектор строится на методе скользящего окна. То есть мы пробегаем по изображению окном фиксированного размера, двигаемся с заданным небольшим шагом, так чтобы соседние положения окна перекрывали друг друга. Каждый раз в новой позиции окна извлекается фрагмент изображения и подается на метод извлечения признаков (HOG в вашем случае), далее эти признаки (вектор постоянной размерности), поступают на классификатор (нейронная сеть в вашем случае), классификатор выдает ответ, считать изображение (извлеченное окном в данной позиции) искомым объектом или нет, некоторые из классификаторов выдают вероятность, некоторые только решение.

    Чтобы обучить такую систему, вам нужен обучающий набор данных, состоящий из обучающих пар (изображение, его класс). На первом этапе извлекаете из всех озображений их векторы признаков и получаете входные данные для обучения классификатора (вектор признаков, класс ). Эти данные используете для обучения классификатора. 

    Для того, чтобы охватить разные размеры объектов, делается пирамида изображений, то есть изображения прогоняются в разных масштабах, окном постоянного размера.

    Нейронку в качестве классификатора для подобных целей (в паре с HOG) не встречал, там обычно SVM используется.


  5. У меня такие же проблемы были с утилиткой для аннотации. Сейчас пишу сам, на Qt, с полигонами и Live wire, может еще и другие типы добавлю.  Но пока не готово, как будет, может на гитхаб выложу, если что стОящее получится. 

×