Перейти к содержимому
Compvision.ru

mrgloom

Пользователи
  • Количество публикаций

    2 291
  • Зарегистрирован

  • Посещение

  • Days Won

    142

mrgloom last won the day on November 30 2017

mrgloom had the most liked content!

Репутация

241 Эксперт

О mrgloom

  • Звание
    Эксперт
  1. Главная сложность(зависит от фото) это детектирование ректа плитки, потом разворот, кроп. Любой бинарный классификатор который отвечает на да\нет например linear SVM, любые фичи color hist например и т.д. или сразу пихать в CNN кроп. Для классификатора сложность так же может представлять если кол-во битых плиток очень маленькое (несбалансированная выборка).
  2. Какая OS? Это под debug или release?
  3. Если положение камеры и 'стола' фиксированное то достаточно 1 раз 'откалибровать масштаб' по эталону.
  4. Если надо просто ответить на вопрос да \ нет, то ищем rect, вырезаем и пихаем в классификатор. А так все равно надо смотреть на фото, от этого будет зависеть сложность задачи.
  5. Нахождение точек на лице

    stasm старенький и кроме хорошей документации наверно больше сейчас плюсов нет. dlib 68 точек вроде. А в OpenFace какие алгоритмы? свой самописный DL? По либам ничего не увидел https://github.com/TadasBaltrusaitis/OpenFace/blob/master/install.sh
  6. Зависит от того какая точность нужна, т.е. от того насколько большая дисторсия у камеры. https://en.wikipedia.org/wiki/Distortion_(optics)
  7. Например https://www.pyimagesearch.com/2016/03/28/measuring-size-of-objects-in-an-image-with-opencv/
  8. Ну например, Читал частично: http://szeliski.org/Book/ Не читал, но выглядит солидно: https://www.amazon.com/Computer-Vision-Modern-Approach-2nd/dp/013608592X Классика: https://www.amazon.com/Digital-Image-Processing-Rafael-Gonzalez/dp/013168728X Думаю, можно читать просто главы которые интересуют. А по OpenCV: http://shop.oreilly.com/product/9780596516130.do https://www.amazon.com/gp/product/1849513244/ref=as_li_ss_tl?ie=UTF8&camp=1789&creative=390957&creativeASIN=1849513244&linkCode=as2&tag=opencv00-20 https://www.amazon.com/Mastering-OpenCV-Practical-Computer-Projects/dp/1849517827/ref=pd_bxgy_14_img_2?_encoding=UTF8&pd_rd_i=1849517827&pd_rd_r=RBKE7AP1H8E1VMVPP97Z&pd_rd_w=GEMwK&pd_rd_wg=oH1iY&psc=1&refRID=RBKE7AP1H8E1VMVPP97Z&dpID=51IluTpmK%2BL&preST=_SX218_BO1,204,203,200_QL40_&dpSrc=detail https://www.amazon.com/Mastering-OpenCV-Daniel-Lélis-Baggio-ebook/dp/B01N7G0BKE
  9. Ну это смотря как применять: 1. Одно дело это неявное моделирование словаря и\или частоты встречающихся соседних букв. 2. Другое это если подавать пиксели столбцами то как раз получаем последовательность, где подпоследовательность столбцов составляет букву. Вот например пример OCR на Keras (CNN+LSTM+CTC loss), где не надо делить на символы вообще, т.е. выборка подается как картинка - строка, так же насколько я понимаю и для seq2seq модели. https://github.com/keras-team/keras/blob/master/examples/image_ocr.py
  10. Кто то пробовал применять tesseract-ocr не для классического OCR? Например чтение показателей с электронного циферблата, распознавание номеров, распознавание капч, text in the wild? Есть ли какой то смысл его использовать для данных задач? Судя по changelog они сейчас используют LTSM, так почему бы не использовать какой то более популярный фреймвор для DL? https://github.com/tesseract-ocr/tesseract/blob/master/ChangeLog На вскидку не нашел какие шрифты \ словари \ языки поддерживаются, чтобы можно было сразу и наглядно понять.
  11. Как сделать piecewise affine warp наиболее быстро? То что сейчас есть: Берется список трианглов и по 1 варпается на 1 потоке через warpAffine(для каждого триангла берется кроп вокруг него, варпается изображение и маска и вставляется на dst картинку по маске) Варианты: 1. Сделать n тредов, каждый варпает свой триангл, будут ли проблемы при записи в 1 dst изображение? 2. Возможно быстрее посчитать координаты и сделать 1 раз remap? 3. Использовать cuda::warpAffine / cuda::remap. 4. Использовать что то типа opengl просто отрисовывая трианглы (они заранее заданы и константы, т.е. меняется только положение на dst изображении) Еще варианты? Подводные камни?
  12. Что я сделал: Взял рэндомное фронтальное лицо, задетектил 68 точек через dlib, потом через opencv сделал delaunay triangulation, оставил только то что внутри рамки(+eps) от hog face detector'а из dlib, потом вручную убрал мелкие треугольники которые мне показались ненужными и замержил некоторые точки. Как минус рот и глаза не открываются. В итоге норм, но может быть есть какой то стандард или можно лучше? тут вот например https://github.com/MarekKowalski/FaceSwap используют candide и кстати зачем нужно 3D? там какой то метод сложнее чем piecewise affine warp треугольников, а так же python 2.7 и коменты на польском так что пока отложил.
  13. Есть какой то готовый тул для разметки кругами и элипсами? Желательно: 1. Поддержка больших изображений. 2. Чтобы работало на линуксе и винде.
  14. Есть еще задача которая называется person reidentification
  15. Датасеты в тему http://vc.ee.duth.gr/dibco2017/
×