Jump to content
Compvision.ru

BeS

Пользователи
  • Content count

    349
  • Joined

  • Last visited

  • Days Won

    43

BeS last won the day on December 27 2017

BeS had the most liked content!

Community Reputation

53 Эксперт

About BeS

  • Rank
    Эксперт
  1. FCN

    Ну он дерьмово и работает) Качество плохое, эффективность сети низкая. Размер всегда надо подгонять, чтобы в сети слои стыковались корректно) А на выходе всегда можно билинейно апсемплить к выходному сайзу, чтобы инпут с аутпутом по размеру совпадали. Можно и без кропов, тот-же PSPNet даже с тайлингом ничего не кропал, а просто с нахлестом тайлы вычисляет, а потом усредняет в стыках.
  2. Contours detection

    Всем привет, Для удобства работы с результатами semantic segmentation хочу векторизовать label map. Т.е. у нас есть картинка, где каждому пикселю соответствует номер класса и мы хотим все такие блобы закодировать полигонами, соответствующими границам объектов. Но, я внезапно обнаружил, что cv::findContours() работает только с бинарными изображениями (т.е. там только 2 лэйбла 'фон'/'не фон'). Теоретически я могу свести задачу к предыдущей, довольно просто генерируя для каждого класса соответствующую бинарную маску. Таким образом у меня получится куча контуров, но вот их иерархия вложенности, которая строится внутри findContours, будет невалидной, и придется делать какие-то дополнительные (не самые вычислительно-дешевые) телодвижения для того, чтобы определить корректный порядок отрисовки вложенных полигонов. Может быть кто-то сталкивался с подобной задачей и знает уже существующую имплементацию для конвертации label map'ов в полигоны для небинарных масок, с поддержкой древовидных иерархий?
  3. FCN

    Типа того, из статей, с этим бились и явно указывали на такой артефакт в статье про UNet. В Unet апсемплят по чуть-чуть, поэтому там итак работает. Без skip-connections ступенчатые декодеры отвраттельно работают. з.ы. а зачем ты используешь FCN, причем такой извращеный с апсемплингом в 32 раза? Вообще в "боевых" архитектурах обычно не кропают края.
  4. FCN

    1) Чтобы гладенько с Deconvolution апскейлилось, нужно их инициализировать весами bilinear-интерполяции. Ну и шаг там должен быть таким, чтобы ядра с нахлестом друг на друга шли. 2) падинги и кропы - это попытки победить краевые эффекты, когда на границе feature map'ы отклики получаются не вполне адекватными.
  5. Ну либо сетка находит регион, где есть текст, а потом подбирает параметры пространственного преобразования, приводящие строку к осмысленному текст...вроде бы даже всякие там Spatial Transform Network для текстов использовали.
  6. А чем какой-нибудь YOLO - не регрессор? Вместо BBox'ов предсказывай окружности и вуаля)
  7. ONNX

    А кто его развивает? Имхо, если крупные игроки не поддержат это дело (типа того же Google), то идея загнется.
  8. 1) Запатентовать можно конкретный подход, а не идею. Т.ч. патент, в котором больше 2-3 шагов в алгоритме, обойти обычно не сложно, путем модификации пайплайна. 2) Патент полученный в России - это вообще не особо серьезная штука, т.к. Россия - не особо благоприятный рынок для технически сложных продуктов. А для западного рынка этот патент ничего не значит.
  9. Решение оказалось очень простым: и картинки тупо сваливаются в контейнер как есть, без всякой интерполяции между кадрами.
  10. Задача в том, что есть пачка видео доставшихся в наследство(переснять которые не представляется возможным), которые на зоопарке архитектур могут давать разные результаты при различиях в конфигурации ffmpeg'а...в png'хи порезать видосы не вариант - т.к. их ооочень много, остается только перекодировать в какой-то формат, где кадры отдаются всегда одинаково, незаивисимо от бекенда
  11. Всем привет, Как многим известно, под linux opencv активно использует библиотеку ffmpeg для чтения видео, а эта библиотека, в зависимости от окружения и кодеков, которыми записаны видео, может отдавать не bit exact'ные кадры. И возникла необходимость закодировать видео так, чтобы перекодирование прошло без потери качества и в любом окружении выдавались одинаковые кадры. Судя по всему, для этой задачи мне нужно использовать x264 кодек, но вот как нарулить правильное сочетание флагов, чтобы пожалось всё без потери качества - никак не соображу. Может кто-то сталкивался с такой проблемой и имеет готовое решение?
  12. Детектор кругов

    http://docs.opencv.org/trunk/d7/d5d/houghcircles_8cpp-example.html работает наверняка дерьмово, как и все эти HoughBased свистелки.
  13. Вроде-бы HMM уже "того"...deep learning их сместил. Может LSTM'ами попробовать?
  14. Как думаете, что за метод ?

    А что значит "для нейронки слишком четко"? Вроде бы стилизация изображений уже довольно качественные результаты дает...
  15. Работа с float изображением

    Заблюрить и посчитать производную по Y?
×