Перейти к содержимому
Compvision.ru

Поиск по сайту

Showing results for tags 'cnn'.



More search options

  • Search By Tags

    Введите теги через запятую.
  • Search By Author

Тип содержимого


Категории и разделы

  • Пакет OpenCV
    • OpenCV
    • Новости
    • Вопросы взаимодействия OpenCV + GDI, GDI+
  • Дополненная реальность (ARToolkit и др.)
    • ARToolkit
  • Нейросети
    • Вопросы по нейросетям и ИИ
  • Общие вопросы
    • Обсуждение общих вопросов
  • Другое

Найдено 23 результата

  1. Есть несколько трехмерных объектов ( mesh) неправильно - криво, косо, со смещением, наклоном расположенных друг относительно друга. Нужно их всех выровнять, подровнять, выстроить вдоль симмертричных ровных дуг. действующий алгоритм делает это с приемлемым результатом примерно в 70% случаев. и не использует ИИ, а использует страшную функцию, линеаризует, аппроксимирует и т.п. Хочется улучшить точность позиционирования и есть желание применить ИИ, но нет ни одной идеи на что это может быть похоже. эта задача классификации, регресии, сегментации? в качестве обучающей выборки есть большое количество правильных сетапов - как должно быть в итоге. Все осложняет тот факт что каждый объект в какой-то степени уникален. у каждого свои бугорки, выступы, трещинки, и по большому счету своя форма, несмотря на то, что все они принадлежат к одному классу. У каждого из объектов при этом есть набор лендмарков, или характерных точек - самая нижняя / верхняя точка, линеаризованная граница кромки, плоскость касательная к внешнему выступу, и т.п, eще порядка 10-15 фич. Почему решил ИИ - потому что в своих подходах он подобен человеку, а сейчас оценку итога работы алгоритма дает именно человек - по своему опыту судит - нравится/не нравится, красиво/некрасиво, эстетично/ не очень. Что тут можно сделать, в какую сторону думать?
  2. Обучил свой вариант PR Net, задеплоил на C++ под ncnn. Проект можно скачать здесь: https://github.com/Smorodov/PrNet_cpp . Сетка работает неплохо, но хотелось бы с текстурой. Текстуру я сдираю с маской видимости. Но хотелось бы более красивой картинки. Есть мысль, что GAN в данном случае могла бы помочь. Может кто встречал что-нибудь по теме?
  3. Коллеги, суть проблемы: не удается загрузить мной созданную модель tensorFlow в opencv.dnn методом cv2.dnn.readNetFromTensorflow(weights,config) выдается ошибка распарсивания графа вида Error parsing text-format opencv_tensorflow.GraphDef: 4059:5: Unknown enumeration value of "DT_RESOURCE" for field "type". гугление приводит к рецептам вроде заморозьте граф, преобразуйте файл *.pbtxt с помощью файлов, входящих в opencv, конфиг для сети при этом скачайте по ссылке, везде рекомендации, примерно как тут: https://github.com/opencv/opencv/wiki/TensorFlow-Object-Detection-API вопрос: но ведь это-же для конкретной заранее спроектированной сети - mobilenet, rcnn, yolo и других известных, я правильно понимаю или нет? и если да, то, что делать, если моя структура самописная? это не lenet, не guglonet, не yolo, это моя собственная сетка. мне что, не удастся ее в dnn прочитать? Спасибо.
  4. Доброго времени суток. Интересует такая тема, как нахождение недвижимого предмета на переднем плане(т.е изначально он отсутствовал), перепробована куча вариантов и алгоритмов, но ничего стабильного так и не найдено, возможно кто то что то реализовывал похожее?
  5. Добрый день. Подскажите пожалуйста, имеется ли достоверная информация на тему сравнения точности обученных моделей на grayscale и RGB изображениях. Может личный опыт в данном вопросе? Насколько может различаться точность при классификации объектов сверточными сетями, в зависимости от используемого цветового пространства? Понимаю, что вопрос затрагивает множество факторов, относящихся к самим данным, но есть ли что-то от чего можно отталкиваться в данном вопросе?
  6. Всем привет, Возник такой вопрос: а какой метод загрузки данных и формировани батчей сейчас является "best practice" в TensorFlow? И кто какие контейнеры использует для хранения картинок и метаинформации к ним? Судя по этой странице из официального гайда, как-то там народ не заморачивается насчет быстрых контейнеров, типа HDF5 или LMDB...и не совсем понятно, как при таком подходе грузить сложную метаинформацию типа боксов для object detection etc.
  7. Всем привет, А кто-то имеет опыт использования Amazon инстансов для тренировки сетей? Нашел описание тут: https://aws.amazon.com/ru/ec2/dedicated-hosts/pricing/ Но не совсем понятно, какая разница по цене между p2.xlarge, p2.8xlarge, p2.16xlarge (в прайсе есть только общая цена для p2 инстансов)... Заранее спасибо.
  8. Здравствуйте, для распознавания символов на на номерном знаке автомобиля хочу применить нейронную сеть. Читаю про "обычную" полносвязную НС. В качестве недостатка упоминается большое чисто ее элементов, и как альтернатива рассматривается сверточная сеть. А она, наряду с DeepLearning вроде как относится к другому классу сетей. И вот думаю: действительно мне нужна сверточная НС, нужно-ли мне для задачи идентификации 22-х символов поднимать caffe или подобную серьезную систему, или смотреть в сторону SVM. Сложно сориентироваться, т.к. у меня в этом деле нет опыта совсем. Вообще входные требования - максимальная точность классификатора при условии что на входе будет картинка символа с различной яркостью, контрастностью, и четкостью монохромного (не бинаризованного, т.к. бинаризовать некоторые символы без существенного искажения не выходит) изображения символа, как чистая, так и зашумленная (пыль, грязь, различные артефакты вызванные деформацией номерной пластины, тенями, неравномерной освещенностью). Размер картинки с символом примерно 20Х20 пикселей. Как мне определиться с выбором метода, пожалуйста, посоветуйте.
  9. Нашел занятный проект пока не ковырял, но выглядит интересно: http://pjreddie.com/darknet/yolo/
  10. Всем привет. А кто-нибудь находил годную документацию по pycaffe (т.к. не совсем понятно, что в python интерфейс проброшено, а что нет), или быть может в курсе, как можно получить информацию по слоям загруженой сети? Конкретно интересует, как получить информацию о форме bottom и top блобов и параметры слоя. Методом тыка дошел только до того, что могу посмотреть отедльно информацию по блобам данных (без привязки к тому, какой слой в них пишет или принимает на вход), либо параметры слоев (да и то только на уровне формы и содержимого блобов с параметрами).
  11. Всем привет. А кто-нибудь находил годную документацию по pycaffe (т.к. не совсем понятно, что в python интерфейс проброшено, а что нет), или быть может в курсе, как можно получить информацию по слоям загруженой сети? Конкретно интересует, как получить информацию о форме bottom и top блобов и параметры слоя. Методом тыка дошел только до того, что могу посмотреть отедльно информацию по блобам данных (без привязки к тому, какой слой в них пишет или принимает на вход), либо параметры слоев (да и то только на уровне формы и содержимого блобов с параметрами).
  12. Всем привет, Решил попробовать пистаь к caffe кастомные слои не на C++, а при помощи имеющего PythonLayer из стандартного caffe. Пишу простой сэмпл: 1) так выглядит sample.prototxt 2) так выглядит собственно код Python-слоя (должен тупо пропихивать блоб с данными дальше без изменения) 3) так выглядит код, который запускает сетку Какое поведение наблюдается при запуске сети: 1) Отключаю пулинг слой, сеть работает корректно. После forward pass я могу с выхода кастомного слоя забрать картинку в первозданном виде. 2) Отключаю python-слой а в качестве bootm для Python-слоя задаю просто data. Все работает корректно и на выходе получаю картинку вдвое меньшую, чем подавал на вход. 3) Запускаю сеть в которой сначала идет мой кастомный слой, а его выход идет на пулинг. Сеть не работает, ругаясь на невалидный блоб на входе пулинга: Может кто-то сталкивался с таким и сумел пофиксить?
  13. Всем привет, А у кого какие мысли, почему сверточные сетки, предтренированные на ImageNet так хорошо работают на большом спектре задач? Например, если взять ObjectDetection, то state of the art алгоритмы, такие как RCNN, SSD, etc. используют VGG16 предтренированную на ImageNet, затем файнтюнят на милипизерных базах PASCAL и получают одни из лучших результатов, например, на KITTI датасетах для детектирования машин/людей при том, что в ImageNet + PASCAL изображений людей дай бог тысяч 20 наберется...хотя по канонам надо брать много миллионов картинок, чтобы DL начал сходиться... Да и вообще большая часть статей по DL сейчас начинаются с того, что "давайте возьмемсеть, предтренированную на ImageNet"
  14. Всем привет, А кто-то сталкивался с тем, что при тренировке сеток на GPU появляется рябь на экране? Оно конечно вполне ожидаемо, когда тренировка бежит на основном GPU (раньше бывало что экран вообще гас), но рябь появляется даже тогда, когда тренирова бегает на дополнительной карте, никак не связанной с монитором. БП вроде тоже не слабый (1300W). Может кто знает, как пофиксить?
  15. Всем привет, А может кто-то сталкивался с исчерпывающим описанием процесса обучения рекурентных сетей (конкретно интересует обучение LSTM'а)? Собственно имеются два вопроса по этому поводу: 1) PBTT подразумевает, что ошибка считается в виде суммы ошибок для всей цепочки LSTM'ов, и не понятно, откуда брать эталонный выход для промежуточных моментов времени, или все таки процесс тренировки там подразумевает, что в момент обуения мы полностью контролируем клеточное состояние в каждый момент времени? 2) Кто-нибудь расписывал руками производные для LSTM'а? А то chain rule расписывать там как-то совсем не радостно.
  16. Обычно в сверточных сетях, при стыковке двух сверточных слоев, перед применением очередной свертки происходит суммирование некоторых карт признаков с предыдущего слоя в соответствии с картой смежности...но при настройке топологии сети, понятие карты смежности не исопльзуется. И тут возник вопрос: а как в caffe реализуется стыковка карт признаков со сверточным слоем?
  17. Всем привет, В теории, если мы знаем размерность Вапника-Червоненкиса для нейронной сети, то мы можем примерно оценить минимальное число сэемплов, необходимое для сходимости нейронной сети. Но на практике я нигде не встречал методов, позволяющих посчитать VC-размерность для сети произвольной топологии. Может кто-то встречал подобные работы? Заранее спасибо.
  18. Всем привет, Возник такой вопрос: Вот хочу я на основе DL сделать, например, детектор котиков. И вот тут есть два варианта решения задачи: 1) Насобирать огромную базу изображений котиков и тренировать на них сетку в надежде, что база достаточно репрезентативная и сетка обобщится хорошо. 2) Взять предтренированную на ImageNet сетку и зафайнтюнить её базой котиков среднего размера. Учитывая опыт всяких RCNN и YOLO, тренировка на ImageNet + файнтюнинг на PASCAL дает близкие к state of the art результаты на задачах, например детектированию пешеходов. Хотя в ImageNet + PASCAL число людей вряд ли достигает хотя бы 1M...а вот методов основанных только на тренировке большой базой, без предтренировке на ImageNet в топах не видно...отсюда возникает вопрос, что же все таки лучше: специализированный детектор для конкретного класс объектов, или что-то универсальное, что умеет различать несколько различных классов? В литературе сравнений таких не встреал.
  19. Всем привет, Что-то никак не могут найти предтренированную на ImageNet модель, label и mean файлы для каффе для сетки VGG16, может кто-то в курсе где можно скачать? Заранее спасибо.
  20. Всем привет, А кто-то сталкивался с задачей переиспользования кусков сетей в caffe? Например, я хочу использовать часть сверточных слоев от VGG16 при тренировке своей кастомной сети, как именно это технически реализуется? Тупо копипаста из одного caffemodel в другой весов не работает...caffe такие файлы просто игнорит.
  21. Всем привет, А кто-то пробовал для этого object detection алгоритма тренировать собственные сетки вместо штатных VGG16 и ZF, чтобы алгоритм работал в реальном времени и какие базы для этого использовали?
  22. На днях был опубликован отладчик к библиотеке TensorFlow. Штука, по моему, довольно интересная например тем, что позволяет пошагово выполнять графы и на ходу визуализировать внутренности сеток. https://github.com/ericjang/tdb
  23. Свежая бесплатная книжка по глубоким сетям: http://www.iro.umontreal.ca/~bengioy/dlbook/version-07-08-2015/dlbook.html
×