iskees 32 Жалоба Опубликовано December 24, 2019 Есть проста сверточная сеть (keras+tf), размер входного слоя не фиксированный. При прогоне на CPU все нормально, чем больше входной изображение тем дольше обработка. Но при выборе Backend cuda получается такая картина: если прогонять данные одного размера (например 240х180), то все хорошо если размер входных данных постоянно меняется (сперва 240х180, потом 240х179 и так по кругу) то производительность падает в 10 раз. opencv 4.2.0-dev jetson nano Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
Smorodov 579 Жалоба Опубликовано December 25, 2019 Выделение памяти на девайсе процесс не быстрый. А при изменении размеров входного тензора сеть каждый вызов ее перевыделяет. Сделайте вход максимального размера, и используйте поля. Еще лучше заморозить ее с фиксированным входом. Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах
iskees 32 Жалоба Опубликовано December 25, 2019 Пока сделал массив сеток, по одной для каждого размера. Инициализация не быстрая но потом все идет без замедление. Мне кажется дело не выделении памяти, а возможно в перекомпиляции ядер cuda. Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах