Публикации Pechkin80

Не могу залинковать tensorflow на убунте.

Pechkin80 добавил тему в Вопросы по нейросетям и ИИ

Добрый день, 5й день пытаюсь подружиться с плюсовой версией tensorflow 1.14.( gcc 7.3.0) Пробовал линковать как готовую либу, которая идёт вместе с pip пакетом tensorflow-gpu, так и собирать из исходников. При компиляции вот такого кода: #include <iostream> #include <unistd.h> #include "tensorflow/core/public/session.h" using namespace std; int main() { using namespace tensorflow; GraphDef graph_def; Session* session; sleep(3); Status status = NewSession(SessionOptions(), &session); if (!status.ok()) { //std::cerr << "tf error: " << status.ToString() << "\n"; } cout << "Hello World!" << endl; return 0; } Результат выполнения программы в большинстве случаев вот такой: По рекомендации отсюда пытался линковать с флагами: -Wl,--allow-multiple-definition -Wl,--whole-archive Потом на оснве информации отсюда сделал downgrade gcc/g++ с 7й до 6й версии, но тоже результатов не дало. Вообщем я перепробовал ВСЁ!!!.

Оптимальное распараллеливание для CUDA для операции свёртки.

Pechkin80 добавил тему в Обсуждение общих вопросов

Добрый день, Хочу на простом примере распараллеливания операции свёртки понять как выбирать оптимальные значения для числа блоков, числа нитей и кошерно ли делать цикл внутри нити или надо максимально увеличить число блоков и нитей ? Допустим матрица размером M*N Допустим число ядер cuda, известное из документации. Пока понял что для случая большой матрицы(изображения) лучше топить на число нитей в блоке так как всю её за раз не посчитаешь и планировщик нитей в варпе должен работать по идеи быстрей планировщика блоков, но кто быстрей внутренний цикл в ните или планировщик блоков ? Когда матрица маленькая и может посчитаться за один цикл(распараллевание не больше чем число ядер), то я так понимаю надо наоборот число нитей надо брать в 1 варп(32), а число блоков надо брать число ядер/32.