Jump to content
Compvision.ru

Leaderboard

  1. Smorodov

    Smorodov

    Главные администраторы


    • Points

      573

    • Content count

      3,855


  2. mrgloom

    mrgloom

    Пользователи


    • Points

      242

    • Content count

      2,302


  3. Nuzhny

    Nuzhny

    Пользователи


    • Points

      241

    • Content count

      1,421


  4. BeS

    BeS

    Пользователи


    • Points

      53

    • Content count

      349



Popular Content

Showing most liked content since 12/03/2010 in all areas

  1. 4 points
    Вышла еще одна книжка (см. №3) и я решил для удобства собрать эти книжки вместе: 1)"Learning OpenCV. Computer Vision in C++ with the OpenCV Library. 2nd Edition" http://shop.oreilly.com/product/0636920022497.do Благородная попытка перевода ее на русский язык первого издания этой книги: http://locv.ru/wiki/%D0%93%D0%BB%D0%B0%D0%B2%D0%BD%D0%B0%D1%8F_%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B8%D1%86%D0%B0 2)"OpenCV 2 Computer Vision Application Programming Cookbook" ссылка на исходный код на сайте http://www.laganiere.name/opencvCookbook/ 3)"Mastering OpenCV with Practical Computer Vision Projects" очень интересные проекты с исходниками. http://www.packtpub.com/cool-projects-with-opencv/book исходники здесь: https://github.com/MasteringOpenCV/code Еще одна книжка с opensouce исходниками: Practical OpenCV By Samarth Brahmbhatt Список книг по Opencv от opencv.org: http://opencv.org/books.html Еще бесплатная книжка: "Modern Robotics with OpenCV" здесь: http://www.sciencepublishinggroup.com/book/B-978-1-940366-12-8.aspx
  2. 4 points
    Кому интересно, написал довольно шуструю вычиталку фона(пока только последовательная версия, до распараллеливания пока руки не дошли) основанную на алгоритме VIBE с оберткой для использования в OpenCV. Оригинальная статья: http://orbi.ulg.ac.be/bitstream/2268/145853/1/Barnich2011ViBe.pdf Мои исходные коды: https://github.com/BelBES/VIBE
  3. 4 points
    Привет всем! Вот, попытался сделать пример вывода видео на форму. И, думаю, получилось Для того, что-бы скопировать IplImage в объект .NET типа Image, достаточно всего лишь одной строки: #include <opencv/cv.h> #include <opencv/highgui.h> ... using namespace System; using namespace System::Windows::Forms; using namespace System::Drawing::Imaging; using namespace System::Drawing; ... IplImage *iplImg; ... // Копирование IplImage в объект .NET типа Image Image ^image = gcnew Bitmap(iplImg->width, iplImg->height, iplImg->widthStep, PixelFormat::Format24bppRgb, IntPtr(iplImg->imageData)); ... или, с использованием класса Mat: cv::Mat imgMat; // Копирование cv::Mat в объект .NET типа Image Image ^img = gcnew Bitmap(imgMat.cols, imgMat.rows, imgMat.step, PixelFormat::Format24bppRgb, IntPtr(imgMat.data)); Чтобы вывести изображение на компоненту PictureBox, достаточно следующей строки в одном из методов вашей формы: this->pictureBox1->Image = image; Если вам нужен HBITMAP, то получить его можно следующим образом: Bitmap ^image = gcnew Bitmap(iplImg->width, iplImg->height, iplImg->widthStep, PixelFormat::Format24bppRgb, IntPtr(iplImg->imageData)); HBITMAP hb = (HBITMAP)image->GetHbitmap().ToPointer(); У меня вышеприведенные примеры отлично работают с OpenCV 2.2 в Visual Studio 2008/2010. К сообщению прилагаю проект простого видео плеера, написанного с помощью OpenCV 2.2 в Visual Studio 2008. Он может воспроизводить все типы видео, которые берет OpenCV и видео, захваченное с видеокамеры. Не судите строго за возможные несовершенства в коде Просто, я старался, что бы были основные функции плеера. Пояснения к проекту. Компиляция: Чтобы успешно скомпилировать проект, достаточно в опциях Visual Studio установить пути на OpenCV в следующем виде: %OPENCV_HOME%\include и %OPENCV_HOME%\lib Например, так: C:\OpenCV2.2\include и C:\OpenCV2.2\lib Другое: При создании проекта использовались следующие опции и установки. .NET Framework 3.5. General/Common Language Runtime Support: Common Language Runtime Support (/clr) C/C++/Advanced/Disable Specific Warnings: 4996;4793 Linker/Input/Additional Dependencies: opencv_core220d.lib opencv_highgui220d.lib opencv_imgproc220d.lib opencv_objdetect220d.lib Для версии Release: без "d" после 220. В компоненте PictureBox свойство SizeMode имеет значение Zoom, что позволяет сохранить оригинальное соотношение сторон кадра. Для визуализации кадров используется Tick таймера. При двойном щелчке по области отображения, происходит переход в полноэкранный режим и обратно. Надеюсь, пример кому-нибудь пригодится VideoOnForm.zip
  4. 4 points
    Здравствуйте, решил заняться переводом книги "Learning OpenCV", перевёл уже 37 глав. Присоединяйтесь будем переводить вместе! - http://locv.ru
  5. 3 points
    проект здесь: FaceDetect.rar дополнительные классификаторы (нос, глаза, рот, тело):HaarClassifiers.rar здесь еще куча каскадов: Каскады хаара
  6. 3 points
    Самокодный вариант AdaBoost. (Виолы и Джонса там нет , только AdaBoost ) Надеюсь оформлю статью по нему, но и в листинге старался разместить побольше комментариев. AdaBoost.cpp И ссылка на мою презентацию по детекту лиц там тоже есть немного пояснений по теме: http://www.compvision.ru/forum/index.php?app=core&module=attach&section=attach&attach_id=369
  7. 3 points
    Наконец-то дошли руки Оптимизации не делал, просто проверил идею. Пример кода максимизирует расстояние между средним цветом внутри и снаружи прямоугольной области. Максимизирует он это расстояние при помощи подбора параметров этого прямоугольника (методом градиентного спуска). Вот что я имел ввиду, когда говорил непонятные вещи Результат работы программы (изображение может быть и цветным): #include "opencv2/opencv.hpp" #include <vector> using namespace std; using namespace cv; //---------------------------------------------------------- // Это и есть вычисление расстояния между средними цветами //---------------------------------------------------------- double getLikelihood(Mat& img,cv::RotatedRect& rr) { double likelihood=0; Mat mask=Mat::zeros(img.size(),CV_8UC1); // rotated rectangle Point2f rect_points[4]; rr.points( rect_points ); vector<cv::Point> pts(4); for(int i=0;i<4;++i) { pts[i]=rect_points[i]; } cv::fillConvexPoly(mask,pts,Scalar::all(255)); imshow("mask",255-mask); Scalar cc1,cc2; cc1=cv::mean(img,mask); cc2=cv::mean(img,255-mask); likelihood=norm(cc1,cc2,cv::NORM_L2); return likelihood; } //---------------------------------------------------------- // Градиент, чтобы знать куда менять параметры //---------------------------------------------------------- void getLikelihoodGradient(Mat& img,cv::RotatedRect& rr,cv::RotatedRect& drr) { cv::RotatedRect rrdx=rr; rrdx.center.x+=1; cv::RotatedRect rrdy=rr; rrdy.center.y+=1; cv::RotatedRect rrdw=rr; rrdw.size.width+=1; cv::RotatedRect rrdh=rr; rrdh.size.height+=1; cv::RotatedRect rrdang=rr; rrdang.angle+=1; cv::RotatedRect rrdxn=rr; rrdxn.center.x-=1; cv::RotatedRect rrdyn=rr; rrdyn.center.y-=1; cv::RotatedRect rrdwn=rr; rrdwn.size.width-=1; cv::RotatedRect rrdhn=rr; rrdhn.size.height-=1; cv::RotatedRect rrdangn=rr; rrdangn.angle-=1; float l0=getLikelihood(img,rr); cout << l0 << endl; float dlx=getLikelihood(img,rrdx)-getLikelihood(img,rrdxn); float dly=getLikelihood(img,rrdy)-getLikelihood(img,rrdyn); float dlw=getLikelihood(img,rrdw)-getLikelihood(img,rrdwn); float dlh=getLikelihood(img,rrdh)-getLikelihood(img,rrdhn); float dlang=getLikelihood(img,rrdang)-getLikelihood(img,rrdangn); float scale=sqrt(dlx*dlx+dly*dly+dlw*dlw+dlh*dlh+dlang*dlang); dlx/=scale; dly/=scale; dlw/=scale; dlh/=scale; dlang/=scale; drr.center.x=dlx; drr.center.y=dly; drr.size.width=dlw; drr.size.height=dlh; drr.angle=dlang; } //---------------------------------------------------------- // Генерируем тестовое зашумленное изображение //---------------------------------------------------------- void generateTestImage(Mat& img) { img=Mat(512,512,CV_8UC3); cv::RotatedRect rr(cv::Point2f(200,300),Size(140,180),67); img=Scalar::all(0); // rotated rectangle Point2f rect_points[4]; rr.points( rect_points ); vector<cv::Point> pts(4); for(int i=0;i<4;++i) { pts[i]=rect_points[i]; } cv::fillConvexPoly(img,pts,Scalar(255,255,255)); for(int i=0;i<100000;++i) { int x=rand()%512; int y=rand()%512; img.at<Vec3b>(y,x)=Vec3b(255,255,255); } for(int i=0;i<105000;++i) { int x=rand()%512; int y=rand()%512; img.at<Vec3b>(y,x)=Vec3b(0,0,0); } } //---------------------------------------------------------- // //---------------------------------------------------------- int main(int argc, char* argv[]) { Mat img,img_cpy; generateTestImage(img); imshow("testimg",img); cv::waitKey(0); cv::RotatedRect rr(cv::Point2f((float)img.cols/2.0,(float)img.rows/2.0),Size(img.cols-100,img.rows-100),0); cv::RotatedRect drr; while(1) { img_cpy=img.clone(); getLikelihoodGradient(img,rr,drr); // Меняем параметры в сторону увеличения расстояния между средними цветами rr.center+=drr.center; rr.size+=drr.size; rr.angle+=drr.angle; // rotated rectangle Point2f rect_points[4]; rr.points( rect_points ); for( int j = 0; j < 4; j++ ) { line( img_cpy, rect_points[j], rect_points[(j+1)%4], Scalar(0,255,0), 2, CV_AA ); } imshow("img_cpy",img_cpy); waitKey(10); } cv::destroyAllWindows(); return 0; }
  8. 3 points
    2 Nuzhny Результаты сравнения по скорости собирал 4-2 года назад (потом стало лень) на этой странице (смотреть от где-то от середины и все постскрипты). Сравнивал с пятью чужими программами (вернее, с опубликованными в печати или в интернете временами расчётов - исходник-то был доступен всего для одной из этих 5 программ). Сравнивал ориентировочно - с учётом прикидок о разнице в быстродействии моего и других процессоров. Исходников не открываю, демку где-то в те годы на сайте предложил сделать-дать только тому, кто придёт с тяжёлым проектом и гарантирует отдачу проекта в мои руки после того, как демка всё заявленное (как скорость, так и просто надёжность-работоспособность) продемонстрирует. По потреблению памяти - у меня на копейки больше, т.к. все данные обрабатываемого примера (именно одного текущего примера) и внутренние сигналы/веса сети оптимально раскладываются с учётом выравнивания блоков данных на границу параграфа. Ну и в коде 1.5 ноу-хау - одно чисто моё (на удивление - почему-то нигде и никем ранее не опубликованное) о самом шустром варианте распараллеливания обучения нейросети (вообще без синхронизаций потоков на уровне операционной системы), второе - об аппроксимированном вычислении нелинейности нейрона (которое опубликовано, но почему-то никто об этом не знает и на практике не применяет). И сейчас реализованы пара канонических вариантов свёрточных сеток (ЛеКуновский и Симардовский), а также другие её клоны (от Эндрю Нг, Свена Бенке) - вернее, из разных слоёв-кубиков можно собирать свой/новый вариант. Также у нейронов можно ставить полиномиальные сумматоры - не на всех слоях свёрточной сети это помогает/полезно, но если помогает - то точность растёт. Я так даже самого Хинтона опроверг - он в прошлом году говорил, что на задаче MNIST на обычном персептроне никто никогда не опустился ниже 1.6% ошибок, а я таки постановкой полиномиальных сумматоров только на вых.слой получил точность лучше (см последний абзац тут) (хотя сам Хинтон в 1986г в двухтомнике PDP описывал формулы обратного распространения ошибки в том числе и для полиномиальных сумматоров - но вот почему-то сам не пользуется сейчас сигма-пи нейронами в своих сетях, может быть, зря).
  9. 3 points
    покопавшись в исходниках можно найти для себя несколько заготовок, таких как построение 3d модели лица, его трекинг и даже ( на начальном этапе ) вычисление значения фильтров габора в ключевых точках этой модели. может кому пригодиться... трекинг работает весьма быстро для одного человека, но я по быстрому переделал под свои цели для двоих. в основе детектирования ключевых точек - Flandmark_detector, трекинга - headtracker-master. (лиценция которых GNU GPL, для тех кого это вообще интересует). должно даже собраться и заработать (под ubuntu писалось) Написано на С++, есть куски на С. для работы нужна opencv2.4.4 lndmark.tar.gz
  10. 3 points
    Соорудил быстрый и маленький кусочно-аффинный варпер (перенос фрагмента изображения из одной сетки треугольников в другую): WarpAffine.rar
  11. 3 points
    Слайды одной из моих лекций. Детектор лиц на основе метода Виолы-Джонса.rar
  12. 3 points
    Так случилось, что я активно использую Delphi в своей работе (программирование по работе, собственные открытые и закрытые проекты) и вот мне понадобилось написать программу, использующую открытую библиотеку компьютерного зрения OpenCV. Что же делать, ведь официально OpenCV использовать в Delphi невозможно, а перебираться на C ради одной программы слишком долго. Но нет ничего невозможного… Немного поискав в интернете, я нашел несколько проектов по использованию OpenCV в Delphi. Первый, второй, третий и наиболее свежий и удачный — четвертый, который я и взял за основу. Проект на github мне показался интересным, реализовано много функций OpenCV, есть много примеров на Delphi, но проект заброшен автором и пришлось взяться за свой. Все текущие наработки я выложил на code.google.com/p/opencv-delphi-new/ В настоящий момент сделано: 1. Поддержка RAD Studio XE3. 2. Добавлены новые функции: cvFlip, cvClearMemStorage, cvCreateChildMemStorage, cvRectangle, cvRetrieveFrame, cvIntegral, cvGetPerspectiveTransform, cvWarpPerspective, cvCreateMat, cv2DRotationMatrix, cvWarpAffine, cvFindContours, cvHaarDetectObjects. 3. Добавлено 6 новых примеров: FaceDetect — Пример детектирования лица в видеопотоке с использованием преобразования Хафа. FindContours — Нахождение контуров изображения. Integral — Интегральное изображение. WarpAffine — Трансформация изображения — аффинные преобразования (Поворот изображения на произвольный угол). WrapPrespective — Трансформация изображения — гомография (Перспективная трансформация). MatchShapes — Поиск объекта на изображении по шаблону (Сравнение объектов по моментам их контуров). В добавленных примерах я постарался подробно расписать все манипуляции для достяжения нужного результата. Если кому-то будет интересна тема использования OpenCV в Delphi, то пишите мне на email или оставляйте комментарии. Если тематика использования OpenCV в принципе интересна, то могу написать несколько статей, только напишите, какое направление использования OpenCV Вас интересует.
  13. 3 points
    Полезный сайт по теории: http://courses.graphicon.ru/ Материал по ASM и AAM: http://courses.graphicon.ru/files/courses/smisa/2008/lectures/lecture10.pdf
  14. 3 points
    И еще проект ( активные контуры (ASM) переделанный (на чистый OpenCV 2.X) мной проект одного китайца, который переделал его из STASM ): В архиве конвертер моделей STASM в файл с матрицами OpenCV, и солюшн для студии с двумя проектами: библиотекой и демкой. Надеюсь на дальнейшее развитие проекта. ASMCompvisionEdition.rar
  15. 3 points
    Где-то есть деление на ноль. Смотри свои данные.
  16. 3 points
    Привет. В общем вот выкладываю перевод с БИЛДЕРА на ВИЖУАЛ (кстати недавно совсем переводил), "Создание APIшного битмапа из интеловского RGB изображения" присутствует. Смотри, разбирайся. Если, что не пойдет пиши - разберемся. [Прикрепленный файл был потерян при откате форума]
  17. 3 points
    Здравствуйте, RinOS. Рекомендую все-таки использовать cvStereoRectify() т.к. результат его работы более точен, а cvStereoRectifyUncalibrated() лучше использовать когда существуют значительные непараллельности в оптических осях камер, насколько я понимаю. Критерием правильности калибровки стерео может служить правильное число в векторе T (который означает расстояние между оптическими осями по оси x, y и z) камер. У меня, при расстоянии между камерами 12 см, и 29 калибровочных пар изображений 640х480 в оттенках серого (изображения я сохраняю предварительно в bmp, чтобы каждый раз не мучаться с их показом камерам) величина составляет: цитирую xml содержимое <data>-1.1886876922892217e-001 -7.8263643755714435e-004 -4.6620003758508491e-003</data>, (все величины в метрах - первая величина - это сдвиг по оси X, то есть расстояние между камерами). То есть 1.6 %, что может быть точнее измерянного мною расстояния. Чем шире расстояние между камерами, тем лучше будет восприятие на более дальних расстояниях, и тем хуже будет поле зрения камеры, при обзоре близких предметов. Для того чтобы величина вектора T содержала метрические величины, необходимо, чтобы вы правильно (в метрических единицах) указали размер клеточки при калибровке. В книге learning OpenCV, в примере стерео (стр 445), есть константа squareSize, у меня в коде примерно так (размер клетки 3 см): float chesbSquareSize = 0.030f; // 30 mm is a Square size for (size_t pair_idx = 0; pair_idx < boards_count; pair_idx++) { for (size_t i=pair_idx*board_n,j = 0;j < board_n; ++i,++j) { // Chessboard points CV_MAT_ELEM(*image_pointsL,float,i,0) = vCalibData[IMG_LEFT][pair_idx].vPoints[j].x; CV_MAT_ELEM(*image_pointsL,float,i,1) = vCalibData[IMG_LEFT][pair_idx].vPoints[j].y; CV_MAT_ELEM(*image_pointsR,float,i,0) = vCalibData[IMG_RIGHT][pair_idx].vPoints[j].x; CV_MAT_ELEM(*image_pointsR,float,i,1) = vCalibData[IMG_RIGHT][pair_idx].vPoints[j].y; // Linear space remapping points CV_MAT_ELEM(*object_points,float,i,0) = (float)(j/w) * chesbSquareSize; CV_MAT_ELEM(*object_points,float,i,1) = (float)(j%w) * chesbSquareSize; CV_MAT_ELEM(*object_points,float,i,2) = 0; }; CV_MAT_ELEM(*point_counts,UINT,pair_idx,0) = (UINT)board_n; }; Откалиброванные матрицы удобно сохранять в xml. Для того, чтобы калибровка была корректной, рекомендуют использовать "шахматную доску" с не одинаковым кол-вом клеток по ширине и высоте (я заметил вы такую и использовали). Для улучшения качества BlockMatcher'а, попробуйте BMState->uniquenessRatio = 0; Привожу мои рабочие параметры: BMState->preFilterSize = 17; BMState->preFilterCap = 31; BMState->SADWindowSize = 11; BMState->minDisparity = 13; BMState->numberOfDisparities = 256; BMState->textureThreshold = 35; BMState->uniquenessRatio = 0; Искомую матрицу репроекции Q вы можете заполнить вручную по формуле Q= стр 435 Learn OpenCV, используя ранее вычисленные матрицы: CameraMatrix и T, например.. но мне кажется это сложный путь, и ... некоторые величины (f, n) придется выдумывать. Вот набросал матрицу, которую вы можете использовать, подставив лишь расстояние между объективами камер: Но я не уверен, что она даст для вас точный и качественный результат. f можно уменьшить вовсе до 5 метров. Если вы вызовете cvStereoRectify() то наверняка ничего не потеряете, по книге инных вариантов не приводится. Матрицу Q нельзя извлечь из cvStereoRectifyUncalibrated() поскольку (стр 431): То есть, теоретически, если вы при калибровке, задавали реальные метрические координаты (с помощью размера) ваших клеточек, то на выходе ReprojectTo3D проекции получите реальные размеры и расстояния до объекта в метрах. Насколько я понимаю, disparityImage должен быть Float(существует быстрый вариант с Int). Подавать нужно disparityImage не нормализованный. Репроекцией еще сам не занимался, поэтому грабли раскрыть в этой теме пока не могу (может на этих выходных, тогда я бы отписался здесь). Прикрепляю свою шахматную доску (visio), может пригодится.
  18. 2 points
  19. 2 points
    Преамбула В пору своей молодости (2005 год) я поступил в аспирантуру, где параллельно с работой занимался разработкой детектора движения для цифровой системы видеонаблюдения. К науке охладел довольно быстро, диссертация оказалось слабой и, как следствие, я её не защитил. В то же время вышла первая версия CUDA, которая хорошо подходила для задач вычитания фона и вообще обработки видео. Я не упустил это событие и попробовал реализовать детектор кроме С++ ещё и на CUDA. Ну и в те давние времена OpenCV был достаточно сырым и слаборазвитым. Поэтому я его не использовал совсем, а получившийся алгоритм превосходил всё имеющееся в OpenCV на тот момент. Что получилось? Вот что получилось. Получился достаточно быстрый детектор, который в то время показывал достаточное качество и скорость. Я решил выложить наработки тех лет: и исходники, и пару статей, и недописанную диссертацию. Вдруг, кому-то будет интересно. Для запуска требуется CMake, Linux|Windows и OpenCV 3.0 (исключительно для захвата видео и вывода результатов). Документации пока нет совсем, комментарии по вполне понятным причинам написаны на русском. CUDA включается опцией в CMake, работоспособность не проверял (точно работало на CUDA 1.0). Есть опции для всякой разной отладки, вывода дополнительных окошек, пока не документированы. P.S. Если кто-то захочет запустить у себя и не получится - пишите сюда или на bitbucked, помогу. Если нужны будут консультации по коду и/или алгоритмам - аналогично. Общее впечатление по алгоритму можно составить на основании статей. Планов на будущее особо нет, возможно буду отшлифовывать, добавлю реализацию на OpenCL - всё для целей исключительно ознакомительных и для показа потенциальным работодателям.
  20. 2 points
    Нарушил многолетнее молчание и зафигачил новый пост на Хабру про последние достижения науки и техники в области Feature Matching'а: https://habrahabr.ru/post/323688/ Т.ч. кому интересна тема, вэлкам) Критика, пожелания, замечания приветствуются!
  21. 2 points
    Нашел интересный список: http://avisynth.nl/index.php/Image_Processing_Algorithms
  22. 2 points
    1. У меня был скачан opencv-3.1.0.exe (115 129 966 байт длиной). Распаковываем куда-нибудь. 2. Оттуда 2 директория (build и sources) переносим в C:\Users\admin\PROGS\CV\. Это обязательно, т.к. в проектах билдера пути привязаны. Двигать будете, когда запустится. 3. Файл "1.rar" тоже с абсолютными путями. Его содержимое при копировании ложится в C:\Users\admin\PROGS\CV\. 4. Файл "2.rar" содержит путь к некоему заголовочному файлу и сам файл в среде Embarcadero RAD Studio XE. Его положить соответственно ваших путей с заменой устаревшего оригинала ... 5. После этого можно сразу загрузить группу проектов face_detector.groupproj. При запуске скомпилируются все нужные мне либы + facedetect.exe в C:\Users\admin\PROGS\CV1\LIBEXE\debug\. 6. Если последний запустить на выполнение прямо из IDE (Parameters уже в проекте) и положить в C:\Users\admin\PROGS\CV\ файл 2.jpg с групповым портретом вашей любимой компании, то у всей компании будут выделены лица и глаза в кружки. Или, если подключена камера, можно запустить, убрав Parameters... facial_features_bcc.cpp - это немного доработанный оригинальный facial_features.cpp. В папке haarcascades есть бонусы по сравнению с первоисточником. Многие ( но не все ) места, где были внесены изменения в оригинальный текст, комментированы вот таким образом: ///ggg/// Из текста видно, что билдер мужик более простой и конкретный нежели MSВижуаллС++ :-))) Dll-ки тоже можно стряпать, но OMF vs COFF при соучастии __stdcall и __cdecl так просто не сдадутся. ) При компилении очень важны Conditional defines в "Directories and Conditionals" из Options каждого проекта. Смотрите в каталогах - даю несколько готовых проектов для примера. 1.rar 2.rar Инструкция по прикрутке.txt
  23. 2 points
    Спасибо! Именно это помогло! Кому нужно - в репозитории имеется около 3к идеально размеченных автоматом данных (больший объем пока не делал) А что с настройками обучения? Оставить все по дефолту? 40к итераций хватит? если у меня будет 10-30к изображений для тренировки? Как выявить наилучший результат при тренировке? https://github.com/Maxfashko/CamVid
  24. 2 points
    https://github.com/Itseez/opencv/blob/2f4e38c8313ff313de7c41141d56d945d91f47cf/modules/stitching/src/stitcher.cpp#L124 Там кстати таймеров понатыкано, можно замерить куски кода.
  25. 2 points
    Есть вот такая интересная функция, я стащил её у китайцев и адаптировал к opencv Картинка для неё: motion_fuzzy_lena.bmp Подозреваю что для других картинок надо настраивать параметры ( int A = 80;int B = 10; и Общее расстояние сдвига const int nTotLen=10; ). Но как пока не разобрался. В пояснениях было написано, что устраняет размытие от прямолинейного равномерного движения. Результат работы: bool cvMotionRestore(IplImage* Src,IplImage* Dst) { BYTE * lpSrc; //Размеры изображения LONG lWidth=Src->width; LONG lHeight=Src->height; // Изображение количество байтов в строке LONG lLineBytes=Src->widthStep; LPBYTE lpDIBBits; lpDIBBits=(LPBYTE)Src->imageData; //Переменная цикла long iColumn; long jRow; int i,n,m; //Временные переменные int temp1,temp2,totalq,q1,q2,z; double p,q; // Назначение коэффициентов int A = 80; int B = 10; //Общее расстояние сдвига const int nTotLen=10; // Ширина изображения содержит число длин сдвига ntotlen int K=((float)lLineBytes/(float)nTotLen); int error[nTotLen]; for (jRow = 0; jRow < lHeight; jRow++) { // Вычислить error[i] for(i = 0; i < nTotLen; i++) { error[i] = 0; for(n = 0; n < K; n++) for(m = 0; m <= n; m++) { // пиксель начале строки if(i == 0 && m == 0) { temp1=temp2=0; } // дифференциальный оператор else { lpSrc = (unsigned char *)lpDIBBits + lLineBytes * jRow + m*nTotLen+i; temp1=*lpSrc; lpSrc = (unsigned char *)lpDIBBits + lLineBytes * jRow + m*nTotLen+i-1; temp2 = *lpSrc; } error[i] = error[i] + temp1 - temp2; } error[i] = B * error[i] / K; } for(iColumn = 0; iColumn < lLineBytes; iColumn++) { m = iColumn / nTotLen; z = iColumn - m*nTotLen; totalq = 0; q = 0; for(n = 0; n <= m; n++) { q1 = iColumn - nTotLen*n; if(q1 == 0) {q = 0;} // дифференциальный оператор else { q2 = q1 - 1; lpSrc = (unsigned char *)lpDIBBits + lLineBytes * jRow + q1; temp1 = *lpSrc; lpSrc = (unsigned char *)lpDIBBits + lLineBytes * jRow + q2; temp2 = *lpSrc; q = (temp1 - temp2) * B; } totalq = totalq + q; } p = error[z]; // Получить значения f(x,y) temp1 = totalq + A - p; // Результат к диапазону 0-255 if(temp1 < 0) temp1 = 0; if(temp1 > 255) temp1 = 255; Dst->imageData[lLineBytes*jRow + iColumn] = temp1; } } return true; } [/code]
  26. 2 points
    Можно попробовать семантическую сегментацию, DeepLab дает неплохие результаты при сегментации людей... з.ы. 50к изображений человеков? Может быть, если имеется возможность, вы поделитесь такой базой с общественностью?
  27. 2 points
    Полный цикл того же самого на питоне с использование stasm https://github.com/alyssaq/face_morpher Слайды https://github.com/alyssaq/face_morpher_slides
  28. 2 points
    Свежая бесплатная книжка по глубоким сетям: http://www.iro.umontreal.ca/~bengioy/dlbook/version-07-08-2015/dlbook.html
  29. 2 points
    про интерпретацию HOG http://web.mit.edu/vondrick/ihog/ Visualizing Object Detection Features by Carl Vondrick http://web.mit.edu/vondrick/mthesis.pdf http://web.mit.edu/vondrick/ihog/iccv.pdf Exploring the representation capabilities of the HOG descriptor про интерпретацию CNN тут есть про deconvolution aka convolution transpose http://www.robots.ox.ac.uk/~vedaldi/assets/teach/2015/vedaldi15aims-bigdata-lecture-4-deep-learning-handout.pdf тут еще слайд 4 (3 метода) http://places.csail.mit.edu/slide_iclr2015.pdf но не очень понятно чем это помогает
  30. 2 points
    Я в своё время следил за Дропбоксом, участвовал в их акциях - расширил бесплатное место до 8.5 Гбайт. Со скрипом, но хватает. В любом случае, это не проблема, всегда можно найти подходящий сервис. А на счёт удобной организации книг надо подумать... Docear - что-то похожее на то, что хочется.
  31. 2 points
    Сам не люблю магию , я за интеллект. K-means хороший вариант. Вот еще самообучающийся алгоритм (главный параметр, это количество цветов int NrGMMComponents = 8 ): #include <opencv2/opencv.hpp> #include "opencv2/ml/ml.hpp" #include <vector> #include <list> #include <iostream> using namespace cv; using namespace std; void main(void) { // Количество кластеров (сколько разных цветов будет на конечном изображении) int NrGMMComponents = 8; // Имя исходного файла string fname="D:\\ImagesForTest\\passport.jpg"; cv::Mat SampleImg = imread(fname,1); cv::GaussianBlur(SampleImg,SampleImg,Size(3,3),1); int SampleImgHeight = SampleImg.rows; int SampleImgWidth = SampleImg.cols; // Набираем точки данных vector<Vec3d> ListSamplePoints; for (int y=0; y<SampleImgHeight; y++) { for (int x=0; x<SampleImgWidth; x++) { // Собираем точки с изображения Vec3b bgrPixel = SampleImg.at<Vec3b>(y, x); uchar b = bgrPixel.val[0]; uchar g = bgrPixel.val[1]; uchar r = bgrPixel.val[2]; if(rand()%25==0) // Берем не все точки подряд, а по равномерной выборке (примерно каждую 25-ую) { ListSamplePoints.push_back(Vec3d(b,g,r)); } } // for (x) } // for (y) // Формируем матрицу обучающих данных int NrSamples = ListSamplePoints.size(); Mat samples( NrSamples, 3, CV_64FC1 ); for (int s=0; s<NrSamples; s++) { Vec3d v = ListSamplePoints.at(s); samples.at<double>(s,0) = (float) v[0]; samples.at<double>(s,1) = (float) v[1]; samples.at<double>(s,2) = (float) v[2]; } // Напишем что нибудь по-английски. cout << "Learning to represent the sample distributions with " << NrGMMComponents << " gaussians." << endl; cout << "Started GMM training" << endl; cv::EM em_model; // Параметры алгоритма em_model.setInt("covMatType",cv::EM::COV_MAT_GENERIC); em_model.setInt("nclusters",NrGMMComponents); em_model.setInt("maxIters",1500); em_model.setDouble("epsilon",0.001); Mat labels(NrSamples,1,CV_32SC1); Mat logLikelihoods( NrSamples, 1, CV_64FC1 ); // Выполнение алгоритма обучения em_model.train( samples,logLikelihoods,labels); cout << "Finished GMM training" << endl; // Изображение, на котором будет отображаться результат Mat img = Mat::zeros( Size( SampleImgWidth, SampleImgHeight ), CV_8UC3 ); // Опрос классификатора для каждого пикселя Mat sample( 1, 3, CV_64FC1 ); Mat means; means=em_model.getMat("means"); for(int i = 0; i < img.rows; i++ ) { for(int j = 0; j < img.cols; j++ ) { Vec3b v=SampleImg.at<Vec3b>(i,j); sample.at<double>(0,0) = (float) v[0]; sample.at<double>(0,1) = (float) v[1]; sample.at<double>(0,2) = (float) v[2]; int response = cvRound(em_model.predict( sample )[1]); img.at<Vec3b>(i,j)[0]=means.at<double>(response,0); img.at<Vec3b>(i,j)[1]=means.at<double>(response,1); img.at<Vec3b>(i,j)[2]=means.at<double>(response,2); } } img.convertTo(img,CV_8UC3); imshow("result",img); waitKey(); // Сохраним в файл результат cv::imwrite("result.png", img); } [/code] Результат для 8 цветов: и для двух цветов: Дальше можно морфологию сделать (dilate, erode, см. выше) чтобы строчки слить в прямоугольные области. Затем найти контуры, габаритные прямоугольники и вынуть строки. Или сильно размываем ([code]cv::GaussianBlur(SampleImg,SampleImg,Size(3,3),1); заменяем на cv::GaussianBlur(SampleImg,SampleImg,Size(15,15),5);) затем кластеризуем (в примере 2 кластера), получим нечто в духе такого: И никакой магии
  32. 2 points
    Как и написано в пояснении темы SWT применяется для поиска произвольного текста на произвольном изображении. Алгоритм неплохо описан здесь (SWT on Nokia N900), там есть и исходники, и статья. В процессе изучения темы я немного "поиграл" с их исходниками, выделил весь SWT в один файлик, переписал на С++ OpenCV, в результате чего код стал намного компактней и капельку быстрей. Исходники в аттаче к сообщению. Также неплохой материал по SWT есть в статьях "Text Detection in Natural Scenes with Stroke Width Transform" Werner (2013) и "Detecting Text in Natural Scenes with Stroke Width Transform" Epshtein, Ofek, Wexler (2010). [off] Надо добавить, что SWT - это достаточно низкоуровневый алгоритм, который находит связные линии примерно одинаковой толщины. В разрабатываемой сейчас версии OpenCV 3.0 (вот оно) реализован более, ммм, высокоуровневый алгоритм (Class-specific Extremal Regions), находящий не отдельные символы, а регионы с текстом. Статьи гуглятся: 1. "Real-Time Scene Text Localization and Recognition" Neumann, Matas (2012) 2. "Multi-script Text Extraction from Natural Scenes" Gomez, Karatzas (2013) [/off] swt.zip
  33. 2 points
    OpenCV - Accelerated Computer Vision using GPUs ( во вторник, 11 июня, с 21 до 22 часов по московскому времени) Регистрация здесь : https://www2.gotomeeting.com/register/686845850 Я зарегался.
  34. 2 points
    Посчитал собственные лица (форма + текстура) по базе MUCT на примере 3000 штук (случайная выборка 3000 штук из около 5000 (исходные + зеркальные)). Собственные текстуры считало часа 2 при загрузке памяти 6 ГБ, так что на x32 лучше использовать готовые (есть в аттаче) . Для проверки модели сделал генератор случайных лиц. RandomFaceGenerator.rar PS: Это несколько другое, но все же: http://mono-1.com/monoface/main.html
  35. 2 points
    Динамические ядра - это идущий из СССРовских времён синоним k-means Ну и переформулирую прошлый пост на ином языке. 1) У Вас есть N сэмплов 2) Кластеризуем их - получаем n кластеров, n<<N. Кластеризовать я советую онлайновым алгоритмом. 3) Для каждого кластера строим список из его нескольких ближайших соседей. Чтобы если при "боевой работе" придёт сэмпл с краю кластера - knn работал и с примерами соседнего кластера. Начинаем боевую работу 1) Приходит сэмпл - определяем, в какой кластер он попадает. Затрат - n вычислений длин векторов разностей. 2) Думаем - а не нужно ли взять какие-то соседние кластеры? Например, те, расстояние от сэмпла до центра которых сопоставимо с расстоянием от сэмпла до его кластера. В общем, тут можно придумать эмпирику, ради экономии вычислений берущую соседей только при достаточном удалении сэмпла от центра его кластера. 3) На сэмплах кластера (и, при необходимости, сэмплах его соседях) запускаем knn. Число примеров в этом одном или нескольких кластерах будет в разы меньше, чем N - во столько же раз и ускорится knn. Т.е. через пару-тройку десятков классификаций сэмплов - компенсируем время, затраченное на предварительную кластеризацию, и затем начинаем работать в плюс (по сравнению с постоянным запуском knn по всем N сэмплам)
  36. 2 points
    Симулятор роботов для проверок своих идей: Куча датчиков, датчики расстояния и видеокамера в том числе. Управление через плагины на разных языках: Бесплатная полная версия (не для коммерческого использования), и исходники доступны. Есть много уже готовых роботов. http://www.coppeliarobotics.com/
  37. 2 points
    В readme написано: ------------------------------------------------------------ Quick start ------------------------------------------------------------ After unzipping: 1) Go to matlab_code directory 2) Run mono_slam.m по-моему параметров там не нужно, все вбито в скрипт. Программа нужна для вычисления перемещения камеры (6 координат) по последовательности изображений. Вот видео программы тех же авторов.
  38. 2 points
    Могу поделиться материалом, матлабовские файлы (работает, проверял), pdf-ки, и проект для студии (перевод с МАТЛАБА я его так и не добил) Matlab-вариант: https://docs.google.com/file/d/0Bxk3hR536PxSeng1WGFVYVpWcWs/edit?usp=sharing Взят вроде отсюда (уже не помню): http://openslam.org/ekfmonoslam.html С++ вариант и pdf-ки https://docs.google.com/file/d/0Bxk3hR536PxSUVJBdjZXeGZwTkU/edit?usp=sharing
  39. 2 points
    Набросал программку для генерирования положительных примеров для createsamples. Пока не приделал удаление разметки и не сделал чтобы сама директорию positives создавала, поэтому её надо создать самостоятельно в директории с экзешником. Надеюсь в этой теме доведем ее до ума. Пока тестировал только с камерой, но с видео-файлами тоже должна работать. 1) Запускаем - начинается видео с камеры (если запущено без параметров) 2) нажимаем 's' на тех кадрах которые хотите дернуть, как надергаете достаточно, нажимаете 'q'. 3) размечаете мышкой (точки можно двигать), и переходите между кадрами клавишами 'o' и 'p' при выходе из программы сделанная работа сохраняется. Для того, чтобы перейти к ближайшему не размеченному кадру надо нажать 'l' (если вперед) или 'k' (если назад). Как закончите размечать опять 'q'. Это выкинет Вас из программы. При выходе сохраняется файл annotations.yaml - это прогресс в работе, и файл positives/info.dat - это файл для createsamples. Скрин: Исходник аннотатора: objectmarker.cpp
  40. 2 points
    Для начала от Стэнфорда: Machine Learning и Probabilistic Graphical Models. Там есть ещё (см. внизу страницы), но эти по нашей тематике. Кроме того, 20 февраля начинаются: PROGRAMMING A ROBOTIC CAR и BUILDING A SEARCH ENGINE Программировать надо будет на Питоне. Кто-нибудь записался? P.S. Жаль, что на всё не хватит ни времени, ни сил.
  41. 2 points
    Адаптировал (перевел с C старого стандарта, и добавил поддержку векторов) код безье сплайна по заданным точкам. Исходный код с которого адаптировал и много других интересных вещей есть здесь: http://www.graphicsgems.org/ код здесь: Bezier.zip
  42. 2 points
    http://qt-apps.org/index.php?xcontentmode=4224 что-нибудь из этого наверняка подойдет
  43. 2 points
    Уже нашел ... стоило только задать вопрос ... вот так всегда
  44. 2 points
    Долгими поисками по гуглу нашел одну замечательную функцию: CVStatus cvNormalizeIllum(IplImage *img, const float destMean, const float destMse) { uchar* src_data; float* dst_data; CvRect src_roi; int width_step, width, height, roi_size, img_index, data_index; CvSize data_size; float temp_float, mse_ratio; int i, x, y; float A11=0, A12=0, A13=0, A21=0, A22=0, A23=0, A31=0, A32=0, A33=0; float I_point; float B1=0, B2 = 0, B3 = 0; float Det; float B11, B12, B13, B22, B23, B33; float A1, A2, A3; float cal_mean, cal_mse; // check arguments if (destMean < 0.0f || destMse < 0.0f) return CV_StsBadArg; // check image if (img->depth != IPL_DEPTH_8U) return CV_BadDepth; if (img->nChannels != 1) return CV_BadNumChannels; // Get raw data cvGetRawData(img, (uchar **) &src_data, &width_step, &data_size); src_roi = cvGetImageROI(img); width = data_size.width; height = data_size.height; roi_size = width * height; dst_data = (float *)cvAlloc(roi_size * sizeof(float)); //1. Caculate the A'A for(y=0; y<height; y++) { for(x=0; x<width; x++) { A11 += x * x; A12 += x * y; A13 += x; A22 += y * y; A23 += y; } } A33 = (float)roi_size; //2. Caculate the A'B img_index = 0; for(y=0; y<height; y++) { for(x=0; x<width; x++) { I_point = (float)src_data[img_index + x]; B1 += x * I_point; B2 += y * I_point; B3 += I_point; } img_index += width_step; } //3. Caculate the inverse matrix (A'A) Det = - A11*A22*A33 + A11*A23*A23 + A12*A12*A33 - 2*A12*A13*A23 + A13*A13*A22; if(Det == 0) return CV_StsError; B11 = - (A22*A33 - A23*A23) / Det; B12 = (A12*A33 - A13*A23) / Det; B13 = - (A12*A23 - A13*A22) / Det; B22 = - (A11*A33 - A13*A13) / Det; B23 = - ( - A11*A23 + A12*A13) / Det; B33 = ( - A11*A22+A12*A12) / Det; //4. Solve equations and find a1, a2, a3 A1 = B11 * B1 + B12 * B2 + B13 * B3; A2 = B12 * B1 + B22 * B2 + B23 * B3; A3 = B13 * B1 + B23 * B2 + B33 * B3; //5. Brightness correction cal_mean = 0; data_index = 0; img_index = 0; for (y=0; y<height; y++) { for (x=0; x<width; x++) { I_point = (float)src_data[img_index + x] - (A1 * x + A2 * y + A3); dst_data[data_index] = I_point; data_index ++; cal_mean += I_point; } img_index += width_step; } cal_mean /= (width * height); // MSE Caculation cal_mse = 0; for( i=0; i<roi_size; i++) { temp_float = dst_data[i] - cal_mean; cal_mse += temp_float * temp_float; } cal_mse = (float)sqrt( cal_mse / roi_size ); // MSE normalization and write back to image buffer if (cal_mse == 0) { data_index = 0; img_index = 0; for (y=0; y<height; y++) { for (x=0; x<width; x++) { src_data[img_index + x] = (unsigned char)destMean; } img_index += width_step; } } else { mse_ratio = destMse / cal_mse; data_index = 0; img_index = 0; for (y=0; y<height; y++) { for (x=0; x<width; x++) { temp_float = (dst_data[data_index] - cal_mean) * mse_ratio + destMean; data_index ++; if(temp_float > 255.0f) src_data[img_index + x] = 255; else if (temp_float < 0.0f) src_data[img_index + x] = 0; else src_data[img_index + x] = (uchar)(temp_float + 0.5f); } img_index += width_step; } } cvFree((void**)&dst_data); return CV_StsOk; } У нее есть две переменные destMean и destMse. destMean - destation mean value of the MSE normalization destMse - destation MSE of the MSE normalization Что бы не задавать их жестко хотелось бы как ни будь вычислить эти два значения, на основании background image взятого у BackgroundSubtractorMOG2. Тем самым функция станет чуть более адаптивной.
  45. 2 points
    LosFrom2D, есть ГОСТ скопированный с ISO. Идентификация по расстоянию можно только при условии что расстояние между глазами не менее 180 пикселей, Менее можно но качество будет падать. 3 параметра нос глаза рот. Сколько градаций вы получите? Допустим максимум 4 минимум 2. От 2^3=8 до 4^3=64. Таким методом вы сможете отличить очень малое число людей, на 20 может не хватить. Для увеличения качества системы используют другие параметры. Цвет волос, цвет глаз, форму головы итд. http://protect.gost.ru/v.aspx?control=8&baseC=-1&page=0&month=-1&year=-1&search=&RegNum=1&DocOnPageCount=15&id=120745&pageK=7B46BC9C-241A-48FE-BDF1-06DB1ECBA18C
  46. 2 points
    Associated Literatures 1. Journals and Magazines The main research journals include: •IEEE Transactions on: Pattern Analysis and Machine Intelligence (PAMI) •Image Processing (IP) •Systems, Man and Cybernetics (SMC) •Medical Imaging •Computer Vision and Image Understanding •Graphical Models and Image Processing •Pattern Recognition •Pattern Recognition Letters •International Journal of Computer Vision •Image and Vision Computing 2. Textbooks •Fairhurst, M. C.: Computer Vision for Robotic Systems (1988) •Low, A.: Introductory Computer Vision and Image Processing (1991) •Teuber, J.: Digital Image Processing (1993) •Baxes, G. A.: Digital Image Processing, Principles and Applications (1994) •Pratt, W. K.: Digital Image Processing (1992) •Kasturi, R. and Jain, R. C. (eds): Computer Vision: Principles (1991) •Computer Vision: Advances and Applications (1991) •Lindley, C. A.: Practical Image Processing in C (1991) •Pitas, I.: Digital Image Processing Algorithms(1993) •Parker, J. R.: Practical Computer Vision Using C (1994) •Masters, T.: Signal and Image Processing with Neural Networks – A C++ Sourcebook (1994) •Russ, J. C.: The Image Processing Handbook (1995) •Davies, E. R.:Machine Vision: Theory, Algorithms and Practicalities (1994) •Awcock, G. J. and Thomas, R.: Applied Image Processing (1995)
  47. 2 points
    Решил вопрос попиксельным копированием (вроде не очень грузит проц.) результатом вполне доволен. вот код: // OpenCVFont.cpp : Defines the entry point for the console application. // #include "stdafx.h" #include "opencv2/opencv.hpp" #include <ft2build.h> #include FT_FREETYPE_H FT_Library library; FT_Face face; /* handle to face object */ using namespace cv; // all the new API is put into "cv" namespace. Export its content using namespace std; //----------------------------------------------------------------------- void my_draw_bitmap(Mat& img,FT_Bitmap* bitmap,int x,int y) { for(int i=0;i<bitmap->rows;i++) { for(int j=0;j<bitmap->width;j++) { unsigned char val=bitmap->buffer[j+i*bitmap->pitch]; if(val!=0) { img.at<Vec3b>(i+y,j+x)=Vec3b(val,val,val); } } } } //----------------------------------------------------------------------- void PrintString(Mat& img,std::wstring str,int x,int y) { FT_Bool use_kerning=0; FT_UInt previous=0; use_kerning = FT_HAS_KERNING( face ); float prev_yadv=0; float posx=0; float posy=0; float dx=0; for(int k=0;k<str.length();k++) { int glyph_index = FT_Get_Char_Index( face, str.c_str()[k] ); FT_GlyphSlot slot = face->glyph; /* a small shortcut */ if(k>0){dx=slot->advance.x/64; } FT_Load_Glyph( face, glyph_index, FT_LOAD_DEFAULT ); FT_Render_Glyph (slot,FT_RENDER_MODE_NORMAL); prev_yadv=slot->metrics.vertAdvance/64; if ( use_kerning && previous && glyph_index ) { FT_Vector delta; FT_Get_Kerning( face, previous, glyph_index, FT_KERNING_DEFAULT, &delta ); posx += (delta.x/64); } posx+=(dx); my_draw_bitmap(img,&slot->bitmap,posx+x+ slot->bitmap_left,y - slot->bitmap_top+posy ); previous = glyph_index; } } //----------------------------------------------------------------------- int _tmain(int argc, _TCHAR* argv[]) { FT_Init_FreeType( &library ); FT_New_Face( library,"arial.ttf",0,&face ); FT_Set_Pixel_Sizes(face,40,0); FT_Select_Charmap(face, FT_ENCODING_UNICODE); Mat img(480,640,CV_8UC3); PrintString(img,L"Привет!",100,100); cv::imshow("win",img); cv::waitKey(0); return 0; }
  48. 2 points
    Видеоиллюстрация работы адабуст:
  49. 2 points
    Ура, получилось! =) Разобрался с матрицами проекций и все встало на свои места. Сейчас попробую все расписать подробно. Дано: вебкамера 1 шт, доска шахматная калибровочная 1 шт. Надо: определить положение соответствующих ключевых точек в 3Д пространстве сцены. Еще раз уточню, что задачу я упростил, мне не нужно получать внешние параметры камеры из ключевых точек, у меня есть доска. =) Получается следующий алгоритм: 1) Калибруем камеру при помощи доски (этот пример как раз есть в книжке по OpenCV: стандартная связка cvFindChessboardCorners->cvFindCornerSubPix->cvCalibrateCamera2 в гугле по этим функциям находится куча страничек всяких индусов и китайцев, которые перепечатали и успешно откомпилили код из книжки и очень по этому поводу радуются ) - получаем матрицу внутренних параметров камеры (intrinsic) и коэффициенты искажения (distCoeffs). Сохраняем их в xml. Калибровку делаем один раз для одной камеры (если не использовали зум). 2) Используем cvUndistort2 для устранения искажений изображения с камеры. 3) Делаем два снимка, перемещая камеру, из них мы и будем получать наши трехмерные координаты. 4) В функцию cvFindExtrinsicCameraParams2 передаем новые координаты точек доски для первого и второго изображения и внутренние параметры камеры (камера у нас одна, так что параметры одинаковые, будем называть их матрицей K). Получаем rvecs и tvecs - векторы вращения и перемещения для каждого нового положения камеры. 5) Используем cvRodrigues2(rvecs,rmat,NULL); получаем матрицу вращения камеры размерностью 3х3. До этого пункта мне все было понятно и вчера, проблемы появились дальше. 6) Необходимо получить матрицу проекции P для каждого из двух изображений. По определению m = P*M, где m = [x,y,1]^T - координаты точки на изображении в пикселях, а M = [X,Y,Z]^T - координаты точки в трехмерном пространстве сцены. Так вот, матрица P в том виде, что нам нужна, получается так: P = K*Pcam, где К - матрица внутренних параметров камеры, а Pcam = [rmat | tvecs] размерностью 3х4. 7) Если передать полученные значения в функцию cvTriangulatePoints из OpenCV 2.2, то она вернет вполне корректные координаты точки в трехмерном пространстве сцены. Я чуть-чуть переписал свою функцию, так что она теперь получает и возвращает такие же параметры, как и cvTriangulatePoints. //CvMat* projPoints1 = cvCreateMat(2,N,CV_32FC1); // Массив координат точек на первом изображении в пикселях виде матрицы: // | x1 x2 ... xN | // | y1 y2 ... yN |, N - количество точек //CvMat* projPoints2 = cvCreateMat(2,N,CV_32FC1); // Соответствующие точки:: на втором изображении //CvMat* projMatr1 = cvCreateMat(3,4,CV_32FC1); //Матрица проекции для первого изображения //CvMat* projMatr2 = cvCreateMat(3,4,CV_32FC1); //Матрица проекции для второго изображения //CvMat* points4D = cvCreateMat(4,N,CV_32FC1); // output - получаем массив координат точек в трехмерном пространстве сцены в виде матрицы: // | X1 X2 ... XN | // | Y1 Y2 ... YN | // | Z1 Z2 ... ZN | // | W1 W2 ... WN |, N - количество точек, W - масштабный множитель или как-то так он называется void TwoViewTriangulation(CvMat *projMatr1, CvMat *projMatr2, CvMat *projPoints1, CvMat *projPoints2, CvMat *points4D) { CvMat* A = cvCreateMat(4,4,CV_64F); CvMat* Anorm = cvCreateMat(4,4,CV_64F); CvMat* U = cvCreateMat(4,4,CV_64F); CvMat* D = cvCreateMat(4,4,CV_64F); CvMat* Vt = cvCreateMat(4,4,CV_64F); for (int n = 0; n < projPoints1->cols; n++) { for (int i = 0; i < 4; i++) { cvmSet(A,0,i, cvmGet(projPoints1,0,n) * cvmGet(projMatr1,2,i) - cvmGet(projMatr1,0,i)); cvmSet(A,1,i, cvmGet(projPoints1,1,n) * cvmGet(projMatr1,2,i) - cvmGet(projMatr1,1,i)); cvmSet(A,2,i, cvmGet(projPoints2,0,n) * cvmGet(projMatr2,2,i) - cvmGet(projMatr2,0,i)); cvmSet(A,3,i, cvmGet(projPoints2,1,n) * cvmGet(projMatr2,2,i) - cvmGet(projMatr2,1,i)); } cvNormalize(A, Anorm, 1, 0, CV_L2, NULL); cvSVD(Anorm, D, U, Vt, CV_SVD_MODIFY_A || CV_SVD_V_T); // A = U D V^T cvmSet(points4D,0,n, cvmGet(Vt,0,3)); cvmSet(points4D,1,n, cvmGet(Vt,1,3)); cvmSet(points4D,2,n, cvmGet(Vt,2,3)); cvmSet(points4D,3,n, cvmGet(Vt,3,3)); } } 8) Чтобы получить реальные координаты в масштабе сцены, нужно все координаты X, Y, Z разделить на W. Пока проверил на координатах точек доски, расчетные довольно точно совпадают с реальными (ну, примерно совпадают - уже хорошо ). Пойду другие ключевые точки доставать и испытывать. Как только напишу функцию, которая из фундаментальной матрицы получает корректные матрицы проекций для камеры, то доска больше будет не нужна. Обязательно сюда тогда добавлю.
  50. 2 points
    Здесь Кто-нибудь собирается участвовать?
×