Здравствуйте, пробелам следующая есть несколько нейронок по предсказанию карты глубины из монокулярного изображения, на выходе получается относительная карта глубины (т.е. если допустим на первом изображении, на сцене есть только автомобиль и поле, то у автомобиля показатель глубины 0.8, на втором снимке добавится еще один автомобиль и показатель глубины первого будет уже не условные 0.8, а 0.6), вопрос как лучше высчитывать абсолютную глубину в таких случаях, когда есть несколько фото одной сцены с некоторыми изменениями или это может быть вообще видео.
Пример нейронок:
https://github.com/nianticlabs/monodepth2
https://github.com/zhyever/Monocular-Depth-Estimation-Toolbox