Я бы вот эти методы попробовал бы.
http://ceur-ws.org/Vol-2391/paper23.pdf
Медианы она когда у вас много кадров. А тут явно по 1 снимку восстанавливают. Нужно отсеявать по аналогии с мат.морфологий,- если точка имеет более 2-х соседний на расстоянии L то оставляем. Если соседний менее или вовсе, нет то удаляем.
Можно ещё как тут. При еденичных и малом числе фото.
https://vision.in.tum.de/data/datasets/intrinsic3d
Нейронные сети
https://vision.in.tum.de/research/image-based_3d_reconstruction/singleviewreconstruction