Интересная статья о практическом сравнении методов для nearest neighbour search, основное на что надо обратить внимание это то как алгоритмы могут работать с данными которые не помещаются в память. хотя тут вот пишут что индекс должен помещатся https://github.com/spotify/annoy/issues/85 я так понимаю кто то из разработчиков gensim решил протестировать код spotify https://github.com/spotify/annoy https://github.com/piskvorky/sim-shootout https://github.com/erikbern/ann-benchmarks http://rare-technologies.com/performance-shootout-of-nearest-neighbours-intro/ http://rare-technologies.com/performance-shootout-of-nearest-neighbours-contestants/ http://rare-technologies.com/performance-shootout-of-nearest-neighbours-querying/