Автор: Анна Денисовна Волгина
Соавторы:
Макаренко Андрей Викторович
Аннотация:
Для классификации изображений самым распространённым решением являются нейронные сети, однако в контексте данной задачи они имеет ряд критических недостатков. Перспективной альтернативой являются прямые метрики, такие как расстояние Громова-Вассерштейна. В данной работе рассматривается вопрос применимости метрики Громова-Вассерштейна для прямого «попиксельного» сравнения классов изображений. Был проведён обзор литературы, с целью изучения применимости данной метрики в задачах компьютерного зрения. Кроме того, проведён эксперимент по прямому сравнению классов изображений на наборах данных MNIST и CIFAR-10. Сравнивалось распределение значений метрики объединённого Громова-Вассерштейна между объектами одного класса и разных, что оценивалось критерием Манна-Уитни. Также был проведён аналогичный эксперимент с метрикой объединённого несбалансированного Громова-Вассерштейна на наборе данных CIFAR-10 с целью снятия ограничения на равенство суммарной интенсивности пикселей изображений. Результаты показали, что в общем случае метрики Громова-Вассерштейна и объединённого Громова-Вассерштейна ограниченно применимы для решения задачи прямого («попиксельного») сравнения классов изображений в случае «простых» изображений, и неприменимы в случае «сложных» изображений.
Ключевые слова:
оптимальный транспорт, расстояние Громова-Вассерштейна, сравнение изображений

