Автор: Антон Дмитриевич Московский
Аннотация:
В работе рассматривается задача распознавания сцен, являющаяся частью подхода семантической визуальной локализации робота. В решаемой задаче требуется произвести сопоставление наблюдаемых роботом объектов и семантической карты, также состоящих из объектов. В работе рассматриваются два метода распознавания сцен, на основе подхода на графах, которые позволяют находить геометрические особенности взаимоположения объектов. Эти методы были модифицированы так, чтобы учитывать визуальную похожесть объектов, которая определяется при помощи построения векторных представлений объектов с помощью нейросетевой архитектуры CLIP. Эксперименты, проведенные на модификации открытого набора данных KITTI-360, показали в среднем 50% увеличение по точности предлагаемых модификаций в сравнении с оригинальными подходами.
Ключевые слова:
локализация мобильных роботов, распознавание сцен, векторное представление изображения, теория графов