Автор: Елена Кулида
Соавторы:
Лебедев В.Г.
Аннотация:
Выделены две основные постановки задачи предотвращения конфликтов воздушных судов на основе обучения с подкреплением: автономное разрешение конфликтов между несколькими воздушными судами на основе многоагентного глубокого обучения с подкреплением и генерация решения по предотвращению конфликтов для систем поддержки принятия решений авиадиспетчерами. При современной организации воздушного движения актуальна вторая постановка, поскольку для внедрения полностью автоматических методов имеются серьезные проблемы сертификации методов машинного обучения в гражданской авиации, где критически важна безопасность. В статье рассматривается задача генерации горизонтального маневра предотвращения конфликта двух воздушных судов при помощи обучения с подкреплением. В отличие от работ, в которых рассматриваемая задача решается в непрерывном пространстве действий, предлагается обучать агента действиям в дискретном пространстве, что больше соответствует действиям авиадиспетчеров по централизованному предупреждению конфликтов. Приводится формализация задачи в виде марковского процесса принятия решений. Кратко описаны алгоритмы обучения с подкреплением «двойные глубокие Q-сети» и «проксимальная оптимизация политики», выбранных для решения задачи. Представлены результаты обучения и тестирования агента в разработанной среде моделирования с помощью реализованных алгоритмов, приводится сравнение их эффективности.
Ключевые слова:
конфликт воздушных судов, горизонтальный маневр, обучение с подкреплением, алгоритм обучения агента

