Генерация решений для предотвращения конфликта двух воздушных судов на основе обучения с подкреплением

Автор(ы): Кулида Е.Л., Лебедев В.Г.

Название статьи: Генерация решений для предотвращения конфликта двух воздушных судов на основе обучения с подкреплением

Выпуск: 120

Рубрика: Управление подвижными объектами и навигация

Год: 2026

Библиография: Кулида Е.Л., Лебедев В.Г. Генерация решений для предотвращения конфликта двух воздушных судов на основе обучения с подкреплением // Управление большими системами. - 2026. - Вып. 120. - С.369-389.

Дата опубликования: 31.03.2026

Ключевые слова: конфликт воздушных судов, горизонтальный маневр, обучение с подкреплением, алгоритм обучения агента

Аннотация: Выделены две основные постановки задачи предотвращения конфликтов воздушных судов на основе обучения с подкреплением: автономное разрешение конфликтов между несколькими воздушными судами на основе многоагентного глубокого обучения с подкреплением и генерация решения по предотвращению конфликтов для систем поддержки принятия решений авиадиспетчерами. При современной организации воздушного движения актуальна вторая постановка, поскольку для внедрения полностью автоматических методов имеются серьезные проблемы сертификации методов машинного обучения в гражданской авиации, где критически важна безопасность. В статье рассматривается задача генерации горизонтального маневра предотвращения конфликта двух воздушных судов при помощи обучения с подкреплением. В отличие от работ, в которых рассматриваемая задача решается в непрерывном пространстве действий, предлагается обучать агента действиям в дискретном пространстве, что больше соответствует действиям авиадиспетчеров по централизованному предупреждению конфликтов. Приводится формализация задачи в виде марковского процесса принятия решений. Кратко описаны алгоритмы обучения с подкреплением «двойные глубокие Q-сети» и «проксимальная оптимизация политики», выбранных для решения задачи. Представлены результаты обучения и тестирования агента в разработанной среде моделирования с помощью реализованных алгоритмов, приводится сравнение их эффективности.

Author(s): Kulida E., Lebedev V.

Article title: Development of solutions to prevent conflicts between two aircraft based on reinforcement learning

Issue: 120

Year: 2026

Keywords: conflict, horizontal maneuver, reinforcement learning, agent learning algorithm

Abstract: This paper briefly examines two main formulations of the aircraft conflict avoidance problem based on reinforcement learning: autonomous multi-aircraft conflict resolution using multi-agent deep reinforcement learning and conflict avoidance solution generation for air traffic controller decision support systems. The second formulation is particularly relevant for modern air traffic control, as the implementation of fully automated methods faces significant challenges in certifying machine-learning methods in civil aviation, where safety is crucial. This paper considers the problem of generating a horizontal maneuver to avoid a conflict between two aircraft using reinforcement learning. Unlike studies solving this problem in a continuous action space, this paper proposes learning an agent to act in a discrete space, which better aligns with the actions of air traffic controllers in centralized conflict avoidance. A formalization of the problem as a Markov decision process is presented. The reinforcement learning algorithms "dual deep Q-networks" and "proximal policy optimization" chosen to solve the problem are briefly described. The results of training and testing the agent in the developed simulation environment using the implemented algorithms are presented, and their effectiveness is compared.

в формате PDF

Просмотров: 68; загрузок: , за месяц: .

Назад