基于安全强化学习的航天器交会制导方法

TP311; 随着航天器交会对接任务越来越复杂,对其高效性、自主性和安全性的要求急剧增加.近年来,引入强化学习技术来解决航天器交会制导问题已经成为国际前沿热点.障碍物避撞对于确保航天器安全交会对接至关重要,而一般的强化学习算法没有对探索空间进行安全限制,这使得航天器交会制导策略设计面临挑战.为此,提出了基于安全强化学习的航天器交会制导方法.首先,设计避撞场景下航天器自主交会的马尔可夫模型,提出基于障碍预警与避撞约束的奖励机制,从而建立用于求解航天器交会制导策略的安全强化学习框架;其次,在该安全强化学习框架下,基于近端策略优化算法(PPO)和深度确定性策略梯度算法(DDPG)这两种深度强化学习算...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	计算机科学 2023, Vol.50 (8), p.271-279
Hauptverfasser:	幸林泉, 肖应民, 杨志斌, 韦正旻, 周勇, 高赛军
Format:	Artikel
Sprache:	chi
Online-Zugang:	Volltext
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!

Beschreibung
Zusammenfassung:	TP311; 随着航天器交会对接任务越来越复杂,对其高效性、自主性和安全性的要求急剧增加.近年来,引入强化学习技术来解决航天器交会制导问题已经成为国际前沿热点.障碍物避撞对于确保航天器安全交会对接至关重要,而一般的强化学习算法没有对探索空间进行安全限制,这使得航天器交会制导策略设计面临挑战.为此,提出了基于安全强化学习的航天器交会制导方法.首先,设计避撞场景下航天器自主交会的马尔可夫模型,提出基于障碍预警与避撞约束的奖励机制,从而建立用于求解航天器交会制导策略的安全强化学习框架;其次,在该安全强化学习框架下,基于近端策略优化算法(PPO)和深度确定性策略梯度算法(DDPG)这两种深度强化学习算法生成了制导策略.实验结果表明,该方法能有效地进行障碍物避撞并以较高的精度完成交会.另外,通过分析两种算法的性能优劣和泛化能力,进一步证明了所提方法的有效性.
ISSN:	1002-137X
DOI:	10.11896/jsjkx.220700210