当前位置:首页 > 科技文档 > 航空航天 > 正文

基于改进型TD3强化学习的高速飞行器姿态控制

摘要: 针对高速飞行器再入段面临的强非线性、高不确定性以及参数快时变等挑战,结合航天器智能化发展需求,提出了一种改进型的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)端到端智能姿态控制方法。为解决TD3算法在姿态控制学习过程中存在训练不稳定、收敛困难的问题,在其马尔可夫决策过程中,设计了混合奖励机制,融... (共9页)

开通会员,享受整站包年服务
说明: 本文档由创作者上传发布,版权归属创作者。若内容存在侵权,请点击申诉举报