基于多智能体强化学习的混合博弈模式下多无人机辅助通信系统设计

TN911; 空天地一体化通信作为未来6G的发展方向,很好地弥补了当前无线通信覆盖不足的弊端.该文提出一种基于多智能体强化学习(MARL)的多无人机(Multi-UAV)辅助通信算法,在用户与无人机(UAVs)构成的混合博弈模式下求解纳什均衡近似解,解决了动态环境下UAVs轨迹设计、多维资源调度以及用户接入策略联合优化问题.结合马尔可夫博弈概念建模该连续决策过程,以集中训练分布式执行(CTDE)机制,将近端策略优化(PPO)算法扩展到多智能体领域.针对离散与连续共存的动作空间设计了两种策略输出模式,并且结合Beta策略改进实现,最后通过仿真实验验证了算法的有效性....

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:电子与信息学报 2022-03, Vol.44 (3), p.940-950
Hauptverfasser: 吴官翰, 贾维敏, 赵建伟, 高飞飞, 姚敏立
Format: Artikel
Sprache:chi
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
container_end_page 950
container_issue 3
container_start_page 940
container_title 电子与信息学报
container_volume 44
creator 吴官翰
贾维敏
赵建伟
高飞飞
姚敏立
description TN911; 空天地一体化通信作为未来6G的发展方向,很好地弥补了当前无线通信覆盖不足的弊端.该文提出一种基于多智能体强化学习(MARL)的多无人机(Multi-UAV)辅助通信算法,在用户与无人机(UAVs)构成的混合博弈模式下求解纳什均衡近似解,解决了动态环境下UAVs轨迹设计、多维资源调度以及用户接入策略联合优化问题.结合马尔可夫博弈概念建模该连续决策过程,以集中训练分布式执行(CTDE)机制,将近端策略优化(PPO)算法扩展到多智能体领域.针对离散与连续共存的动作空间设计了两种策略输出模式,并且结合Beta策略改进实现,最后通过仿真实验验证了算法的有效性.
doi_str_mv 10.11999/JEIT210662
format Article
fullrecord <record><control><sourceid>wanfang_jour</sourceid><recordid>TN_cdi_wanfang_journals_dzkxxk202203017</recordid><sourceformat>XML</sourceformat><sourcesystem>PC</sourcesystem><wanfj_id>dzkxxk202203017</wanfj_id><sourcerecordid>dzkxxk202203017</sourcerecordid><originalsourceid>FETCH-LOGICAL-s1027-77eaba3f5e2772627c49c8ff4b6e8581532574ce06a36dda4443ea807c370cc93</originalsourceid><addsrcrecordid>eNotjT9Lw0AcQG9QsNROfgin6O_ukrvcKKVqpeBSF5dyTRPRSgWDWJwEFYr_QVAMQhsQ0cEuDtVrWr9MLonfQkWntzzeQ2gGwxzGQoj5lVK5SjAwRiZQDgMIw7IFm0IF39-sA6GYcQCaQ-u6q2J1qR-D5F5lR6N4dKMjpc9v9etT_NFLg-NkMNDXHX0R6KiTPIc6uorfz379u16sVPKgsvGJPn35OgzizzB9G6bDbtYfZ_1wGk16ctt3C__Mo7XFUrW4bFRWl8rFhYrhYyDc4NyVdUk9yyWcE0a4YwrH9jyzzlzbsrFFicVNxwUmKWs0pGma1JU2cIdycBxB82j2r7svW55sbdS2dvZ2Wz_HWuOg2W43CRACFDCn32-odFw</addsrcrecordid><sourcetype>Aggregation Database</sourcetype><iscdi>true</iscdi><recordtype>article</recordtype></control><display><type>article</type><title>基于多智能体强化学习的混合博弈模式下多无人机辅助通信系统设计</title><source>Alma/SFX Local Collection</source><creator>吴官翰 ; 贾维敏 ; 赵建伟 ; 高飞飞 ; 姚敏立</creator><creatorcontrib>吴官翰 ; 贾维敏 ; 赵建伟 ; 高飞飞 ; 姚敏立</creatorcontrib><description>TN911; 空天地一体化通信作为未来6G的发展方向,很好地弥补了当前无线通信覆盖不足的弊端.该文提出一种基于多智能体强化学习(MARL)的多无人机(Multi-UAV)辅助通信算法,在用户与无人机(UAVs)构成的混合博弈模式下求解纳什均衡近似解,解决了动态环境下UAVs轨迹设计、多维资源调度以及用户接入策略联合优化问题.结合马尔可夫博弈概念建模该连续决策过程,以集中训练分布式执行(CTDE)机制,将近端策略优化(PPO)算法扩展到多智能体领域.针对离散与连续共存的动作空间设计了两种策略输出模式,并且结合Beta策略改进实现,最后通过仿真实验验证了算法的有效性.</description><identifier>ISSN: 1009-5896</identifier><identifier>DOI: 10.11999/JEIT210662</identifier><language>chi</language><publisher>中国酒泉卫星发射中心 酒泉 735000%火箭军工程大学 西安 710038%清华大学 北京 100084</publisher><ispartof>电子与信息学报, 2022-03, Vol.44 (3), p.940-950</ispartof><rights>Copyright © Wanfang Data Co. Ltd. All Rights Reserved.</rights><lds50>peer_reviewed</lds50><woscitedreferencessubscribed>false</woscitedreferencessubscribed></display><links><openurl>$$Topenurl_article</openurl><openurlfulltext>$$Topenurlfull_article</openurlfulltext><thumbnail>$$Uhttp://www.wanfangdata.com.cn/images/PeriodicalImages/dzkxxk/dzkxxk.jpg</thumbnail><link.rule.ids>314,776,780,27903,27904</link.rule.ids></links><search><creatorcontrib>吴官翰</creatorcontrib><creatorcontrib>贾维敏</creatorcontrib><creatorcontrib>赵建伟</creatorcontrib><creatorcontrib>高飞飞</creatorcontrib><creatorcontrib>姚敏立</creatorcontrib><title>基于多智能体强化学习的混合博弈模式下多无人机辅助通信系统设计</title><title>电子与信息学报</title><description>TN911; 空天地一体化通信作为未来6G的发展方向,很好地弥补了当前无线通信覆盖不足的弊端.该文提出一种基于多智能体强化学习(MARL)的多无人机(Multi-UAV)辅助通信算法,在用户与无人机(UAVs)构成的混合博弈模式下求解纳什均衡近似解,解决了动态环境下UAVs轨迹设计、多维资源调度以及用户接入策略联合优化问题.结合马尔可夫博弈概念建模该连续决策过程,以集中训练分布式执行(CTDE)机制,将近端策略优化(PPO)算法扩展到多智能体领域.针对离散与连续共存的动作空间设计了两种策略输出模式,并且结合Beta策略改进实现,最后通过仿真实验验证了算法的有效性.</description><issn>1009-5896</issn><fulltext>true</fulltext><rsrctype>article</rsrctype><creationdate>2022</creationdate><recordtype>article</recordtype><recordid>eNotjT9Lw0AcQG9QsNROfgin6O_ukrvcKKVqpeBSF5dyTRPRSgWDWJwEFYr_QVAMQhsQ0cEuDtVrWr9MLonfQkWntzzeQ2gGwxzGQoj5lVK5SjAwRiZQDgMIw7IFm0IF39-sA6GYcQCaQ-u6q2J1qR-D5F5lR6N4dKMjpc9v9etT_NFLg-NkMNDXHX0R6KiTPIc6uorfz379u16sVPKgsvGJPn35OgzizzB9G6bDbtYfZ_1wGk16ctt3C__Mo7XFUrW4bFRWl8rFhYrhYyDc4NyVdUk9yyWcE0a4YwrH9jyzzlzbsrFFicVNxwUmKWs0pGma1JU2cIdycBxB82j2r7svW55sbdS2dvZ2Wz_HWuOg2W43CRACFDCn32-odFw</recordid><startdate>20220301</startdate><enddate>20220301</enddate><creator>吴官翰</creator><creator>贾维敏</creator><creator>赵建伟</creator><creator>高飞飞</creator><creator>姚敏立</creator><general>中国酒泉卫星发射中心 酒泉 735000%火箭军工程大学 西安 710038%清华大学 北京 100084</general><general>火箭军工程大学 西安 710038</general><scope>2B.</scope><scope>4A8</scope><scope>92I</scope><scope>93N</scope><scope>PSX</scope><scope>TCJ</scope></search><sort><creationdate>20220301</creationdate><title>基于多智能体强化学习的混合博弈模式下多无人机辅助通信系统设计</title><author>吴官翰 ; 贾维敏 ; 赵建伟 ; 高飞飞 ; 姚敏立</author></sort><facets><frbrtype>5</frbrtype><frbrgroupid>cdi_FETCH-LOGICAL-s1027-77eaba3f5e2772627c49c8ff4b6e8581532574ce06a36dda4443ea807c370cc93</frbrgroupid><rsrctype>articles</rsrctype><prefilter>articles</prefilter><language>chi</language><creationdate>2022</creationdate><toplevel>peer_reviewed</toplevel><toplevel>online_resources</toplevel><creatorcontrib>吴官翰</creatorcontrib><creatorcontrib>贾维敏</creatorcontrib><creatorcontrib>赵建伟</creatorcontrib><creatorcontrib>高飞飞</creatorcontrib><creatorcontrib>姚敏立</creatorcontrib><collection>Wanfang Data Journals - Hong Kong</collection><collection>WANFANG Data Centre</collection><collection>Wanfang Data Journals</collection><collection>万方数据期刊 - 香港版</collection><collection>China Online Journals (COJ)</collection><collection>China Online Journals (COJ)</collection><jtitle>电子与信息学报</jtitle></facets><delivery><delcategory>Remote Search Resource</delcategory><fulltext>fulltext</fulltext></delivery><addata><au>吴官翰</au><au>贾维敏</au><au>赵建伟</au><au>高飞飞</au><au>姚敏立</au><format>journal</format><genre>article</genre><ristype>JOUR</ristype><atitle>基于多智能体强化学习的混合博弈模式下多无人机辅助通信系统设计</atitle><jtitle>电子与信息学报</jtitle><date>2022-03-01</date><risdate>2022</risdate><volume>44</volume><issue>3</issue><spage>940</spage><epage>950</epage><pages>940-950</pages><issn>1009-5896</issn><abstract>TN911; 空天地一体化通信作为未来6G的发展方向,很好地弥补了当前无线通信覆盖不足的弊端.该文提出一种基于多智能体强化学习(MARL)的多无人机(Multi-UAV)辅助通信算法,在用户与无人机(UAVs)构成的混合博弈模式下求解纳什均衡近似解,解决了动态环境下UAVs轨迹设计、多维资源调度以及用户接入策略联合优化问题.结合马尔可夫博弈概念建模该连续决策过程,以集中训练分布式执行(CTDE)机制,将近端策略优化(PPO)算法扩展到多智能体领域.针对离散与连续共存的动作空间设计了两种策略输出模式,并且结合Beta策略改进实现,最后通过仿真实验验证了算法的有效性.</abstract><pub>中国酒泉卫星发射中心 酒泉 735000%火箭军工程大学 西安 710038%清华大学 北京 100084</pub><doi>10.11999/JEIT210662</doi><tpages>11</tpages></addata></record>
fulltext fulltext
identifier ISSN: 1009-5896
ispartof 电子与信息学报, 2022-03, Vol.44 (3), p.940-950
issn 1009-5896
language chi
recordid cdi_wanfang_journals_dzkxxk202203017
source Alma/SFX Local Collection
title 基于多智能体强化学习的混合博弈模式下多无人机辅助通信系统设计
url https://sfx.bib-bvb.de/sfx_tum?ctx_ver=Z39.88-2004&ctx_enc=info:ofi/enc:UTF-8&ctx_tim=2025-01-27T13%3A39%3A12IST&url_ver=Z39.88-2004&url_ctx_fmt=infofi/fmt:kev:mtx:ctx&rfr_id=info:sid/primo.exlibrisgroup.com:primo3-Article-wanfang_jour&rft_val_fmt=info:ofi/fmt:kev:mtx:journal&rft.genre=article&rft.atitle=%E5%9F%BA%E4%BA%8E%E5%A4%9A%E6%99%BA%E8%83%BD%E4%BD%93%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%9A%84%E6%B7%B7%E5%90%88%E5%8D%9A%E5%BC%88%E6%A8%A1%E5%BC%8F%E4%B8%8B%E5%A4%9A%E6%97%A0%E4%BA%BA%E6%9C%BA%E8%BE%85%E5%8A%A9%E9%80%9A%E4%BF%A1%E7%B3%BB%E7%BB%9F%E8%AE%BE%E8%AE%A1&rft.jtitle=%E7%94%B5%E5%AD%90%E4%B8%8E%E4%BF%A1%E6%81%AF%E5%AD%A6%E6%8A%A5&rft.au=%E5%90%B4%E5%AE%98%E7%BF%B0&rft.date=2022-03-01&rft.volume=44&rft.issue=3&rft.spage=940&rft.epage=950&rft.pages=940-950&rft.issn=1009-5896&rft_id=info:doi/10.11999/JEIT210662&rft_dat=%3Cwanfang_jour%3Edzkxxk202203017%3C/wanfang_jour%3E%3Curl%3E%3C/url%3E&disable_directlink=true&sfx.directlink=off&sfx.report_link=0&rft_id=info:oai/&rft_id=info:pmid/&rft_wanfj_id=dzkxxk202203017&rfr_iscdi=true