【摘 要】
:
众所周知,人工智能现在已经成为生活和科学研究中难以绕开的主题。目前,设计能够面对复杂环境并在环境中做出良好决策的智能体是现代人工智能研究的基础。在控制科学领域,对传统单一对象的控制方法和理论已经愈发成熟。同时,随着被控对象的数量的增加,多智能体系统逐渐成为在控制领域一个研究的热点。与传统的单一对象控制不同,对多智能体系统的控制往往需要考虑智能体所处的环境对整个智能体系统的影响。不幸的是,在实际应用
论文部分内容阅读
众所周知,人工智能现在已经成为生活和科学研究中难以绕开的主题。目前,设计能够面对复杂环境并在环境中做出良好决策的智能体是现代人工智能研究的基础。在控制科学领域,对传统单一对象的控制方法和理论已经愈发成熟。同时,随着被控对象的数量的增加,多智能体系统逐渐成为在控制领域一个研究的热点。与传统的单一对象控制不同,对多智能体系统的控制往往需要考虑智能体所处的环境对整个智能体系统的影响。不幸的是,在实际应用中,智能体对环境的观察由于传感器的限制往往是部分的,不全面的,因此这就给系统带来了不稳定的因素。同时,相较于单一被控对象,多智能体系统的不稳定性也同样来自于智能体之间的相互影响和制约。因此,多智能体系统成为了目前人工智能研究人员面临的一个主要的研究难题和极具挑战性的任务。随着近些年机器学习的发展,人工智能和机器学习逐渐成为了两个互相交叉的学科。在机器学习中出现了一个重要分支,强化学习。不同于传统的有监督学习和无监督学习,这种方法是一种不断试错的过程:通过与环境的不断交互,获得环境给予的奖励或者惩罚信号。智能体不断学习怎样能够积累最大化奖励的策略,最终形成一个能够完成既定目标的智能体。这种方法在单智能体控制领域已经逐渐成熟并已经拥有了广泛的应用。由于本身模型的建立就基于被控对象和环境的交互,其具有一定的可扩展性和不受环境模型限制的良好限制因此也被广泛的应用于求解博弈均衡和优化非凸问题当中。经过学者们持续不断的研究,强化学习已经被认为是用在解决多智能体系统控制的一种较优的范式。本文主要基于强化学习算法,研究目前协作多智能体系统规模大,强实时性和不确定性的问题。研究协同多智能体系统的强化学习算法框架和实现。完成的主要工作和成果如下:(1)介绍了多智能体系统与人工智能发展的联系和其两者之间的关系以及强化学习应用于多智能体系统中的现状;(2)通过结合部分可观的马尔科夫决策过程和博弈论中的思想,梳理了目前应用于多智能体系统中的强化学习算法的研究方向和思路以及其所面临的挑战;(3)为了避免“团队学习”引入的“维数灾难”而导致的计算困难的问题,本文着重分析分布式学习中引入的智能体策略不协调的机理问题。针对在多智能体系统中出现的“最优动作遮蔽”的具象问题,相对过泛化问题展开分析。同时,本文提出一种打破目前值分解强化学习算法需满足的前提“Individual-Global-Maximum Principle”的一类“最优动作遮蔽”问题。本文通过博弈理论中的经典环境“囚徒困境”来对ILs下求解这类问题的困难进行说明和分析;(4)本文提出了一种结合模糊控制的宽容强化学习方法,通过动态调节算法的学习率区分智能体策略对联合回报的影响,同时能够提升算法对最优联合回报的拟合力度。在不增加显性通信和交流的情况下避免在多智能体系统中出现的最优动作遮蔽。最终提升算法能够取得的回报。从矩阵博弈的角度分析了“相对过泛化”问题的机理。在重复博弈的环境下,将现有的应用于矩阵博弈的强化学习和线性规划算法与本文中提出的结合模糊控制理论的新的强化学习算法性能进行对比;(5)在一种“近似囚徒困境的环境”,本文将其称为:“对称窄通道问题”的环境下对近三年来在多智能体强化学习中取得最优的多智能体强化学习算法COMA(基于Actor-Critic的中心化训练去中心化执行算法)与Qmix(基于值分解的CTDE算法)进行了算法性能的比较。证明了在打破IGM原则的情况下且回报延迟的环境下,基于值分解的方法和基于Actor-Critic的中心化训练去中心化执行算法难以学到优秀的策略,同时证明了本文的算法在这种环境中性能的优越;(6)在一定规模的智能体系统(MAgent环境)中验证本文提出算法的性能。为了能够适应现有的实际使用的多智能体系统,本文提出了一种模拟智能体系统上位机中心控制和下位机并行分布式执行的结构。这种结构更加类似于实际系统也符合多智能体强化学习中的(CTDE)范式,同时也可以更好的节省现有的计算资源。另一方面,将本文提出的算法与环境提供的Benchmark算法以及另一种宽容学习的算法进行了比较,证明了本文的算法在一定规模的智能体系统中能够取得较优的结果。也能够说明本文提出的算法是一种具有一定泛化能力的算法范式,因此在下一步的工作中将针对研究的一些不足进行研究。
其他文献
作为金融领域与数据分析的一个重要分支,股票价格预测对揭示金融市场的客观规律具有重要的意义。由于股票市场本质上是动态、非线性的,同时还会受随机事件的影响,如何准确地预测股价走势仍是金融、计算机等领域最具挑战的任务之一。近年来,随着大数据分析和人工智能技术的发展,人们有望利用这些技术在股价走势预测任务上取得进展。现有大部分研究主要使用深度学习模型从整个股价序列数据中提取全局特征。然而股票价格数据不同于
近年来,云平台得到广泛普及,基于云的相关应用技术成为了研究热点,云平台也在信息和互联网技术中扮演着不可或缺的重要角色。但是随着云平台的快速发展,云平台面临的威胁也在与日俱增,普通恶意软件的危害放到云平台上可能就会造成几百上千倍的损失。云平台网络监控的性能开销大且云平台大量的恶意软件变种更新频繁的问题日益突出。为了能够保障云平台的安全,抵御恶意软件及其变种的攻击,研究未知恶意软件变种预防具有重要意义
绿色消费在构建环境友好型社会中起着至关重要的作用。商超通过白色污染宣传海报鼓励顾客使用可循环的环保袋,星巴克为自带杯的顾客提供两元折扣,前者从社会和环境利益出发,后者突出个人经济利益鼓励绿色消费,消费者购买绿色产品的动机也往往是这二者之一。绿色产品广告强调绿色诉求和非绿色诉求都是有益于环境的,但是哪种诉求类型的广告说服效果好尚存争议。广告的说服效果受到复杂的网络因素影响。信号加工理论提示消费环境与
作为一种新型的创业形式,社会企业的出现整合了盈利和非盈利活动,弥补了政府、市场以及商业企业存在的不足,在改善经济和社会福祉方面发挥了重要作用,诸如缓解社会贫困、缩小不平等差距、推动环境保护等,因此社会企业也受到学者们越来越多的关注。但是,由于社会企业在我国的起步时间较晚,相关的理论框架仍然不够完善。总的来看,目前的研究以社会企业成长过程中的影响因素为主,但是研究内容相对来说较为分散,而且大多延循商
数字信息在日常生活和营销环境中无处不在。虽然以往关于产品价格采用精确数字还是大概数字的研究已经取得丰富的成果,但关于精确数字与大概数字哪种方式表达更好,研究结论却莫衷一是。如今,与关注产品价格这一类较小数字不同,营销者开始热衷于在平面广告中呈现用户人数,这些数字往往以百万或千万的形式呈现。那么,这种较大数字究竟是以大概数字呈现还是精确数字呈现效果会更好呢?品牌标识作为平面广告的重要组成要素之一,可
1.7μm波段光纤激光器在气体探测、生物成像和材料加工等领域有重要的应用价值。基于空芯光纤的气体受激拉曼散射为产生此波段激光提供了一种新的手段。瞄准实现全光纤结构1.7μm波段光纤气体拉曼激光器,本文开展了详细的理论和实验研究,主要内容如下:1.综合考虑空芯光纤损耗、泵浦源时域、气体拉曼增益等特性,分别建立了单程结构与谐振腔结构光纤气体拉曼激光器的理论模型,开展了详细的仿真与分析,为实验研究提供了
波长选择开关(Wavelength Selective Switch,WSS)是全光网可重构光分插复用节点中最关键的器件。基于自由空间光学结构的WSS目前存在着尺寸大、边缘端口插损大、端口之间串扰大等问题,本文就这些问题展开研究并进行优化设计,具体研究成果如下:1.针对WSS中由于光栅“圆锥衍射”导致的输出光斑水平偏移,推导了偏移量的近似计算公式。此偏移量会随着端口数的增加呈抛物线型递增,从而对边
对拦截机动目标而言,比例导引律存在理论上的缺陷,它不能保证视线的平稳。最优制导律虽在理论上可以实现零脱靶量,但这种制导律形式过于复杂,且需要精确已知弹目相对距离、相对速度以及目标加速度等信息。本文首先对一般的现实真比例导引律(RTPN)拦截机动目标的捕获区域进行理论分析;然后基于强化学习中两种典型算法深度Q学习(DQN)和深度确定性策略梯度(DDPG),提出两种只需视线角及视线角速率信息的强化学习
研究生教育无论是面向职业性,还是学术性,均以能力培养为目标。设计的生产、生活性特征,使其具有鲜明的现实性与实践性,设计行为和活动的目的旨在满足和美化人类的物质与精神需求,其研究生培养必须秉承理论与实践、科学与艺术、历史与现实、本土与国际四个有机结合。
2020年伊始,新冠疫情席卷全球,线上交流备受青睐,文本数据爆炸式增长。随着移动互联网的飞速发展和文本数据的海量积累,真实场景中的短文本分类需求变得愈加迫切。然而,在真实场景中,短文本分类同时面临标注数据不足、数据稀疏和不平衡分类三大挑战。现有研究又鲜有同时解决这三大挑战的有效方案。鉴于此,本文聚焦于短文本分类问题,主要完成了以下工作。在第一章,对短文本分类问题的研究背景、研究意义、相关研究现状,