【摘 要】
:
计算机博弈作为人工智能领域的重要研究方向,一直被视为验证人工智能理论的试金石。根据博弈信息是否完全可见,计算机博弈可以分为完全信息博弈与非完全信息博弈。相比于完全信息博弈,非完全信息博弈由于包含博弈参与者不可见的隐藏信息,其策略求解研究更加困难也更有挑战性。在非完全信息博弈场景中,如何求解博弈参与者的博弈策略成为亟待解决的重要问题。在此背景下,虚拟遗憾最小化(Counterfactual Regr
论文部分内容阅读
计算机博弈作为人工智能领域的重要研究方向,一直被视为验证人工智能理论的试金石。根据博弈信息是否完全可见,计算机博弈可以分为完全信息博弈与非完全信息博弈。相比于完全信息博弈,非完全信息博弈由于包含博弈参与者不可见的隐藏信息,其策略求解研究更加困难也更有挑战性。在非完全信息博弈场景中,如何求解博弈参与者的博弈策略成为亟待解决的重要问题。在此背景下,虚拟遗憾最小化(Counterfactual Regret Minimization,CFR)作为一种博弈策略求解方法,因其在求解非完全信息博弈策略中优异的性能表现而引起学术界的广泛关注。本文以虚拟遗憾最小化方法为研究对象,从面向二人非完全信息博弈问题的博弈策略求解和面向多人非完全信息博弈问题的博弈策略求解两个方面展开研究。本文主要研究内容如下:(1)针对传统虚拟遗憾最小化在求解二人非完全信息博弈问题时策略前期收敛速度较慢问题,本文提出了基于指数虚拟遗憾最小化的二人非完全信息博弈策略求解方法。虚拟遗憾最小化需要进行相当数量的策略迭代才能获得较强的博弈策略,这导致博弈策略在迭代前期收敛速度较慢。针对此种情况,将二人非完全信息博弈问题建模为扩展式博弈模型,采用遗憾值作为衡量博弈动作优势的指标,同时通过指数加权技术对具有不同优势的博弈动作赋予不同的指数权重,使得指数虚拟遗憾最小化算法更加关注具有较高遗憾值的博弈动作,从而提高博弈策略的前期迭代收敛速度。理论分析表明该方法具有不高于传统虚拟遗憾最小化的遗憾值界限。对比实验和消融实验结果表明该方法能够有效加速博弈策略收敛。(2)针对传统虚拟遗憾最小化在求解二人非完全信息博弈问题时策略准确性不高问题,本文提出了基于遗憾动态选择的二人非完全信息博弈策略求解方法。不同遗憾更新方法迭代求解时在不同迭代阶段的策略准确性也不同,导致没有一种遗憾更新方法能够在整个迭代过程中始终保持求解策略的稳定。针对此种情况,采用在强化学习框架下使用虚拟遗憾最小化进行博弈策略求解,设计一种与每次迭代时博弈策略可利用度相关联的奖励函数对强化学习智能体进行有效训练。强化学习智能体对每次迭代过程中的遗憾计算方式和策略更新方式进行动态选择,使得迭代算法在每次迭代过程中都能够选择最合适的遗憾计算方式和策略更新方式进行策略求解。理论分析表明该方法具有一个稳定的遗憾值界限。对比实验结果表明该方法能够有效提高迭代策略准确性。(3)针对传统虚拟遗憾最小化无法直接求解二人大规模非完全信息博弈策略的问题,本文提出了基于遗憾价值解耦的二人非完全信息博弈策略求解方法。首先,采用深度神经网络对每次迭代时博弈动作的即时遗憾价值进行价值估计,从而避免在每次迭代求解过程中遍历完整博弈树,实现有限深度的博弈树遍历。其次,使用竞争架构对博弈动作的虚拟遗憾价值与虚拟动作遗憾价值进行解耦,从而加速价值网络收敛。此外,设计一种基于蒙特卡洛估值的价值校正模块来降低早期迭代过程中价值网络对虚拟遗憾价值的估计误差。最后,通过策略网络拟合迭代求解过程中的平均策略。实验结果表明该方法能够直接求解二人大规模博弈问题。相比于对比方法,不仅价值网络的收敛更快,而且展现出了更优的性能。(4)针对传统虚拟遗憾最小化在求解多人大规模非完全信息博弈问题时博弈策略求解困难的问题,本文提出了基于知识蒸馏的多人非完全信息博弈策略求解方法。首先,采用一种基于知识蒸馏的多人深度虚拟遗憾最小化博弈策略求解框架,在进行多人博弈问题博弈策略求解时避免了对大量专家知识的依赖。其次,通过对多人策略求解框架中教师模型的特征表示与模型输出分别进行知识蒸馏,将深度虚拟遗憾最小化求解二人博弈策略的知识有效迁移到多人博弈策略求解中。实验结果表明该方法在多人大规模博弈策略求解问题上表现良好,消融实验结果进一步验证了模型中知识蒸馏部分的有效性。
其他文献
双钢板-混凝土组合结构由内外两侧钢板包裹混凝土构成,通过栓钉和拉结筋等抗剪连接件实现钢板与混凝土的协同工作,目前已应用于核电站、极地海洋平台和海底隧道等实际工程中。由于不均匀温度作用、地震作用、飞机撞击或浮冰撞击等情况所形成的面外剪切作用可能成为安全壳、海洋平台防冰墙等结构的控制荷载,因而双钢板-混凝土组合结构的弯剪性能研究具有重要意义。目前,采用新型材料与结构结合是双钢板-混凝土组合结构发展的趋
随着大规模集成电路技术和无线网络通信技术的进步和发展,无线传感器网络应用越来越广泛。目前,无线传感器节点的供能方式以电池为主。由于这些传感器往往数量大、分布广,更换电池工作量大、成本高。低功耗技术和高效储能技术的飞速发展使得能量收集器有望取代电池为传感器节点持续有效地供能。在各种能量收集器中,悬臂梁式压电振动能量收集器由于功率密度高、结构简单、易于集成,而且在微弱的激励下就能获得较大的应变,近年来
基因转录在生物进化历程中起着十分关键的作用。早在四十多年前,美国的进化论生物学家King和Wilson就认为人与黑猩猩之间在生物大分子结构上的差别微乎其微,并不能说明二者之间在外表形态、生物特征和行为等各方面所产生的重大区别,从而提出可能是基因转录调控的改变造成人和黑猩猩的不同。然而有关基因转录调控进化的直接实验证据明显不足。近年来,随着实验手段和生物信息工具的发展,使得国内外研究学者可以开展这方
短临降雨预报指的是对指定区域内短期的(一般为0到6小时)降雨分布情况进行预报。虽然现阶段已经有着各种各样的观测设备来对降雨进行监测,但是为了满足短临降雨预报对时空分辨率的需求,本文将以多普勒气象雷达数据作为核心数据,先对雷达回波图像序列进行预测,再根据雷达回波图像中雷达回波反射率和降雨量之间的对应关系,来对降雨量进行定量的精准预报。随着大量的历史雷达回波图像数据的产生,如何利用这些海量数据,并从中
自然语言处理工具是实现自然语言处理领域子任务的功能集成构件,为文本处理和分析提供有效的支撑。当前自然语言处理工具种类较多,各种工具对子任务支持程度以及具体适用领域等差异会对工具选用造成困扰。首先依据处理顺序将工具支持的子任务划分为辅助任务、基础任务以及应用任务并介绍,选取LTP、NLPIR、OpenNLP等23种国内外自然语言处理开源工具,对这些工具的调用方式、支持的程序语言等方面作比较,总结各种
现实世界中,很多现象可以用反应扩散系统来描述,例如生物种群的扩散迁移、传染病的扩散、河流污染物的对流扩散、热传导现象等,对该类系统进行有效控制具有重要的实际应用价值。目前关于反应扩散系统的控制主要有分布式控制和边界控制两种。分布式控制需把控制器安置在系统所在区域的每一点处,而边界控制只需将控制器安置在区域边界处,在实际中更易于实现。本文针对几类反应扩散系统,给出连续边界控制器和间歇边界控制器的设计
我国雪致工程灾害分布广泛、发生频繁、影响巨大,凸显灾害防控工作的重要性与紧迫性。其中,雪致建筑损坏、倒塌事故逐年增加,建筑结构抗雪形势严峻。而事故发生的主要原因之一是,对复杂环境因素影响下屋面积雪演变的全过程认知不明,尤以风-雪-热因素联合为主导。现阶段,屋面积雪全过程演变的研究多面向风雪耦合作用开展,对风-雪-热联合作用的讨论却寥寥无几。其中,为明确所讨论的风雪环境,学者们及工程从业人员多参考相
充分利用太阳能这类绿色能源是解决能源危机的一种有效途径。与传统的无机太阳能电池相比,聚合物太阳能电池(PSCs)因其轻质、柔性、易于溶液加工等优点,受到国内外研究人员的广泛关注。目前,通过改进分子结构、器件结构和器件制备工艺,聚合物太阳能电池的发展已经取得了巨大的进步。但是,如何有效提高聚合物太阳能电池的能量转换效率(PCE)和稳定性仍然是该研究领域面临的最大挑战。为了实现高效的聚合物太阳能电池,
随着电子成像技术的发展和医疗成像设备的普及,胸部X光影像检查已成为胸肺部疾病诊断过程中最为常用的筛查手段和诊断依据之一。然而,由于胸部X光影像存在疾病异常多样、病理特征复杂等特点,传统的人工阅片模式往往需要通过长时间的手工病灶标注和疾病推衍分析来获取相关解剖信息。同时,其诊断精度严重依赖于影像科医生的临床知识积累及主观凭判依据。近年来,人工智能技术和临床大数据的进步和发展,使得从海量胸部X光影像数
基于光学信号的传感和成像技术具有灵敏度高、特异性好、响应速度快、成本较低、能够实现非侵入性成像等特点,已成为生物医学领域中的重要工具。与无机发光材料相比,有机发光材料具有更高的光捕获能力、更高的亮度、更好的生物相容性、性能连续可调等特点。然而,当前的有机发光材料在生物成像和传感应用中仍然缺乏对生物标志物特异性的识别能力,极大限制了其临床转化和商业应用。研究人员已经开发出了生物分子偶联策略来解决上述