基于RL算法的自学习博弈程序设计及实现

来源 :长沙理工大学学报:自然科学版 | 被引量 : 0次 | 上传用户:shensq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对目前在中国象棋计算机博弈中广泛采用人工设置的评估函数,提出了基于激励学习与神经网络相结合的评估函数自学习方法,基于此模型实现了一个能自学习的中国象棋博弈程序.该方法避免了人工设置评估函数,解决了传统程序深层搜索博弈树消耗的时间和运行空间均很大的问题,也适用于其他的计算机博弈程序设计.实验结果表明,该方法是一种有效的自适应学习方法.
其他文献
从VPI工艺制造的样棒主绝缘性能试验出发,不断调整VPI工艺参数,得到适合660 MW定子线棒制造的VPI工艺。分析了采用真空压力浸渍绝缘工艺制造的660 MW定子线棒主绝缘的电气性
综述了耐电晕聚酰亚胺薄膜的最新研究进展。研究显示,虽然我国学者对耐电晕聚酰亚胺薄膜的结构与性能、耐电晕机理等问题的研究,取得了一定的进展,但尚未取得关键性突破。产
研究了一类双险种风险模型,模型中的索赔到达计数过程和其中一个险种的保单到达计数过程均为Cox过程,得到了最终破产概率满足的推广的Lundberg不等式;研究了混合Poisson风险模型
企业文化是主宰企业生命的源泉,是实现企业经济腾飞的必要和先决条件.文章分析了我国企业文化建设的进程及建设进程中存在的崇洋、短期化、运动化、缺乏系统及"一劳永逸"等不
定义并研究了带有自同态的内射模,推广了内射模的等价刻画条件及其相关性质.
针对颗粒为多边形且呈随机分布的多相复合材料,给出了计算机模拟.同时,对此二维区域提供了一个自动三角形网格剖分算法.通过程序实现,用实例说明了算法的有效性.此算法可推广
人大代表的发言情况实际上反映的是人大代表履职的情况,人大代表履职的好坏又反映了人大制度的运作状况。引言每年的三月中上旬,在首都北京,有两场重要的会议同时召开,这就是
采用丁基橡胶、聚异丁烯、炭黑、氨基硅烷、烯丙基硅烷、乙烯基硅烷制备了水下电缆密封用胶粘剂(AK-1),并对其固化后的各种性能进行测试。结果表明,该胶粘剂不仅具有良好的机械