基于RL算法的自学习博弈程序设计及实现

来源 :长沙理工大学学报：自然科学版 | 被引量 : 0次 | 上传用户：shensq

【摘要】

：

针对目前在中国象棋计算机博弈中广泛采用人工设置的评估函数,提出了基于激励学习与神经网络相结合的评估函数自学习方法,基于此模型实现了一个能自学习的中国象棋博弈程序.

【作者】

：

付强陈焕文

【机构】

：

长沙理工大学计算机与通信工程学院

【出处】

：

长沙理工大学学报：自然科学版

【发表日期】

：

2007年4期

【关键词】

：

中国象棋激励学习神经网络博弈 Chinese chessreinforced learningneural networkgame

【基金项目】

：

国家自然科学基金资助项目（60075019）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对目前在中国象棋计算机博弈中广泛采用人工设置的评估函数,提出了基于激励学习与神经网络相结合的评估函数自学习方法,基于此模型实现了一个能自学习的中国象棋博弈程序.该方法避免了人工设置评估函数,解决了传统程序深层搜索博弈树消耗的时间和运行空间均很大的问题,也适用于其他的计算机博弈程序设计.实验结果表明,该方法是一种有效的自适应学习方法.

其他文献

660MW20kV汽轮发电机定子线圈VPI应用研究

从VPI工艺制造的样棒主绝缘性能试验出发,不断调整VPI工艺参数,得到适合660 MW定子线棒制造的VPI工艺。分析了采用真空压力浸渍绝缘工艺制造的660 MW定子线棒主绝缘的电气性

期刊

汽轮发电机定子线圈VPI工艺turbo-generator vacuum pressure impregnation（VPI） process

耐电晕聚酰亚胺薄膜研究进展

综述了耐电晕聚酰亚胺薄膜的最新研究进展。研究显示,虽然我国学者对耐电晕聚酰亚胺薄膜的结构与性能、耐电晕机理等问题的研究,取得了一定的进展,但尚未取得关键性突破。产

期刊

耐电晕聚酰亚胺薄膜漆包线绕包导线corona-resistance polyimide films enamel wire lapped wire

广义二元复合Cox风险模型的破产问题

研究了一类双险种风险模型，模型中的索赔到达计数过程和其中一个险种的保单到达计数过程均为Cox过程，得到了最终破产概率满足的推广的Lundberg不等式；研究了混合Poisson风险模型

期刊

COX过程破产概率LUNDBERG不等式Cox process ruin probability Lundberg inequality

现阶段我国企业文化建设初探

企业文化是主宰企业生命的源泉,是实现企业经济腾飞的必要和先决条件.文章分析了我国企业文化建设的进程及建设进程中存在的崇洋、短期化、运动化、缺乏系统及"一劳永逸"等不

期刊

企业文化核心竞争力企业精神企业形象

带有自同态的内射模

定义并研究了带有自同态的内射模，推广了内射模的等价刻画条件及其相关性质．

期刊

σ-子模(στ)-同态M-(στ)内射模σ-submodule （ στ） -morphism M- （ στ ） injective modul

多边形颗粒随机分布复合材料的模拟及其网格算法

针对颗粒为多边形且呈随机分布的多相复合材料,给出了计算机模拟.同时,对此二维区域提供了一个自动三角形网格剖分算法.通过程序实现,用实例说明了算法的有效性.此算法可推广

期刊

随机颗粒复合材料初始网格随机插点拟一致网格composites with random grainsoriginal meshinserting poi

话语政治：一届人大代表的发言及其政治意蕴

人大代表的发言情况实际上反映的是人大代表履职的情况,人大代表履职的好坏又反映了人大制度的运作状况。引言每年的三月中上旬,在首都北京,有两场重要的会议同时召开,这就是

期刊

人大代表政治意蕴话语政治全国政协会议政协委员会运作状况人大制度全国人大

水下电缆密封用胶粘剂的研制

采用丁基橡胶、聚异丁烯、炭黑、氨基硅烷、烯丙基硅烷、乙烯基硅烷制备了水下电缆密封用胶粘剂（AK-1）,并对其固化后的各种性能进行测试。结果表明,该胶粘剂不仅具有良好的机械

期刊

电缆密封胶粘剂制备cable sealing adhesive preparation

基于RL算法的自学习博弈程序设计及实现

其他学术论文