实用POMDP近似求解算法的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:easy8023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人工智能领域,动态的、不确定性的序列决策问题是研究Agent与环境交互的策略的核心问题。在实际应用领域,随着系统的复杂化,大量的问题都可抽象为动态的、不确定性的序列决策问题,因而对这些问题的研究具有广泛而深远的意义。POMDP作为求解满足Markov假设的动态的、不确定性的序列决策问题的一种强大而灵活的框架,成为研究的焦点。本文从实用性角度出发,研究了获得最优POMDP策略的算法。从对实际应用的广泛适用性出发,本文研究了基于实例的算法,包括NNI,LWI和ENNI。此算法结合使用了基于实例学习和增强学习的技术。通过实例学习,可获取Agent的准确的交互数据,由于它对模型没有特殊要求,因此使得最终的算法具有广泛的适用性,不仅可在离散的Markov环境下应用,更可以应用于连续状态的情况和非Markov环境的情况。通过增强学习,不断地搜索策略空间,寻找更优的策略。通过学习获得了与策略相关的数据,然后使用启发式的求解方法来获得优化的策略。实验表明,在没有模型参数的情况下,它可获得优于Q-MDP算法的策略。为了解决POMDP求解算法的复杂性问题,开发高效的求解算法,本文研究了基于核信念的求解算法KBVI。KBVI通过采样从初始信念状态可达的信念状态获得与具体问题结构相关的信息,基于这些数据通过值迭代求解POMDP来获得最优策略。KBVI把求解POMDP的复杂性降低到多项式级,与其他的基于信念点的算法相比,它可以更高效的获得同等的甚至更优的策略。为了获得求解POMDP的相关数据,使用某种算法求解POMDP和运行某种POMDP策略来对它的性能进行测试,本文开发了一个Agent运行平台,它由Agent模型和运行环境模型组成。在这个平台上获得了使用基于实例的算法和KBVI算法求解典型的POMDP问题的性能数据,并与其他算法的性能进行了对比,验证了本文算法具有良好的性能。本文也试图通过开发此Agent运行平台来建立POMDP应用的框架和基础组件。
其他文献
加强对高压电缆的实时状态监控是确保高压电正常工作的重要环节,随着我国电力的高速发展,对电缆电压进行有效的在线监测手段将成为迫切需求,社会各界给予了极大的关注,并在多
随着计算机网络的发展,数字媒体的传播越来越方便快捷,然而由此引发的版权问题也日益尖锐,数字水印作为一种解决数字版权问题的有效手段,正越来越受重视。而随着新的需求逐渐展现
随着话题检测、社区发现、垂直搜索引擎等Blog研究的展开,对于结构化Blog数据的渴求也日益强烈,然而传统Web信息抽取在丰富灵活多变的Blog数据源中遇到了很大挑战,因此专门针
伴随着Web2.0技术的发展,作为一种典型的用户创建内容的应用,网络论坛在全世界非常流行。每天有无数个针对能够想象到的所有话题或问题的页面被互联网用户创建,因此论坛数据
统计分析软件包的研究与应用起于上世纪70年代,目前国际上知名的统计软件包有SPSS(Statistical Package for the Social Science)和SAS(Statistic AnalysisSystem)等。尽管国
随着互联网技术的普及和发展,开放性网络上的J2EE体系结构变得越来越流行,但同时开放性的网络导致企业级应用面临来自各方面的安全威胁。如何保护信息不被非法获取、盗用、篡
针对当前人工免疫系统的通用模型在计算效能方面仍然存在的一些问题,本文通过借鉴生命科学中协同进化的一些概念和行为方式,如生态环境、物种影响等,探讨了一种协同人工免疫
电力企业智能管理系统的搜索功能有着很大的局限性,用户在需要搜索定位资源时,通常是利用模块内提供的简单查询功能来实现,这些查询功能是利用SQL语句,对相应的数据库表进行
Internet与生俱来的复杂性、异构性、动态性以及庞大的规模都给网络模拟研究工作带来了巨大挑战。在网络模拟研究中,路由策略是一个关键的环节之一,路由策略的好坏直接关系到
随着计算机技术的飞速发展,人机交互方式正逐渐发生改变,强调“以人为本”、“自然和谐”的智能人机交互技术得到了广泛关注。智能人机交互要求计算机不仅要能听、看、说,还