实用POMDP近似求解算法的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户：easy8023

【摘要】

：

在人工智能领域,动态的、不确定性的序列决策问题是研究Agent与环境交互的策略的核心问题。在实际应用领域,随着系统的复杂化,大量的问题都可抽象为动态的、不确定性的序列决

【作者】

：

修国明

【机构】

：

哈尔滨工业大学

【出处】

：

南开大学

【发表日期】

：

2009年期

【关键词】

：

POMDP 近似求解算法基于实例增强学习 KBVI

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在人工智能领域,动态的、不确定性的序列决策问题是研究Agent与环境交互的策略的核心问题。在实际应用领域,随着系统的复杂化,大量的问题都可抽象为动态的、不确定性的序列决策问题,因而对这些问题的研究具有广泛而深远的意义。POMDP作为求解满足Markov假设的动态的、不确定性的序列决策问题的一种强大而灵活的框架,成为研究的焦点。本文从实用性角度出发,研究了获得最优POMDP策略的算法。从对实际应用的广泛适用性出发,本文研究了基于实例的算法,包括NNI,LWI和ENNI。此算法结合使用了基于实例学习和增强学习的技术。通过实例学习,可获取Agent的准确的交互数据,由于它对模型没有特殊要求,因此使得最终的算法具有广泛的适用性,不仅可在离散的Markov环境下应用,更可以应用于连续状态的情况和非Markov环境的情况。通过增强学习,不断地搜索策略空间,寻找更优的策略。通过学习获得了与策略相关的数据,然后使用启发式的求解方法来获得优化的策略。实验表明,在没有模型参数的情况下,它可获得优于Q-MDP算法的策略。为了解决POMDP求解算法的复杂性问题,开发高效的求解算法,本文研究了基于核信念的求解算法KBVI。KBVI通过采样从初始信念状态可达的信念状态获得与具体问题结构相关的信息,基于这些数据通过值迭代求解POMDP来获得最优策略。KBVI把求解POMDP的复杂性降低到多项式级,与其他的基于信念点的算法相比,它可以更高效的获得同等的甚至更优的策略。为了获得求解POMDP的相关数据,使用某种算法求解POMDP和运行某种POMDP策略来对它的性能进行测试,本文开发了一个Agent运行平台,它由Agent模型和运行环境模型组成。在这个平台上获得了使用基于实例的算法和KBVI算法求解典型的POMDP问题的性能数据,并与其他算法的性能进行了对比,验证了本文算法具有良好的性能。本文也试图通过开发此Agent运行平台来建立POMDP应用的框架和基础组件。

其他文献

高压电磁感应信号的采集及处理算法的研究

加强对高压电缆的实时状态监控是确保高压电正常工作的重要环节,随着我国电力的高速发展,对电缆电压进行有效的在线监测手段将成为迫切需求,社会各界给予了极大的关注,并在多

学位

非接触式数字PT电磁感应相关性理论Matlab单片机

基于广义正交码的多重数字水印

随着计算机网络的发展，数字媒体的传播越来越方便快捷，然而由此引发的版权问题也日益尖锐，数字水印作为一种解决数字版权问题的有效手段，正越来越受重视。而随着新的需求逐渐展现

学位

多重数字水印广义正交码数字邮票跟踪版权保护版权顺序认证

基于文档结构的半监督Blog信息抽取技术

随着话题检测、社区发现、垂直搜索引擎等Blog研究的展开,对于结构化Blog数据的渴求也日益强烈,然而传统Web信息抽取在丰富灵活多变的Blog数据源中遇到了很大挑战,因此专门针

学位

网页分块模块提取Blog信息抽取本体论

基于网页分块的论坛爬虫关键技术研究

伴随着Web2.0技术的发展,作为一种典型的用户创建内容的应用,网络论坛在全世界非常流行。每天有无数个针对能够想象到的所有话题或问题的页面被互联网用户创建,因此论坛数据

学位

WEB爬虫论坛页面分块爬行策略文档结构模型

基于数据仓库技术多元统计分析的研究与应用

统计分析软件包的研究与应用起于上世纪70年代,目前国际上知名的统计软件包有SPSS(Statistical Package for the Social Science)和SAS(Statistic AnalysisSystem)等。尽管国

学位

统计软件三层构架模式数据仓库联机分析处理时间序列预测

基于EJB3的远程服务访问安全性控制研究

随着互联网技术的普及和发展,开放性网络上的J2EE体系结构变得越来越流行,但同时开放性的网络导致企业级应用面临来自各方面的安全威胁。如何保护信息不被非法获取、盗用、篡

学位

EJB3远程访问安全机制角色管理

协同人工免疫计算模型的研究

针对当前人工免疫系统的通用模型在计算效能方面仍然存在的一些问题,本文通过借鉴生命科学中协同进化的一些概念和行为方式,如生态环境、物种影响等,探讨了一种协同人工免疫

学位

智能计算生态环境免疫算法协同进化TSP问题

基于Lucene的电力企业信息全文搜索系统的设计和实现

电力企业智能管理系统的搜索功能有着很大的局限性,用户在需要搜索定位资源时,通常是利用模块内提供的简单查询功能来实现,这些查询功能是利用SQL语句,对相应的数据库表进行

学位

企业搜索Lucene索引实时更新DWR框架

大规模网络模拟系统中静态路由策略的研究与实现

Internet与生俱来的复杂性、异构性、动态性以及庞大的规模都给网络模拟研究工作带来了巨大挑战。在网络模拟研究中,路由策略是一个关键的环节之一,路由策略的好坏直接关系到

学位

网络模拟路由策略本地静态路由策略远程静态路由策略

基于EHMM的表情识别研究

随着计算机技术的飞速发展,人机交互方式正逐渐发生改变,强调“以人为本”、“自然和谐”的智能人机交互技术得到了广泛关注。智能人机交互要求计算机不仅要能听、看、说,还

学位

人脸表情识别Gabor小波隐马尔科夫模型EHMM

实用POMDP近似求解算法的研究

其他学术论文