论文部分内容阅读
在人工智能领域,动态的、不确定性的序列决策问题是研究Agent与环境交互的策略的核心问题。在实际应用领域,随着系统的复杂化,大量的问题都可抽象为动态的、不确定性的序列决策问题,因而对这些问题的研究具有广泛而深远的意义。POMDP作为求解满足Markov假设的动态的、不确定性的序列决策问题的一种强大而灵活的框架,成为研究的焦点。本文从实用性角度出发,研究了获得最优POMDP策略的算法。从对实际应用的广泛适用性出发,本文研究了基于实例的算法,包括NNI,LWI和ENNI。此算法结合使用了基于实例学习和增强学习的技术。通过实例学习,可获取Agent的准确的交互数据,由于它对模型没有特殊要求,因此使得最终的算法具有广泛的适用性,不仅可在离散的Markov环境下应用,更可以应用于连续状态的情况和非Markov环境的情况。通过增强学习,不断地搜索策略空间,寻找更优的策略。通过学习获得了与策略相关的数据,然后使用启发式的求解方法来获得优化的策略。实验表明,在没有模型参数的情况下,它可获得优于Q-MDP算法的策略。为了解决POMDP求解算法的复杂性问题,开发高效的求解算法,本文研究了基于核信念的求解算法KBVI。KBVI通过采样从初始信念状态可达的信念状态获得与具体问题结构相关的信息,基于这些数据通过值迭代求解POMDP来获得最优策略。KBVI把求解POMDP的复杂性降低到多项式级,与其他的基于信念点的算法相比,它可以更高效的获得同等的甚至更优的策略。为了获得求解POMDP的相关数据,使用某种算法求解POMDP和运行某种POMDP策略来对它的性能进行测试,本文开发了一个Agent运行平台,它由Agent模型和运行环境模型组成。在这个平台上获得了使用基于实例的算法和KBVI算法求解典型的POMDP问题的性能数据,并与其他算法的性能进行了对比,验证了本文算法具有良好的性能。本文也试图通过开发此Agent运行平台来建立POMDP应用的框架和基础组件。