论文部分内容阅读
人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大。机器学习算法作为实现人工智能的重要工具,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。在计算机还不能够胜任一些通常需要人类智能才能完成的复杂工作时,主动学习算法成为进阶至这一阶段的必经之路。主动学习算法使得机器学会在执行任务的过程中何时向人类发问,在获得人类的指示后,将其转化为自身经验,应用到日后执行任务的过程中去。这是机器走向人工智能的一个非常重要的环节。对自然语言的处理和文本内容的挖掘是机器学习在人工智能方面应用的重要领域。将自然语言数字化并通过运算得到新信息的过程,是否能代替人类阅读思考的过程,是长久以来学者们研究的课题。本文首先从主动学习的概念入手,对主动学习算法的基本思路和发展规律的相关理论进行了论述。按照逻辑关系总结了迄今为止较为经典的主动学习算法,并介绍了这些算法的应用现状,从而形成了一个关于主动学习算法的整体认识。继而本文探讨了训练集不完整的问题对主动学习算法的影响,并提出了可以克服这一问题的主动学习算法框架。本文提出了可用分布式计算实现的IGAKME文本聚类算法作为主动学习的选择算法。在此基础上,提出了以支持向量机(Support Vector Machine,SVM)作为基准学习器的主动学习文本分类算法SVMAL-IGAKME,并设计仿真实验,探究该算法是否可·以在训练样本不完整的情况下,训练出性能足以匹敌训练样本完整时普通SVM所训练出来的模型。SVMAL-IGAKME算法可以应用于一些更新速度较快的短文本的分类问题,具有很强的现实意义。