论文部分内容阅读
机器解答数学题目是具有挑战性的研究问题,经过半个多世纪的研究仍然没有获得能被广泛应用的算法。近年来,在智能教育巨大需求和机器学习技术快速进步的合力推动之下,机器解答再次成为了研究热点问题。机器解答数学题目长期都是人工智能领域中受关注的研究问题,这是因为这方面研究不仅具有解答问题这种高级智能活动机械化的理论研究意义,而且具有重要的应用价值。其理论意义在于解答基础教育中的习题,是大多数人拥有的基本智能,所以机器解答具有人工智能发展水平的指标意义。其应用意义在于机器解答算法是教育智能辅导系统的核心技术,机器解答的研究可以提高教育辅导系统的智能水平,从而可以借助于这项技术的大规模推广应用而提升教育可获得性和促进教育公平。本论文专注于研究机器解答小学数学应用题问题,这是机器解答数学题目中的基础且具有挑战性的子问题。这个问题的基础性在于算术应用题是义务教育中的主要数学题型之一,还在于算术是整个数学的基础,几乎所有人都需要学习的内容。这个研究问题具有挑战性的原因之一是小学数学应用题的陈述是接近于日常语言的数学问题陈述,这导致机器理解小学数学应用题成为难点问题。机器解答小学数学应用题可以分成题目理解、自动求解以及解答生成三个步骤。文献中的题目理解办法主要有两大类,一类是基于语义分析的方法,另一类则是基于机器学习得到方程组的方法。基于语义分析的方法存在着泛化能力不强的不足,泛化能力不强是由语义表达多样性灾难所导致。而基于机器学习得到方程组的方法存在着目标方程组数目有限的不足。另外,这两种方法都有缺少发现隐含数学关系功能的不足。为了克服语义表达多样性灾难所带来的基于语义分析的方法泛化能力不强的问题,本论文提出采用句法语义混合模型从题目文本中抽取直陈数量关系的新途径。这个句法语义混合模型减少了对于表达多变的语义信息的依赖,而增加利用具有高度精炼的句法信息的利用,因而句法语义混合模型相较于传统的语义模板,增加了模型的泛化能力,获得了能使用较少的模型理解更多的小学数学应用题的优良特性。通过分析习题解答,本论文发现解答小学数学应用题,通常需要直陈和隐含两类数量关系。题目文本直接地陈述出来的关系是直陈数量关系,而学生在解题过程中根据自己的知识添加数量关系被称为隐含数量关系。针对传统解答算法没有发现隐含关系功能的问题,本论文提出了基于机器学习发现小学数学应用题中隐含数量关系的方法。该机器学习的方法通过题目文本的特征发现题目所需要的隐含关系的类型,并借助隐含关系知识库得到解题过程所需要的隐含数量关系。另外,本论文在提炼解答方法共性和分析解答过程的本质的基础之上,提出了基于数量关系的解答算术应用题的新原理,也提出一个题目理解原理。这个原理的核心就是解答小学数学应用题的过程就是基于数量关系组的等价转换过程。这个题目理解原理的核心思想就是小学数学应用题题目理解可以定义为得到一个在解题意义上等价的数量关系组,而这个关系组可以通过从文本抽取直陈数量关系和发现隐含数量关系来完成。在题目理解得到的数量关系组的基础之上,本论文提出了一种基于自动求解过程方法和生成可读解答的方法,这使得新算法具有了良好的应用性。本论文提出的新方法在多个数据集上进行了实验,这些实验的结果证明了他们在解答正确率和生成可读解答都全面优于文献中方法。