论文部分内容阅读
随着“三农”信息资源需求的大量提升、信息资源数量的急速增长和农村信息基础设施的不断完善,如何提供有效的“三农”信息资源服务以满足信息需求,已成为一个亟待解决的问题,“三农”信息化建设成为我国信息化工作的重要组成部分。由于高效的问答系统能够从广泛的信息资源中,较准确地自动抽取提问问题的答案,因此,如果能有针对性地将问答系统技术应用到“三农”信息资源服务中,构建面向“三农”的问答系统,就能对解决“三农”信息资源利用问题产生积极的推动作用,能够为农民生活、农村生产、学者研究和管理者决策提供有效的“三农”问题信息服务。在此背景和基础上,本文以构建面向“三农”的问答系统为目标,首先阐述了问答系统及其系统框架的基本相关概念和研究、以及由此展开的本文的研究内容、方法和意义等;其次,总结了本文研究的基础理论——中文信息处理基础理论;再次,分别研究了基于“三农”概念簇的“三农”知识表示、基于混合策略的“三农”FAQ系统、面向“三农”问句分类以及面向“三农”问句的答案抽取等关键技术;最后,构建了面向“三农”问答系统。具体而言,本文的主要研究工作包括以下几个方面:一,基于K最近邻(k-Nearest Neighbor, KNN)分类算法的“三农”概念簇研究。首先,利用基于DOM(Document Objecct Model)树的方法从网络《农业大词典》中抽取全部词汇条目(词条)和释义内容,应用正则表达式从释义内容中抽取词条的口语名称,设计“三农”词表结构;然后,针对在词条释义内容中自动抽取的词语进行人工选择、合并,得到特征词,生成特征向量,再利用KL (Karhunen-Loeve)变换对特征向量降维,利用KNN分类算法生成“三农”概念簇;最后,得到的实验数据结果表明这些方法是有效的。二,基于混合策略匹配的面向“三农”常见问题问答(Frequently Asked Questions, FAQ)系统的检索方法研究。首先,通过句子之间的相同词语覆盖度,句子长度和词序计算句子的词表层相似度,通过HowNet和“三农”概念簇计算句子的语义相似度,利用潜在语义分析(Latent Semantic Analysis, LSA)计算用户提问问句和问题答案对的相似度;然后,采取混合策略法将这些相似度组合到一起,形成本文的面向“三农”FAQ系统的检索方法;最后,通过实验验证了这种方法的有效性。三,面向“三农”问句分类体系和分类方法的研究。参考开放域问句的分类体系和“三农”领域知识,设计了面向“三农”自动问答系统的问句分类体系;将疑问词、“三农”概念簇、HowNet义原作为问句分类特征,将信息熵作为特征值,设计了基于模板的粗分类和基于支持向量机(support vector machine, SVM)的精细分类算法;实验表明本部分的特征选取和分类方法能够有效地满足需求。四,面向“三农”自动问答系统的答案抽取方法的研究。针对不同的“三农”问句类别和答案选择源,提出了不同的答案抽取方式。对“三农”事实性问句,采用基于“三农”知识库的方式抽取;对“三农”原因性问句,利用其线索词的模板指导抽取;对于“三农”方式性问句,则采用基于自动文摘的方式抽取。实验验证了本文答案抽取方法的有效性。五,面向“三农”问答系统的构建与实现。介绍了面向“三农”问答系统的运行环境、系统实现的编程技术和工具,以及系统架构的设计与实现效果。在文章的最后,对研究的工作和创新进行了总结,指出了研究的不足之处,并提出了下一步研究工作的构想。