论文部分内容阅读
随着因特网技术的迅速发展,网上信息成几何级数增长,如何自动处理这些海量联机文本成为目前重要的研究课题。文本信息抽取是指从一段文本中抽取指定的信息(例如事件、事实),并将其形成结构化的数据填入数据库中供用户查询使用的过程。自动文本信息抽取是处理海量文本的重要手段之一。本文研究基于隐马尔可夫模型的文本信息抽取算法。 本文首先分析了在文本信息抽取中如何建立隐马尔可夫模型结构和参数训练问题,在此基础上,利用文本排版格式、分隔符等信息,提出一种基于文本分块的隐马尔可夫模型文本信息抽取算法,实验结果表明,新的算法具有较高的精确度和召回率。针对训练数据来源的多样化而不利于学习最优模型参数问题,本文提出一种基于多模板隐马尔可夫模型的文本信息抽取算法,该算法通过对训练数据形式聚类,分为多个形式模板训练隐马尔可夫模型初始概率和转移概率参数,结合统一的释放概率,对文本信息进行抽取,实验结果表明,新的算法在一定条件下能提高文本信息抽取的精确度和召回率。基于最大熵原理,本文结合自然语言文本的上下文特征、文本词汇本身包含的特征信息,提出一种基于最大熵的隐马尔可夫模型文本信息抽取算法。实验结果表明,新的算法虽然增加了时间复杂度,但能提高精确度和召回率,其整体性能优于基于简单的隐马尔可夫模型文本信息抽取算法。考虑到训练数据的手工标记成本很高,本文结合主动学习的隐马尔可夫模型进行文本信息抽取,通过对相关参数设置不同的门槛值,对比用户标记率和信息抽取正确率,选择最佳的门槛值。实验数据分析表明,该方法在保证性能的前提下,能很大程度上减少用户标记训练数据集的工作量。