基于隐马尔可夫模型的文本信息抽取算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:hefang1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网技术的迅速发展,网上信息成几何级数增长,如何自动处理这些海量联机文本成为目前重要的研究课题。文本信息抽取是指从一段文本中抽取指定的信息(例如事件、事实),并将其形成结构化的数据填入数据库中供用户查询使用的过程。自动文本信息抽取是处理海量文本的重要手段之一。本文研究基于隐马尔可夫模型的文本信息抽取算法。 本文首先分析了在文本信息抽取中如何建立隐马尔可夫模型结构和参数训练问题,在此基础上,利用文本排版格式、分隔符等信息,提出一种基于文本分块的隐马尔可夫模型文本信息抽取算法,实验结果表明,新的算法具有较高的精确度和召回率。针对训练数据来源的多样化而不利于学习最优模型参数问题,本文提出一种基于多模板隐马尔可夫模型的文本信息抽取算法,该算法通过对训练数据形式聚类,分为多个形式模板训练隐马尔可夫模型初始概率和转移概率参数,结合统一的释放概率,对文本信息进行抽取,实验结果表明,新的算法在一定条件下能提高文本信息抽取的精确度和召回率。基于最大熵原理,本文结合自然语言文本的上下文特征、文本词汇本身包含的特征信息,提出一种基于最大熵的隐马尔可夫模型文本信息抽取算法。实验结果表明,新的算法虽然增加了时间复杂度,但能提高精确度和召回率,其整体性能优于基于简单的隐马尔可夫模型文本信息抽取算法。考虑到训练数据的手工标记成本很高,本文结合主动学习的隐马尔可夫模型进行文本信息抽取,通过对相关参数设置不同的门槛值,对比用户标记率和信息抽取正确率,选择最佳的门槛值。实验数据分析表明,该方法在保证性能的前提下,能很大程度上减少用户标记训练数据集的工作量。
其他文献
在现实世界中,人们可获取的大部分信息来自文本数据库(或文档数据库),文本数据库包含大量来自各种数据源(如新闻、研究论文、报告、书籍、杂志等)的文档。近年来,随着计算机技术
阴、阳极电流分布在线检测装置跟踪记录了大量的铝电解槽在平稳运行和发生针振时的阴、阳极电流分布变化情况及方差变化情况的原始数据;从理论上讲,在这两者之间存在一定的对
Web数据挖掘利用数据挖掘技术从网络文档和服务中发现和提取信息。Web上各种形式的文档和用户访问信息就构成了Web数据挖掘的对象。根据挖掘对象的不同我们将Web数据挖掘分为
随着网络技术的发展,网络安全成了新的安全研究热点。网络安全的主要目的是保证网络上存储和传输的信息的安全性,为了实现这个目标,国内外很多研究机构在这方面做了大量工作,主要
本文主要讨论火炮内膛疵病自动识别系统中的软件识别技术,国外尚无相关产品,国内也仅处于起步阶段,对火炮的制造、检测都有着十分重要的意义。 本文研究在利用光电、电子等技
具有自主版权的KerenCAD有强大的自由曲线造型功能,运行速度快、响应迅速、逼近度高,光顺性好,能满足许多领域的复杂外形设计和应用。但是,它的曲线产生系统是当决定曲线的特征点
计算机科学中的协调技术最初是为解决大规模的并行/分布问题出现的,协调管理的是多个活动之间的依赖关系.一般来说,协调模型包含三个元素:协调实体,协调介质和协调规则.协调
本文主要包括以下内容:(1)分析了当前造成网络数字作品侵权的主要因素和网络多媒体课件所面临的严峻形势,论述了通过技术手段构建版权保护系统的重要意义.(2)论证了构建网络
网络技术与多媒体技术的发展,促进了通信技术的综合化、数字化、智能化、个人化的发展,使得在单一网络平台上实现语音、数据、图像等多种业务成为可能。综合了网络技术与多媒体
随着以电子期刊和在线文档形式存在的科技文献的不断增加,对科研教学人员来讲,如何充分利用现有的网络信息资源,从庞杂的电子文档中及时、准确地获知与自己研究领域相关的最