【摘 要】
:
随着互联网的广泛应用以及各种办公系统的无纸化,各种电子形式的文本文档正以指数级的速度迅速增长,如何从这些海量的文本文档中快速有效的找到有用的信息,成为信息检索领域的重
论文部分内容阅读
随着互联网的广泛应用以及各种办公系统的无纸化,各种电子形式的文本文档正以指数级的速度迅速增长,如何从这些海量的文本文档中快速有效的找到有用的信息,成为信息检索领域的重要研究方向。信息抽取正是一个有效的解决方法,是具有较高实用价值的关键技术,因此它成为自然语言处理的一个重要研究问题。目前,在中文信息抽取已有的研究中,大多数都是集中在基于分词和文本分块的研究上,面向的对象也多为结构化和半结构化的文本。
针对上述研究存在的不足,本文以自由文本为研究对象,通过对大量文本的观察、分析和总结,确定关键句在文本中的特征以及与文本中非关键句之间的关系。本文提出一种面向自由文本的关键句抽取算法,该算法运用语义在自然语言处理中的优势对文本进行句子的语义相似度计算,再结合文本分析中总结的关键句特征,实现对自由文本的关键句抽取。本算法对于主题比较鲜明的文本文档可以达到较好的抽取效果。在此基础之上,本文还研究了对非结构化的句子或者标题句的抽取算法,该算法在运用依存分析对句子进行浅层句法分析的基础上制定相应规则,形成输入序列,再结合HMM易于建立、适应性好、抽取精度较高的优势,实现自由文本的信息抽取。实验表明,新的算法在召回率、准确率和正确率指标上均有良好的性能,这说明了算法的有效性,同时该算法减少了转移状态,从而使抽取的效率也能获得提高。
本文在研究中,灵活运用依存分析在浅层句法分析中的优势以及语义的相关计算在句子相似度计算中更高的准确度,为信息抽取工作打开了新思路,因此本文的研究具有一定的理论和实践意义。
其他文献
随着多媒体技术与网络技术的快速发展,各种多媒体资源得以在互联网上广泛地传播与共享,这给人们的生活带来了极大的便利,但同时,由于数字产品容易被不诚实的消费者非法复制、修改
近几年来,“云计算”技术的战略优势和商业价值引起了大量研究者和企业重视,并投入该项研究。但是,对于云服务而言,目前其策略控制和实施的研究和实践还较少。本文研究支持异
针对关键动设备的状态监测和故障诊断系统在保障工业生产安全、提高设备使用率、延长设备使用寿命方面有着非常重要的意义。随着监测诊断系统的推广和广泛应用,工业生产过程
多媒体网络对QoS实时控制和保证提出了更高的标准和要求。传统上,研究者基于最坏情况执行时间和处理器利用率等执行可调度性分析。这样的可调度性分析结论能满足强实时QoS保
在对图像的研究和应用中,人们通常只对图像中的某些部分感兴趣,图像分割就是把图像分成各具特点的区域并且提取出感兴趣的目标的技术和过程,这些特点可以是灰度、颜色、纹理
随着世界经济一体化的进展,各国之间互联网交流更为广泛、频繁,互联网信息的多语种特点,给交流带来的语言障碍日显突出。为解决语言障碍问题,跨语言信息检索技术应运而生。目
生物质能作为一种新型的能源,具有传统能源无可比拟的优势,它清洁、高效、可再生。秸秆作为生物质燃料的代表性一员,在作为农业大国的我国大量存在,直没有得到有效地利用,被随意处置,甚至就地焚烧,既造成了资源的极大浪费,也对环境构成了巨大危害。本文首先介绍了所用到的相关知识,即供应链管理理论和博弈论知识。通过生物质燃料发电这一切入点,把涉及到的三方即农户、电厂、政府作为课题的研究对象,采用博弈论的知识,借
当今,随着科学技术的不断深入发展,不同学科之间的交叉和技术渗透成为科研人员研究的热点,因为对于客观世界中的某些具有挑战性的问题只凭借单一的技术是很难解决的,往往需要
20世纪80年代以来,随着计算机、通讯技术的迅速发展,以及各种数字化、体积小、重量轻、探测精度高的新型传感器的不断面世,无人机(Unmanned Aerial Vehicle,简称UAV)的性能有
近年来,数据库技术得到了突飞猛进的发展,特别是关系数据库的应用,导致了海量的数据、有限的信息应用问题,引起了广大学者的重视,数据挖掘技术从上世纪九十年代应运而生,被用