【摘 要】
:
本文对文本主题词抽取进行了系统的研究,介绍了一种利用关联规则挖掘中文文本主题词的方法。其中文本主题词由关键词和相关词组成,用户可以根据提供的关键词和相关词了解Web页
论文部分内容阅读
本文对文本主题词抽取进行了系统的研究,介绍了一种利用关联规则挖掘中文文本主题词的方法。其中文本主题词由关键词和相关词组成,用户可以根据提供的关键词和相关词了解Web页面的主题,有助于用户快速浏览页面,了解页面内容;另外,相关词可以帮助用户扩展思路,提示用户未曾考虑到或并未掌握的相关内容,从而更广泛、更全面地获得自己所需的信息,提高信息检索效率。
传统的主题词抽取主要是从文档正文中抽取关键词(Keyphrase Extraction),文档经过规范化处理被分成一系列的候选词,最后用一种有监督的学习算法确定候选词是否被选为关键词。在关键词抽取模块中,本文采用44种词性匹配模版对候选词进行组合,通过计算特征值优先抽取TriGram和BiGram作为关键词,使抽取结果能够同时兼顾信息量大和可读性好两种特点。
在关键词抽取的基础上,我们提出一种基于关联规则挖掘相关词的方法,使相关词和从该话题文本正文中抽取的关键词一起,作为文本主题词。在相关词抽取模块中,系统经过噪音过滤的关键词集作为关联规则学习的项目集,单篇文档对应的关键词作为一个项目,Apriori算法首先通过用户给定的最小支持度,寻找所有频繁项目集,然后由频繁项集产生强关联规则,这些规则必须满足最小支持度和最小置信度。系统根据关联规则挖掘结果找出和关键词i<,m>有关的其它关键词{i<,1>,i<,2>,…,i<,q>)作为关键词i<,m>对应文档的相关词,并和该篇文档的关键词共同组成文本主题词。实验表明,本文提出的利用关联规则挖掘文本主题词方法较为准确和有效,取得了较高的用户满意度。
其他文献
云雾是影响卫星图像和航拍图像清晰度的主要因素。本文以卫星图像和航拍图像为研究对象,进行了卫星图像和航拍图像的去除薄云薄雾的研究。 云雾主要是通过粒子的散射、吸收
随着无线通信和数字电子技术的发展,由低成本、低功耗、多功能的无线传感器节点组成的无线传感网络得到迅速发展。无线传感网络是由很多无线传感器节点密集分布组成的,它具有
随着互联网的飞速发展和社会生活信息化的深入,人们越来越依赖于互联网带来的方便和快捷。与此同时,恶意代码也在与时俱进不断发展和壮大。在利益的驱动下出现了黑色产业链,黑色
随着网络技术和数字信号处理技术的发展与流行,多媒体信息安全显得日益重要。数字水印技术是用于数字产品的版权保护及内容完整性证明的重要手段;混沌序列具有良好的伪随机性、
随着我国英语教学改革的深入,学生的口头表达能力越来越受到重视,但进行大规模口语测试仍存在一些困难。针对这种现状,本文提出了一种采用语音合成和语音识别技术实现在线听说能
随着硬件技术的发展,印刷设备的输出不再局限于黑白二值,而是可以支持多级灰度,多级半色调技术作为多级印刷的关键技术之一,其性能优劣直接影响输出半色调图像的质量。因此,研究多
IP网络的飞速发展、新型网络应用的层出不穷,使得网络环境越来越复杂,给网络监测、管理和运维等带来了多方面的挑战。实现对发展中的IP网络的有效监测、管理与运维,需要功能
随着现代生物技术的不断发展特别是基因组计划的实施,人们不断的获得大量基因序列数据,互联网上的基因数据正呈指数增长,这些内涵丰富的数据为人们分析和研究基因的组成与功
近年来,无线传感器网络受到了各界的关注,很多方面的研究已经逐渐完善,但是仍然存在数据访问延迟、网络堵塞及能量消耗过多等问题。研究表明,无线传感器网络的缓存技术能改善上述
光要发生衍射必须具备一个条件,即:发生衍射的孔径必须接近光的波长。而可见光的波长很短,大约在10m和10m之间,所以要获得线度与之在同等数量级上的孔径非常困难。这就给衍射的理