【摘 要】
:
文本挖掘技术是现代信息处理中正在研究的热点课题。在文本挖掘过程中,文本数据预处理和文本关联规则分析是两个最主要的步骤。本文针对文本挖掘数据预处理过程中存在的问题,
论文部分内容阅读
文本挖掘技术是现代信息处理中正在研究的热点课题。在文本挖掘过程中,文本数据预处理和文本关联规则分析是两个最主要的步骤。本文针对文本挖掘数据预处理过程中存在的问题,结合一般评审系统项目申报书的特点,提出了基于改进的最大关键词特征权重下文本关联规则挖掘方法,并在此基础上深入探讨了关联规则的后处理挖掘的方法。本文在分析科技项目申报书特点的基础上,研究并实现了针对项目申报书的文本关联规则提取,并用文本特征向量对项目申报书进行有效的表示。本文在分析了传统的基于词频-逆文频的文本特征选择的基础上,引用了一种改进的关键词特征权重计算方法,该方法利用领域关键词信息域权重的计算方式,实现了对科技项目申报书的相关学科进行有效的文本特征选择,并通过实验验证了该方法的有效性。针对传统关联规则挖掘过程中文本特征向量表示维数巨大,频繁集生成复杂等问题,提出了基于XML格式的最大特征权重关联规则挖掘方案。该方案在整个文本挖掘过程中,都可以给文本数据的存储和计算带来极大的便利。针对学科相关性分析特点,研究并设计了基于学科领域关键词同现的关联规则后处理方法。通过计算关键词和学科领域词之间的同现度,达到对学科相关领域新的热点或者盲点问题进行研究的目的,并通过实验验证了该方法的有效性。
其他文献
在各种多媒体服务和数字通信等应用领域,图像编码是至关重要的技术之一。上世纪90年代,分形图像编码作为一种全新压缩编码方法开始兴起,它的整体理论是建立在图像自相似基础
无线传感器网络(Wireless Sensor Networks,简称WSNs)是由分布在目标区域内大量传感器节点自组织形成的一类网络,广泛应用于各种特殊的监测任务。这些应用都是由传感器节点收
集群式供应链是一种新型的企业协作模式,通过企业服务间的动态匹配和组合来应对动态多变的市场需求,且不必因维持过高的产能而导致其自身的成本增加。然而,服务资源的非均等化现
远程教学是目前教学改革的重要内容,而虚拟实验室填补了远程教学中教学实践方面的空白,对提高远程教学的质量具有重要的意义。但是,当前的虚拟实验平台普遍不能支持异构资源
聚类技术作为数据挖掘领域的一个重要研究方向,可以有效地帮助人们了解数据的分布和特征,以便作进一步研究分析。虽然已有的聚类算法很多,但聚类技术依然存在很多问题和挑战
视频处理技术是伴随着视频从模拟到数字化转变的过程中得到蓬勃发展的。随着人们对视频图像的清晰度、流畅度、实时度的要求越来越苛刻,使其成为了一项炙手可热的技术。1980
运动人体检测是视觉人体运动分析中的关键技术,是进行各种后续处理如运动人体识别、运动人体跟踪的前提和基础,在高级人机交互、视频会议、智能视频监控等方面具有广泛的应用
数据挖掘的对象包括像关系数据库中的结构化数据,也包括诸如文本、图像、图形的半结构化数据或非结构化数据。同结构化数据相比,非结构化数据能更好地表达对象间的联系。随着
基于内容的图像检索(Content-Based Image Retrieval,CBIR)是一种利用图像的视觉特征进行检索的新兴技术,它通过提取图像的颜色、纹理、形状等底层特征进行检索。本文在学习