基于扩展的VSM中文文本分类方法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:wjw909
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的迅猛发展,作为网络主要资源的文本信息也在高速增长。如何有效组织和管理这些信息,并快速、准确、全面的从中找到用户所需要的信息是当前信息科学和技术领域面临的重要问题。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,帮助人们准确高效的定位信息和分流信息,因此具有广泛的应用前景。文本自动分类最常用的方法是基于向量空间模型。通常采用关键词作为向量构建向量空间模型。早期研究是基于知识的,通过人工建立分类规则确定特征项,随着统计机器学习理论和统计自然语言处理技术的发展,使用机器学习的方法确定特征项得到应用,并取得了良好的效果。可是由于受到训练语料库资源和训练时间的限制,机器学习能力也有局限性。有很多对类别有贡献的特征项,通过常规的机器学习是得不到的。用这样的特征向量集生成的向量空间模型在进行文本分类时就不会达到满意的效果,所以机器学习生成的向量空间模型是需要重新构造的。本文提出了一种基于扩展空间向量模型(VSM)的方法用于中文文本分类。该方法对每类文本特征项进行分析,并通过合适的规则抽取了最能代表主题的特征义原,然后用Hownet对这些特征义原扩展,并赋予扩展的特征项适当权值来说明其描述能力。接着联合同义词典将原始向量空间模型,和扩展的向量空间模型融合成新的特征向量空间。最后选择合适的分类器用重构的VSM模型进行分类。本文重点研究了抽取特征义原,设定特征项合适的权值和重构向量空间模型方法。实验表明,该方法能增加有效的向量空间维数,使分类正确率和稳定性均得到提高。最后对论文进行了总结和展望,指出基于扩展VSM的文本分类尚需研究和改进的问题。
其他文献
近年WCDMA技术快速发展,特别是高速下行分组接入(HSDPA)和高速上行分组接入(HSUPA)技术的应用,基于无线IP网络发展IMS业务逐渐成熟。越来越流行的IM通信业务将通信业务的简化
随着多媒体技术和网络通信技术的发展,视频作为多媒体的最重要模态,已经在工业生产和人们生活得到广泛使用。传统高质量二维平面视频虽能较好的反映客观物体的纹理,但是却不
基音周期作为语音信号处理中描述激励源的重要参数之一,广泛的应用于语音合成、语音编码和语音识别等语音信号处理技术领域。准确可靠地对基音周期进行检测将直接影响整个语
数字集群系统是一种高级专用移动通信系统,它不仅能够提供个人移动通信,还能为用户提供丰富的无线指挥调度等功能,是国内专用数字移动通信重点研究项目之一。目前,国内的城市
随着数字有线电视的普及,知识产权越来越受到重视,另外,数字水印技术的发展,使得以数字水印技术对数字电视监控既具实际意义,也具可行性。通过该平台可以实现对有线电视的监控,达到
随着通信技术的发展,无线通信环境日益复杂,通信信号在很宽的频带上采用了多种调制方式,同时这些信号的调制参数也不完全相同,如何有效的监视和识别这些信号,在军事和民用领域都是
随着高速铁路的快速发展,高铁列车的行车安全成为了越来越受人们关注的热点话题,现有的铁路通信系统GSM-R,已渐渐不能满足日益增长的安全需求,原铁道部(中国铁路总公司)相关
近年来,无线传感器网络在工业监控、环境监测、智能家居、健康医疗等领域获得了广泛应用。随着传感器的感知、存储和计算能力的日益增强,无线传感器网络正朝着异构化、大流量
脱机手写体汉字识别是模式识别领域的一个研究热点,应用前景非常广泛。但由于汉字类别多且字形结构复杂,加上不同的人书写风格的不同使得手写体汉字的变形很大,所以脱机手写体体
学位
伴随移动互联网飞速发展,无线接入终端数量不断增加。无线接入终端对网络业务的安全、服务质量等提出了更高要求。向量网是一种新型通信网络,具有无限扩展、支持QoS(Quality