论文部分内容阅读
互联网的蓬勃发展,加速了人类信息化时代的到来。在高度信息化的今天,大量庞杂的信息充斥着网络,而且信息的规模还在不断地急剧增加。因此人类希望能快速查询信息、准确获取信息的需求与日俱增。文本分类就是一种有效解决这种需求矛盾的手段。近年来,多种统计理论和机器学习方法被用到文本分类中来,使其成为目前信息检索领域研究的热点方向之一,并正在不断地被应用到实践中去。
文本分类系统的核心任务是特征选择和实施分类算法。目前,文本自动分类一般采用由特征项组成的向量来表示文本的,即VSM模型,其特点是特征空间存在高维性,这种高维性不但影响了分类系统计算的复杂度,更重要的是高维特征空间存在大量的噪声特征,因此,特征选择是一个计算特征权值并同时剔除噪声特征的过程,并为后面分类算法提供有效的数据支持。
目前常见特征选择方法如IG、CHI、ECE等约几十种,而TFIDF因为其简洁有效性成为目前常用的一种特征权值计算方法,但其未考虑类别信息、词频分布等细节因素,它的一些改进算法有效地考虑了这些因素但同时也为计算带来了更多的复杂性。
本文提出的TFCW方法更符合文本分类下特征选择任务需求的特点,体现了特征频度、类内外特征分布、低频特征处理等更多实际因素,但同时也体现了公式的简洁性,降低了运算复杂度。TFCW方法使用的前提是训练集必须为一个均匀语料库,本文在综合了搜狗语料库与复旦大学文本语料库的基础上,整理出了一份质量较好的均匀训练语料库,并在该语料库的基础上,完整实现了一个中文文本分类系统,通过比较TFCW方法与传统TFIDF及其改进算法,证明TFCW方法是行之有效的。本文还尝试将该方法应用于词间相似度计算中,也取得了一定的结果。