论文部分内容阅读
随着计算机与网络技术的快速发展,网络已成为人们存储和获取信息的主要媒介,用户在享受便捷的同时,也饱受网络信息资源大、获取信息难的困扰。文本分类技术可以快速定位有用信息,帮助用户快速高效地获取知识。模糊粗糙集是一种处理不确定性问题的新方法,它在文本自动分类领域的应用,很好地解决了粗糙集处理离散化过程中的信息损失问题,从而使信息约简和文本分类具有更高的准确性。本文在系统地学习和研究模糊粗糙集理论与国内外相关文献的基础上,分析了当前主流文本自动类算法的缺点和不足,引入了一种基于模糊粗糙集的文本分类方法。首先,对从网络上采集到的Web文本进行预处理,用向量空间模型表示去噪后的Web文本,通过分析向量空间模型中的文档,筛选生成特征属性空间,并计算每个特征属性的权重;其次,引入粗糙集方法约简特征属性,对于每一个类别生成与之对应的最简属性集合,所有类别的最简属性集合生成了文本分类规则,对于每一类的最简属性集合,包含了每个属性属于该类的隶属度,这些最简属性集合是模糊集;第三,提出了一种基于模糊粗糙集的文本分类算法,对未经预处理的Web文本直接进行特征属性匹配,根据生成的分类规则,计算该文本与每个类别间的模糊粗糙贴似度,并选择贴似度最大的分类作为该文本所属类别;最后,通过实验对该算法进行测试,确定了特征属性空间维度与分类文档数量这两个参数,使算法的分类性能达到相对最优,并与传统分类算法进行了比较。通过分析实验结果得出,基于模糊粗糙集的文本分类算法与传统的KNN算法和SVM算法相比,在分类速度和分类精度指标都有显著的提高。