论文部分内容阅读
自动文本分类是自然语言处理中重要组成部分,用于组织和管理大量的文本数据,被广泛的应用于信息检索、文档过滤、词义辨析等领域。文本分类涉及的主要技术有特征加权、特征选择、维度约简、文本表示、分类算法等。由于文本分类器在处理高维大数据集时时间和空间复杂度过高,降低文本表示维度和改进分类器设计是文本分类领域的研究热点。KNN(K-Nearest Neighbor)算法分类思想简单、分类效果好,是文本分类领域应用最广泛的分类器之一。但经典KNN算法处理较大规模的文本分类任务时效率较低、分类速度慢,并且分类过程中关键特征与普通特征作用相同,同时也没有区分样本的作用,容易误导分类过程。本文针对上述KNN算法的缺陷,进行了分析和研究,着重进行如下工作内容:1)针对KNN算法对高维特征空间分类时间长、精度低等缺点,提出自适应特征加权KNN文本分类算法。首先,以整体精度为优化目标函数,对特征归一化约束加权;其次,采用改进的归一化约束步长衰减PSO(Particle SwarmOptimization)算法对特征权值自适应优化求解;最后,根据权值计算文本相关性、降低特征空间维度。在复旦大学等语料库上采用十折交叉法进行的实验结果表明,改进后的算法既提高分类器精度又降低分类时间。2)通过对KNN算法分类过程的研究可知,提高算法效率的关键是减少相似度计算量,从而提出自适应样本加权KNN文本分类算法。算法先使用改进的PSO算法对样本权值自适应求解;再通过样本权值缩减样本数量,降低相似计算量;最后在KNN算法的判别函数中加入样本权值,解决KNN算法对样本库容量敏感问题。该算法在TanCorpMin语料库上得到较好的效果。3)为改进KNN算法在高维特征空间和大数据集上的分类性能,提出融合上述两种改进的自适应加权KNN文本分类算法。算法首先对特征加权,降低特征空间的维度,更新特征词库,重新向量化样本库;其次,对样本加权,约简样本;最后,使用加权的判别函数对文本分类。通过实验表明融合后的算法有效降低了分类的时间复杂度和空间复杂度。