论文部分内容阅读
传统TFIDF算法的不足存在于两方面:文本内部,忽略了特征项的除词频外的其他特征对词语重要程度的表现力;文本外部,没有考虑特征项与文本集合类别的依存关系。目前对TFIDF的改进大多是从文本外部方面进行的,或者直接改进IDF计算公式,或者基于类别分布信息加入新的计算因子调整IDF的计算结果。这些改进算法应用于文本分类上都能得到较好地分类效果,但若要应用于关键词提取算法中,则不是不能直接应用,就是对关键词的提取效果不理想。论文针对TFIDF算法中计算IDF时没有考虑词语在文本集上的分布情况而高度依赖词语文档频数的问题,提出结合信息增益和离散度量化词语在文本集上的分布信息,对IDF计算结果进行调整的改进方案;针对TFIDF算法中词频TF对文本内部信息表现不足的问题,提出在词频基础上融合词长、词性、词位置与词跨度等多个特征来表现词语对文本的重要性程度的改进方法。实验结果表明该算法对关键词的提取效果明显。