基于改进的TFIDF关键词自动提取算法研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:nazhihudie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统TFIDF算法的不足存在于两方面:文本内部,忽略了特征项的除词频外的其他特征对词语重要程度的表现力;文本外部,没有考虑特征项与文本集合类别的依存关系。目前对TFIDF的改进大多是从文本外部方面进行的,或者直接改进IDF计算公式,或者基于类别分布信息加入新的计算因子调整IDF的计算结果。这些改进算法应用于文本分类上都能得到较好地分类效果,但若要应用于关键词提取算法中,则不是不能直接应用,就是对关键词的提取效果不理想。论文针对TFIDF算法中计算IDF时没有考虑词语在文本集上的分布情况而高度依赖词语文档频数的问题,提出结合信息增益和离散度量化词语在文本集上的分布信息,对IDF计算结果进行调整的改进方案;针对TFIDF算法中词频TF对文本内部信息表现不足的问题,提出在词频基础上融合词长、词性、词位置与词跨度等多个特征来表现词语对文本的重要性程度的改进方法。实验结果表明该算法对关键词的提取效果明显。
其他文献
采用随机对照原则和阳性药物对照设计方案,观察儿童缺铁性贫血120例。结果表明:生血宁片治疗缺铁性贫血的总显效率、总有效率分别为67.8%、93.3%;治疗气血两虚证证候之总显效率、总有效率分别
目的探讨抗结核药所致儿童药物性肝损伤(drug-induced liver injury,DILI)的临床特点,并提出有效的护理对策。方法回顾性分析2010年1月至2014年12月本院收治的54例抗结核药物
地方立法后评估是提升地方立法质量和完善立法工作流程的有效途径。目前,我国地方立法后评估实践已经取得长足发展,评估范围及重视度明显提升,不仅为相关法规完善提供了可靠