论文部分内容阅读
针对现有关键词提取算法存在计算复杂、语义信息挖掘较浅等问题,提出一种基于频繁模式挖掘的中文关键词提取算法.该算法采用改进的FP-增长算法挖掘词共现信息,排除噪音词汇;利用语义相似度算法消除同义词;精简候选词特征,在保证较高准确率和召回率的条件下减少了存储空间和计算量.实验结果表明,该算法所获得的平均F值为59.7%,高于若干经典算法;支持度计数是最重要的影响因素.