中文文本关键词提取和文本聚类中聚类中心点选取算法研究

来源 :江苏大学 | 被引量 : 9次 | 上传用户:wangxiao8910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现今文本处理领域研究的热点是如何方便用户快速准确的搜索到所需要的文本信息。文本聚类可以提高信息搜索效率,是文本检索的有效手段。关键词提取和聚类中心点选取是文本聚类研究中的关键问题。常见的关键词提取算法可分为三类,基于语义的算法、基于机器学习的算法和基于统计模型的算法。基于语义的算法提高了关键词提取的准确率,但是依赖于背景知识库、词典等,无法提取出不包含于知识库的词或词组。基于机器学习的算法提高了关键词提取的准确率,但是训练样本、构建模型花费时间长。基于统计模型的算法原理简单,不需要训练样本,也不依赖于知识库。常见的聚类中心的选取方式有三种,随机选取初始聚类中心点、人为指定聚类中心点和根据待聚类点之间的相似度选取聚类中心点。随机选取的初始聚类中心点中可能包含“孤立点”,聚类结果局部最优。人为指定聚类中心点会因为每个人对文本集的了解程度不同而带有主观性,不适用于文本集数量很大的情况。根据待聚类点之间的相似度选取聚类中心点,可以使得选取的聚类中心点分布于各个类中并且尽量接近类中心点,但是计算聚类中心所需时间较长。针对上述问题,本文做了如下研究:(1)本文提出了基于词或词组长度和频数的关键词提取算法,算法首先提取出中文文本中出现频数较大的词或者词组,然后根据提取出的词或者词组的长度和在文本中出现的频数筛选出该文本的关键词。与现有的算法相比,本文提出的算法不依赖于背景知识库、词典等,可以提取出文本中的音译词和网络新词,无需通过对训练样本的训练获得统计参数,构建模型。实验显示本文提出的关键词提取算法,关键词提取的准确率较高,提取出的关键词可以反映出该文本的主题。(2)本文提出了基于文本之间相似度的聚类中心点选取算法,算法首先根据给定的文本集以及文本集中各个文本对应的关键词序列,构建向量空间模型,接着计算各个文本与其他文本之间的相似度,最后依据各个文本与其他文本之间的相似度筛选出聚类中心点。与现有的算法相比,本文算法选取的聚类中心点与较多的文本之间存在相似性且相似度值较大,同时相互之间的相似度较小。实验显示本文提出的聚类中心点选取算法选取的聚类中心点分布于各个类中并且与类中心点接近。
其他文献
俄罗斯作曲家里姆斯基-科萨科夫是十九世纪最出色的管弦乐配器大师。其代表作《天力夜谭》就是有力的证实。这首以四个乐章组成的管弦乐作品,以明确的主题,细致的人物个性以及
喷油器是柴油发动机喷射系统的最终执行机构,对燃油射流的雾化质量起着至关重要的作用,最终它直接体现在柴油发动机的动力性指标、经济指标和有害物质排放指标上。燃油在气缸
内田光子在今天的世界乐坛上已是可与阿格里奇并驾齐驱的最棒的女钢琴家之一.她身材消瘦,一头卷曲的长发,背影与阿格里奇有相似之处,名气也相当,不同之处在于阿格里奇在炫技
期刊
在6月1日隆重举行的"舒尔携手女子十二乐坊共奏明日辉煌"庆祝活动上,舒尔(亚洲)公司总经理艾斯哥先生接受了媒体的采访.艾斯哥(Robert.P.Ascough)出生于英国曼彻斯特市,15岁
一直以来,环境问题是国人最为关注的民生问题之一,而公众也是环境的最大利益相关者,拥有保护环境的最大动机。获取公开透明的环境信息不仅是公众,而且也是企业、政府了解社会
期刊
2005年4月27日,美国SMART技术公司(SMART Technologies),在"2005年中国上海国际视听集成设备与技术展"(IS China)D15展台展示了一系列适合中国市场的完美而现代的软、硬件产
虚拟装配是工业领域中虚拟现实技术的经典应用,国内外科研机构近年来研究虚拟装配技术取得了显著的成果,并将成果应用于实际生产生活,使得虚拟装配的市场前景和应用范围得到
新型城镇化与乡村振兴为近十年引导我国城乡发展的重要战略。小城镇作为城市之尾、乡村之首,承载了广大农村地区就近城镇化的职能,是决胜两大战略的重要着力点。本文以扬州市