基于词跨度的中文文本关键词提取及在文本分类中的应用

被引量 : 0次 | 上传用户:bbbeatrice
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本关键词提取是文本自动化处理常用的一项关键技术,若能对海量的文本资源进行关键词标注,并按其归纳整理,可实现文本资源的高效管理和便捷使用。常用的关键词提取方法主要是基于统计的方法,此类方法思想简单、便于实际应用。但是,该方法过多地依赖于词频统计,因此提取的关键词中常包含一定量的高频而非关键的噪声词。本文围绕文本关键词提取中的噪声词问题,改进了传统的基于统计的文本关键词提取方法,以提高算法精度,并将改进后的关键词提取方法应用于文本分类的特征降维和特征项权值计算中。本文的主要研究内容包括:(1)为了提高文本关键词提取算法的精度,本文给出了一种基于词跨度的中文文本关键词提取方法。该方法在传统的关键词提取方法中引入词跨度概念,借助词跨度实现对噪声词的准确识别和过滤。实验结果显示:与传统算法相比,该算法在召回率和准确率上有了明显的提高,并且对于不同类型的文本,都具有较为稳定的表现。(2)文本分类中的特征降维是指通过对特征项进行筛选,达到降低特征空间维度的目的,但由于特征项的数量庞大,对其进行筛选的计算复杂度往往很高。因此,本文采用关键词提取的方式,首先对单个文本中权重过低的特征项进行过滤,减少了参与特征选择的特征项数量。实验证明:该方法在避免大量损失有效特征的基础上,降低了特征降维的计算复杂度。(3)在文本分类中,准确地表达特征项对其所在文本的重要程度,即特征项权值,对文本类别的区分具有重要影响。因此,针对经典TF*IDF权值计算法对特征项表达不够全面的缺点,本文通过用关键词权重TW替代词频TF,并考虑了特征项与类别之间的关系来对其进行改进,即TW*IDF*CHI。实验结果表明,基于TW*IDF*CHI的分类计算能有效提高分类性能。
其他文献
本文对甘肃生态旅游区域划分为沙漠绿洲、祁连冰雪、黄河风情、草原风光、伏羲文化、黄土风情等六种类型。提出了开发甘肃生态旅游必须从实施精品战略、大力发展文艺产业、提
英语教师必须通过持续的自我发展来适应不同的工作要求,而开展反思型教学活动是推动教师这种自我发展进程的最佳途径。反思型教学能够促进英语教师教学理论知识与实践经验的
吴敬梓是一位杰出的小说家,也是一位《诗经》研究专家。他将自己学术研究中的得意部分融入《儒林外史》,与同时代的《野叟曝言》之类“以小说见才学者”不一样。后者的目的在于
目前,我国民航业处于高速发展趋势,航班流量逐年递增,各个大型机场已经不能满足现阶段航空运输的需求。在市场需求和国家相关政策的共同推动下,各地开始新建中小型支线机场,2013年至2017年,每年新增支线机场数量都在十个左右,而中小机场的风险承受能力明显低于大型机场,这对以安全为第一生产要素的民航产业提出了新的挑战,如果不能有效提升中小机场的安全保障水平,就可能会有越来越多的民航事故或者事故征候发生。
庞德通过《通过法律的社会控制》和《法律的任务》阐述其著名的“通过法律的社会控制理论”,庞德系统详细地论述了以“社会利益”为中介的社会控制论,庞德通过论述文明、法律
<正>1主要杂草及其发生特点甜菜是制糖工业的主要原料。甜菜田主要杂草有稗草、野燕麦、狗尾草、金狗尾草、藜、灰绿藜、地肤、扁艹蓄、酸模叶蓼、反枝苋、龙葵、野西瓜苗、
<正>本次论坛的中心议题之一是"学术跨界与学科‘接通’的范畴及方法"。这是音乐学学术研究领域将"接通"理念纳入音乐学方法论研讨的首倡,具有重要的意义。"接通"一词耳熟能
据估计,到2020年,全球将有500亿台电子设备将会接入互联网络中,届时,互联网的通信将会是目前人与人之间通信流量的30倍以上,甚至更高。因而,推广和建设第五代移动通信(5G)是
《三国演义》"拥刘反曹"的倾向性描写,使一般读者往往以为曹魏一切都在诸葛亮谋算中,曹操伎俩用尽,仍不免被愚弄得可怜而且可笑。其实,这是被作者瞒蔽了。《三国演义》中真正
<正>陈田鹤的音乐创作生涯,始于1931年(亦即投入国立音专黄自师门的第二年)创作的艺术歌曲《如梦令.谁伴明窗独坐》;此后,其创作领域广及抗战歌曲、艺术歌曲、儿童歌曲、戏剧