基于图模型聚类的文本摘要方法研究

被引量 : 0次 | 上传用户:jianjiaomylove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的急速发展,接踵而至的便是互联网信息量的急剧膨胀,尤其是文本信息的数量(新闻文章、电子书、科技报纸、博客等等)。据粗略估计,2015年网络的文本规模达到了将近47亿页。针对这样巨大的文本信息量,仅靠人力无法完全处理其中的有效信息。因此,为了简单明了地向用户提供文本的有效信息,我们有必要借助于计算机的力量实现快速定位有效信息的目标。针对上述问题,本文展开了基于图模型聚类的文本摘要方法研究,其主要的研究目标有三个:1)从文本中找出相关的内容;2)消除文本信息冗余,一个好的文摘系统必须尽量剔除重复的信息,否则冗余信息会成为噪音,影响最后的文摘结果;3)文摘结果对原始文本具有高保真度,保持文本多样性,文摘应最大化地包含文本的原始信息,使得用户能够无偏差地理解原始文本的主要思想。基于真实的网络文本数据,本文首先对文本句子建立评分模型:通过统计文本中的词语数量来计算文档词频(TF)和反文档词频(IDF),从而建立句子评分模型(TF*IDF)。其次对句子进行聚类:在句子评分模型的基础上充分考虑句子的统计相似性,语义相似性,共指消解以及语篇关系,将文本模型转化为图模型,通过给定聚类参数(是否为有向图,边缘选择条件,语言选择,阈值等),对图模型进行聚类,在聚类形成的每个簇中选择联系最紧密的句子组成文摘结果。本文提出的一种基于图模型聚类的文摘方法,能够较好地消除信息冗余问题,提炼文摘。通过实验证明,本文的方法与传统的只基于统计或聚类的方法相比,提高了文摘准确率。本文的主要工作和成果总结如下:(1)建立了文本图模型。为了更直观的建立文档文本间的关系,通过经典TF/IDF方法来计算经预处理后的文档词语的权重值,建立句子的权重评分统计模型,以便进行相似度计算。我们还从语篇分析、共指消解、语义相似度几个不同维度对统计方法进行修正,试图建立一个更加准确、合理的文本关系图。(2)为了解决信息冗余和信息多样性的问题,本文区别于一般的基于语法和语义相似性的方法,在图模型的基础上,提出了对该模型进行聚类的方法,该方法是无监督的并且具有普适性。该聚类方法效果的好坏的核心点就在于上文建立的文本关系模型是否足够的合理。(3)为了验证本文提出的基于图模型聚类的文本摘要方法的有效性,在数据集的选择方面将使用文摘领域最具代表性的DUC(Document Understanding Conference)数据集,它针对不同任务具有丰富的数据集。通过在不同数据集上的实验来证明本文所提方法的可行性。
其他文献
第一章下腰椎小关节对称性与青年非特异性下腰痛关系的CT研究目的探讨下腰椎小关节角度、形态、方向性以及角度与形态的对称性与青年非特异性下腰痛的关系,为后续MR定量研究
以铁棍山药为原料,研究铁棍山药多糖肽的提取工艺及其抗氧化性质。结果表明,铁棍山药多糖肽提取最佳工艺条件为物料粒径为79.0目,超声功率为357.5 W,超声时间为35.8 min,液料
近十年来,我国居民消费率远低于世界平均水平,并逐渐成为制约经济增长和人民生活水平同步提高的瓶颈;以内蒙古自治区为例,通过理论分析和实证研究论证了教育、卫生、社会保障
随着我国改革开放政策的深入,许多的企业已经不满足于国内市场,纷纷选择走出国门将自身产品推向国际市场,这也带动了我国国际贸易的蓬勃发展。信用证作为传统的国际贸易结算
老年人是社会人口结构的重要组成部分,对老年人的尊敬爱戴是中华民族的传统美德。由中国北方民族女真族建立的金朝,继承了中华民族的敬老传统,在其统治时期实行了诸多对老年
目的探讨对胆道疾病手术后T型引流管的观察及护理方法。方法选取我院肝胆外科2012-05~2013-03间住院的106例行胆道外科手术后放置T型引流管的患者,将其随机分为观察组和对照
针对现阶段部队院校计算机基础课程的教学现状和存在问题,从转变学员学习观念、提高学员信息素养、增强学员综合能力出发,围绕课程地位、教学理念、教学模式和考核模式探讨计
<正>鸡传染性支气管炎(IB)是由冠状病毒科的禽传染性支气管炎病毒(IBV)引起的急性、高度接触性传染病。在我国,邝荣禄于1972年首次报道在广东省发生鸡的IB,随后国内大部分省
本文以空气中可吸入颗粒物(PM10和PM2.5)为研究对象,分析秋季颗粒物垂直方向上的变化规律,结果表明,季空气湿度较大风速较小时,空气中可吸入颗粒物PM10和PM2.5质量浓度随高度