【摘 要】
:
随着互联网技术飞速发展,新闻信息数量快速增长和传播。海量新闻信息的产生和迅速传播丰富了人们的生活,但是也会带来信息过载问题,人们在获取信息过程中浪费了大量的时间。随着人工智能及自然语言处理技术的发展,新闻主题句提取研究和应用很好的解决了这一问题。新闻主题句提取是自动文本摘要等文本自动处理应用的基础工作,是自然语言处理领域中重要研究课题,其旨在提取出能够精简、准确的描述新闻文档主旨内容的句子。现有的
论文部分内容阅读
随着互联网技术飞速发展,新闻信息数量快速增长和传播。海量新闻信息的产生和迅速传播丰富了人们的生活,但是也会带来信息过载问题,人们在获取信息过程中浪费了大量的时间。随着人工智能及自然语言处理技术的发展,新闻主题句提取研究和应用很好的解决了这一问题。新闻主题句提取是自动文本摘要等文本自动处理应用的基础工作,是自然语言处理领域中重要研究课题,其旨在提取出能够精简、准确的描述新闻文档主旨内容的句子。现有的主题句提取研究,大多都基于句子或词的特征分析提取主题句,仅考虑文本统计特征或者位置特征而忽视文本的语义信息及主题信息,也没有充分考虑到文本的上下文背景信息,影响了主题句提取的效果。或者基于图模型分析文档内部句子和词的关联关系,以迭代的方式对语句的重要度进行排序。普通的图模型仅表示了句子和词的二元关系而忽视了文档中句子和句子、词和词、词和句子之间存在多元关系。新闻的主题句不仅是准确表示新闻主题内容的语句,还是新闻文档中重要的语句。基于现有研究的局限以及新闻主题句的特点,本文提出基于文本特征与关联分析的新闻主题句提取研究方法,将主要从以下两个方面进行研究:1)文本特征提取的研究。从新闻文本向量表示入手,提取新闻文本的统计特征,语义特征和主题信息特征全面准确的表示新闻文本内容的统计特征、新闻语义信息、上下文信息以及全局主题关系并利用相似度计算文本中句子和文本主题的关系。2)文本内部关联分析的研究。本文构建超图模型表示新闻文本,将新闻文中的语句构建为超图的边,将词语构建为超图的点,分析新闻文本中句子和词,词和词、词和句子之间的高阶关系。并结合语句与主题关系及标题关系合理设计边的权重,以区分描述性句子和非描述性句子。根据边的权重对超图进行随机游走,并对语句重要度进行排序。最后利用最大边界相关算法控制主题句冗余度,使提取出来的主题句能够全面的表示新闻文档的主要信息。本文结合统计特征、语义特征和主题信息特征合理的表示文本中语句与主题的特征关系,本文的特征提取的方法在文本分类实验中取得了较好的效果。利用超图模型分析文本中多个对象关系,利用提取的文本特征合理的设计边的权重,通过超图的随机游走提取主题句,对语句重要度进行排序。该方法在新闻主题句提取上取得了较好的效果。
其他文献
汉代谶纬的神学性,使其与古代神话传说具有天然联系。在面对古代的神话传说时,它采用两种方式进行接受:第一种是对古神话传说嵌入或阐释,从而实现对它的重构;第二种则是将古神
以五节芒02142(Miscanthus floridulus)和杂交种湘杂芒2号(M.sinensis×M.1utarioriparius)为材料,比较了3种催熟剂(农挞、乙烯利及二者的混合制剂)对芒属植物的催熟效果。结果表
目的 :观察对新生儿黄疸患儿进行综合性护理的临床效果。方法 :将2016年4月至2017年4月期间安徽省第二人民医院儿科收治的104例新生儿黄疸患儿随机分为A组和B组,每组各有52例患
《中华人民共和国城乡规划法》中明确了规划管理内容包括城乡规划的制定(包含城乡规划的审批)、城乡规划的实施、城乡规划的修改、监督检查四个方面,本文研究的乡村规划管理
[热点材料] 经国务院批准,自2009年起,每年5月12日为“防灾减灾日”。2009年5月12日是国家首个“防灾减灾日”,届时将开展一系列的活动宣传。活动主要围绕四个方面展开:一是开展中小学防灾减灾专题活动;二是开展各类防灾减灾教育活动;三是开展形式多样的防灾减灾演练;四是开展“防灾减灾日”集中宣传活动。 [相关链接] 我国是世界上自然灾害最为严重的国家之一。灾害种类
模拟考题:为了庆祝新中国成立60周年,某校九(2)班开展了以“我爱你,中国”为主题的系列活动。请你也积极参与进来! [辉煌成就展示]在搜集新中国成立60年来取得的成就时,小涛同学搜集到了以下材料。 材料一 统计显示,1952年,中国GDP只有679亿元人民币,占世界经济总量比重甚小;到1978年增加到3645亿元,只占世界经济总量的1.8%;而到2008年,一举突破30万亿元,位居美日之后,
目的:观察麝香珍珠膏治疗体表慢性溃疡的临床疗效.方法:选择60例体表慢性溃疡患者,随机分为两组,其中治疗组30例,对照组30例,治疗组应用麝香珍珠膏治疗,对照组予以凡士林软膏
目的观察高压氧治疗急性脑梗死的临床疗效。方法选取医院收治的急性脑梗死患者104例为研究对象,随机分为观察组和对照组,每组52例。对照组采用常规药物治疗,观察组在对照组治