主题引导的关键词生成算法研究

来源 :中国民航大学 | 被引量 : 0次 | 上传用户:pooh__5210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词是能够代表文档的整体含义和主题的词或短语,它可以使读者快速掌握文档的主要思想。传统的抽取式关键词预测方法将源文本分解成若干词或短语后,通过对其进行排序和选择来实现自动关键词提取。这些方法忽略了文本背后的深层语义,并且无法预测未出现在源文本中的关键词。生成式关键词预测方法基于序列到序列(seq2seq)架构的神经网络模型,它可以直接从词汇表中挑选单词来生成关键词,从而可以解决上述问题,也是本文的研究目标。但是由于缺乏高层信息的指导,现有的关键词生成算法无法准确地捕捉输入文本的主题,容易生成与输入文本无关的关键词。本文从以下两个方面对现有的关键词生成算法提出了改进方法:现有的关键词生成模型主要基于欧式空间的向量运算,然而,它们捕捉层次结构的能力受到欧式空间自身性质的限制。本文提出了一种基于双曲神经网络的关键词生成模型。该模型使用双曲神经网络作为编码器与解码器,旨在将源文本的层次主题信息编码为双曲空间中的低维表示,从而更可以有效地发掘文本中的语义层次结构,用以在解码时引导关键词的生成过程。此外,本文提出了一个新的双曲注意力机制,可以使得模型在解码时选择性地关注层次语义结构中抽象层级更高的文本,以进一步提升关键词预测的准确性。编码器-解码器结构的关键词生成模型旨在学习在给定原文情况下生成目标关键词的条件概率,仅能隐式地建模原文和目标关键词的语义信息,无法捕捉关键词预测任务中复杂的语义关系。本文提出了一种基于高斯混合变分自编码器的关键词生成模型,通过引入隐变量来显式地表示原文和目标关键词之间的语义关系。并且该模型假设隐变量服从高斯混合分布,借助神经主题模型来计算混合高斯分布的参数,用于引导模型发现原文中的不同主题并针对各个主题生成特定的关键词。通过在常用的关键词预测数据集上进行的大量实验,本文证明了所提出的两种模型相较于基线模型在关键词预测准确率上具有显著提升。
其他文献
背景:抗程序性细胞死亡蛋白-1(programmed cell death protein-1,PD-1)单抗显著改善了晚期非小细胞肺癌(non-small cell lung cancer,NSCLC)患者的预后。但是,目前临床上缺乏简便可靠的预测标志物。本研究旨在探究NSCLC患者的临床特征和外周血实验室指标与PD-1单抗治疗疗效及生存的相关性,并以此为基础建立相应的预测模型。方法:本研究回顾
学位
随着计算机技术的爆炸性发展,信息系统的结构复杂度呈指数型增长,信息系统包含子系统的数量增多,子系统中业务功能的数量增加,造成信息系统的稳定性大幅下降。发生信息安全事件或者意外情况时,业务功能的中断在系统中极易形成连锁反应,导致其他业务功能相继失效最终波及影响到整个信息系统。在实际应用场景中,具备应急预案以及灾后快速恢复能力成为信息系统不可或缺的要素。对于复杂程度高、子系统繁多、业务间耦合程度高的信
学位
信息技术的进步与发展推动了数字社会的建设,智能设备与应用软件已经成为生产生活中不可缺少的部分,随之而来的是它们所产生的海量数据,如何利用这些数据并从中获取价值是当下所面临的一个新技术挑战。复杂事件处理是一种面向流式数据的处理理念与技术框架,它关注数据间的相互关系,能够实时处理多源异构数据,以领域知识与历史数据为模板,检测数据流中特殊的数据组合模式。因此复杂事件处理技术在决策分析、交通管理、集群监控
学位
背景:急性肺损伤(acute lung injury,ALI)是一种临床急危重症,严重影响患者的生存率,探索治疗急性肺损伤的有效方法一直是该领域的研究热点。有关急性肺损伤的治疗虽有许多研究,但目前仍无特效的治疗药物和方法。细胞周期依赖性激酶(cyclin-dependent kinase,CDK)在细胞增殖、分化、基因转录、功能调节方面起着极其重要的作用。近年来,研究发现,CDK抑制剂可以缓解炎症
学位
航班过站时间是由多个航班过站关键节点构成,影响因素众多,对航班过站时间的准确预估能够在航班延误发生后对下一班的航班离港时间作出正确判断,而对航班过站时间进行准确预估的前提,是对航班过站数据进行特征选择,找到影响航班过站关键节点时间的重要特征子集,分析多维航班数据与航班过站关键节点时间的关系。当下航班过站数据特征选择普遍采用传统的数据统计方法,然而航班过站关键节点时间影响因素复杂,采用传统方法筛选特
学位
背景:重复性经颅磁刺激(repetitive transcranial magnetic stimulation,rTMS)是一种非侵入性治疗慢性神经病理性疼痛(neuropathic pain,NP)的治疗方法,通常以大脑初级运动皮层(primary motor cortex,M1)为作用靶点。然而,关于rTMS治疗的最佳参数(治疗次数、刺激频率)以及能否实现长期镇痛效果仍存在争议。本研究的目的
学位
随着民航强国战略的提出,我国民航运输行业进入了发展的机遇期。《2020年民航行业发展统计公报》显示:2020年,我国运输总周转量接近800亿吨公里,旅客周转量突破6310亿人公里,旅客运输量达到4.18亿人次。持续增长的航空运输量导致空中交通管制压力增大,也对机场场面监视能力提出了更高要求。在视频采集等硬件部署基础上,实现对机场场面飞机目标的智能识别与跟踪,具有重要的应用价值。本文提出了一种基于深
学位
篇章级情感分析一直是自然语言处理中最活跃的研究领域之一。它在数据挖掘、文本挖掘舆情研究、和信息检索中也有着很高的出场率。事实上,由于它对商业和整个社会舆情研究的重要性,它已经从计算机科学延伸到管理科学和社会科学,如新闻传播、营销策划、金融分析、政治科学,甚至历史研究。因此,收集和研究情感意见已成为必要。本文具体内容如下:1、篇章级情感分析的关键在于是否能够准确有效的生成文本的情感表示,然而现有的模
学位
随着近年来我国经济的飞速发展和人口不断增多,商场、步行街、火车站、航站楼等公共场所下人群聚集的情况日益增多,这给公共安全管理带来了巨大的压力。随着计算机视觉的发展,基于视觉的人群分析在人群管理、交通控制、监控安防等方面受到了广泛的研究。现有工作主要是利用人群计数的方法判断监控场景下的人群聚集情况,很难提前对大规模人群的潜在危险发出预警。因此,本文主要关注人群分布预测问题,利用过去的连续帧预测未来的
学位
背景与目的遗传性危险因素在肺血栓栓塞症(pulmonary thromboembolism,PTE)的发病中起着重要作用,目前已知的遗传变异种类十分有限。本文旨在通过分析56名PTE患者的人类全基因组外显子测序(whole exome sequencing,WES)结果和临床资料,并重点分析部分个体和家系的血栓相关突变体致病意义,来更好地认识遗传因素与PTE发病的关系以及WES在PTE遗传风险评估
学位