面向网络评论的短文本自动摘要生成模型研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:A136C316
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
技术是指通过模型与算法将一段原始文本提炼为简短的概要。短文本摘要生成技术在网络评论的观点提炼、短文本信息压缩等方面有着广泛的应用。目前主流的短文本摘要方法分为生成式摘要和抽取式摘要。目前生成式文本摘要具有任务复杂度高、数据依赖强、重复生成、生成结果不通顺等问题,难以达到实际应用的要求。而短文本的抽取式模型采用基于删除的句子压缩方法,对于多句的提炼、摘要生成难以完成且压缩率难以达标。为了更好的满足现实生产中的短文本摘要任务需求,提出了联合关键词抽取与句子判别的短文本摘要生成模型。在传统的删除式句子压缩模型基础上设计了关键词抽取模型抽取关键词,通过规则重组算法将关键词重排序生成多个候选摘要语句,最后通过设计的判别模型对候选语句进行打分,输出得分最高的语句。并在网络的设计中引入了预训练语言模型BERT来提高网络表现。预训练语言模型的加入大大减少了模型对样本量的依赖,提高了模型对于深层语义的提取。而判别模型的加入保证了模型最终生成模型的可读性以及语法上的完整流程。最后基于游戏论坛的真实用户评论通过人工标注构建了规模较小的中文摘要数据集,并基于该数据集设计实验通过ROUGE指标来对模型进行指标评估。最终本文模型ROUGE-1得分0.66,ROUGE-L得分0.53,均高于本文复现的生成式模型pointer-generator模型和删除式LSTM模型。实验证实了本文提出的改进有效的提高了生成摘要的质量。
其他文献
任务旨在从文档中生成一段简短的、连贯的并保留源文本关键信息的自然语言摘要。不同于传统的抽取式文本摘要,生成式文本摘要是对源文本的内容加以抽象化的理解,然后再重新生成一段摘要文本。目前主流的方法都是将神经网络模型应用到生成式文本摘要中,这些方法一般使用序列到序列的框架来构建文本摘要模型,且这些模型通常都引入了一些优化组件来解决生成式文本摘要的袋外词、重复词等问题,例如使用指针生成器结构,覆盖率机制和
双臂机器人协同作业具有工作空间大、负载能力强、适用场景多等优势,但在面临复杂多变环境时仍然存在挑战。人机协作综合了人类解决问题的灵活性和对环境变化的适应性以及机器人工作的耐久性和动作准确性等优点,适用于布局紧凑、精准度高的柔性化生产线,符合生产小型化、精细化的需求。然而,当前双臂协调控制技术仍不完善,人与双臂机器人的高效协作更是一大挑战。在此过程中,如何实现双臂根据环境变化进行实时运动轨迹补偿是最
矢量信号源由模拟信号源发展而来,是目前无线通信系统测试中的常用设备。随着无线通信技术的发展,尤其是近年来5G技术的发展,通信系统正朝着高速、多模式的方向发展,这大大提高了无线通信系统测试的难度,因此对矢量信号源的性能也提出了更高的要求。直接数字频率合成技术(Direct Digital Synthesizer,DDS),软件无线电(Software Defined Radio,SDR)以及现场可编
扭秤是实验室测量弱力的经典工具,通过对扭秤定向偏转角度的精确测量,可以计算出扭秤所受的力矩的大小。自准直仪作为一种测量微小角度变化的常用的精密计量测试仪器,其优点是利用光学自准直原理,可以实现对微小角度变化的非接触测量。鉴于精密扭秤实验对更高精度、更高分辨率的角度测量系统的需求,本课题在充分调研国内外高精度光电自准直仪研究方案和应用技术的基础上,设计并成功搭建了一台可以实现二维角度测量的高精度、高
超快超强激光近年来取得了进一步发展,体现出峰值功率更高、脉冲宽度更窄的趋势,为人类研究光与物质之间的相互作用、探索极端条件下的新物理现象与规律,提供了强有力的技术支撑,这也使得对激光脉冲的诊断提出了更高要求:时空分辨和单发测量。本文针对超短脉冲诊断完成了两种重构算法的研究工作:(1)根据色散扫描(Dispersion scan,D-scan)技术原理实现了D-scan重构迭代算法,(2)结合频域干
TLJ1100t架桥机适用于中交路桥建设集团宁波象山湾疏港高速多种混凝土预制箱梁左右双幅的架设施工。能与TLC1100t运梁车配合完成箱梁的架设作业。同时能够适应首、末孔施工,以及半预制半现浇工况,半路基半预制工况,桥面爬行工况等多种复杂工况。通过运梁车驮运,可以实现快速的桥间转移。TLJ1100t架桥机采用双主梁五支腿结构,跨两跨架梁,运梁车尾部喂梁,前、后起重天车取梁,同步吊梁前行,空中横移箱
积分方程在数学、力学、物理学、机械工程、电子科学与工程、化学等多个领域发挥着重要的作用。带有延迟项的Volterra积分方程特别适合于描述生物学中种族繁衍、金融学中股票震荡等问题,受到越来越多学者的关注。但延迟项的存在为该类方程的算法理论研究和数值模拟带来了特殊的困难。本文对带有延迟项的第二类Volterra积分方程研究基于重心有理插值的数值方法,包括算法构造,收敛性和稳定性分析。第一章对于Vol
学位
基于人民网和新浪微博平台,以中美贸易战作为研究议题,本文分别对这两个平台上关于该议题的文本(2018—2020)进行内容分析,并通过比较二者在内容呈现特征方面的差异,对主流媒体的舆论建构提出优化建议。本文分别在人民网和新浪微博以“中美贸易战”为关键词检索相关新闻和微博,收集在页面展示的所有数据,最终得到6378篇相关文章和92676条相关微博。将获取到的数据进行清洗,通过文献分析、文本分析、比较分
近年来,越来越多研究发现新兴污染物对生态环境和公共卫生有潜在的威胁。卡马西平(CBZ)作为一种持久性有机污染物,难以被传统水处理工艺去除。基于硫酸根自由基(SO4-·)的高级氧化技术对水体中的难降解有机污染物具有良好的去除效果,该论文设计循环流装置,构建炭活化过硫酸盐氧化体系,研究分析了该体系中活性炭纤维(ACF)重复利用率低的原因,引入直流电构建直流电耦合活性炭纤维活化过硫酸盐(E/ACF/PS