【摘 要】
:
技术是指通过算法对文本信息高度概括后生成更加精炼、语义通顺的摘要,目的是为了在文本类数据中快速的筛选信息,解决信息冗余过载的问题。当前文本摘要的研究大多集中在传统
论文部分内容阅读
技术是指通过算法对文本信息高度概括后生成更加精炼、语义通顺的摘要,目的是为了在文本类数据中快速的筛选信息,解决信息冗余过载的问题。当前文本摘要的研究大多集中在传统抽取式技术,难以完成在大数据环境下的具体工作,得益于深度学习技术的不断发展,本文采用CNN与LSTM的方法实现了基于Seq2seq-attention机制模型的改进,并在Sogou CS新闻数据上,利用ROUGE评价指标,设置了4组实验进行对比和评估。首先,本文详细介绍了传统文本摘要方法。并以Textrank和TF-IDF两种较为突出的算法为例,详细梳理传统方法的原理及存在的不足,并将两种传统方法的结果与改进后模型的结果作比较。其次,由于传统抽取方法在文本摘要中未考虑上下文语义特征的信息,因此本文对基于传统Seq2seq-attention机制模型的框架拆分研究,并根据深度学习算法将CNN框架用在编码器,LSTM框架用在解码器,从而实现了模型改进,之后在同一数据集上与传统的基于RNN框架的Seq2seq-attention机制模型对比。实验表明,改进后的模型在ROUGE评分上高于传统生成式模型,可以表明改进后的模型能够运用在生成式文本摘要任务。再次,通过对数据集的拆分,将同一数据集按比例划分为训练集和测试集,在同一数据集且相同环境下设置了3组对比实验,改进后的模型与两种传统抽取式模型和传统生成式模型的进行比较。实验表明,传统生成式模型较传统抽取式模型的方法好;改进后的模型较传统生成式模型,在ROUGE评分是略有提升,说明改进起到了优化作用。最后,本文从工程角度分析文本摘要任务的具体需求,设计、实现并测试了基于改进模型的生成式中文文本摘要系统。通过测试表明,该系统能够满足在新闻类文本中的自动摘要任务。本文基于CNN、LSTM和Seq2seq-attention模型改进并构建c-s-a模型,共设置4组实验,采用LOSS损失值、ROUGE-L、ROUGE-1与ROUGE-2作为评价指标,就抽取式模型与生成式模型、传统生成式模型与c-s-a模型优劣及收敛问题进行比较。结果表明,在模型优劣评价中,生成式模型的ROUGE评分均比抽取式模型高,c-s-a模型的ROUGE评分比传统生成式模型评分高;在模型收敛评价中,c-s-a模型较传统生成式模型更快收敛,LOSS值更低。说明改进后的c-s-a模型更优,能够用于中文文本摘要自动生成任务,由于c-s-a模型的ROUGE分值增幅不明显等问题,在今后的研究中,需要对长文本处理进行优化。
其他文献
个性化习题推荐是教育数据挖掘领域的重要课题,习题推荐算法能够根据学生的习题提交记录来了解学生的学习进度,并根据一定的规则对学生推荐合适的题目,达到辅助学生学习的目
传统的偶联反应中常用的试剂多是反应活性高、选择性好的化合物如有机卤化物、有机硼化物、磺酸酯、有机金属试剂等。然而,这些试剂或多或少存在一些问题,如格氏试剂容易变质
三维环境地图作为基础数据对于大范围场景中的自动化生产、无人驾驶、智能交通等相关领域都有非常重要的意义。随着三维激光扫描技术的发展,利用激光扫描技术进行三维重建受
随着信息采集技术的快速发展,我们能够在不同角度或多传感器下捕捉物体信息。于是,一个物体通常具有多种表现形式,而所有表示形式构成的数据被称为描述物体的多视角数据。多视角数据提供了描述物体的丰富信息,同时也引入了跨视角分类问题。跨视角分类即查询图像集和测试图像集数据来源于不同视角的分类问题。目前该问题在理论研究上已取得一定进展,但同时还面临着许多难题和挑战。由于数据存在的视角差异性,当前跨视角分类算法
在交通需求日益增长的情况下,发展智能交通是确实可行的解决方案,而及时、准确地获取当前或未来时刻的交通态势,对交通治理和管控具有重要意义,也是智能交通的重要基础。在城
一直以来,农产品质量安全问题都是我国政府和广大民众关注的焦点问题。但是,在我国农产品质量安全治理过程中市场机制不完善、政府规制失效等问题依然较为突出,由于农户不安全生产行为所引发的农产品质量安全事件频繁发生,在以农户个体分散经营为主导的生产模式下,农户的行为偏好更是加深了农户决策行为的复杂性。因此,从行为经济学视角,研究农户行为偏好及政府规制对农产品质量安全监管的影响机理具有重要的理论及现实意义。
图像生成是通过计算机算法去学习源图像与目标图像的映射关系,该技术是计算机视觉中图像内容生成领域的一个重要研究方向。视频作为视觉传输的一个重要载体,它比图片蕴含着更
数字岩心重建方法有很多种,如数值重建、物理实验、混合建模等方法,但这些方法有着训练时间长、实现过程复杂等缺点。生成对抗网络(GANs)作为当前图像生成领域最流行的人工智
巴丹吉林沙漠位于我国境内的西北部,地处内蒙古省阿拉善盟的右旗,与大多数沙漠一样,这里由于气候干旱而降雨量稀少,最终导致了沙漠地区广袤且荒无人烟。但是,在巴丹吉林沙漠腹地却存在着七十多个永久性湖泊,地下水资源也颇为丰富,因而该地区成为水文地质学、气候学以及沙漠学研究的重点区域。近年来,众多学者在巴丹吉林沙漠地区的特殊研究背景下,以其独特的自然地质条件为前提,运用构造学、地球物理学以及地球化学等方法对
固体电解质型的电化学传感器,因其小巧的体积、简单的结构和低廉的成本,成为近年来人们研究的热点。由于电化学传感器的性能很大程度上由敏感电极的性质决定,选择一个合适敏