基于GPT-2模型的科技咨询报告自动生成方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:chenchenyaya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科学技术研究中,科技发展战略是一个至关重要的问题,其难点在于如何对未来科技趋势做出准确判断。现有的科技趋势判断主要由专家经验得出,主观性较强而且不够全面;此外,判断结果主要以科技咨询报告的形式呈现,且报告需要多名专家参与撰写,耗时耗力。针对科技趋势判断中的上述问题,论文对自然语言处理领域的科技文本自动生成技术开展研究,从而为专家撰写科技咨询报告提供前置支撑。本文研究内容主要有三个部分,一是构建价值评估指标体系,根据场景需求,多维度科学评估科技信息的价值;二是基于自然语言处理技术中的GPT-2模型,研究自动生成科技文本的方法,以根据特定的科技话题生成与其相关的文本概述;三是提出一种科技长文本质量评估指标,用于评估自动生成的科技长文本质量。针对科技趋势需要多维度评估判断的问题,通过分析科技专利价值的固有属性,提出了一种价值评估指标体系,该指标体系具有技术、经济、法律、专利权人4个一级指标,以及与之对应的10个二级指标和41个三级指标。该指标体系可以从多个维度对科技内容进行较为全面的评价。针对科技文本撰写过程成本高昂的问题,通过分析自然语言处理中的静态词向量和动态词向量模型,提出了一种科技长文本的自动生成方法。该方法结合动态词向量模型的GPT-2技术与BERT模型的中文分词表进行构建。实验结果表明,该方法可以根据输入生成一段相关科技文本,且原始数据规模越大、与主题关联程度越高,模型所生成的文本质量就越好,该方法可以降低时间与人力成本。针对传统指标无法对科技长文本进行评估的问题,通过分析基于词向量方法的评估指标、基于深度学习GAN方法的评估指标以及机器翻译领域的BLEU指标,提出了一种科技长文本质量评估指标。该指标通过用词的准确性、语句的连贯性、文章结构的合理性与科技文本内容的关联程度四个方面对科技长文本进行评估,可以对生成的多个科技长文本质量进行比较。实验结果验证了评估指标的可行性。
其他文献
随着中国航天技术的不断发展,星载嵌入式计算机的系统功能日益复杂,执行的任务形式和种类越来越多样,在计算和存储资源受限的背景下,如何对其存储的数据进行高效的分析和管理成为了新的挑战。SQLite数据库是一种直接嵌入到应用程序中、零配置、轻量、高效的软件,能够很好地解决单一文件系统对大量数据的统计分析能力不足的问题,有效降低应用开发的复杂度,提高应用程序的性能和稳定性。本论文以实际项目需求为背景,结合
作为无线通信系统的重要组成部件的天线,其宽带化研究显得尤为重要。近几十年来,微带天线的发展极大推动了天线事业的进步,然而其进一步发展受限于较窄带宽。而近年来,一种直接以超表面作为辐射体的天线发展迅猛,其具备微带天线的低剖面等众多优点,还相比微带天线有着更加丰富的模式和更宽的带宽。尤其是在引入特征模理论来预测模式和指导馈电结构设计之后,超表面天线在宽带等多个方面取得了长足进步。然而,这类天线的馈源还
染色质三维结构在基因调控、DNA复制、DNA损伤修复及疾病中起到关键作用,通过折叠将线性基因组上本不相邻的基因位点拉近从而支持远程交互发生。为从全基因组层面研究染色质空间结构与调控关系,高通量染色体构象捕获技术(High-through chromosome conformation capture,Hi-C)应运而生。通过对细胞系中蛋白介导的邻近DNA片段高通量测序,获得全基因组范围内染色质相互
本文利用集成学习算法来解决辐射源识别问题,针对分类器设计过程中常见的特征选择、信噪比变化、新辐射源样本这三个问题,给出了相应的解决方案,并通过仿真实验证明方案的有效性。为了解决更复杂的辐射源识别问题,分类器中必须引入更多的辐射源特征,这会导致信号处理流程的负担过重;而且特征向量维度的增加容易在分类器的训练过程中造成计算量大幅度提高,由于集成学习算法由许多个基分类器构成,计算量对算法的影响会更加明显
视觉目标跟踪是计算机视觉的核心问题之一。基于孪生网络的判别式深度学习方法在单目标跟踪领域取得了优越的性能,但是为了保证跟踪速度,主流的跟踪器普遍采用常规卷积主干网络,导致模型在跟踪精度上有所损失。针对现有跟踪器未能有效挖掘目标特征的缺陷,本文引入注意力机制,构造了自注意力和空间注意力模块实现判别学习和特征融合,在不显著增加额外计算量的同时提升了单目标跟踪模型的性能。此外,针对多目标跟踪中基于中心点
微服务架构将应用程序划分为一组松散耦合的细粒度服务,这些服务相互协作形成了多条存在交叉的微服务链。合理地为服务分配资源,能够有效解决服务链交叉带来的资源竞争问题,同时也是任务调度过程中提高资源利用率、降低任务响应时间的关键。而现有的研究中往往忽视或简化了服务链交叉访问微服务时产生的冲突问题,导致系统调度效果差。本文针对以上问题,从系统建模和调度算法两方面进行了优化研究,具体工作如下:(1)为准确预
伴随着集成电路对DC-DC变换器的智能化、可配置化以及产品设计和迭代周期的快速化要求,数字开关电源受到了广泛的关注。其环路控制通过数字方式构成,具有可配置参数,设计周期短,应用环境灵活,可实时监控工作状态的优势。数字脉宽调制(DPWM)电路是数字DC-DC控制环路的关键部分。其性能决定了DC-DC输出电压的范围、精度以及纹波大小,故高精度DPWM的实现是值得关注的设计要害。本文讨论了计数器、延迟链
随着高通量基因分型技术的发展,复杂疾病的研究重点逐渐转向对全基因组关联分析(GWAS),其中主要面向的对象是单核苷酸多态性(SNP)。SNP是指基因组上由单个核苷酸变异所引起DNA序列多态性,是人类遗传中一种最常见的可遗传变异。研究表明,人类患有的大多数疾病都与SNP有着密切的联系,可以通过对多致病因素与疾病的因果关系建模,来辅助医生对病人进行提前诊断和精准治疗。但SNP数据集通常样本量较少,信噪
21世纪以来,物联网以及大数据,云计算不断发展为嵌入式存储器尤其是SRAM的变革带来动力。移动终端的高稳定性,低功耗的需求促使着人们对更低工作电压环境下SRAM技术的研究。但低电压下最小尺寸的SRAM存储单元的读写能力迅速下降,先进工艺下的工艺波动带来的影响越来越大,常用的传统6管(Transistor,T)存储单元结构越来越不适应先进工艺下的稳定性需求。因此,论文从常用的6管存储单元结构出发,基
天地一体化网络(Space-Terrestrial Integrated Networks,STIN)是未来军民用通信网络的重要发展方向,统一的管理控制和规划是STIN的建设目标,这要求STIN具备灵活可重构的架构和极高的可靠性。由于STIN的自身特性,STIN中的可靠通信面临特殊的挑战。一方面,STIN规模庞大、结构复杂,且网络拓扑由于卫星运动而时刻发生变化,但传统网络管理运维方式静态且固化,效