专利问题理解模型与算法研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:bazhahai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,知识产权保护越来越受到世界各国的重视。专利作为知识产权的一种重要形式,数量在逐年增加。为了更好地使用数量愈加庞大的专利,首先需要理解专利的问题。专利的问题包括两个方面,即专利文本中的问题句和专利问答中对专利的提问。专利作为一种复杂的科技文本,是围绕问题句进行展开的。因为问题句描述了专利所要解决的问题,所以识别问题句是专利问题理解的关键。目前,通过计算机识别专利中的问题句面临着专利问题句相关的训练数据集稀缺和无法准确地理解并识别问题句这两个挑战。专利文本中,问题句主要存在于“背景技术”段落中,因此将该段落进行分句从而获得候选问题句(候选问题句包含问题句和非问题句),候选问题句可作为训练数据集。此外,本文提出基于图卷积神经网络的专利问题识别模型。该模型从每一个候选问题句中提取两组特征,即,提取句子中标志着问题句的转折连词和有情感色彩的副词、形容词、动词这三种词性的词做为一组特征;根据专利文本结构上的特点,提取句子与专利权利要求之间关联信息特征做为另一组特征。除了理解专利文本中的问题句外,理解对专利的提问则是专利问题理解领域中所面临的另一个问题。因为人们通常不但想知道一篇专利解决了什么问题,还希望知道个人的需求在专利文本中是如何被解决的,这就需要专利领域的问答模型。专利问答模型的研究目前面临着公开数据集稀缺;针对专利文本提问文本通常为长文本不易交互;专利文本涉及的领域广泛,词语差别大,无法准确编码这三个问题。为了解决数据集稀缺的问题,本文参考了应用广泛的多轮问答公开数据集Co QA,构造专利领域的多轮问答数据集。对每一篇专利,设计五轮问答,构成专利问答数据集。此外本文提出了基于注意力机制的专利问答模型,该模型通过组合使用注意力机制与门控循环单元,保留提问和专利文本中远距离词语间信息的同时,又不会丢失位置信息和上下文信息,从而克服不易交互的问题;通过预训练模型BERT对进行词语编码,同时通过词级注意力机制微调词向量,从而克服无法准确编码的挑战。在专利数据集上,本文将提出的基于图卷积神经网络的专利问题识别模型和基于注意力机制的专利问答模型与对比模型进行对比,实验结果表明本文提出的模型优于对比模型。
其他文献
内蒙古干旱-半干旱草原植被表现为多年生禾草和小半灌木与生物土壤结皮(Biological soil crusts,BSCs)斑块镶嵌分布的格局特征。BSCs是典型草原最重要的地表生物覆盖体,在稳定地表环境,阻止就地起沙以切断沙尘暴沙源,促进土壤微生物及微小动物的繁衍、生存以改善土壤物质转化发挥着重要作用,其存在是该区域土壤和生态系统健康的重要标志之一。近年来,草原区煤矿的露天开采引起的粉尘、重金属
学位
<正>慢性阻塞性肺疾病患者存在较为严重的呼吸气道受限情况。肺间质纤维化是慢性阻塞性肺疾病较为常见的并发症,是指患者的肺部组织受到损伤,出现呼吸衰竭等表现,严重者可导致患者死亡[1]。本院对所选慢性阻塞性肺疾病合并肺间质纤维化患者开展罗红霉素联合N-乙酰半胱氨酸治疗,并取得满意效果,现将结果报告如下。1资料与方法
期刊
异常球菌S9(Deinococcus sp.S9)是一种红色嗜热细菌,对辐射、温度和重金属具有较强抗性,同时具有较高的DNA损伤修复率,因为该细菌基因组包含DNA修复和抗辐射的基因,例如rec A、rec N、rec F和rec R。本文利用分子生物学和生物信息学方法,研究了Deinococcus sp.S9源RecA和RecN蛋白的氨基酸序列、表达、纯化及活性,为RecA和RecN蛋白的功能以及
学位
甜瓜是一种重要的园艺类瓜果作物,在全世界被广泛栽培。因其营养丰富、口感极佳,深受消费者喜爱,故研究甜瓜果实成熟具有重要意义。目前有关脱落酸受体参与果实成熟的研究主要集中在番茄和草莓,其它肉质果实的相关研究较少。本文以甜瓜品种河套蜜瓜为研究材料,探究了脱落酸(ABA)受体基因CmPYL4和CmPYR1基因在甜瓜果实成熟过程中的作用,取得的主要结果如下:(1)对甜瓜脱落酸受体基因家族成员进行了鉴定,得
学位
报纸是新闻媒体的一种手段,具有记录实事,传播信息的作用。作为信息传播的重要载体,报纸的内容应当是真实的、及时的且可靠的。蒙古文历史报纸是少数民族地区用蒙古文记载实事新闻的印刷出版物。经过长时间的馆藏存储,报纸文献的页面出现了褪色、缺失、污损、折叠等不同程度的损坏。为了更好的保存蒙古族文化遗产,蒙古文历史报纸文献的数字化工作正在全面实施。然而,由于蒙古文报纸文字书写的独特性以及样本数据集稀少等问题,
学位
精准表征纤维素酶与底物有效吸附,是优化预处理条件,探究纤维素酶促水解反应机理的重要前提。本论文利用毕赤酵母异源表达、制备纤维素酶荧光探针;明确了纤维素酶荧光探针的吸附条件;考察了不同细胞壁与纤维素酶吸附特点。主要结果如下:(1)构建了3种重组质粒,并在毕赤酵母中异源表达,获得重组菌株,发酵8天时,Cel7A-M酶活为0.21 U/m L,Cel5A-G酶活为0.41 U/m L,BglⅠ-B酶活为
学位
Fortran语言一直被广泛用于解决科学和工程中的计算密集型问题。由于多核架构的出现,追求Fortran的并行性成为科学计算领域中的一个重要目标。然而在大数据时代,多核架构由于计算资源不足和可扩展性差,导致多核并行后的Fortran程序仍然无法适应数据的爆炸式增长。云计算作为一种商业计算模型,不仅具有丰富的集群计算资源,而且具有理想的灵活性和可伸缩性,这为解决多核并行领域中计算资源不足等相关研究问
学位
多核苷酸激酶/磷酸酶(polynucleotide kinase/phosphatase,PNKP)能催化γ-磷酸基团从核苷三磷酸转移到DNA或RNA的5′羟基末端,导致核酸磷酸化,而核酸磷酸化对DNA损伤修复起关键性作用。噬菌体T4 PNKP是PNKP研究中的典例,也是分子生物学中最常用的酶之一。噬菌体T4 PNKP具有5′激酶和3′磷酸酶活性,分别介导磷酸化和去磷酸化反应,并且反应可同时进行。
学位
随着汽车行业和通信技术的飞速发展,车联网技术也得到了快速发展。智能化车辆的出现以及智能化服务的普及导致人们对服务需求的类型和数量也不断增多。由于车辆自身硬件配置的限制,无法满足计算密集型复杂车辆应用处理的资源需求和低时延需求。边缘计算的提出有效的解决了上述问题,同时也产生了边缘资源滥用的新问题,不合理的边缘资源分配方案导致边缘服务器的资源利用率不高。特别是对一些需要多服务器联合才能处理的复杂任务,
学位
急性T淋巴细胞白血病(T cell acute lymphoblastic leukemia,T-ALL)是一种免疫表型高度异质性的血液系统恶性克隆性疾病。基因组DNA甲基化修饰变化是T-ALL重要的表观遗传学调控方式,在正常和肿瘤细胞中维持稳态。近年研究证实,在T-ALL发生发展进程中DNA甲基化转移酶DNMT家族和去甲基化酶活性的TET蛋白家族持续动态调节各亚型细胞群,维持异质性特性中发挥重要
学位