【摘 要】
:
自然语言处理的发展离不开语言模型的发展,神经网络的出现为语言模型的研究和应用发展提供了强大动力,基于神经网络的语言模型也层出不群。然而,神经网络语言模型的研究过程中也存在一些问题,需要研究和解决。面对神经网络语言模型越做越大,参数的调整是一个重大的难题,找出一个可以度量网络表达能力的理论分析,让参数的调整变得容易变得十分重要。其中对于模型的压缩,减少模型参数量也成为一个重要的研究热点。本文主要针对
论文部分内容阅读
自然语言处理的发展离不开语言模型的发展,神经网络的出现为语言模型的研究和应用发展提供了强大动力,基于神经网络的语言模型也层出不群。然而,神经网络语言模型的研究过程中也存在一些问题,需要研究和解决。面对神经网络语言模型越做越大,参数的调整是一个重大的难题,找出一个可以度量网络表达能力的理论分析,让参数的调整变得容易变得十分重要。其中对于模型的压缩,减少模型参数量也成为一个重要的研究热点。本文主要针对目前神经网络语言模型存在的两个基本问题展开研究:(1)基于分离秩下界分析的神经网络结构可解释性(2)基于低秩分解的神经网络语言模型的压缩为了研究神经网络语言模型结构的可解释性,分离秩被定义,作为度量句子中上下文依赖程度的度量指标。分离秩的下界可以量化分析循环神经网络的结构。基于分离秩与循环网络的理论分析,设计了自适应的循环神经网络语言模型。大量的自然语言处理任务的实验结果验证了循环神经网络语言模型结构可解释性机制的正确性。文本分类实验结果说明了自适应的循环网络能够实现比传统双向循环神经网络模型更好的分类效果。面对大型预-训练语言模型(GPT1,GPT2和BERT等)难训练问题,提出了张量化的神经网络语言模型,实现了神经网络语言模型的压缩,本文利用张量的低秩分解技术结合参数共享的思想在大型预训练语言模型的基本单元Transformer语言模型上进行了张量化计算,在多头注意力层实现8倍的参数压缩。在三个语言模型建模数据集上进行实验,取得与当前最好的模型相当的结果。同时,模型的整体参数压缩近一半。在英-德机器翻译实验上,保证翻译效果的同时,实现模型参数1倍的压缩。
其他文献
随着大数据时代的到来,借助于海量的数据信息,具有复杂结构的深度神经网络以强大的特征学习和表达能力在计算机视觉领域超越了手工提取特征的传统方法。伴随着网络性能的提升,网络中参数数量也成倍的增长,这给在计算、存储等资源受限的硬件设备上部署模型带来了巨大的挑战。因此,将优秀的模型算法加载到端侧设备上运行,提升资源受限平台上深度神经网络的性能,有利于技术的落地,具有很大的应用价值。针对上述问题,本文提出了
向制造业学习过程中,制造业与建筑业的趋同性强化了建筑“产品”的概念。制造业先进理念技术逐步引入到建筑中,然而,应用的深度与角度存在一定的局限性。建筑工业化已成为设计建造的重要方向,但国内外研究中并没有对于“建筑产品化”的确切概念,通过文献研究法对比分析制造业产品与建筑异同,定义“建筑产品化”:以标准化为基础,通过模块化方法,提高各层级建筑产品通用化程度的建筑系列化过程。工程实践中,精益建造所提倡的
随着我国信息技术的发展,第三方检验检测行业越来越受国家和当地政府的重视,检验检测机构将开启一个全新的发展阶段。检验检测机构每天都会产生大量的检测数据,而传统的管理模式存在着效率低下、信息化薄弱、人工失误繁多、成本不受控制等因素的影响,制约了其发展。在检验检测机构的日常工作中,快速适应时代发展模式,优化工作流程,提高管理效率,从而提升检验检测能力,节约成本以及规避行业风险,这也是现今第三方检验检测机
在这个发展十分迅速的时代,汽车已经成为了必不可少的一个种交通工具,由于驾驶行为不当,造成的交通事故也越来越多。所以我们要对驾驶行为进行分析,讨论驾驶行为对驾驶员认知行为的影响,进而减少事故的发生。目前,对驾驶行为的定义还不是很准确,使用的方法也不尽相同,因此分析可能不够全面。在这项研究中,我们收集了新颖的数据语料库,包括驾驶数据和驾驶员的认知得分,以分析驾驶行为。我们从驾驶行为(例如:转向角,速度
安全管理是建筑领域在进行管理时重点关注的任务之一。现阶段,国家实力的进步带动了建筑业的快速发展,建筑领域也在不断向数字化迈进,但是因建筑施工所导致的事故以及人员死亡也在不断增加。为了能够减少施工事故的发生,更好地保护施工人员的身心健康,有必要加强对建筑施工事故报告的研究,并从中总结经验。在过去,建筑施工安全风险的总结,主要是通过相关人员从案例或相关领域知识中人工总结经验并形成一套安全管理办法。为了
随着我国经济的高速发展,对能源的依赖性也越来越强。近年来我国钻井技术不断发展,海上石油开采能力越发提高。海上石油开采不仅对开采设备的强度腐蚀性等方面拥有严格的要求,而且需要更高精度的传感器设备、传输系统和录井软件来采集和处理井下数据。目前我国的录井软件对国外的依赖性比较高,由于录井软件非常昂贵,每年需要支出大量外汇用于购买软件。并且引入软件很少提供中文的支持,普通的钻井操作人员使用难度较大。本文提
在过去的十几年,随着各种社交媒体的迅速发展,越来越多用户通过社交媒体发布大量与健康问题相关的信息,基于人工智能的方法研究这些信息取得了大量的成果,但也存在诸多挑战。一方面,通过公众发布的社交媒体数据,可以研究出他们对一些公共健康问题的态度,但这些通常都是无标注的,深度学习模型难以发挥优势,而大规模标注数据的代价又十分昂贵。另一方面,通过用户发布的隐含个人健康问题的信息,一些研究聚焦于潜在的抑郁、厌
对印刷电路板(Printed Circuit Board,PCB)进行贴装作业之前,需由专门的质量检测人员对相应印刷电路图中的电子器件进行一一核对,核对的内容主要为电子器件类型、大小、方位等信息,重点是核算清楚带有极性的电子器件类型。采用人工的核对方式对于那些使用电子器件较少的PCB而言是较为可靠的,但是随着相关技术的进步,印刷电路板上可贴装的元件数量呈倍数增长,过去的人工核对方式不仅需要消耗大量
随着电子商务的发展,人们迈入了信息过载的时代。面对日趋严重的过载数据现象,推荐方法是一个很好的解决方案。它通过收集用户历史记录,挖掘用户喜好,生成相应的推荐信息。推荐系统不仅帮助用户从海量数据中发现他们感兴趣的新内容,如图书,音像,餐厅,音乐等。同时帮助运营商准确挖掘出符合用户兴趣的信息。比如京东、淘宝的商品推荐,美团的餐厅推荐,抖音、快手的短视频推荐等等。在推荐系统中,实现用户偏好的精准发现是实
品牌建设是我国由大变强的重要工作,习近平总书记关于“三个转变”的讲话、国务院办公厅《关于发挥品牌引领作用推动供需结构升级的意见》文件、国家质检总局《质量品牌提升“十三五”规划》,确定了国家的品牌战略,天津市制定的《天津品牌指数及评价方法》是天津市品牌建设工作的重要组成部分。本文基于知识图谱和问答系统技术,构建了品牌指数知识图谱,研究和开发了“品牌指数问答系统”,系统能够回答品牌指数平台相关的问题。