面向句子分类的深度表示学习技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:a75838928
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
构建高质量的句子表示是句子分类获得更好性能的基础。传统基于高维向量的句子表示方法存在数据稀疏问题。近年来,基于深度学习技术构建的句子低维连续向量表示可有效缓解传统方法的问题,但还存在着一些重要的问题。其一,目前的方法只为每个句子学习单个表示,并基于该单表示进行分类。其二,目前的方法大多只利用句子的类别标签,而忽略了句子之间的结构关系。其三,目前的方法大多仅针对句子分类本身来优化表示,而对利用辅助任务促进句子表示学习的研究很少。本文针对上述问题,在现有研究工作的基础上开展面向句子分类的深度表示学习技术研究,主要工作和贡献包括:提出了一个基于差异化自注意的表示学习模型,通过注意力的转移为单个句子生成两份差异化的表示。该模型由一个共享记忆器、两个结构相同但参数不同的自注意子分类器以及一个样本判别器构成。基于提出的差异化损失函数,模型在训练的过程中可以使两个自注意子分类器分别关注句子不同部位的关键信息,从而基于两份有差异的句子表示分别进行分类。然后由样本判别器选择其中能获得最佳分类性能的预测结果。四个公开数据集以及一个本文提出的数据集上的实验结果均表明,相比于已有的基于自注意的分类模型以及基于组合语义的分类模型,本文提出的模型具有更优的句子分类性能,并能捕获句子中不同的重要信息。提出了一种基于距离约束的多样本表示学习方法,融合了样本间的结构关系进行句子表示学习。提出绝对和相对两种距离度量损失函数来约束表示空间中的句子结构关系,即在表示空间中:类间的句子距离更远,使得不同类别的句子之间具有更大的间隔;而类内的句子形成聚类结构,使得即使类别相同的句子也保持合理的类内差异。两种距离度量损失函数均能直接结合到现有的基于Softmax分类器的深度表示学习模型中,与分类损失函数一起优化句子的表示。四个公开数据集上的实验结果均表明,该方法能稳定地提升常见的多种Softmax分类模型的分类正确率,并能捕获到句子样本空间中的聚类结构。提出了一组基于层次长短期记忆网络的联合表示学习模型,联合建模句子分类任务以及其他相关联的辅助任务。该组模型均由一个双层的长短期记忆网络构成,上层的长短期记忆网络用于句子分类,底层的长短期记忆网络用于辅助的序列标注任务。在训练优化时,句子的表示学习过程同时被两个任务的标签信息所监督。两种监督信息由一个超参数来平衡。两个公开的意图识别及槽填充联合任务数据集上的实验结果均表明,该组模型能充分地利用辅助任务提供的信息,提升了句子分类的正确率。设计并实现了一个基于深度表示学习方法的句子情感极性分类演示系统。基于上述差异化自注意的表示学习方法以及距离约束的多样本表示学习方法,该系统具备两个功能:1)对于输入句子,返回分类模型给出的情感分析结果;2)利用丰富的可视化展示分类模型内部处理过程产生的一些中间结果。
其他文献
近年来由多重耐药革兰阴性细菌引起的医院获得性肺炎(HAP)的发病率显著升高,而抗生素治疗的选择越来越有限,严重威胁人类健康.黏菌素对大多数革兰阴性菌具有杀灭作用,是目前治疗由多重耐药革兰阴性细菌引起的HAP的重要手段.随着黏菌素在囊性纤维化和支气管扩张中作用的明确,雾化黏菌素因具有优化治疗的潜力而引起高度关注,但雾化黏菌素给药策略的实施有赖于对其药动学和不良反应的进一步认识.未来雾化黏菌素将成临床医师治疗HAP的重要选择.
非哺乳期乳腺炎(NPM)是一种发生于女性非哺乳期且以突发性乳腺肿块、脓肿形成、继发窦道以及溃疡等为特征的慢性乳腺炎症.近年来NPM的发病率逐年升高,但其具体发病机制目前尚未明确.棒状杆菌感染可能是导致NPM发生的重要病原体,但目前对于NPM的细菌检测仍局限于根据培养特性、生化反应进行鉴定,缺乏系统性研究.目前,病理检查仍是诊断及鉴别诊断NPM的金标准,临床NPM的治疗主要采用以手术治疗为主的综合治疗方式.未来深入研究棒状杆菌感染与NPM的关系可以为临床诊治NPM提供新思路.
近年来,随着多步攻击向精细化、智能化方向发展,网络安全形势越发严峻,传统的多步攻击检测和防御体系正面临着新的挑战。随着大数据技术的应用,数据价值不断增长,数据泄露事件呈上升态势,因此,研究能够适应新形势的多步攻击检测和防御技术具有重要意义。本文针对现有技术在多步攻击检测各个阶段的不足展开研究,分别从告警预处理阶段、入侵会话验证阶段、入侵场景构建阶段提出一系列解决方法,使多步攻击检测技术更加适应流数
多目标优化问题往往需要同时考虑若干个相互冲突的目标。大多数情况下,某个目标的改善可能引起其它目标性能的降低,同时使多个目标均达到最优是不可能的,只能在各目标之间进行协调权衡和折中处理,使所有目标尽可能达到最优。如何获取这类问题的最优解,一直都是学术界和工业界关注的焦点问题。演化算法是模拟自然界生物的进化过程产生的一种基于种群的随机优化算法。利用演化算法解决多目标优化问题具有独特的优势:可以解决大规
传统封闭式的网络设备阻碍了网络创新技术的发展,增加了网络优化的难度。软件定义网络(Software Defined Network,SDN)是一种控制与转发相分离的网络架构,控制平面通过集中式的方式提供开放统一的接口,实现灵活的可编程能力,简化了网络的管理,提升了网络的灵活性。由于SDN具有细粒度流管控、控制平面与数据平面分离、逻辑集中控制的特征,使其应用于大规模网络时面临着可扩展性问题。如何利用