【摘 要】
:
文本分类是自然语言处理(Natural Language Processing,NLP)中的一项基础研究任务,而文本特征表示是分类任务的基石,其表征质量直接影响分类器性能。因此,研究高质量的文本特
论文部分内容阅读
文本分类是自然语言处理(Natural Language Processing,NLP)中的一项基础研究任务,而文本特征表示是分类任务的基石,其表征质量直接影响分类器性能。因此,研究高质量的文本特征表示尤为重要。近年,如火如荼的深度学习技术展现出强大的特征自动提取能力,并在多数自然语言处理任务中取得令人满意的效果。将深度特征学习应用到文本分类任务的过程中,存在以下三个影响模型最终分类性能的挑战:1)如何得到较好的词向量来表征单词;2)如何更好的提取并结合单词之间的信息;3)如何使最终句子向量能准确、全面地包含文本语义。针对以上三个机遇,本文依次展开以下三方面的工作:首先,本文提出一种新的门机制用于在单词表征的过程中字符(Character)和词(Word)的结合,以得到信息更加丰富的词向量。在词向量化的过程中,大量未登录词(Out of Vocabulary,OOV)被模型直接抛弃或随机初始化的做法严重影响模型最终分类性能。为解决这一问题,并且考虑到从字的角度构建单词更容易捕获词的形态学特征,本文同时从字级别和词级别的角度去建模单词,提出一个新的基于双边门机制的文本表征与分类模型。该工作在2018年国际标准语义测评SemEval的多语言绘文字(Emoji)预测任务中,取得远超过基准模型的成绩。相关系统描述论文发表于2018年的SemEval研讨会(Workshop)。然后,本文提出一种基于多注意力矩阵的句子表征方法进行文本分类。在文本分类任务中,注意力机制因其出色表现已得到广泛应用,但现存的注意力机制仍存在局限:利用单一向量同时提取文本在多类别下的特征,导致模型混乱度高。本文提出基于类别的多注意力机制矩阵从各个类别角度分别提取文本特征,提升注意力机制的纯度来优化分类模型。相关系统在2017年NLPCC的新闻标题分类任务中获得第四名,其论文发表于2018年IJCNN(CCF-C类)会议。最后,本文提出一种基于句子中心的文本表征优化方法。现存的深度学习分类模型在得到文本表征后直接将文本向量通过Softmax函数进行分类,没有考虑在得到文本向量后的优化问题。但在文本表征空间,相同类别下的样本应具有相似的实数向量,换而言之,类似的样本向量应当聚在一起。于是本文提出一个由全局类别中心向量约束的神经网络框架来优化文本表征,并进行文本分类。本文提出的类别中心向量用于辅助神经网络模型从类别全局的视角来抽取文本的类别特征,这部分工作发表在2018年的PAKDD(CCF-C类)会议上。本文在SST2、Yelp13、Yelp14、NLPCC2017、Twitter Emoje等多个真实公开的文本分类数据集和不同的文本分类任务上完成了大量实验。充足的实验结果表明,本文所提的三个模型都很好地应对了前文所述的三个挑战,并都获得模型分类性能的提升。
其他文献
资本主义经济中,证券市场是上市公司等汇集资本并分配给各竞争性投资需求的主要载体。由此,这些市场的良好运行就成为大众化,社会性的期望。而市场中股价的变动会向投资者传递出市场有效性的信号,股价包含更多特定公司信息也就意味着市场运行良好。那么特定信息如何包含在股价之中?这就需要通过披露高质量的财务信息。然而,有效证券市场的调节作用机制总是被信息掌握者所打破,企业希望提高股票的价格却时有披露虚假信息或误导
当前以交联聚乙烯绝缘(Cross-linked polyethylene,XLPE)电缆为代表的高分子材料绝缘电缆被广泛应用于大中城市输电网络构建。虽然XLPE电缆在运行初期绝缘性能优良,但随着运行年限的增加,其可靠性逐渐降低,成为影响电网安全运行的重大隐患点。故本文以目前应用最为广泛的XLPE电缆作为研究对象,对电缆故障的在线监测方法展开了研究,提出了一种基于灰色关联度分析的高压电缆故障利萨如图
公租房的发展需要相应法律制度的支持。保障公租房的循环有效运行是公租房管理中的重要环节,而公租房的退出监管无疑是重中之重。但是近年来学者们从法学角度对此方面的研究较少,以案例研究方法进行探讨的文献更是甚少。当前,公租房管理在立法层面呈现立法层次低,强制力不高,这导致公租房的监管主体缺乏完善的配套措施,使其退出监管得不到有效的执行;在实践层面,伴随各省各市各地区房价的攀升,符合公租房租赁条件的人群对优
图数据库在大数据时代扮演着重要且核心的角色,其中不确定图有着广泛的应用,如合著者关系网、生物分子网络、社交网络等。本文研究的对象是仅边具有存在概率的不确定图,研究
行政伦理既是公共行政学研究的核心主题之一,也是政府部门行政文化建设的重要内容,在当代社会,越来越受到公共行政学者的重视与研究。相比西方发达国家,特别是美国,中国的行
随着现代城市的发展,输电电缆入地化已经是大势所趋,电缆隧道是电网的重要组成部分。隧道日常巡检是提高电缆隧道可靠运行的保证,在保障电缆隧道内电缆与电气设备安全运行具有重要的作用。传统的电力隧道巡检主要是由人工进行,由于电缆隧道环境恶劣,且隧道高压设备众多。使得人工巡检效率低下,高压环境下也极其危险,为了满足地下电缆隧道智能化巡检的需求及弥补传统人工巡检作业的缺陷,论文研究和设计一种轨道式巡检机器人来
随着我国许多城市的地铁列车即将进入大修期,在运维过程中暴露出了许多在地铁转向架维修性设计方面不足的问题。其主要原因在于可维修性设计需要用到大量的故障、维修知识或数据,这些知识或数据通常不储存在设计相关的系统中,导致数据不易传递。因此需要一套能够及时反馈故障、维修相关知识或数据的系统,并能够通过系统对这些故障、维修知识与设计知识进行有效集成,从而支持对地铁转向架的可维修性设计活动。本文为了能够支持对
随着全球经济一体化的不断深入,国际经济、文化交流日趋频繁,基于X射线的检验检疫安检工作量也不断增加,目前检验检疫的安全检查工作主要还依赖于工作人员对安检图像进行人工
二十世纪八九十年代,我国从西方引入劳务外包制度,最初是为了发包方的利益,而实务中发包单位往往面临着相应用工法律风险。例如发包方易被认定为劳务派遣的用工单位,承担用工法律责任;发包方易被认定为与承包方雇佣的劳动者建立事实劳动关系,承担用工主体责任;发包方因自身原因易与承包方承担相应法定责任。究其原因主要是发包方法律意识淡薄,选任的承包方不符合要求,立法规定个人可以作为发包单位,但并不承认其用工主体地