基于稳健词素序列和LSTM的维吾尔语短文本分类

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:weiyideta21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维吾尔语是一种派生类语言,其词是由词干和词缀连接而成的.其中,词干是有实际意义的词汇单元,词缀提供语法功能.该文提出了基于词干单元和长短期记忆(LSTM)网络的维吾尔语短文本分类技术.用基于词-词素平行训练语料的稳健词素切分和词干提取方法,从互联网下载的文本中提取其词干,以此构建词干序列文本语料库,并通过Word2Vec算法映射到实数向量空间.然后用LSTM网络作为特征选择和文本分类算法进行维吾尔语短文本分类实验,并得到95.48% 的分类准确率.从实验结果看,对于维吾尔语等派生类语言而言,特别是对于带噪声的文本,基于词干的分类方法有更多优异的性能.
其他文献
从原生动物到哺乳类,所有动物都会逃避极端低温和极端高温,表现出偏爱温度适中区。在一个有温度梯度的热环境中,能够运动的动物都会向一个较窄的最适温度范围集中。这种现象称作
随着温室效应的进一步加剧,环境问题受到越来越多的关注,节能减排为各国政府组织所倡导。研究表明,全球二氧化碳的排放中,有3%左右是来自通信网络及其各种设备,而通信网络中