论文部分内容阅读
维吾尔语是一种派生类语言,其词是由词干和词缀连接而成的.其中,词干是有实际意义的词汇单元,词缀提供语法功能.该文提出了基于词干单元和长短期记忆(LSTM)网络的维吾尔语短文本分类技术.用基于词-词素平行训练语料的稳健词素切分和词干提取方法,从互联网下载的文本中提取其词干,以此构建词干序列文本语料库,并通过Word2Vec算法映射到实数向量空间.然后用LSTM网络作为特征选择和文本分类算法进行维吾尔语短文本分类实验,并得到95.48% 的分类准确率.从实验结果看,对于维吾尔语等派生类语言而言,特别是对于带噪声的文本,基于词干的分类方法有更多优异的性能.