论文部分内容阅读
随着即时通信和互联网技术的快速发展,网络中的信息每天都在以一定的速率增长着,生活中最常见的就是如:网络新闻、微博及其评论、聊天记录、手机短消息、科技文献摘要、搜索引擎返回的结果和社区论坛中的发帖回复等形式的短文本信息,这类文本通常都控制在160个字左右,存在的种类样式繁多,而且经常以口语化、生活化的不规则形式出现。特征词较少、关联性不强是这类短文本的主要特点,并且其中可能隐匿着一些有价值的信息内容,因而对短文本进行有效的组织分类是非常有必要的。传统的文本分类方法大多是以长文本作为对象进行研究的,如果直接套用于短文本将会影响分类取得的效果。另外,通常用于构建传统文本分类器的已标注样本是需要由人工进行标注才能获得的,既费时又费力,还易形成标注瓶颈,而相比之下,数量颇为丰富的未经标注样本的获取与搜集却是较为容易的。传统基于监督学习的分类方法,仅仅是使用了数据样本集合中的已标注部分,并没有注意到其中未标注样本的存在价值,未能较好地挖掘出可能隐藏的信息。而半监督学习的方法则是可以将少量的已标注样本与大量的未经标注样本相结合起来进行学习训练,从而使未标注部分能被充分地利用,文本分类器性能得到有效地改善,因此这样的方法也逐渐地被人们所关注。考虑到短文本不同于长文本的特点,再加上参考了已有的相关研究成果,本文在现有的分类算法基础上,将半监督学习的思想贯穿到短文本分类的过程当中,改进地使用维基百科对短文本进行特征扩展,提出一种基于半监督学习的文本分类方法,用于实现对短文本的有效分类。该方法通过使用外部知识资源库构建的特征词扩展表对短文本进行信息扩充以解决特征稀疏等问题,然后构建基于监督学习的初始中间过程的分类器,不断地迭代训练数据样本中未标注部分,再用更新过的训练样本集来构建最终的文本分类器,通过实验验证了该方法能够达到充分利用大量未标注样本来改善分类器性能的目的。另外,为了解决传统基于向量空间模型构建短文本分类器时造成的文本结构信息的缺失以及大量样本存在的标注瓶颈问题,提出了一种利用图结构模型进行半监督文本分类的方法,将数量规模较大的未标注样本与少量的已标注样本相结合进行基于图结构的自学习,进行基于最大公共子图的相似度计算,保留了短文本的结构关联关系,通过对未标注样本的自学习来实现训练样本集的扩充。最后经对比实验表明,这种方法能够获得较好的分类效果。