论文部分内容阅读
近年来随着互联网的发展,网络社区化产生了许多具有研究价值的社区数据,社区数据的相关研究已经成为Web挖掘领域的一个热点。基于社区标签图的Web对象分类的方法是近年来Web挖掘领域的一个研究方向,它将社区标签作为Web对象的特征,通过社区标签图来构建Web对象之间的联系,利用源领域数据来指导目标领域数据的分类,解决了缺乏Web对象特征和缺乏类标记数据的问题。但是,由于基于社区标签图的Web对象分类方法只通过社区标签匹配的方式来构建对象之间联系,所以并不能更深层次地挖掘对象之间的潜在语义联系。
本文研究在缺乏类标记数据环境下如何利用社区标签数据和维基百科知识库来对Web对象进行分类,提出了一种基于维基百科概念图的Web对象分类算法,从语义层面上挖掘Web对象之间的潜在联系。首先,本文研究了如何从维基百科中提取语义联系,包括同义概念、多义概念、类概念以及关联概念等,并将这些语义联系引入到社区标签图中,构造维基百科概念图。接着,本文将维基百科概念和Web对象间的相邻性引入到分类算法中,提出了一种基于维基百科概念图的Web对象分类算法。实验表明,本文提出的基于维基百科概念图的Web对象分类方法能够有效挖掘Web对象之间的潜在联系,并且取得更好的分类效果。