论文部分内容阅读
随着互联技术的发展,微博、微信等社交平台逐渐被人们所接受并广泛使用,其产生的短文本数据量每天以BT级递增。其不同于数据挖掘中以结构化的形式存储的数据,它具有字数少、长度短、信息含量少、特征稀疏等特点,且以非结构化或者结构化的形式存储。因此如何从短文本数据中提取有价值的信息或知识,并将其根据用户自身的需求进行个性化推送,以节省用户在海量数据中寻找的时间,提高搜索信息的效率和准确率,成为更多学者研究的领域。本文在对现有文献的研究的基础上,(1)对文本挖掘技术和短文本挖掘技术的概念和流程进行了归纳,概括了短文本数据的特征,并在此基础上提出了将用户评论与信息本身相整合的特征拓展方法,在一定程度上解决了短文本特征稀疏的问题;(2)对主题挖掘中的主题模型进行了研究和分析,提出了不借助于外部语料且从用户的角度进行分析的用户评论词对主题模型UCBTM:首先将用户的短文本信息与其对应的用户评论整合成“初步长文本”,得到“初步长文本”文档集合,对于其特征稀疏的问题得到一定的缓解;其次,利用K-means聚类算法将“初步长文本”文档集中主题接近的“初步长文本”聚类到一个簇中;然后,将每个聚簇中的所有“初步长文本”信息整合在一个长文档中,以到达进一步解决特征稀疏的问题;最后,根据文档集中的用户主题对每一个长文档中词对的共生模式进行建模得到整个文档集合中主题-词分布及每个用户的主题分布[1]。(3)研究PageRank算法和用户影响力算法,结合新浪微博数据特征,分析用户影响力的影响因素,并运用模糊评价法评估其权重,完成微博用户影响力模型的构建,并在上述研究基础上提出了适用于社交平台的用户影响力算法UserRank; (4)最后提出了基于主题挖掘和用户影响力算法UserRank的用户个性化推荐算法:首先,根据UCBTM模型挖掘的结果计算用户间主题相似度,然后UserRank计算用户影响力度,最后计算两者的期望得到一个用户对于另一个用户的推荐程度值,并根据推荐程度值大小,得到用户的用户推荐列表。从而实现用户的个性化推荐。(5)以新浪微博数据为处理对象,对UCBTM主题模型和个性化推荐算法进行论证,并与其它算法和模型实验结果对比分析,表明了 UCBTM模型提高了主题挖掘的质量和效率,以及个性化信息推荐算法的有效性。