论文部分内容阅读
近年来,移动互联网和社交媒体异军突起,逐步取代了传统的博客、BBS论坛,成为人们进行社交、学习、娱乐的主要平台。与此同时,伴随着整个社会对于互联网、特别是移动互联网的广泛接受,被连接的用户数以及用户产生数据(UGC),呈现出爆发式增长。较之前的互联网媒体技术(诸如邮件、论坛、博客),社交媒体记录的数据类型更加丰富、及时,时效性更强。特别的,微博类型的社交媒体数据,成为了信息发布、用户间互动、事件发现扩散的公众平台。作为一种允许公开访问、内容简短、近乎实时、海量规模的典型大数据,微博等社交媒体数据获得了学术界以及工业界研究者的广泛关注。为了充分利用这一数据源,学术界在社交网络理论、用户行为模式、公共事件发展规律、谣言发现检测方法的等方面开展了广泛的研究。总体而言,社交媒体大数据中蕴含的宝贵信息、知识需要新颖的数据处理、分析方法来解决。但是,社交媒体大数据的长度短、质量差、变化迅速、相关性弱这些问题也形成了新的挑战和问题,使得传统的数据挖掘方法无能为力。为了应对社交媒体大数据中"序列性"、"行为性"、"多源性"等挑战,更好的实现基于社交数据的用户信用画像这一目标,本文进行了微博类型数据的高效序列挖掘算法、基于微博用户隐行为模式的用户信用画像、基于特征设计和集成学习融合多源信息的用户信用画像三个方面的研究。除此之外,在微博数据下用户信用画像算法的研究过程中,对于社交大数据上用户画像算法、技术做出研究归纳和展望。具体而言,本论文的主要研究内容、创新点和学术贡献包括以下三方面:1)微博数据是以时间线(Timeline)的形式呈现给用户,本质上是一种事件类型的序列数据。事件序列数据挖掘除了考虑项目(item)出现频率外,也开始考虑项目的效用(utility),进而实现高效用事件片段挖掘。针对单条事件序列的高效用挖掘,本文提出了对现有高效用片段(high utility episode)挖掘算法的多重优化策略,使得算法运行速度和内存效率都得到大规模的提升。更重要的一点,本文引入的词法序前缀树挖掘框架具有更紧的剪枝阈值估计,使得针对事件序列的高效用事件片段挖掘算法变得快速而实用(第三章)。2)微博数据中每一条微博,包含了限定长度的用户产生文本内容,也包含了与用户行为相关的上下文信息。文本和行为两种数据源可以同时为用户信用建模提供数据支持,但是简单特征抽取然后组合的做法,难以发现用户文本和行为数据之间的紧相关性。为了实现基于行为模式的用户信用画像,本文通过概率图模型的建模方法,将可观察的用户文本和多种行为特征融合,从而获取为信用预测提供输入的用户隐行为模式。本文设计的概率主题模型LUBD-CM,假设一条微博由同一个主题产生,并且微博上行为数据和文本数据都受所分配主题约束。实验结果表明,LUBD-CM这一模型相对LUBD-CM的简化变种,传统的LDA,朴素Bayes算法,对于用户信用标签的预测性能都有大幅提升(第四章)。3)社交平台上的用户数据,除了用户产生内容,也包括用户个人信息、社交网络关系。不同来源的用户社交数据,蕴含了不同类型的与用户信用相关的信息。但是,微博社交数据的"即时性"导致数据质量一般很低,难以作为标准分类器如SVM、决策树的输入并获得较高的用户标签预测性能。为了融合多源异构社交数据中信用画像有效信息,本文从个人信用相关的领域知识入手,广泛分析多种可能的特征设计方案,从中选择较好的社交特征,并且利用双层集成学习框架,全面挖掘隐含在多种社交特征中的有效信息,从而实现综合堆栈方法、提升方法和集成方法的用户信用画像预测系统(第五章)。值得一提的是,本文提出的针对微博社交数据的系列数据挖掘、用户画像方法,对于用户产生的其他类型社交大数据(如Facebook数据,微信数据),很大程度上也是适用的。本文虽然重点研究了用户信用属性的预测和画像,所提出新方法、新技术对于其他类型个人标签(如年龄、性别、婚否)的预测,也都是适用的。