基于社交大数据的用户信用画像方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:gjb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,移动互联网和社交媒体异军突起,逐步取代了传统的博客、BBS论坛,成为人们进行社交、学习、娱乐的主要平台。与此同时,伴随着整个社会对于互联网、特别是移动互联网的广泛接受,被连接的用户数以及用户产生数据(UGC),呈现出爆发式增长。较之前的互联网媒体技术(诸如邮件、论坛、博客),社交媒体记录的数据类型更加丰富、及时,时效性更强。特别的,微博类型的社交媒体数据,成为了信息发布、用户间互动、事件发现扩散的公众平台。作为一种允许公开访问、内容简短、近乎实时、海量规模的典型大数据,微博等社交媒体数据获得了学术界以及工业界研究者的广泛关注。为了充分利用这一数据源,学术界在社交网络理论、用户行为模式、公共事件发展规律、谣言发现检测方法的等方面开展了广泛的研究。总体而言,社交媒体大数据中蕴含的宝贵信息、知识需要新颖的数据处理、分析方法来解决。但是,社交媒体大数据的长度短、质量差、变化迅速、相关性弱这些问题也形成了新的挑战和问题,使得传统的数据挖掘方法无能为力。为了应对社交媒体大数据中"序列性"、"行为性"、"多源性"等挑战,更好的实现基于社交数据的用户信用画像这一目标,本文进行了微博类型数据的高效序列挖掘算法、基于微博用户隐行为模式的用户信用画像、基于特征设计和集成学习融合多源信息的用户信用画像三个方面的研究。除此之外,在微博数据下用户信用画像算法的研究过程中,对于社交大数据上用户画像算法、技术做出研究归纳和展望。具体而言,本论文的主要研究内容、创新点和学术贡献包括以下三方面:1)微博数据是以时间线(Timeline)的形式呈现给用户,本质上是一种事件类型的序列数据。事件序列数据挖掘除了考虑项目(item)出现频率外,也开始考虑项目的效用(utility),进而实现高效用事件片段挖掘。针对单条事件序列的高效用挖掘,本文提出了对现有高效用片段(high utility episode)挖掘算法的多重优化策略,使得算法运行速度和内存效率都得到大规模的提升。更重要的一点,本文引入的词法序前缀树挖掘框架具有更紧的剪枝阈值估计,使得针对事件序列的高效用事件片段挖掘算法变得快速而实用(第三章)。2)微博数据中每一条微博,包含了限定长度的用户产生文本内容,也包含了与用户行为相关的上下文信息。文本和行为两种数据源可以同时为用户信用建模提供数据支持,但是简单特征抽取然后组合的做法,难以发现用户文本和行为数据之间的紧相关性。为了实现基于行为模式的用户信用画像,本文通过概率图模型的建模方法,将可观察的用户文本和多种行为特征融合,从而获取为信用预测提供输入的用户隐行为模式。本文设计的概率主题模型LUBD-CM,假设一条微博由同一个主题产生,并且微博上行为数据和文本数据都受所分配主题约束。实验结果表明,LUBD-CM这一模型相对LUBD-CM的简化变种,传统的LDA,朴素Bayes算法,对于用户信用标签的预测性能都有大幅提升(第四章)。3)社交平台上的用户数据,除了用户产生内容,也包括用户个人信息、社交网络关系。不同来源的用户社交数据,蕴含了不同类型的与用户信用相关的信息。但是,微博社交数据的"即时性"导致数据质量一般很低,难以作为标准分类器如SVM、决策树的输入并获得较高的用户标签预测性能。为了融合多源异构社交数据中信用画像有效信息,本文从个人信用相关的领域知识入手,广泛分析多种可能的特征设计方案,从中选择较好的社交特征,并且利用双层集成学习框架,全面挖掘隐含在多种社交特征中的有效信息,从而实现综合堆栈方法、提升方法和集成方法的用户信用画像预测系统(第五章)。值得一提的是,本文提出的针对微博社交数据的系列数据挖掘、用户画像方法,对于用户产生的其他类型社交大数据(如Facebook数据,微信数据),很大程度上也是适用的。本文虽然重点研究了用户信用属性的预测和画像,所提出新方法、新技术对于其他类型个人标签(如年龄、性别、婚否)的预测,也都是适用的。
其他文献
互联网时代,随着信息技术的快速发展,知识正呈现海量、多源、异构化趋势,如何对知识进行组织管理从而有效获取是信息检索领域的研究热点,本体作为一种新型的知识组织工具,具
本文以接受美学为指导,以杨绛的代表作《我们仨》的英译为案例,从词汇、句子和风格三个层面讨论了散文的翻译。接受美学理论强调目标读者在文本接受过程中的角色,认为只有通
<正> 《教学参考书》把"舍相如广成传舍"(见高中第一册《察传》思专和练习一)中的"传"解释为"旅客、宾客",实属误解。 "传"根本没有"旅客、宾客这条义项。"传"(包括读zhuan与
大力推进茶学专业本科教学改革,是促进茶学本科毕业生高质量创业、就业,适应中国经济结构战略性调整的必由之路。本文对在茶学本科教育中开展创业教育的重要性进行了阐述,对
检察干警反腐败心理动力的培植蓝文盛江总书记指出:“反腐倡廉工作是直接影响改革和建设事业成功的大事,一定要抓出成效,长期坚持下去。”作为国家专门的法律监督机关的人民检察
目的:调查我院儿科门诊中成药应用情况,为临床合理用药提供参考依据。方法:对4299张儿科中成药处方中药物剂型、疾病类别、总销售金额、用药频度、日均费用进行统计、分析。
分析了设计结构矩阵优化方法的不足,提出了以数字化设计结构矩阵及遗传算法为基础的新优化算法。新算法在优化对象、目标函数、进化方法及优化结果等方面进行了创新和改善,不
网络给人类的社会生活和教育世界带来了革命性的、前所未有的变化。网络阅读的影响好比一把双刃剑:一方面,网络阅读为教育开辟了令人向往的广阔天地,极大地激发了学生的阅读
本文详细介绍了网架,架壳结构由于设计、施工、材料原因造成各种事故,使得结构不能正常使用,须经过采取处理措施后,方可达到正常使用,采取的处理方法包括:增加杆件,更换杆件。加焊附
针对公理化设计与设计结构矩阵二者之间具有互补性的特点,提出了公理化设计矩阵与设计结构矩阵同步演化的设计思想,具体研究了公理化设计矩阵与设计结构矩阵同步演化的内在机