论文部分内容阅读
随着互联网的蓬勃发展,多样化的社交媒体网络应运而生。用户在不同的社交媒体平台留下了丰富的用户信息和海量的结构化与非结构化数据,而且这些数据是用户自发产生的,具有很高的真实度和多样性。通过对用户产生的多源多模态数据进行综合分析,能更准确、全面地理解用户画像。本文主要从跨平台的角度对多源的社交媒体网络进行了分析,以用户为纽带深入挖掘和提炼跨平台数据中的联合信息,提高多源数据的利用率,同时引入人格维度,构建更丰富的用户画像。本文的主要工作如下。1.关联用户在新浪微博和网易云音乐两个社交平台的账号,通过爬虫技术爬取用户在不同平台产生的数据,包括微博文本、个人信息、喜欢的音乐等多种结构化和非结构化数据,并通过文本清洗、标签提取、偏好聚类等方法,构建规则整齐的多源多模态真实社交数据集。2.基于SC-LIWC字典提取用户微博文本中心理学词频特征,建立用户人格映射分词模型,采用基于微博文本的CNN线性回归网络计算用户大五人格,摆脱了传统的基于调查问卷的获取用户人格的束缚。同时分析用户人格与用户属性、用户行为和微博标签之间的关系,构建微博画像。3.基于音乐标签计算用户音乐类别偏好和音乐情绪偏好,并用K-均值法将用户的音乐偏好进行聚类,得到五个典型音乐类别偏好和四个典型音乐情绪偏好。训练基于音乐标签的线性回归人格计算模型,分析用户的音乐偏好与用户人格、属性特征之间的联系,实现跨平台、多模态数据的深层联合建模,得到全面的用户画像。4.基于Flask框架对多模态的用户画像进行可视化展现,使结果更直观,完成整个基于多模态的用户画像分析系统。