论文部分内容阅读
领英作为全球最大的职场社交媒体平台,用户在平台上可以更新个人的职业档案、寻找职业发展机会以及与其他用户进行互动交流等。对领英用户账号进行分类,对领英平台而言,有助于更精准地投放广告以及开展相似用户的推荐服务,也可以对用户构成情况进一步分析,把握人力市场供求关系的状态;对用户而言,通过领英平台的推荐服务能够扩展自己的社交网络,获得更多的职业发展机会。现有的研究表明,用户的属性信息和用户在关系网络中的特征能够有效提高用户分类的准确性。然而,领英用户间交互联系较少,无法有效的构建用户关系网络。领英用户属性信息丰富,且较真实可靠,因此,本文基于领英账号的属性数据构建了特征词共现网络,提出基于网络嵌入的账号分类方法。本文的主要工作和贡献有以下几个方面:第一,针对领英账号之间交互较少,难以通过账号之间的交互联系来进行账号分类的问题,本文通过构建属性特征词共现网络来挖掘领英用户账号间的相似性。本文以用户账号为节点,以用户账号之间属性的特征词共现关系为边,构建属性特征词共现网络,通过对复杂网络的分析来挖掘领英账号间的相似性,为后续账号分类打下基础。第二,针对传统账号分类研究中表征用户账号不全面的问题,本文提出一种新的表征用户账号的特征选择方法。首先引入基于谱图小波的网络嵌入表示方法,挖掘账号节点在特征词共现网络中的结构特征,然后与账号的固有属性特征聚合,即账号的词特征、文本特征和网络结构特征一起作为新的特征来表征账号,实验结果验证了该方法的有效性。第三,为了综合考虑属性信息在网络嵌入表示中对用户账号节点的影响,本文提出一种融合属性信息的网络嵌入表示方法,并将其应用在领英账号分类研究中。首先针对不同的特征词共现网络提出不同的边权值计算方式,然后将用户账户属性与特征词共现网络融合,采用适合特征词共现网络的随机游走策略捕捉节点的网络结构,最后通过Skip-gram模型获得融合了账号属性信息的节点向量化表示,挖掘用户账号的网络结构特征。在领英账号数据集上的实验结果表明,该方法能够有效挖掘用户账号特征,提高领英账号分类的准确率。