论文部分内容阅读
影响力最大化问题是网络病毒式营销策略中非常关键的部分,它可以帮助寻找初始用户集以使得网络中受影响的用户最多。而已有的研究极少考虑网络节点的文本信息,不能区分对不同信息感兴趣的用户群。而实际中,针对不同的信息选择不同的用户集是非常重要的,可以实现信息影响传播最大化。因此融入文本信息的影响力最大化问题具有重要的理论和实际应用价值。 针对经典传播模型在传播过程中没有考虑文本信息的不足,本文采用话题模型对文本信息建模。在传播过程中融入话题,提出了话题敏感的独立级联模型(Topic-sensitive Independent Cascade Model,TSIC模型)和话题敏感的线性阈值模型(Topic-sensitive Linear Threshold Model,TSLT模型)。TSIC和TSLT模型采用基于Topical HITS算法获得的分话题的Authority和Hub来描述传播中的影响和从众性。同时考虑网络结构和话题语义信息,提出了话题敏感的权威性-中心性积(Authority-Hub Product,AHP)启发式最大化算法。AHP算法基于TSIC和TSLT模型针对不同的话题可以找到不同的种子节点集合,并且在与经典最大化KKT算法效果相近的情况下有效提高算法的效率。针对经典影响最大化问题的评价度量忽略话题影响的问题,提出了种子节点的话题分布总和(Sum of Topic Distribution of Seed Nodes,STDSN)和被激活节点的话题分布总和(Sum of Topic Distribution of the Final Activated Nodes,STDFAN)两个新度量,以更好地刻画话题敏感的信息传播模型和最大化算法的有效性。 通过在数据集DBLP和Twitter上从有效性和高效性两个方面进行对比实验,实验结果表明了TSIC和TSLT模型得到的种子节点和受影响的节点集合都对当前话题非常感兴趣,AHP与KKT算法影响效果相近,但是效率比KKT高很多,而在与其他基准最大化算法效率相近时,影响效果更好。