论文部分内容阅读
热点话题不仅对虚拟网络中各种事件的形成和发展有极大影响,还影响了真实人类社会中的人们对待事件的看法和判断,甚至于影响了司法机构和政府对事件的判决。揭示和预测热点话题的传播模式成了非常重要的问题。本文以热点话题的热度时间序列为出发点,完成聚类、建模和预测热点话题传播模式的目标。本文的研究工作主要体现在以下两个方面:第一,对热点话题的发展模式进行聚类。对热点话题的热度时间序列进行聚类是揭示和建模网络上热点话题形成和发展的重要过程。目前较好的K_SC聚类算法具有高时间复杂度、对初始类矩阵中心高度敏感的特性,使其难以在实际高维大数据中应用。本文提出一个新的迭代式聚类算法WKSC,主要提出两点创新:(1)采用Haar小波变换压缩原始时间序列,降低原始时间序列的维度,从而降低了算法的时间复杂度;(2)在Haar反小波变换中,将低维聚类返回得到的矩阵中心作为高维聚类的初始聚类中心,在迭代聚类过程中优化了对初始矩阵中心高敏感性的问题,提高了聚类的效果。文中采用国内外3个数据集作为实验样本,进行了大量的对比实验,结果显示WKSC算法能显著降低聚类的时间复杂度,同时改进聚类效果,可很好的应用于大量高维热点话题的模式分析。第二,建模和预测热点话题传播模式。对热点话题的传播模式进行建模和预测是一个非常重要但是困难的问题。本课题针对参与话题讨论的用户特点进行了分析,构建了用户知名度、活跃度以及用户重入概率等合理假设条件,基于用户参与话题的概率提出了单峰和多峰两个模型。采用国内外2个数据集对所提模型进行了拟合、预测实验,结果表明所提模型在拟合和预测话题发展趋势上都有较好效果,尤其是针对复杂波动发展模式的话题,本课题所提模型能很好的拟合与预测话题的波动。本课题的研究内容有助于网络话题检测、国家舆情监控以及促进电子商务的健康发展。