基于微博的COVID-19热点话题分析

来源 :武汉大学学报(理学版) | 被引量 : 0次 | 上传用户:zmd1130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新型冠状病毒肺炎(corona virus disease 2019,COVID-19)的快速暴发引发了广泛的社会关注,给网络舆情分析带来了极大的挑战.针对这个问题,本文使用网络爬虫技术对官方媒体发布的关于COVID-19的评论信息进行数据收集,对收集到的评论信息按时间顺序进行排列,首先使用TF-IDF对文本的关键特征词进行提取,其次利用OLDA (online latent Dirichlet allocation)模型依照时间顺序进行主题词演化分析,构建评论集词向量模型,最后使用K-means对主题进行聚类,并对聚类结果通过词性标注进行分析.实验表明,本文的方法可以获得随时间变化的评论信息,能够检测到需要关注的信息.
其他文献
现有的舆情分析模型,存在滞后性和不准确性,个体选择影响舆情预测的特征具有一定的主观性和不确定性.本文将集合经验模态分解(ensemble empirical mode decomposition,EEMD)