基于大规模微博语料的新冠肺炎疫情舆情分析

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lggu770621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自新冠肺炎疫情爆发以来,人类的生命健康受到严重威胁,各国的经济也遭受了巨大的损失,新冠肺炎疫情成为了每一个人都关心的话题。伴随着一系列“居家隔离”、“保持社交距离”等防疫政策,人们有了更多时间和理由在社交媒体上关注疫情的发展,参与相关内容的讨论。新浪微博作为最大、最有影响力的中文社交媒体之一,在疫情期间成为了人们获取和传播疫情信息的重要平台,也沉淀了大量的舆情信息。使用自然语言处理技术对这些舆情信息进行挖掘,有助于真实、客观地还原疫情舆情的演进规律,发现网民在疫情期间关心的重点内容,揭示他们对待疫情事件的观点和态度。目前,针对新冠肺炎疫情舆情的研究内容较少,而已有的研究也存在理论性强、语料支撑数量较小、研究结果较为粗疏等缺点。为此,本文选取一个时间跨度为四个月、含有三千多万条微博文本的疫情数据集为对象进行舆情挖掘和分析。具体的工作主要包括以下几个方面:(一)语料预处理。为了得到较为干净的语料,首先针对微博短文本的特点分门别类地进行噪声清洗,然后进行分词和停用词处理。(二)文本表示。为了得到质量较高的本文表示,采用word2vec将语料映射到一个低维、稠密的向量空间,并对word2vec的参数展开详细的实验讨论,以确保它们能够最好地适配本文所研究的语料。(三)文本聚类和舆情分析。为了提高聚类质量和尽可能细粒度地挖掘舆情,首先基于每日微博文本的数量对整个舆情演变周期进行划分;然后分别在每个阶段使用K-means进行聚类,根据聚类结果和话题标签统计情况进行主题归纳;再使用词云图对每一个簇的高频词进行可视化分析。基于以上工作,本文得出了较为丰富的结论。语料预处理方面,微博文本具有内容扩展性、语义载体多样性和不规范性三大特征和一些新趋势,微博语料的噪声可以分为表情类、标签类、话题类和无关微博四种。文本表示方面,加入了新冠疫情词汇的类比推理任务显示:CBOW模型、负采样、向量维数200,窗口大小9是适配本文语料的最优训练参数;舆情演变周期方面,新冠肺炎疫情的微博舆情呈现出明显的“双峰”走势,据此将整个舆情周期划分为潜伏期、第一次增长期、第一次衰退期、第二次增长期和波动期五个阶段。文本聚类方面,剔除无关内容后得到34个有效簇和34张词云图。舆情分析方面,在整个疫情舆情周期,网友关心的主要话题可以分为“新冠肺炎本身”、“前线动态”、“疫情形势”、“抗疫事迹”和“疫情生活”五大类。在不同的阶段,网友关注的重点既有相同也有不同之处。基于舆情分析的结论,本文又尝试给出五条舆情建议。本文基于大规模的微博语料,使用自然语言处理技术进行舆情的挖掘,取得了较好的成果,无论对于相关的技术如何适配微博短文本,还是细粒度地发现在疫情发展的不同阶段网民关注的重点内容,都有着积极的意义。
其他文献
《冊府元龜》(簡稱“《冊府》”)作為宋代四大類書之一,具有極高的學術價值和實用價值。但因其規模大、選材窄、引用出處不明等特點,古人對它的研究和利用寥寥無幾。作為大型官修類書,《冊府》在“宋四大部书”中的價值挖掘遠不如其他三部類書。而今現代學者雖然認識到《冊府》是一顆蒙塵的明星,但依舊沒有合適的方法處理材料,所以支撐《冊府》引文研究的材料大多僅限於某些部,《冊府》全文的引文研究涉及不多。鑒於此,在計
学位
报纸
报纸
现代汉语引述评价性构式“不V也得V”在互动交际中高频使用,但在可搜索文献中还未发现有学者将其置于会话序列中进行研究。在互动背景下对“不V也得V”构式进行系统地分析,一方面,可以为话语构式研究提供个案支持;另一方面,也可以为全面认识构式“不V也得V”提供参考。本文先运用构式语法理论对“不V也得V”进行构式判定,归纳概括其构式义为“言谈双方即便不认同某一观点或行为,但基于主/客观的因素,说话者自己或受
学位
《史記》位列“二十四史”之首,由西漢史學家司馬遷所撰。《史記》“三家注”由南朝宋裴駰《史記集解》、唐司馬貞《史記索隱》和唐張守節《史記正義》所組成,合刻本最早出現在南宋時期。“三家注”在文獻學、語言學、史學及其他學科上的影響都非常深遠,其中大量的音切材料對語言學的研究十分有價明確。《史記》“三家注”採用“隨文附注”的注釋形式,就注音形式而言主要有直音、反切、如字、讀曰、標調和協韻這六類。據统计,《
学位
宣扬恐怖主义罪在司法适用过程中已经出现了严重的行刑衔接不畅的问题,该问题的出现不仅反映出我国立法与司法部门仍然具有浓重的“刑法工具主义”思维,而且也反映出我国刑法学界尚未能为抽象危险犯的合理出罪提供一套令人满意的理论。就本罪可能的出罪路径而言,对抽象危险的实质化认定基本不能解决本罪行刑界分混乱的问题。强调对恐怖主义物品的独立司法认定也难以有效解决这一问题。只有将恐怖主义目的解释为本罪成立的主观构成
期刊
《後漢書》,南朝宋范曄撰,唐章懷太子李賢等注。李賢等隨文施注,標音釋義以疏通文理,揭示句意,既方便讀者閲讀,也爲我們攷求被注字的音義關係提供了大量材料。《後漢書》李賢注共收錄音切1881條:李賢音切1810條(包括重複),其中直音636條,反切1114條,讀曰17條,協韻41條。李賢引音63條,共18家。劉昭音切3條,劉昭引音5條。論文運用XML技術對李賢音切進行了窮盡性的標記和提取,明確了音義匹
学位
類書是我國古代獨具特色的典籍形式,內容取材範圍廣泛,經史子集均有涉及;編排方法上分門別類,頗有章法;從資訊視角看可謂是古代的“資料庫”。因為適應當時學術、政治、文化等方面的需要而編撰類書在成書之時,其文獻學、訓詁學等方面的價值並未被充分重視。但隨著時代發展,古籍傳抄過程中異文迭現,大量典籍亡佚,類書在校勘學、訓詁學等方面的價值逐漸得以體現。《冊府元龜》(簡稱《冊府》)作為宋代四大類書之一,保存了大
学位
《全宋词》是我国近百年来最重要的古籍整理成果之一,而重言词是宋词中出现频率较高的词,它们词义丰富、词性多样,在词作品中表现得非常灵活。本文以1981年中华书局出版的《全宋词》和《全宋词补辑》为主要参照文本,以其中的重言词为具体考察对象,建立语料库,采用穷尽式统计法以及历时、共时相结合等研究方法,尝试勾画出《全宋词》重言词的基本面貌,一探宋代重言词的主要特点,以弥补重言词研究在宋代的缺失,有助于探明
学位
在现代汉语口语表达中,“NP就X吧”是使用范围比较广泛、使用频率比较高的一类结构。本文在三个平面理论基础上对隐性否定评价构式“NP就X吧”进行深入研究,基于构式语法的视角,重点考察该构式的构式义、构件特征、语用特点及构式化动因等。本文第一章是绪论部分,明确本文的研究对象及范围,论述本文的研究意义与研究理论。第二章是“NP就X吧”的构式义考察。本文通过构式“NP就X吧”与常规祈使句的对比研究,发掘其
学位