论文部分内容阅读
不同地域不同时间范围的社会风险感知对于社会风险管理具有重要意义。20世纪90年代,钱学森指出社会是一个特殊的开放复杂巨系统,从定性到定量的综合集成方法与技术的提出正是用来解决社会复杂问题。基于传统的研究方法无法及时有效的对不同地域的社会风险进行研究,本文通过获取互联网城市新闻对城市社会风险进行研究,大大降低了数据收集成本。 本文针对不同地域不同时间范围的社会风险进行研究,综合使用网络爬虫、文本挖掘、网络分析和数据可视化技术对城市社会风险的时空特性进行研究。本文主要研究内容包括: 1.构建城市社会风险感知系统。通过编制网络爬虫每日定时获取302个城市的新闻,通过对新闻进行风险类别判断、关键词提取和话题推断构建新闻画像,基于每个城市的新闻计算城市风险水平、每日最热风险关键词和每日最热风险话题,并通过邮件推送和网页展示两种方式呈现给研究人员。 2.分析城市新闻社会风险判别策略的可行性。分别使用已标注的“百度热搜新闻词”相关新闻和人工标注的部分城市新闻两种不同来源的新闻数据作为训练集和测试集,对分类的可行性进行分析。最终分类精度保证在0.8以上,说明了通过“百度热搜新闻词”新闻对城市新闻进行分类的可行性。 3.基于城市风险新闻构建城市风险画像。通过城市新闻提取城市风险关键词,基于“新闻-风险关键词”2模网络研究最突出的风险关键词,通过“风险关键词”网络的聚类研究不同簇中风险关键词特点,并对具有同一个风险关键词的新闻进行文本聚类从而对风险事件进行分析;通过对有风险新闻进行话题提取,计算城市在每个风险话题上的热度,从而对城市最热话题和城市在同一话题下的分布进行研究。 4.时间维度上城市社会风险的研究。根据每个城市在不同时间范围内有风险新闻所占比例计算城市风险水平,从而进行城市风险水平排名;研究城市每日最热风险关键词和风险关键词热度变化,并对城市风险话题的热度变化进行研究。