论文部分内容阅读
微博舆情已成为网络舆情中最具影响力的传播途径,逐渐成为汇聚民意的重要途径。公安部门担负着维护国家网络安全的重责,对微博网络舆情的监控势在必行。本文在这一背景下,提出了基于微博的公安舆情监控系统的概念。在研究微博网络舆情核心技术的基础上,结合公安机关对微博网络舆情监控系统的业务需求,分析了面向公安部门的微博舆情监控系统的主要功能需求(微博采集功能、微博检索功能、微博舆情分析功能和微博舆情展示功能)、系统设计目标以及用户特点。随后对系统的架构包括系统组成、技术架构以及系统构成进行了设计,对系统各功能模块进行实现。并对本系统进行了功能和性能测试,保证本系统在设计与实现上,满足了公安部门对于微博舆情监控的设计需求。在技术实现上,结合微博的特点以及公安部门的业务需求,提出了将开源网络爬虫Nutch应用到基于微博的公安舆情监控系统中,并对Nutch进行了二次开发,增加虚拟登录的功能使其实现对微博平台的信息爬取。并通过修改Nutch源码改进了其网络爬取时等待时间僵化的缺点,提高了系统爬取效率。在系统中文分词部分使用中科院研发的ICTCLAS4J中文分词技术,有效的保证了系统对微博信息分词功能的可靠性。并将ICTCLAS4J集成到Nutch中,给出了集成方法。挺高了系统对微博信息采集分析的可靠性和准确性。