网络舆情敏感话题发现平台的研究

被引量 : 0次 | 上传用户:zhyy3611
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网作为重要的交流渠道,其存储和传输的信息,尤其是一些敏感话题,对于大众舆论的形成和传播有着举足轻重的影响,其潜在的安全威胁也是不可估量的。因此,敏感话题主动发现技术已经成为一项紧迫而又重要的课题。网络舆情敏感话题发现平台围绕着网络信息分析和处理中的各项关键技术,主要是对预处理后的网络信息进行分词和结构化存储及在此基础上的敏感话题发现技术,进行了系统的研究。论文设计并实现了基于网络信息分词结果与敏感词库匹配的网络舆情敏感话题发现平台。针对中文网络舆情敏感信息的分词,本系统实现了基于层叠隐马尔可夫模型的中文词法分析方法,将中文分词、切分歧义排除、未登录词识别和词性标注整合到一个框架中。对敏感词库的管理,通过链表和序列化方式保证敏感词库的完整性和可传递性。关于敏感话题的发现,采用逆向思维的识别过程,将处理后的话题与敏感词库匹配,即将分词结果在敏感词库中查询并识别出敏感话题,从而提高了敏感话题的识别发现效率。基于以上工作,对提高敏感话题发现平台的性能上进行了以下几点探索:通过实验比对完全二阶隐马尔可夫模型(FHMM2)与隐马尔可夫模型(HMM)的分词准确率与召回率,得出FHMM2在统计效果和精确率上有着明显的优势;对现有分词词典的改进提出了基于四字Hash机制的分词词典;在基于语义的敏感话题发现方面,提出了基于关键词和隐性语义标引的敏感词识别和敏感度评测方法。本论文基于以上的工作,最终设计并实现了网络舆情敏感话题发现平台,在实验室范围内测试,并经校园网内部试运行,结果证明此系统运行稳定,效果良好。
其他文献
“20世纪是高速公路的时代,21世纪是网络的时代”。随着Internet技术的不断发展和人们对地理信息系统(GIS)的多元化需求,利用Internet在Web上发布和出版空间数据,为用户提供
<正>最近,我到一所初中去观摩了一节心理辅导活动课,课题是"做生命的守护人",目标是激发学生更加珍爱生命。授课对象为七年级学生。在热身活动之后,上课老师带领学生们进入了
内部控制和内部审计都是企业规模和经营范围扩大的产物,都是为完善企业管理而采取的措施。两者都对企业的经营过程进行监督和评价,两者存在密切关系。内部审计与内部控制相互
2006—2010年,黄石市报告新发尘肺病例1255例,主要分布于煤炭开采和洗选业,其中以掘进工和采煤工发病为主,94.21%的病例为煤工尘肺和矽肺,煤工尘肺居多;贰和叁期新发尘肺病例
期刊
税收是调节房地产市场最有效的经济杠杆之一,现行的调控政策几乎都是从流转环节入手,导致政策实施的实际效果较差。而从现行房地产市场的税负分配和税负转嫁的角度进行分析可
在众多羽毛球速度耐力训练方法中,变速跑被认为是较一般的长跑更接近于专项。以全国比赛的心率特征为依据,对7种变速跑的专项化程度进行了比较,并进行实验研究,结果以(200—100—50-50)×(6+2)形式的
随着经济的发展和国库集中支付改革的深入,地方财政的国库现金余额日益增大,地方政府对国库资金保值增值的欲望越来越强烈。本文结合地方国库的特点,总结归纳出现阶段地方国
电梯是近年增长量最大的特种设备,截至2015年底,全国特种设备总量达1100.13万台,其中电梯425.96万台。全国共发生特种设备事故和相关事故257起,死亡278人,其中电梯事故58起,
受自身条件限制和外部宏观经济等因素的影响,加上中小企业在财务管理方面存在着与自身发展和市场经济均不适应的情况,近年中小企业生存环境更为恶劣。本文通过对中小企业财务