【摘 要】
:
网络舆情是在互联网上流行的对社会问题不同看法的网络舆论,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的言论和观点,它们有较强影响力和倾向性。随着互联网
论文部分内容阅读
网络舆情是在互联网上流行的对社会问题不同看法的网络舆论,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的言论和观点,它们有较强影响力和倾向性。随着互联网的普及和开放,人民参政议政,同时也实践自己的权利。但总有一部分网民通过互联网传播一些恶意、虚假的言论,误导了民众,造成了社会的不稳定性。话题发现与跟踪系统一方面可以应用于对网络论坛等形式的舆情途径进行监管,另一方面应用于为用户提供话题分类标签,利于用户的查找。基于网络论坛的话题发现和追踪技术因为涉及多个学科,仍处于发展阶段。目前,主要的方法是通过对论坛中的帖子进行聚类分析而获取话题。针对不同系统应用的聚类算法改进,是目前研究的主要方向。现有的典型的聚类算法各有一定的优势,但应用到系统中都面临着动态数据适应性、数据结构的适应性、聚类效果、待聚类数据形状等方面的约束。没有一种现有的算法可以完全适应以上的特性。采用文本聚类方式获取话题和跟踪话题易于理解,易于实现。因此,本文选取文本聚类方法。首先对文本聚类相关的核心技术做了概述性总结,然后在现有文本模型向量空间模型的基础上,对层次聚类算法进行了改进,继承了层次聚类算法的聚类效果好、可实现多粒度聚类的特点,同时又能够适应动态数据,对不断更新的数据进行增量聚类,并将该算法设计到论坛话题发现与跟踪系统中。通过对两个知名论坛的数据测试,话题发现和跟踪系统都可以达到较好的准确度。
其他文献
<正>骆驼是荒漠、半荒漠地区的主要畜种。在干旱的荒漠、半荒地区养奶牛比较困难,而骆驼却能把粗硬且含大量盐分的植物转化为营养丰富的乳、肉以及毛绒等产品。骆驼(尤其是双
“自叙传”作为迥别于中国古代性爱文学的现代性爱文学特质之一 ,是在精神分析学影响下形成的 ,它的实质是高扬了真实性和主体性 ,使中国现代性爱文学的内涵更深刻更有意义
通过对广西若干城市垃圾填埋场渗滤液处理系统的调查,采用“生化处理+多级膜组合”工艺能很好适应不同时期垃圾渗滤液的水质波动变化,出水可稳定达到GB16889-2008《生活垃圾填
建筑工程具有投资周期长、施工程序复杂多样和参与人员较多的特点,因此对建筑工程进行科学有效的管理,是建筑工程的重要内容,在进行建筑工程管理时,应当积极的建立完善的建筑
精河流域是新疆天山北坡经济带的重要组成部分。利用近60 a气象数据及Landsat 5 TM影像数据,采用Penman-Monteith公式和SEBAL模型、morlet小波分析和M-K突变检验,研究了精河
兰在中国有着悠久的栽培历史,历代爱兰者不乏其人。古代文人对兰的偏爱可以说超过其它花卉,栽培管理之精神其它花卉之上。宋代出现了中国第一部也是世界第一部兰花专著--《金漳兰
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
番茄就是人们常说的比较常见的西红柿,是世界上普遍栽培的果菜之一。因为其口感好,营养又丰富,得到了世界各地人们的欢迎。所谓的早春番茄育苗主要是顺应设施蔬菜产业的发展需求
英汉两种语言的区别之一体现在词汇的性质、功能与结构诸方面。一般来说,英汉词汇的语义关系主要表现在词义相符、词义交叉、词义空缺、词义引申、词义虚假对应和词汇意义与