【摘 要】
:
随着Internet迅猛发展,互联网拥有越来越庞大的用户群,发展成为发布信息、获取信息和传递信息的主要载体。由此载体衍生出的网络舆情,是通过网络围绕中介性社会事件的发生、
论文部分内容阅读
随着Internet迅猛发展,互联网拥有越来越庞大的用户群,发展成为发布信息、获取信息和传递信息的主要载体。由此载体衍生出的网络舆情,是通过网络围绕中介性社会事件的发生、发展和变化,民众对公共问题和社会管理者产生和持有的态度、信念和价值观。其形成迅速,对社会影响巨大。基于互联网的舆情信息挖掘技术越来越受到广泛关注,网络舆情挖掘作为舆情信息挖掘的有效手段已成为研究热点。通过日志数据,针对互联网舆情信息海量性、处理时效性和预警准确性方面的问题进行分析与研究具有重大的现实意义。本论文基于日志数据开展网络舆情的分析与研究工作。主要工作包括:针对互联网舆情信息挖掘技术进行研究,在明确舆情及其相关概念基础上,以搜索引擎的检索日志作为基础数据,采用文本挖掘的方法进行舆情分析。通过文本分类技术,对于海量数据进行粗粒度分类。通过文本聚类这种无监督的方法,进行事件发现。为了适应海量短文本聚类,提出桶聚类算法。该算法有效解决海量数据聚类过程中内存溢出问题,降低时间复杂度。在中文分词算法中,提出Term权重计算算法,提升文本相似度的计算过程的准确率。基于星型模型构建数据仓库,对日志数据进行多维度分析、趋势分析、热词推荐和可视化分析。在对上述问题的研究的基础上,设计并实现了搜索引擎日志分析系统。该系统集成了桶聚类、Term权重计算等算法,面向实际应用,实现日志数据的统计分析、事件分析和可视化展现功能。可为用户提供对海量日志数据更加有效的分析
其他文献
故障管理是网络管理中最基本的内容之一。故障管理的目的在于确保网络系统的稳定性。在网络出现故障时,故障管理系统必须及时发现故障部位,减少因网络故障造成的损失,保证网
随着我国金融改革和开放的步伐不断加快,银行组织体系的不断扩充和发展,银行业竞争的不断加强,银行业的风险急剧上升。日新月异的市场变化要求银行必须对自身所面临的风险进
对等计算(P2P, Peer-to-Peer)是当前信息技术领域的热点问题之一,该技术颠覆了传统的客户端/服务器模式,为互联网应用带来了新的发展。分布式业务网络、新型移动业务网络等具
在电信网络蓬勃发展的今天,各种电信增值业务雨后春笋般涌现出来。在电信网络下,多媒体的信息可以通过核心网完成多种提升用户体验的多媒体业务。交互业务是不同节点或个体之
近年来,SNS快速发展,深刻地影响了人们的生活。本文首先总结了SNS的基本概念和发展现状,然后从分析现有的集中式SNS的局限性入手,提出了去中心化的SNS概念,并描述了去中心化
网络维护的智能化、自动化一直是网络运营商迫切希望达到的效果,但是受到网络结构、软硬件发展的制约,维护成本、时效等还远远没有达到运营商满意的标准。传统的二代和三代移
如今Web应用程序已经成为非常流行的网络服务,同时也是最常遭受攻击的服务,网络攻击给Web应用程序造成了巨大的损失。在Web应用程序开发过程中对其进行安全性检测,提高其抗攻击
随着3G时代的到来和网络融合趋势的不断加快,传统的运营商将面临更大的市场机遇和挑战。3G技术将为移动业务提供更高的传输速度,使未来的移动应用更加丰富多彩;而融合的网络将
作为一种新型的信息获取技术,无线传感器网络自出现以来就得到了工业界和学术界的广泛关注。无线传感器网络节点通常只携带有限的资源,容易出现因资源不足而导致的故障。且由