一种基于贝叶斯的微博隐私检测方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:csl721
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来微博凭借其集成化、开放化、操作简单、传播迅速以及覆盖面广等特点在世界范围内得到流行,然而随之而来的微博隐私泄露方面问题也日益引起人们的担忧。目前针对微博类社交网络的隐私检测技术仍处于研究初期,因此也越来越引起人们的关注。通过研究国内外对微博隐私检测这一课题的研究现状,以及相关的技术理论知识,本文主要进行了以下研究。本文提出了一种微博隐私检测系统模型,用于对涉及微博隐私泄露的微博进行检测。该模型主要分为预处理、分词及结果优化处理、停用词去除、二级朴素贝叶斯分类几个模块。本文首先针对传统的RMM+TSD分词方法中分词算法存在多次词条的无效查找、分词算法不能处理歧义切分、分词算法不能提取新词的不足,提出了一种I-RMM+I-SD的分词方法。该方法能有效地提高分词速度,同时不带来过多额外的词典存储空间开销,且能进行较为常见的二字交集型歧义处理和二字新词识别,能有效地提高分词效率和精度。然后本文用一种二级贝叶斯分类方法对分词后的微博内容进行分类。该方法能使得系统可以在进行一次微博类别和隐私类别的标注后进行微博类别和隐私类别的两次朴素贝叶斯分类。综合I-RMM+I-SD分词效果和二级贝叶斯的分类效果,本文中的微博隐私检测系统在实验中获得了较好的隐私检测结果,能够满足微博内容隐私检测的效率和精度需求。最后,本文通过实验对提出的算法进行验证,并对实验结果进行对比分析,实验表明了算法的优越性,并讨论了今后进一步改进的方向。
其他文献
互联网和Web承载着丰富的跨时空信息,为社会和商务的发展提供了动态、开放和便捷的环境。然而在虚拟化的网络中,与不相识的人进行交易,如何保证交易可靠、安全,以及确保服务质量
数据库作为数据存储和管理的重要手段,在各行各业得到了越来越广泛的应用,数据库取证自然也成为了数字取证领域的研究热点之一,其中恢复已删除的数据更是数据库取证的重要组
当前移动网络的快速发展,尤其是当前的3G和4G网络的快速兴起,移动设备日益成为人们生活工作中必不可少的工具。移动终端的普遍使用带来了一系列的问题,特别是信息安全问题是
椭圆曲线密码体制(Elliptic Curve Cryptology,ECC)由于其安全性能好、存储空间小、带宽要求低等特点,在嵌入式等面积、功耗受限的环境中应用得越来越广泛,近年来已被广泛制定于各
随着智能设备的发展,在医疗、教育和公共服务等社会领域产生并累积了巨量的时变数据。由于时变数据数据量大,需要对它进行压缩存储。同时时变数据变化复杂,发现数据中的特征
微博是近年来发展最快的网络媒体之一,随着其用户规模的不断扩大,其产生的信息量和社会影响力也越来越大。同时,网络信息的泛滥阻碍了用户体验的提升。因此,研究微博信息的规律并
Hash函数是密码学重要的组成部分,它广泛应用于电子商务、信息安全和电子政务等安全性要求比较高的领域中,同时也是实现数字签名、消息的完备性和消息可认证性的重要工具。MD
随着数据的爆炸式增长,单机聚类算法无论是存储能力还是处理能力都无法满足海量数据的聚类,必须寻求并行化的解决方案。Google提出的分布式编程模型MapReduce给并行聚类带来了
上下文感知推荐系统(Context-aware Recommendation Systems,简称CARS)已经成为个性化推荐研究领域最为活跃的研究领域之一。上下文感知推荐技术的主要研究任务,就是如何利用用户
移动对象轨迹数据的挖掘是移动对象数据库的一个重要研究方向,从轨迹数据中得到的信息可以应用到交通控制、气候预测以及生态研究等多个方面。轨迹数据量庞大、结构复杂,且轨迹