论文部分内容阅读
近年来微博凭借其集成化、开放化、操作简单、传播迅速以及覆盖面广等特点在世界范围内得到流行,然而随之而来的微博隐私泄露方面问题也日益引起人们的担忧。目前针对微博类社交网络的隐私检测技术仍处于研究初期,因此也越来越引起人们的关注。通过研究国内外对微博隐私检测这一课题的研究现状,以及相关的技术理论知识,本文主要进行了以下研究。本文提出了一种微博隐私检测系统模型,用于对涉及微博隐私泄露的微博进行检测。该模型主要分为预处理、分词及结果优化处理、停用词去除、二级朴素贝叶斯分类几个模块。本文首先针对传统的RMM+TSD分词方法中分词算法存在多次词条的无效查找、分词算法不能处理歧义切分、分词算法不能提取新词的不足,提出了一种I-RMM+I-SD的分词方法。该方法能有效地提高分词速度,同时不带来过多额外的词典存储空间开销,且能进行较为常见的二字交集型歧义处理和二字新词识别,能有效地提高分词效率和精度。然后本文用一种二级贝叶斯分类方法对分词后的微博内容进行分类。该方法能使得系统可以在进行一次微博类别和隐私类别的标注后进行微博类别和隐私类别的两次朴素贝叶斯分类。综合I-RMM+I-SD分词效果和二级贝叶斯的分类效果,本文中的微博隐私检测系统在实验中获得了较好的隐私检测结果,能够满足微博内容隐私检测的效率和精度需求。最后,本文通过实验对提出的算法进行验证,并对实验结果进行对比分析,实验表明了算法的优越性,并讨论了今后进一步改进的方向。