论文部分内容阅读
随着网络信息技术的发展,电子邮件已经成为人们工作生活中必不可少的信息交换手段。但是在电子邮件给人们带来方便的同时,也带来了许多新的问题,诸如垃圾邮件和病毒邮件等,造成了严重的危害。由于此类邮件发送者总是试图隐藏其真实身份以逃避侦察,因此电子邮件作者身份识别研究势在必行。电子邮件作者身份识别是计算机取证的基础,可以为电子邮件作为电子证据提供技术支持,因此电子邮件作者身份识别研究具有极其重要的意义。机器学习方法应用于中文电子邮件作者身份识别已成为近几年国内此领域研究的热点,并且已经取得了一些初步的研究成果。但是,一方面前人研究所用的识别方法仅限于支持向量机,并且仅采用了二类分类方法,对其它方法的研究尚未涉及;另一方面,目前还没有专门针对中文电子邮件作者身份识别的应用系统,无论是从研究的实验条件还是研究成果的转化率方面都很低。本文通过对国内外研究现状的综合分析,在已有的邮件特征选取与表示,以及支持向量机邮件分类实验的基础上,对以下内容进行了研究:首先,提出了应用KNN和人工神经网络两种分类方法进行中文邮件分类,将这两种方法的分类效果同支持向量机分类效果进行了对比,并通过实验证明了支持向量机是三种分类方法中的最佳方法。其次,针对中文邮件分类中的多类分类问题,在进一步深入研究支持向量机多类分类方法的基础上,提出了应用改进的二叉树支持向量机进行中文邮件多类分类的方法,将此方法的分类效果和分类效率同传统的支持向量机多类分类效果进行了对比,并通过实验证明了二叉树支持向量机多类分类方法在分类效率与分类效果方面的平衡达到了最优。最后,基于以上两项研究,设计并开发了一套专门面向中文邮件作者身份识别工作的研究型系统,提出了系统框架,给出了系统实现过程,对其中的技术难点和技术细节进行了详细说明。本系统自动化地实现了从电子邮件提取、邮件样本选择、特征选择与提取、邮件作者识别分类、结果与性能展示和各种工具可扩展性添加等一系列功能。本系统的实现是对中文邮件作者身份识别研究工作的进一步推进,是中文邮件作者身份识别理论研究与实验向实际成果转化的重要一步,在一定程度上也为邮件分类的相关领域,诸如文本分类、Web分类等,提供了可借鉴的参考依据。