论文部分内容阅读
随着互联网的迅速发展,电子邮件以其方便快捷的特性越来越受到人们的青睐。但是垃圾邮件的出现和不断泛滥,严重干扰了人们正常的网络活动。采取技术手段对垃圾邮件进行过滤是对付垃圾邮件的一个重要的手段,因此对垃圾邮件自动过滤技术的研究,是当前网络应用研究中的一个重要方向。
垃圾邮件的过滤问题从本质上来说是一个文本分类的问题。传统的文本分类方法以贝叶斯方法最为常用。但是由于贝叶斯方法采用的是基于最小错误率的决策方式,因此在邮件分类问题中,正常邮件被系统误判为垃圾邮件的可能性较大,这可能会给用户带来更大的损失,因为相对于用户来说,正常邮件比垃圾邮件更为重要。
神经网络具有自学习、自适应和泛化能力等优点,对于一些比较复杂的问题,当输入和输出之间的映射关系不明确,或者很难用解析的方法表达时,神经网络可以通过学习,记住输入和输出的映射关系,并将这种映射关系存储在网络中,以神经元的互联分布存储信息,并且在对训练样本进行学习之后,神经网络对未知的测试样本也可以识别,这使得神经网络在处理模式分类问题上有较好的表现。但在实际应用中,特别是当测试样本包含的噪声较大时,传统神经网络方法的泛化能力并不十分理想。
为提高神经网络的泛化能力,本文采用了分类面神经网络模型,并在此基础上,将中介真值度量的理论和方法应用到邮件分类问题,改进了神经网络邮件分类器的设计。新方法的基本思想为:给定相对于正常邮件的真值程度平均函数gnT-M的值g,然后以一系列相对于正常邮件类别的gnT-M值为g的样本点来构造两类样本之间的分类面,再用一个或多个BP神经网络来逼近分类面。学习完成后,保存网络的权值和阈值。测试时,将测试样本输入已训练完成的BP网络,然后根据测试样本与分类面的相对位置,便可以对测试样本进行分类。
在进行邮件分类之前,首先要对邮件样本进行预处理。邮件的预处理包括提取有用的信息、中文分词、计算特征向量三个步骤。邮件在经过预处理之后,其中有价值的信息将以向量的形式来表示。文中对邮件的预处理进行了详细的介绍,并在此基础上,用相同的训练样本和测试样本分别对BP神经网络方法和新方法进行了邮件分类实验。实验结果表明,新方法在邮件的总体识别率上有较大的提高。并且在此基础上,用户还可以根据自己的需要,通过调整参数gnT-M的值g,以进一步提高正常邮件的识别率。因此,该方法也具备一定的灵活性。