一种改进的神经网络邮件分类器

来源 :南京工业大学 | 被引量 : 0次 | 上传用户:windwebsystem
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,电子邮件以其方便快捷的特性越来越受到人们的青睐。但是垃圾邮件的出现和不断泛滥,严重干扰了人们正常的网络活动。采取技术手段对垃圾邮件进行过滤是对付垃圾邮件的一个重要的手段,因此对垃圾邮件自动过滤技术的研究,是当前网络应用研究中的一个重要方向。   垃圾邮件的过滤问题从本质上来说是一个文本分类的问题。传统的文本分类方法以贝叶斯方法最为常用。但是由于贝叶斯方法采用的是基于最小错误率的决策方式,因此在邮件分类问题中,正常邮件被系统误判为垃圾邮件的可能性较大,这可能会给用户带来更大的损失,因为相对于用户来说,正常邮件比垃圾邮件更为重要。   神经网络具有自学习、自适应和泛化能力等优点,对于一些比较复杂的问题,当输入和输出之间的映射关系不明确,或者很难用解析的方法表达时,神经网络可以通过学习,记住输入和输出的映射关系,并将这种映射关系存储在网络中,以神经元的互联分布存储信息,并且在对训练样本进行学习之后,神经网络对未知的测试样本也可以识别,这使得神经网络在处理模式分类问题上有较好的表现。但在实际应用中,特别是当测试样本包含的噪声较大时,传统神经网络方法的泛化能力并不十分理想。   为提高神经网络的泛化能力,本文采用了分类面神经网络模型,并在此基础上,将中介真值度量的理论和方法应用到邮件分类问题,改进了神经网络邮件分类器的设计。新方法的基本思想为:给定相对于正常邮件的真值程度平均函数gnT-M的值g,然后以一系列相对于正常邮件类别的gnT-M值为g的样本点来构造两类样本之间的分类面,再用一个或多个BP神经网络来逼近分类面。学习完成后,保存网络的权值和阈值。测试时,将测试样本输入已训练完成的BP网络,然后根据测试样本与分类面的相对位置,便可以对测试样本进行分类。   在进行邮件分类之前,首先要对邮件样本进行预处理。邮件的预处理包括提取有用的信息、中文分词、计算特征向量三个步骤。邮件在经过预处理之后,其中有价值的信息将以向量的形式来表示。文中对邮件的预处理进行了详细的介绍,并在此基础上,用相同的训练样本和测试样本分别对BP神经网络方法和新方法进行了邮件分类实验。实验结果表明,新方法在邮件的总体识别率上有较大的提高。并且在此基础上,用户还可以根据自己的需要,通过调整参数gnT-M的值g,以进一步提高正常邮件的识别率。因此,该方法也具备一定的灵活性。
其他文献
随着计算机网络技术的发展,数据库安全问题受到越来越多的关注,如果我们对数据库中的数据进行加密处理,那么数据库的安全性就能有所提高,即使某一用户非法入侵到系统中或者盗得数
图像修补的广泛应用使得图像修补技术成为近几年图像处理中的一个研究热点。图像修补技术研究是以一种自动修补的方式实现对破损图像的修补,在图像的信息化产生和发展的过程中
随着嵌入式技术的发展,硬件设备的价格下降,嵌入式系统存贮能力迅速提高,应用中出现越来越复杂的数据资源需要管理,因此嵌入式文件系统的重要性显得更加突出,它也成为RTOS系统发展
随着互联网软件技术及其应用迅速发展,基于Web Services的分布式计算模式日益成为软件技术和应用发展的趋势,Web Services为分布式计算提供了一种新的范例。WebServices技术是
随着并发软件系统在国民经济、国防等关键领域的广泛应用,如何验证其正确性和可靠性以保证软件质量成为日益紧迫的问题。对并发系统而言,其内在的不确定性使问题的难度更大。通
学位
自从二十世纪七十年代以来,无线网络越来越受到通信业界的重视。无线网络以网络拓扑结构为标准,可以分为两类:一类是集中式控制的,即有中心的,典型的如无线局域网、GSM网等;
本文首先分析了当前各种主流身份认证机制,分别对它们的安全性和应用范围进行了分析,然后对一次性口令认证机制的四种模式进行了深入研究,分析了它们的安全性和实用性,最后针对秘
即时通信(Instant Messaging,简称IM)是一种实时的互联网交流形式,伴随着网络的开放性和日益增长的规模,它已经成为人们自由交流信息的便捷手段,极大地改变了人们的联系方式。然
管理信息系统以前多是采用二层体系结构,即C/S模型。C/S两层架构在一个相对专用、独立的系统中,是一个较好的系统建立方法;但随着部门业务规模的扩大,以及为了适应在Internet上开