基于改进向量空间模型的邮件分类

来源 :中南大学 | 被引量 : 0次 | 上传用户:kaixinlfy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件在当今已经成为人们联系交流不可缺少的通信工具,但用户每天都需要花费大量的工作时间对众多邮件进行整理。因此,研究邮件的自动归类具有重要意义,目前邮件自动归类有基于统计和基于规则两类。本文主要研究的是基于统计的分类。本文对电子邮件分类系统中所有必要的构成阶段进行了研究,包括训练阶段和分类阶段,并给出了在两个阶段中经常采用的技术。这些技术主要有邮件表示、特征选择与提取、分类技术等。在这些技术中本文主要讨论了邮件的表示方法,着重分析了基于向量空间模型的表示形式。基于统计的邮件分类一般采用向量空间模型来表示邮件,该模型将邮件表示成为向量形式,将对邮件内容的处理简化成了对向量空间中的向量进行运算,从而使模式识别和其他领域的计算方法能够在自然语言文本处理中运用,得以实现对邮件的可操作性和可计算性。但是该模型并未考虑到词所在邮件的结构特征,影响了分类的精度。针对向量空间模型存在的缺点,本文的系统借助粘合性衡量方法提取n-gram的思想,对向量空间模型进行改进,提出了计算词权重的一种新方法。这种方法以段落为邮件的最小分块,将邮件内容视为一个n-gram,段落视为n-gram中的单词,并结合段落间的逻辑关系计算词的权重。它不仅没有打乱邮件内容的顺序性,而且也较好地体现了邮件的结构特征,这使得系统在发挥向量空间模型优势的同时,也能够提高分类的精确度。本论文的实验证明,采用改进向量空间模型的邮件分类系统与采用传统的向量空间模型算法相比,在分类的精度上有了明显提高,从而有效地改善了分类的性能。
其他文献
Web是为了实现程序到用户的交互,而Web Services则是为程序到程序的交互做准备。Web Services使公司可以降低进行电子商务的成本、更快的部署解决方案以及开拓新机遇。其关键
目前,我们已经进入了以网络计算为中心的时代,人们迫切需要在任何时候、任何地点访问所需数据,移动计算为之提供了手段。它是无线通信、网络技术与移动计算设备相结合的产物,是一
随着网络技术和通信技术的不断发展,电子商务已经不再局限于以往的交易模式和技术模式,因为计算机已经不是唯一的一种能够进行互联网通信的终端设备。并且随着经济的发展,电子商
随着互联网、云计算、移动计算的发展,高质量高效率的自然语言处理应用有力的促进了智能人机交互的发展。然而,大多数的自然语言处理应用需要大规模的统计模型,高质量的算法
计算机博弈是人工智能研究领域一个重要的分支,也是博弈理论研究的热点方向之一。博弈论按照博弈的参与者是否掌握所有的局面信息可以分为完备信息博弈和非完备信息博弈。其
云计算是一种2007年才出现的新型服务模式。它的出现正在悄然改变着信息技术产业的商业服务模式。云计算通过对物理资源的整合,为用户提供了按需服务的计算能力和存储能力。
运动捕捉技术的兴起极大地方便了计算机动画创作,但是这种方法也存在一定的问题,如,设备的使用受到场地的限制、捕捉到的数据存在噪音、运动捕捉数据的复用问题等等。随着运
面向对象软件的三个主要特征是:封装、继承和多态。封装造成信息的隐藏,而继承和多态则在类之间简单的聚合和关联的关系上加入层次化,并造成潜在的动态依赖,从而导致类之间关系变
网格是构建在互联网上的一组新兴技术,通过它可以把分散在不同地理位置的资源整合起来实现各种资源的全面共享。它本质上解决了在动态变化的多个虚拟机构间共享资源和协同工
面向方面编程(Aspect-Oriented Programming,AOP)是一种全新的程序设计方法,其核心旨在克服面向对象程序设计中抽象建模的局限性,在系统设计时将分散在各个模块中的横切关注(