论文部分内容阅读
电子邮件在当今已经成为人们联系交流不可缺少的通信工具,但用户每天都需要花费大量的工作时间对众多邮件进行整理。因此,研究邮件的自动归类具有重要意义,目前邮件自动归类有基于统计和基于规则两类。本文主要研究的是基于统计的分类。本文对电子邮件分类系统中所有必要的构成阶段进行了研究,包括训练阶段和分类阶段,并给出了在两个阶段中经常采用的技术。这些技术主要有邮件表示、特征选择与提取、分类技术等。在这些技术中本文主要讨论了邮件的表示方法,着重分析了基于向量空间模型的表示形式。基于统计的邮件分类一般采用向量空间模型来表示邮件,该模型将邮件表示成为向量形式,将对邮件内容的处理简化成了对向量空间中的向量进行运算,从而使模式识别和其他领域的计算方法能够在自然语言文本处理中运用,得以实现对邮件的可操作性和可计算性。但是该模型并未考虑到词所在邮件的结构特征,影响了分类的精度。针对向量空间模型存在的缺点,本文的系统借助粘合性衡量方法提取n-gram的思想,对向量空间模型进行改进,提出了计算词权重的一种新方法。这种方法以段落为邮件的最小分块,将邮件内容视为一个n-gram,段落视为n-gram中的单词,并结合段落间的逻辑关系计算词的权重。它不仅没有打乱邮件内容的顺序性,而且也较好地体现了邮件的结构特征,这使得系统在发挥向量空间模型优势的同时,也能够提高分类的精确度。本论文的实验证明,采用改进向量空间模型的邮件分类系统与采用传统的向量空间模型算法相比,在分类的精度上有了明显提高,从而有效地改善了分类的性能。