论文部分内容阅读
本文针对当前电信和互联网领域中垃圾信息过度膨胀的问题,研究了应用于短信和邮件过滤的相关原理和技术,提出并实现了一个基于主动学习的文本过滤系统,其中主要的创新工作和成果如下:第一,本文提出了利用基于两阶段算法的主动学习技术解决训练过滤器初期训练样本过少的问题,提高了选择的训练样本的质量。传统应用主动学习于训练阶段时,只采用某一特定的算法于整个训练阶段,但这样做并没有考虑到在训练的不同阶段其需求会不同。本文利用基于最大最小熵的主动学习算法,将训练分为前期和后期两个阶段,前期由于样本稀少所以需要选择出类别确定性很强的训练样本;后期过滤器中确定性样本已经充足,此时更需要选择出那些靠近分类边境的样本点。在实验中也证明了我们提出的算法比传统方法效果更好,不但使得系统更加精确,而且大大减少了人工标注的工作量。第二,本文提出了针对短信过滤和垃圾邮件过滤任务的不同特点,研究了多项式贝叶斯、贝努里贝叶斯和向量空间模型三种过滤算法,确定各场景中的最有效的方法。对于邮件过滤任务而言,邮件内容所形成的向量空间的维数大,因此采用基于词频统计的多项式贝叶斯或向量空间模型效果最好;对于短信过滤任务而言,由于短信向量表示稀疏、特征项少、词频信息不充足,因此采用基于文档频率统计的贝努里贝叶斯效果最佳。第三,我们设计并实现了一个基于主动学习的文本过滤系统,该系统共分为训练、过滤和反馈三个阶段。实验结果证明,我们的过滤系统无论是准确率还是召回率的测试结果都是比较令人满意的。在系统中我们采用了四种经典的特征提取算法对样本去噪:CHI、文档频率、信息增益和互信息;训练阶段中使用主动学习技术选择更有价值的训练样本;过滤阶段针对于不同的过滤任务将使用不同的过滤算法;反馈阶段我们采用基于阈值的方法来获取反馈样本,之后采用基于Rocchio的相关反馈和伪相关反馈技术来对过滤器进行反馈。