基于主动学习的文本过滤系统的研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:xmuppdragon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对当前电信和互联网领域中垃圾信息过度膨胀的问题,研究了应用于短信和邮件过滤的相关原理和技术,提出并实现了一个基于主动学习的文本过滤系统,其中主要的创新工作和成果如下:第一,本文提出了利用基于两阶段算法的主动学习技术解决训练过滤器初期训练样本过少的问题,提高了选择的训练样本的质量。传统应用主动学习于训练阶段时,只采用某一特定的算法于整个训练阶段,但这样做并没有考虑到在训练的不同阶段其需求会不同。本文利用基于最大最小熵的主动学习算法,将训练分为前期和后期两个阶段,前期由于样本稀少所以需要选择出类别确定性很强的训练样本;后期过滤器中确定性样本已经充足,此时更需要选择出那些靠近分类边境的样本点。在实验中也证明了我们提出的算法比传统方法效果更好,不但使得系统更加精确,而且大大减少了人工标注的工作量。第二,本文提出了针对短信过滤和垃圾邮件过滤任务的不同特点,研究了多项式贝叶斯、贝努里贝叶斯和向量空间模型三种过滤算法,确定各场景中的最有效的方法。对于邮件过滤任务而言,邮件内容所形成的向量空间的维数大,因此采用基于词频统计的多项式贝叶斯或向量空间模型效果最好;对于短信过滤任务而言,由于短信向量表示稀疏、特征项少、词频信息不充足,因此采用基于文档频率统计的贝努里贝叶斯效果最佳。第三,我们设计并实现了一个基于主动学习的文本过滤系统,该系统共分为训练、过滤和反馈三个阶段。实验结果证明,我们的过滤系统无论是准确率还是召回率的测试结果都是比较令人满意的。在系统中我们采用了四种经典的特征提取算法对样本去噪:CHI、文档频率、信息增益和互信息;训练阶段中使用主动学习技术选择更有价值的训练样本;过滤阶段针对于不同的过滤任务将使用不同的过滤算法;反馈阶段我们采用基于阈值的方法来获取反馈样本,之后采用基于Rocchio的相关反馈和伪相关反馈技术来对过滤器进行反馈。
其他文献
有关多智能体系统和分布式人工智能的研究已经成为近年来学界研究的重点。机器人世界杯(Robocup)是一个典型的多智能体系统,它具有动态的环境。由于每个队员都可以看作是一个
优化是一个古老的课题,已存在许多经典数学方法可以解决优化问题,但是随着科学技术的发展,经典的数学优化方法已经不能满足需要,因此出现了仿生优化算法。仿生优化算法是基于
访问控制的功能主要有,防止非法的主体进入受保护的网络资源,允许合法用户访问受保护的网络资源,防止合法的用户对受保护的网络资源进行非授权的访问等。访问控制是在保障授
图形预测仿真是克服机器人遥操作系统大时延问题的一种有效手段。将结合双目立体视觉的增强现实技术应用到机器人遥操作图形预测仿真系统中,能有效提高遥操作系统的工作效率
多词表达是由若干个具有一定的句法和语义关联的词汇构成的意义相对完整的语义单元,跨越了语言当中意义相对完整的词的边界。随着自然语言处理研究的深入和发展,多词表达开始
近些年来,矿难事故频繁发生。人员救援一直是最关注的问题之一。而人员救援的重点就是被困人员的位置确定。因此,需要研究一套人员定位系统来提高救援效率。本文设计了基于La