中文电子邮件作者身份识别系统研究

来源 :河北农业大学 | 被引量 : 1次 | 上传用户:lw10251
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的发展,电子邮件已经成为人们工作生活中必不可少的信息交换手段。但是在电子邮件给人们带来方便的同时,也带来了许多新的问题,诸如垃圾邮件和病毒邮件等,造成了严重的危害。由于此类邮件发送者总是试图隐藏其真实身份以逃避侦察,因此电子邮件作者身份识别研究势在必行。电子邮件作者身份识别是计算机取证的基础,可以为电子邮件作为电子证据提供技术支持,因此电子邮件作者身份识别研究具有极其重要的意义。机器学习方法应用于中文电子邮件作者身份识别已成为近几年国内此领域研究的热点,并且已经取得了一些初步的研究成果。但是,一方面前人研究所用的识别方法仅限于支持向量机,并且仅采用了二类分类方法,对其它方法的研究尚未涉及;另一方面,目前还没有专门针对中文电子邮件作者身份识别的应用系统,无论是从研究的实验条件还是研究成果的转化率方面都很低。本文通过对国内外研究现状的综合分析,在已有的邮件特征选取与表示,以及支持向量机邮件分类实验的基础上,对以下内容进行了研究:首先,提出了应用KNN和人工神经网络两种分类方法进行中文邮件分类,将这两种方法的分类效果同支持向量机分类效果进行了对比,并通过实验证明了支持向量机是三种分类方法中的最佳方法。其次,针对中文邮件分类中的多类分类问题,在进一步深入研究支持向量机多类分类方法的基础上,提出了应用改进的二叉树支持向量机进行中文邮件多类分类的方法,将此方法的分类效果和分类效率同传统的支持向量机多类分类效果进行了对比,并通过实验证明了二叉树支持向量机多类分类方法在分类效率与分类效果方面的平衡达到了最优。最后,基于以上两项研究,设计并开发了一套专门面向中文邮件作者身份识别工作的研究型系统,提出了系统框架,给出了系统实现过程,对其中的技术难点和技术细节进行了详细说明。本系统自动化地实现了从电子邮件提取、邮件样本选择、特征选择与提取、邮件作者识别分类、结果与性能展示和各种工具可扩展性添加等一系列功能。本系统的实现是对中文邮件作者身份识别研究工作的进一步推进,是中文邮件作者身份识别理论研究与实验向实际成果转化的重要一步,在一定程度上也为邮件分类的相关领域,诸如文本分类、Web分类等,提供了可借鉴的参考依据。
其他文献
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件的泛滥已带来严重后果,有效地区分合法邮件和垃圾邮件成为一项紧迫的任务。 近年来,有关垃圾邮件过滤技
实时数据库(Real-Time Database, RTDB)中的数据和事务都具有显式的定时限制,系统的正确性不仅依赖于逻辑结果,更依赖于逻辑结果产生的时间。RTDB的高性能要求以内存数据库(M
WebGIS是地理信息系统未来的发展方向,随着计算机技术和网络的发展不断在越来越多的领域发挥着重要的作用,各式各样的技术均有可能在GIS领域里有着一席之地。本论文使用SVG技术
本文首先介绍了企业应用集成的发展与主流EAI技术的原理与应用范围。接着,在简单分析传统的企业应用集成技术缺点的基础上引出了SOA产生的原因,详细论述了SOA的定义、体系结构
随着Internet的飞速发展,网络应用如:IP Telephony、VOD、WWW等多媒体应用的层出不穷,使Internet逐步由单一的数据传输网向数据、语音、图像等多媒体信息的综合传输网演化。在高
中间件技术作为软件技术发展历史上的一个里程碑,它大幅度地减少了应用的实施工作量,提高了应用软件的成功率。基础中间件的定位是解决业务无关的基础技术,它不能解决业务需求分
磁盘性能如今已经成为计算机系统的主要瓶颈之一,CPU发出读写请求的速度和磁盘响应的速度越来越不匹配,因而对磁盘性能的评估就显得越来越重要。而国内外流行的测试软件往往
馈电线路是牵引供电的重要组成部分,其运行状态直接决定牵引供电系统的安全和效益,然而电力网络特别是高压馈电线路的故障却是不可避免的。馈电线路一旦发生故障,对牵引供电系统,受电设备及整个铁路运输都会造成重大损失,现在正值电气化铁路普遍提速时期,列车运行快速而密集,显然故障发生后如不能及时排除,将极大影响铁路运行安全,所以对馈电线路故障信号的检测以及特征提取、判断故障类型、缩短事故停电时间、保证铁路安全
本文从微观和宏观角度分析了EAI(Enterprise Application Integration,企业应用集成)的推动因素,以及集成解决方案的发展沿革,并阐述了SOI(Service-Oriented Integration,以服务
XML索引查询是XML技术研究的重要课题。虽然XML索引查询已经取得一些研究成果,但由于XML数据自身的特点,XML索引查询技术在理论上和实现上都还存在很多难点。本文对XML路径索引