基于Word2vec的电子邮件分类

来源 :南昌大学 | 被引量 : 0次 | 上传用户:zhuce121566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化技术的不断发展,电子邮件以其廉价性、实用性、即时性成为互联网应用最广的服务,电子邮件因为其突出的便捷性极大的便利了人们的日常沟通交流,对社会经济的发展产生了极大的促进作用,玉有微瑕也带来了一个意外的副产品——垃圾邮件。垃圾邮件的泛滥不但造成了极大的经济损失,同时还威胁着信息的安全,不仅影响社会风气,污染人文环境,还扭曲了人们的人生观、价值观,产生了诸多的社会的问题,时刻打击着人们对网络交流的信心,阻碍着互联网的发展。因此,如何解决垃圾邮件的问题,如何提高垃圾邮件过滤技术成了迫在眉睫的难题。目前在国内外垃圾邮件过滤技术研究中,以基于邮件内容的分类成为了主流,但传统的机器学习算法在做文本特征化的过程中不可避免的存在着诸如维度过大、数据集太过稀疏、数据彼此独立没有联系,丢失太多重要特征从而导致分类的准确率达不到人们的理想要求,本文在基于邮件内容的基础上,利用Word2vec中的Skip-gram模型+负采样策略来训练分布式文本词向量,并针对过拟合现象对模型进行相应的调整,本文相关工作如下:(1)数据集采用国际文本检索会议提供的一个公开的垃圾邮件语料库——中文数据集Trec06c,分词后训练词向量,经实验比对,将词向量的维度设置为200维,考虑到邮件内容长短不一,将词向量进行tf-idf加权处理后作为输入数据集输入到BP神经网络模型中,对比传统机器学习模型的性能得到了明显提高。(2)因为深度学习里参数众多,极容易出现过拟合现象并且计算速度慢,所以本文中将会在模型中加入Dropout层,并将数据集分成多个Bitch-size,分批输入模型,另外基于accuracy曲线图会做多次对比实验,选择最好的那个Dropout系数,可以让模型具有更好的泛化性。(3)在以往2分类中一般使用Sigmoid分类器,但鉴于Sigmoid函数越到极限收敛速度越慢的缺点,本文中将采用Softmax分类器,并在分类器中加入L2正则惩罚项,可以让模型对不同的样本表现出更好的鲁棒性。(4)为提高收敛速度,弥补传统的梯度下降法学习率固定无法修改的弊端,改用自适应学习率优化算法Adam算法。(5)将最佳结果与传统的贝叶斯模型和KNN模型进行对比,本文改进后的BP神经网络模型预测结果的Precision、Accuracy和Recall要好于传统的机器学习算法。
其他文献
毛坤是我国著名的图书馆学家、目录学家,对毛坤图书馆学目录学学术成果的研究,不仅可揭示出其学术思想对近代图书馆学的价值、对当代图书馆事业的指导和借鉴意义,也有助于丰富民国图书馆学史的研究内容。本文将选取近现代图书馆学方面的杰出人物——毛坤,作为主要研究对象。本文分为三个部分,第一部分位绪论,介绍了了本选题的研究背景与当前的研究现状,其次简要陈述了本选题采用的研究方法并分析了本选题的研究意义;二是正文
大水锰矿及其外围地区位于北山裂谷北缘,处于中天山地块、塔里木盆地、敦煌地体三者之间。区内第四系至前寒武纪地层均有出露,且构造布局较为复杂,红柳河大断裂及衍生次级断裂对沿线矿床(点)控制明显,岩浆岩普遍发育,属于研究沉积型锰矿床的潜力地区。本区探明开发的多数锰矿床已进入其开采阶段的中晚期,因此加强该地区锰矿带成矿规律及成矿预测的研究,具有十分重要的理论和现实意义。本文以大水锰矿及其外围地区为主要研究
禽蛋作为人们日常生活的重要食材和医药工业的重要原材料,在社会发展中具有不可替代的作用。近些年,随着国内外禽蛋产销量日益增加,对禽蛋生产加工技术有了更高的要求,而禽蛋
石湾陶瓷产于广东佛山石湾窑,是岭南文化的代表性产物。在传统文化日益复兴的形势下,本文结合人类需求的发展史来反观被创造的石湾陶瓷发展史,通过生活需求、精神需求、社会经济需求、文化价值需求等四个维度的发展来依次呈递石湾陶瓷的历史变迁以及石湾陶瓷所取得的历史成就。本文在描绘石湾地区陶瓷产业的历史发展中,整理石湾陶瓷在历史变迁中所做出的光辉努力并透露出石湾陶瓷的发展困境。在国家大力弘扬传统文化的背景下,为
课堂质量是影响学生学业成就及个人发展的重要因素,是落实数学课程标准、提高教师教学技能以及提升学生学习成就的必然要求。“如何观察和评价一堂课的好坏”、“数学优质课的特征有哪些”等问题一直以来都是数学教学研究者及一线数学教师们讨论的热门话题。基于此,本研究的主要问题包括:(1)如何在现有的理论模型基础之上,构建更具可操作性的数学课堂评估模型?(2)依据改进后的模型,从每个维度上研究我国初中数学优质课堂
为了推动高背景区生态环境质量地球化学评价,助力乌蒙山区脱贫攻坚,本文以地球系统科学理论为指导,以云南省宣威市重点耕地区作为研究对象,通过研究As、Cd、Cr、Cu、Hg、Ni、Pb、Zn等8种重金属元素在剖面中的垂向迁移规律以及在表层土壤中含量特征和空间分布特征,分析重金属元素从成土母质到表层共生土壤的富集规律,对研究区土壤环境地球化学指标进行等级划分,同时叠加配套作物样品的形态分析和生物富集特征
每个人在成长过程中都需要尊重、欣赏和理解。赏识教育则是一条充满人情味、富有生命力的授爱之路。在全国响应素质教育的号召下,推行素质教育,合理赏识,兼顾到学生的理想、道德、文化和纪律方面。面向全体学生,不以成绩优劣区别对待,发掘学生闪光点力争每个学生都成为社会的有用之才。现如今越来越多的学者从理论和实践出发,以不同的视角研究赏识教育的实用性。本研究依托相应理论和教育学说,结合实际情况明确赏识教育是否有
本文研究了非自治动力系统的拉回吸引子的半一致紧性,重点介绍了非自治随机sine-Gordon方程的后向紧和前向紧随机吸引子的存在性.首先,介绍了非自治随机动力系统和非自治随机吸引子的背景,以及非自治随机sine-Gordon方程的背景及研究现状.然后,建立了一个有关非自治随机吸引子后向紧性的重要标准,即若一个非自治动力系统Φ是有界耗散的和后向渐近紧的,则Φ存在一个后向紧随机吸引子.本文还从周期性和
随着信息技术的发展以及互联网的普及,社交网络逐渐成为人们日常交流的重要组成部分。然而由于信息的急剧增长,人们在享受社交媒体带来便捷服务的同时,如何在海量数据中寻找到自己感兴趣的内容成为一个难题。在此背景下,社交网络推荐系统应运而生,同时,社交网络推荐系统也存在用户隐私泄露的风险。如何既能保证用户隐私安全又能提供高质量的推荐服务成为研究热点。目前信息推荐主要集中于广告推荐、基于位置的推荐以及电商网的
目的:本次研究目的在于探讨清感口服液治疗外感咳嗽风热犯肺型的临床疗效,具体通过对其理论研究、临床疗效观察、有效性及安全性等方面为清感口服液治疗外感咳嗽风热犯肺型提供临床依据,为治疗外感风热咳嗽提供新的、安全的、有效的药物。方法:将60例符合中、西医咳嗽诊断标准的患者随机分为治疗组30例及对照组30例。对照组采用常规西药治疗:复方氨酚愈敏口服溶液。治疗组则在对照组基础上服用清感口服液(石膏、麻黄、杏