基于层次特征和统计特征的短文本过滤系统研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:linjianvhai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,垃圾短信严重的影响了人们的生活。随着微博的出现,垃圾信息存在进一步泛滥的风险。由于短信、微博等短文本的特殊性以及已有的特殊突围方法,传统文本过滤方法效果不佳。微博的信息传播速度极快,使得不良信息的危害性大大增强。所以急需一种针对短文本的有效过滤算法。   文本主要工作包括:   1.提出一种基于层次特征和统计特征的过滤算法,该方法实现了通过分析关键词中关键字的出现位置来判断关键词是否出现,通过分析各类字符比例计算可疑度,根据出现的敏感字计算可疑度。最终该算法综合以上三个个因素计算短文本最终可疑度。   2.设计和实现了一种垃圾短文本过滤系统。该系统利用上述算法,有效的减少了短信过滤过程中的人工参与。真实数据实验中证明了其有效性。   作者用真实短信对算法进行了测试,获得了较好的效果。最后以ROC曲线作为判断标准对层次特征和统计特征在最终短信可疑度的贡献比重做了必要的调整,并对调整前后进行了对比实验,结果表明,通过调整两种特征的贡献度,可使过滤效果得到显著提升。  
其他文献
近年来,汽车保有量随着经济的繁荣不断增加,因车道偏离、汽车碰撞导致的交通安全事故也随之增长。为了减少这些事故造成的人员伤亡和财产损失,汽车生产商和研究机构都加大了
新风系统是在封闭室内空间的一侧用专用设备向室内送新风,再从另一侧将室内空气外排出,从而实现了室内空气的流动以满足室内新风换气的需要。在新风系统工作在室外温度较低的环
实际系统中广泛存在着多时间尺度现象,导致了复平面上的极点分布分散,难以设计统一尺度的控制器。另外,系统极点往往只对有限频段的外部干扰敏感,且外部干扰的主要能量也集中在某
直角坐标机器人具有本体结构简单,控制系统容易实现,可扩展性强等特点,广泛应用于工业现场。本文针对直角坐标机器人在视觉引导下的快速运动、大范围高精度跟踪以及高精度快速运
目前,国内环境污染严重,其中的尘土颗粒和有机物对通信、计算机等电子系统的电接触可靠性有重要影响。本课题研究了典型尘土颗粒对电接触的影响,主要包含两部分的工作:第一,新型滑
随着信息化时代的发展,如何利用嵌入式技术、无线传输技术实现嵌入式无线温度报警,有效检测高温信号,避免人员伤亡,成为当前研究开发的热点问题之一,论文的研究开发工作是在这样的
旋翼无人机具有独特的飞行性能和独有的低成本、低损耗、零伤亡、战场生存能力强、可重复使用以及高机动等诸多优势,在军用及民用方面具有广泛的应用前景。开展无人机自主环
本文主要研究对象为两类空调控制系统,一个是基于西门子PLC可编程控制器的控制网络系统,该系统采用西门子S7-300PLC做主站,S7-200PLC做从站,PROFIBUS组网的主从式分布,通过软硬件
航天型号具有技术难度大、投入资金多、质量与可靠性要求高、研制协作面广及研制风险高等特点,科学有效的管理是航天型号成功的根本保障。随着我国航天型号研制形势发生任务急
伴随着我国低空空域的逐步开放,通用航空产业将迎来迅猛发展,而传统的飞行训练方法高度依赖教练机与飞行教练,难以满足突如其来的巨大需求。传统的飞行训练模拟器能够模拟飞