论文部分内容阅读
近年来,垃圾短信严重的影响了人们的生活。随着微博的出现,垃圾信息存在进一步泛滥的风险。由于短信、微博等短文本的特殊性以及已有的特殊突围方法,传统文本过滤方法效果不佳。微博的信息传播速度极快,使得不良信息的危害性大大增强。所以急需一种针对短文本的有效过滤算法。
文本主要工作包括:
1.提出一种基于层次特征和统计特征的过滤算法,该方法实现了通过分析关键词中关键字的出现位置来判断关键词是否出现,通过分析各类字符比例计算可疑度,根据出现的敏感字计算可疑度。最终该算法综合以上三个个因素计算短文本最终可疑度。
2.设计和实现了一种垃圾短文本过滤系统。该系统利用上述算法,有效的减少了短信过滤过程中的人工参与。真实数据实验中证明了其有效性。
作者用真实短信对算法进行了测试,获得了较好的效果。最后以ROC曲线作为判断标准对层次特征和统计特征在最终短信可疑度的贡献比重做了必要的调整,并对调整前后进行了对比实验,结果表明,通过调整两种特征的贡献度,可使过滤效果得到显著提升。