基于生物序列模式提取技术的邮件过滤算法

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:jackyong63
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决垃圾邮件过滤问题,考虑到中文垃圾邮件的特点和过滤系统的效率要求,应用生物信息化技术中模式提取算法TE IRES IA S的原理,设计了基于生物序列模式提取技术的垃圾邮件过滤算法B ioM atrix,并实现了基于此算法的中英文邮件过滤系统。过滤系统由数量控制过滤提供垃圾邮件训练集,通过提取其中的特征模式对邮件进行分类,可以识别出约94.2%的垃圾邮件,误过滤率约0.04%。与B ayes过滤算法对比的实验结果表明,将生物序列模式提取技术应用于邮件过滤具有较好的研究和实用价值。 In order to solve the problem of spam filtering, taking into account the characteristics of Chinese spam and the efficiency of the filtering system, a spam filtering algorithm based on biological sequence pattern extraction technology is designed by applying the principle of pattern extraction algorithm TEI IAAS in bioinformatics B ioM atrix, and based on this algorithm in English mail filtering system. The filtering system provides a spam training set by quantitative control filtering. By sorting the e-mail messages in the signature mode, about 94.2% spam messages can be identified, accounting for about 0.04% of false positives. Compared with the B ayes filtering algorithm, experimental results show that the application of the biological sequence pattern extraction technique to mail filtering has good research and practical value.
其他文献
利用有限元方法建立了二维模型,研究了飞秒激光作用下石英玻璃中导带电子的产生、激光能量的沉积、导带电子和能量扩散等微观过程. 计算了导带电子扩散引起的局部净电荷及其
使用高浓缩同位素的152Sm和154Sm配制不同丰度的Sm基准溶液,对多接收电感耦合等离子体质谱(MC-ICPMS)的系统偏差进行校准,求出154Sm/152Sm的平均校准系数。采用指数函数式推
Every slight movement of human body, such as beat of heart, contract of muscles, thinking of brain, is associated with bioelectricity. In search for a neural co
研究了一类热带海气耦合振子的模型.利用摄动方法求出了相应模式的渐近解. A kind of tropical sea-air coupled oscillator model is studied. The asymptotic solution of
通过对材料减薄,并采用红外透射显微镜观察的手段,实现了对A面和B面腐蚀坑的同时观察.结果发现采用标准腐蚀剂在同一晶片的(111)A和(111)B面上形成的腐蚀坑大都不存在对应关
用一个简单模型讨论了应变异质结构中嵌入中间层对界面失配位错产生和应变释放的影响.根据能量最小原理得到了弹性能最小状态下界面失配位错密度,发现当中间层材料的晶格常数
从理论和实验上研究了多层介质膜光栅掩膜特性,用严格耦合波(RCW)法对由光栅掩膜槽形和多层膜介质基底引起的衍射效率的变化进行了理论分析,计算得出不同形貌下的光栅掩膜的
用紫外-可见光谱(UV)和圆二色(CD)光谱研究了超声波激活血卟啉(HP)对牛血清白蛋白(BSA)的损伤,探讨了超声波照射时间、HP浓度、离子强度和酸度等因素对BSA损伤的影响.结果表
分析了一种基于布拉格光纤光栅(FBG)的高效方便的谐振频率检测系统。布拉格光纤光栅作为传感器粘贴在悬臂梁表面探测其振动,密集波分复用器(DWDM)作为波长解调器件通过透过率
根据红外辐射理论和薄膜光学原理计算了高品质ITO(indiumtinoxide)导电膜的红外发射率,其理论曲线与实测曲线基本符合.并得出方块电阻小于30Ω时,ITO膜在红外波段8—14μm的