论文部分内容阅读
随着因特网的高速发展,信息过滤技术已成为当今计算机信息处理领域最热门的技术之一.在该论文中,系统地介绍了作者作为主要人员参与研制的文本过滤系统FDFilter的主要框架和各部门实现算法.该系统参加了TREC10的自适应过滤子任务的评测,取得了第三名的好成绩.第二章对当今信息过滤领域的常用技术进行了综述.在第三章,对FDFilter信息过滤系统中训练模块的算法和数据结构进行了系统的介绍.训练阶段主要研究初始模块的创建、初始阈值的设置以及如何充分利用用户给出的主题描述信息.在对主题信息进行仔细研究的基础上,根据主题的描述信息实现了一个基于winnow的分类器,然后用此分类器辅助过滤系统取得了不错的结果.在第四章,讨论了系统的阈值和模板调整算法.在模板调整模块中采用了Rocchio反馈算法,实验证明这有很好的结果.阈值调整是自适应文本过滤中另一个非常重要的步骤.自适应文本过滤中训练正例少以及过滤过程中数据稀疏等问题,使得自适应文本过滤的阈值调整尤为困难.在FDFilter系统中,采用了面向精度的调整算法,该算法充分利用过滤过程中的精确率、平均相似度等可观测信息调整阈值;具有使用正例少、调整速度快、系统性能高等优点.第五章介绍作者在实现一些模块中采用算法和数据结构,包括语料格式处理、索引生成和压缩、特征抽取模块.并给出了系统在中英文语料上的评测结果.结果表明该过滤系统已经达到了国际先进的水平.