论文部分内容阅读
当今,信息技术飞速发展,日常使用的无线信息业务,产生垃圾信息的机会越来越多。如何根据需要对这些信息进行自动分类过滤,就成为信息技术领域的热门问题。在这方面的中文过滤技术研究就成为本文的重点。 本论文主要描述以短消息过滤系统为实例,结合领域本体,推理技术完成基于领域本体的内容过滤原型系统。主要做的工作有: 收集大量关于广告领域的知识信息,总结归纳得出详细的广告分类和商品分类信息。主要借鉴了官方的商品分类表,还有搜集到的广告类型。由于自然语言描述的不清晰,必须整理、分析这些知识,得出一个明确的广泛的广告领域知识库 完成建立广告领域本体的工作,在收集到的领域中的知识中,进行整理抽象,建立广告领域本体。它提供过滤系统重要的信息基础和关联基础。同时通过完善可以应用于短消息过滤系统当中。 利用建立的知识本体库的概念集合,从目标文本样本中匹配分词,以及与其有关的内容。这里建立了分词字典查询机制,从两种词库中分别匹配单词,着重进行基本词库查询匹配处理,产生推理逻辑条件集合。 提出基于知识库的查询推理模式,通过一阶逻辑运算,得出精确广告概念分类,并且通过此分类概念给内容体确定性质。基于此精确概念分类,完成过滤系统最终结果的判断。 建立内容过滤实验系统模型,其中提出一种知识反馈方式,对过滤系统中过滤消息进行基本分类,并且存储到反馈知识数据库中,提供领域专家知识素材。文中还对对领域本体其他一些应用进行了研究。 将本体知识库与信息过滤系统相结合,建立广告领域的本体库,形成需要的过滤条件,在分词的基础上,使用知识库的推理查询,最终能够识别出需要过滤的文本样本。从目标文本样识别的过程有分词、句法分析、知识库查询等步骤。本文提出的知识库系统,以分词,句法分析的结果为基础,进行词的提取,同时结合知识库,推理类层次关系得出相近类,应用到基于本体的短消息过滤系统中,就可以使