基于领域本体的内容过滤模型设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:cuitlcm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今,信息技术飞速发展,日常使用的无线信息业务,产生垃圾信息的机会越来越多。如何根据需要对这些信息进行自动分类过滤,就成为信息技术领域的热门问题。在这方面的中文过滤技术研究就成为本文的重点。 本论文主要描述以短消息过滤系统为实例,结合领域本体,推理技术完成基于领域本体的内容过滤原型系统。主要做的工作有: 收集大量关于广告领域的知识信息,总结归纳得出详细的广告分类和商品分类信息。主要借鉴了官方的商品分类表,还有搜集到的广告类型。由于自然语言描述的不清晰,必须整理、分析这些知识,得出一个明确的广泛的广告领域知识库 完成建立广告领域本体的工作,在收集到的领域中的知识中,进行整理抽象,建立广告领域本体。它提供过滤系统重要的信息基础和关联基础。同时通过完善可以应用于短消息过滤系统当中。 利用建立的知识本体库的概念集合,从目标文本样本中匹配分词,以及与其有关的内容。这里建立了分词字典查询机制,从两种词库中分别匹配单词,着重进行基本词库查询匹配处理,产生推理逻辑条件集合。 提出基于知识库的查询推理模式,通过一阶逻辑运算,得出精确广告概念分类,并且通过此分类概念给内容体确定性质。基于此精确概念分类,完成过滤系统最终结果的判断。 建立内容过滤实验系统模型,其中提出一种知识反馈方式,对过滤系统中过滤消息进行基本分类,并且存储到反馈知识数据库中,提供领域专家知识素材。文中还对对领域本体其他一些应用进行了研究。 将本体知识库与信息过滤系统相结合,建立广告领域的本体库,形成需要的过滤条件,在分词的基础上,使用知识库的推理查询,最终能够识别出需要过滤的文本样本。从目标文本样识别的过程有分词、句法分析、知识库查询等步骤。本文提出的知识库系统,以分词,句法分析的结果为基础,进行词的提取,同时结合知识库,推理类层次关系得出相近类,应用到基于本体的短消息过滤系统中,就可以使
其他文献
随着大数据时代的到来,各行业数据大量累积,目前人们尚未对这些海量数据进行足够深层次的分析应用,数据挖掘技术便在此背景下应运而生。本文在研究了数据挖掘中聚类算法的研究现
随着计算机及网络技术的发展,无纸化考试这种考试形式得到了越来越广泛的应用。无纸化考试所具有的方便、快捷、效率高、防止试题泄露等优点,是传统考试手段所无法比拟的。在网
随着信息技术的飞速发展,数据挖掘在许多领域所起的作用越来越重要。在数据挖掘的各个分支中,关联规则挖掘和分类挖掘是两个高度活跃的领域,其应用范围也非常广泛。而关联规
随着计算机技术、网络技术、通信技术的不断发展和进步,通过网络实现办公已经变得非常普遍。人们在享受办公方便的同时,也受到了信息安全问题的困扰。网络“黑客”的攻击手段
为了提高签名效率、保护用户的隐私、解决数字签名的授权以及数字信息的安全传递,开展基于群体的数字签名和代理签名的研究不仅具有重要的学术价值,而且还对国家安全和信息化建
本文首先对几种经典的迭代算法进行了简单介绍,包括牛顿法、拟牛顿法等,并针对这些方法的不足,分析了块Broyden方法的优点。然后介绍了预处理技术的出现原因以及发展历史,分析了
AMS(Alpha Magnetic Spectrometer)太空磁谱仪实验是丁肇中教授领导的由美、俄、法、中等15个国家和地区共300多名科学家参加的大型国际合作项目,其目的是为了寻找由反物质所
随着计算机、通信,特别是人工智能理论与技术的发展,目前关于多主体协作的理论与应用研究已成为多学科和AI交叉研究中的一个前沿课题。在多主体系统中,由于单个主体的能力有
AMS科学活动所产生的数据正在以PetaByte的量级爆炸性地增长,如何高效地管理这些高度分散的海量科学数据已经成为AMS科学活动中的一个巨大挑战。为了应对这一挑战,AMS数据分
  “关注点分离”一直都是软件开发的一个重要目标和原则。针对面向对象技术在处理分散于系统各处的横切关注点上的不足,业界提出了面向方面的方法。由于面向方面方法在处理