论文部分内容阅读
我们正处在一个知识爆炸的时代。然而不同领域、不同性质、不同目的的知识以及不同的知识表示方法和推理机制,使得知识之间难以进行共享和互操作,人们仍然只能望洋兴叹。因此,人们越来越意识到,需要对知识在概念级上利用本体进行建模。经过几十年的发展,本体已涉及语义Web、智能信息检索、信息集成、数字图书馆等许多领域,并出现了一大批通用以及领域本体库和本体开发工具。
然而,单纯依靠手工构建本体,特别是大规模本体的构建,需要大量的领域专家,投入大量人力物力,开发周期长,成本很高,远远不能满足人们对本体的巨大需求,因此研究如何快速、自动构建大规模本体成为研究的热点。然而目前的本体学习方法在对领域概念的覆盖程度、时效性以及有效性方面存在不足。
有鉴于此,本文以农业领域作为应用背景,围绕着快速、高效、自动构建大规模轻量级农业本体展开研究。
本文的主要工作和创新点如下:
1. 实现了一种面向Web的自适应农业领域词汇挖掘算法,将领域词汇的自动获取问题转化为网页分类问题,同时采用近似最优策略,选取分类标签进行迭代提交,从而解决大规模农业领域词汇术语的高效获取问题,实验证明其收益率大幅提高,目前用这种方法已经获取了超过20万的农业领域术语。
2. 基于词汇专属度以及相似度,自上而下的构建农业领域词汇概念层次树,从而解决大规模农业轻量级本体构建的核心问题。用这种方法目前已构建超过5000多个术语的农业轻量级本体,涉及的领域包括种植业、农资市场、东海鱼类等。
3.本文将获得的农业轻量级本体应用于农业领域网页分类的任务中,通过对比实验,证明基于农业本体的概念空间模型较大程度提高了农业细分领域网页/文本的自动分类性能。同时,研发了农业网页自动分类系统。
最后,本文进行了总结,并展望了下一步的工作。