论文部分内容阅读
摘要:对本体(ontology)的研究在计算机科学领域变的越来越广泛,但手工构建本体是一项繁琐而辛苦的任务,还容易导致知识获取瓶颈,无法保持本体的更新。本体学习技术是利用本体工程技术和机器学习技术等众多学科技术来实现本体的自动或半自动构建。该文提出了基于Web的本体学习模型,分析了模型实现中的文档预处理、术语抽取、概念选择、概念分类等关键技术。
关键词:本体;本体学习;知识获取;本体评估
中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)23-1005-03
Design and Realization for Ontology Learning Model Based on Web
WU Yu-huang, LI Yu-sheng
(Network Center, Wuhan Polytechnic University, Wuhan 430023, China)
Abstract: To ontology the research changes in the computer science domain is getting more and more widespread, but constructs the ontology is manually an item tedious and the laborious duty, but also easy to cause the knowledge gain bottleneck, is unable maintains the ontology the renewal.The ontology learning technology is and so on numerous discipline technologies realizes the ontology using the ontology engineering technology and the machine learning technology automatic or the semiautomatic construction.This article proposed based on the Web ontology learning model, analyzed the model to realize the documents pretreatment, the term extraction, the concept choice, the concept classification and so on key technologies.
Key words: ontology; ontology learning; knowledge acquisition; ontology evaluation
1 引言
目前对于本体的研究在计算机科学领域变的越来越广泛,人们对本体的需求也越来越多,且本体在众多领域的应用都是在构建本体的基础之上实现的,但本体的构建却是一项繁琐而辛苦的任务。手工方式构建的本体需要耗费大量的人力和时间,像Cyc和WordNet等系统需要使用人工为本体输入大量的知识,然后系统才能使用其庞大的知识库进行推理或是获取新的知识。这就容易导致知识获取瓶颈,无法保持本体的更新。因为本体中的知识是变化的,它总是在不断地发展和更新。这就决定了本体不能以手工方式构造,我们需要自动或半自动方式来构建本体。因此,本体学习技术[1]应运而生,它旨在综合众多的学科技术来促进本体的自动或半自动构建,特别是本体工程技术[2]和机器学习技术[3]。本文提出一种基于Web的本体学习的模型,讨论模型实现过程中的Web文档预处理、术语抽取、生成领域概念集、概念分类结构的建立等,并对模型进行测试。
2 本体学习模型设计
本文旨在实现从Web页面中自动抽取本体,从Web页面数据中找出本体语义概念的模式及其关系。它通过分析同一应用领域Web页面集来半自动化地抽取Web本体。本文提出的本体学习模型如图1所示,本体学习的整个过程包括Web文档预处理、生成候选关键词集、术语抽取、概念选择(生成概念集)、概念分类。使用多种数据源收集、选择和预处理Web文档,生成候选关键词集,再从候选关键词中抽取候选术语,形成领域术语项学习信息的初始列表,最后通过概念选择过滤与领域不相关的术语,得到领域本体概念。
2.1 Web文档预处理
Web页面中的数据大多数是非结构化或半结构化的,所以把文本从非结构化的形式表示成计算机可以处理的结构化形式,需要对Web文档集进行预处理。从Web文档集中抽取代表其特征的元数据作为文档语义单元。特征可以是字、词、短语或概念。使用TF-IDF向量表示文本特征,典型且广泛使用TF-IDF公式:
其中,W(t,d)为词t在文档d中的权重,最大限度区分了不同文档;tf(t,d)为词t在文档d中出现的频率;N为全部样本的总和;nt为N个样本中出现词t的样本数。在文档中出现频率足够高的那些词是对区别文档最有意义的词,权重越大区分文档内容属性的能力就越强。经过文档预处理步骤,已经产生一系列的候选规范词。
2.2 术语抽取
术语是专业领域中概念的语言指称,为某一指定领域内简单或复杂含义的词组或字符串。从某种意义上讲,术语是一种领域知识的文本形式的浅层表示。因术语具有低二义性和高专指性,这些词对于领域知识的概念化尤其有效,可支持领域本体的创建。通过提高准确率和召回率,由计算机尽可能准确、全面地抽取候选术语项,是本体学习和研究的重点。步骤如下:
1)候选术语集生成:首先采用词组块来确定句子中浅层短语边界。在该过程中,本文采用浅层解析技术以及启发信息,如表示重点句子和段落的提示词。浅层解析器模块可分为两个过程:句子锚定,候选术语生成和本体术语选择。所有锚定句子被分块以形成名词短语、动词短语和从句。该步骤的输出是一组没有结构消歧的候选名词短语。
2)领域相关度计算:Roberto Navigli提出了一种新型的方法筛选术语[4],该方法基于称作领域相关性和领域一致性的两种测度形式。类Dk中术语t的领域相关性采用如下公式计算:
(2)
其中条件概率P(t|Dk)采用下式来评估:
3)抽取共生词:对上一步中产生的结果中错误名词短语进行修剪。在该步骤中,通过应用句法结构和统计技术来分析名词短语,解决名词短语生成过度或不及的问题。从句法标注的语料中,创建了相同名词短语的概率模型,它通过从文档集和语料库中采用下式计算的结果抽取信息:
其中PNPU(Wi,Wj)为抽取信息的目标名词断语或复合名词,Wi和Wj可关联到一个新词;Pf(Wi)为Wi跟在其它词后出现的频度;Pb(Wj)为Wj跟在其它词前出现的频度。
这种概率模型可用于修剪候选名词短语中的错误名词短语。如果前面的名词短语的概率大于阈值,该名词短语则可能为一个合适名称。对选择的术语集根据相关度进行排序,形成术语项列表。
2.3 概念选择
概念是知识的基本单位也是思维的最小单位。术语和概念之间应一一对应,即一个术语只表示一个概念;一个概念只有一个指称,即只由一个术语来表示。术语要成为本体概念,须同时满足有明确含义和有重要作用等两个条件。而判断术语是否有明确的含义,主要是考察其稳定性与完整性。根据香农理论,术语的稳定性可以通过其内部的互信息来度量,并选择互信息值最高的作为候选概念。
定义:设文档T的一个字符串S由P个字符组成(P≥2)即“c1c2Lcp-1”,则S的互信息为:
其中SL是将S去掉最右边1个字符得到左段子字符串;SR是将S去掉最左边1个字符得到右段子字符串;f(S)、f(SL)、f(SR) 是字符串S、SL、SR各自出现的频度。
如果一个字符串的互信息高于某个阈值,那么就可以认为这个字符串是稳定的。而字符串是完整性,是指它能够独立地表达完整的含义,因此它可以独立地出现在不同的上下文之中。
2.4 概念分类
为了有效地对本体概念进行分类,采用KNN(K-Nearest Neighour)算法[5]。该算法的基本思路是:在给定新文档后,考虑在训练文档集中与该新文档距离最近(最相似)的篇文档,根据这篇文档所属的类别判定新文档所属的类别。具体的算法步骤如下:
1) 根据特征项集合重新描述训练文档向量。
2) 在新文档到达后,根据特征词分词新文档,确定新文档的向量表示。
3) 在训练文档集中选出与新文档最相似的K个文档,计算公式为:
其中,di为测试Web文本的特征向量,dj为第j类的中心向量,M为特征向量的维数。Wk为向量的第k维。k值的确定目前没有很好的方法,一般采用先定一个初始值,然后根据实验测试的结果调整K值。一般初始值定为几百到几千之间。采用了以上计算公式进行计算,即可对初始文本向量进行分析,从而在训练文本集中选出与测试文本最相似的k个文本。
4) 在新文档的K邻居中,依次计算每类的权重,计算公式为:
其中,d为新文档的特征向量;Sim(d,di)为相似度计算公式,与上一步骤的计算公式相同;而y(di,cj)为类别属性函数,即:如果di属于类cj,那么函数值为1,否则为0。
5) 比较类的权重,将文档分到权重最大的那个类别中。
3 评价和测试
由于不同的本体学习系统学习的本体内容不同,对于不同的输入数据采用的方法不同,所以通过一种方法来比较它们的结果是很困难的。因此,许多本体学习系统都有自己的评价和测试方法,这些方法是基于本体所应用的环境和所选择的领域的。像很多本体学习系统通过计算学习模型的查全率(recall)和查准率(precision)这两个指标来评价学习系统。
查全率是指正确概念的数量与测试集中概念总数的比率。其数学公式为:
查准率是指正确概念的数量与所提取概念总数的比率。其数学公式为:
查全率和查准率反映了分类质量的两个不同方面,两者必须综合考虑,不可偏废,所以还使用两者综合考虑的评估指标:F1测试值,其数学公式为:
本文采用新浪网的体育新闻网页作为测试语料库,选取该语料中的5个体育项目为主题类:乒乓球、羽毛球、篮球、网球、游泳,对于每一类采用任意选取的200篇网页作为训练集,其它80篇网页作为测试集。用上述的方法和数据进行测试,其实验结果如表1所示。
4 结束语
在构建本体过程中,由于收集的Web文档不断动态变化,领域概念也需要不断地添加或删除。目前无法做到完全自动化构建领域本体,需要人工干预。本文提出了从候选术语中选择最合适的概念,在一定程度上降低了添加或删除概念时可能带来的噪声和信息的丢失。本文所涉及的其他问题尚待研究,如确定概念与概念之间的关系、领域本体更新的维护等。
参考文献:
[1] Perez G,Macho M.A survey of ontology learning methods and techniques[M].Onto Web Deliverable D1,2003:1-86.
[2] Shauntrelle D D,Tia B W.Engineering knowledge[M].In:Proceedings of the 42nd Annual Southeast Regional Co-nference,Huntsvllle,Alabama,2004:406-407.
[3] ZHENG De-quan,ZHAO Tie-jun,YU Fe-ng,et al.Machine learning for automaticac quisition of Chinese ingu-istic ontology knowledge[J].IEEE,2005.3728-3733.
[4] Navigli R,Velardi P.Learning domain ontologies from document warehouses and dedicated web site[M].Computational Linguistics(30-2),MIT Press,2004.
[5] Kwok Yin Lai,Lava W.Automatic Textual Document Categorization Using Multiple Similarity Based Models.SDM2001,Nov.2001.
[6] 孙丽华,张积东,李静梅.一种改进的KNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27.
[7] LIU Bai-song, GAO Ji. General Ontology Learning famework[J]. Journal of Southeast University(English Edition).2006,22,(3):381-384.
[8] Maedche A,Staab S.Ontology Learning for the Semantic Web[J].IEEE Intelligent Systems:Special Issue on the Semantic Web,2001,16(2):72-79.
[9] A1exander Maedchel and Steffen Staab[Z].Onto1ogy Learning,2005.
[10] Velardi P,Navigli R,Cuchiarelli A,et al.Evaluation of ontoLearn,a methodology for automatic learning of domain ontologies[A].In:Ontology Learning from Text:Methods,Evaluation and Applications[C].IOS Press,2005:1-32.
[11] Maedche A,Staab S.On tology learning for the semantic web[J].IEEE Intelligent Systems,2001,16(2):72-79.
关键词:本体;本体学习;知识获取;本体评估
中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)23-1005-03
Design and Realization for Ontology Learning Model Based on Web
WU Yu-huang, LI Yu-sheng
(Network Center, Wuhan Polytechnic University, Wuhan 430023, China)
Abstract: To ontology the research changes in the computer science domain is getting more and more widespread, but constructs the ontology is manually an item tedious and the laborious duty, but also easy to cause the knowledge gain bottleneck, is unable maintains the ontology the renewal.The ontology learning technology is and so on numerous discipline technologies realizes the ontology using the ontology engineering technology and the machine learning technology automatic or the semiautomatic construction.This article proposed based on the Web ontology learning model, analyzed the model to realize the documents pretreatment, the term extraction, the concept choice, the concept classification and so on key technologies.
Key words: ontology; ontology learning; knowledge acquisition; ontology evaluation
1 引言
目前对于本体的研究在计算机科学领域变的越来越广泛,人们对本体的需求也越来越多,且本体在众多领域的应用都是在构建本体的基础之上实现的,但本体的构建却是一项繁琐而辛苦的任务。手工方式构建的本体需要耗费大量的人力和时间,像Cyc和WordNet等系统需要使用人工为本体输入大量的知识,然后系统才能使用其庞大的知识库进行推理或是获取新的知识。这就容易导致知识获取瓶颈,无法保持本体的更新。因为本体中的知识是变化的,它总是在不断地发展和更新。这就决定了本体不能以手工方式构造,我们需要自动或半自动方式来构建本体。因此,本体学习技术[1]应运而生,它旨在综合众多的学科技术来促进本体的自动或半自动构建,特别是本体工程技术[2]和机器学习技术[3]。本文提出一种基于Web的本体学习的模型,讨论模型实现过程中的Web文档预处理、术语抽取、生成领域概念集、概念分类结构的建立等,并对模型进行测试。
2 本体学习模型设计
本文旨在实现从Web页面中自动抽取本体,从Web页面数据中找出本体语义概念的模式及其关系。它通过分析同一应用领域Web页面集来半自动化地抽取Web本体。本文提出的本体学习模型如图1所示,本体学习的整个过程包括Web文档预处理、生成候选关键词集、术语抽取、概念选择(生成概念集)、概念分类。使用多种数据源收集、选择和预处理Web文档,生成候选关键词集,再从候选关键词中抽取候选术语,形成领域术语项学习信息的初始列表,最后通过概念选择过滤与领域不相关的术语,得到领域本体概念。
2.1 Web文档预处理
Web页面中的数据大多数是非结构化或半结构化的,所以把文本从非结构化的形式表示成计算机可以处理的结构化形式,需要对Web文档集进行预处理。从Web文档集中抽取代表其特征的元数据作为文档语义单元。特征可以是字、词、短语或概念。使用TF-IDF向量表示文本特征,典型且广泛使用TF-IDF公式:
其中,W(t,d)为词t在文档d中的权重,最大限度区分了不同文档;tf(t,d)为词t在文档d中出现的频率;N为全部样本的总和;nt为N个样本中出现词t的样本数。在文档中出现频率足够高的那些词是对区别文档最有意义的词,权重越大区分文档内容属性的能力就越强。经过文档预处理步骤,已经产生一系列的候选规范词。
2.2 术语抽取
术语是专业领域中概念的语言指称,为某一指定领域内简单或复杂含义的词组或字符串。从某种意义上讲,术语是一种领域知识的文本形式的浅层表示。因术语具有低二义性和高专指性,这些词对于领域知识的概念化尤其有效,可支持领域本体的创建。通过提高准确率和召回率,由计算机尽可能准确、全面地抽取候选术语项,是本体学习和研究的重点。步骤如下:
1)候选术语集生成:首先采用词组块来确定句子中浅层短语边界。在该过程中,本文采用浅层解析技术以及启发信息,如表示重点句子和段落的提示词。浅层解析器模块可分为两个过程:句子锚定,候选术语生成和本体术语选择。所有锚定句子被分块以形成名词短语、动词短语和从句。该步骤的输出是一组没有结构消歧的候选名词短语。
2)领域相关度计算:Roberto Navigli提出了一种新型的方法筛选术语[4],该方法基于称作领域相关性和领域一致性的两种测度形式。类Dk中术语t的领域相关性采用如下公式计算:
(2)
其中条件概率P(t|Dk)采用下式来评估:
3)抽取共生词:对上一步中产生的结果中错误名词短语进行修剪。在该步骤中,通过应用句法结构和统计技术来分析名词短语,解决名词短语生成过度或不及的问题。从句法标注的语料中,创建了相同名词短语的概率模型,它通过从文档集和语料库中采用下式计算的结果抽取信息:
其中PNPU(Wi,Wj)为抽取信息的目标名词断语或复合名词,Wi和Wj可关联到一个新词;Pf(Wi)为Wi跟在其它词后出现的频度;Pb(Wj)为Wj跟在其它词前出现的频度。
这种概率模型可用于修剪候选名词短语中的错误名词短语。如果前面的名词短语的概率大于阈值,该名词短语则可能为一个合适名称。对选择的术语集根据相关度进行排序,形成术语项列表。
2.3 概念选择
概念是知识的基本单位也是思维的最小单位。术语和概念之间应一一对应,即一个术语只表示一个概念;一个概念只有一个指称,即只由一个术语来表示。术语要成为本体概念,须同时满足有明确含义和有重要作用等两个条件。而判断术语是否有明确的含义,主要是考察其稳定性与完整性。根据香农理论,术语的稳定性可以通过其内部的互信息来度量,并选择互信息值最高的作为候选概念。
定义:设文档T的一个字符串S由P个字符组成(P≥2)即“c1c2Lcp-1”,则S的互信息为:
其中SL是将S去掉最右边1个字符得到左段子字符串;SR是将S去掉最左边1个字符得到右段子字符串;f(S)、f(SL)、f(SR) 是字符串S、SL、SR各自出现的频度。
如果一个字符串的互信息高于某个阈值,那么就可以认为这个字符串是稳定的。而字符串是完整性,是指它能够独立地表达完整的含义,因此它可以独立地出现在不同的上下文之中。
2.4 概念分类
为了有效地对本体概念进行分类,采用KNN(K-Nearest Neighour)算法[5]。该算法的基本思路是:在给定新文档后,考虑在训练文档集中与该新文档距离最近(最相似)的篇文档,根据这篇文档所属的类别判定新文档所属的类别。具体的算法步骤如下:
1) 根据特征项集合重新描述训练文档向量。
2) 在新文档到达后,根据特征词分词新文档,确定新文档的向量表示。
3) 在训练文档集中选出与新文档最相似的K个文档,计算公式为:
其中,di为测试Web文本的特征向量,dj为第j类的中心向量,M为特征向量的维数。Wk为向量的第k维。k值的确定目前没有很好的方法,一般采用先定一个初始值,然后根据实验测试的结果调整K值。一般初始值定为几百到几千之间。采用了以上计算公式进行计算,即可对初始文本向量进行分析,从而在训练文本集中选出与测试文本最相似的k个文本。
4) 在新文档的K邻居中,依次计算每类的权重,计算公式为:
其中,d为新文档的特征向量;Sim(d,di)为相似度计算公式,与上一步骤的计算公式相同;而y(di,cj)为类别属性函数,即:如果di属于类cj,那么函数值为1,否则为0。
5) 比较类的权重,将文档分到权重最大的那个类别中。
3 评价和测试
由于不同的本体学习系统学习的本体内容不同,对于不同的输入数据采用的方法不同,所以通过一种方法来比较它们的结果是很困难的。因此,许多本体学习系统都有自己的评价和测试方法,这些方法是基于本体所应用的环境和所选择的领域的。像很多本体学习系统通过计算学习模型的查全率(recall)和查准率(precision)这两个指标来评价学习系统。
查全率是指正确概念的数量与测试集中概念总数的比率。其数学公式为:
查准率是指正确概念的数量与所提取概念总数的比率。其数学公式为:
查全率和查准率反映了分类质量的两个不同方面,两者必须综合考虑,不可偏废,所以还使用两者综合考虑的评估指标:F1测试值,其数学公式为:
本文采用新浪网的体育新闻网页作为测试语料库,选取该语料中的5个体育项目为主题类:乒乓球、羽毛球、篮球、网球、游泳,对于每一类采用任意选取的200篇网页作为训练集,其它80篇网页作为测试集。用上述的方法和数据进行测试,其实验结果如表1所示。
4 结束语
在构建本体过程中,由于收集的Web文档不断动态变化,领域概念也需要不断地添加或删除。目前无法做到完全自动化构建领域本体,需要人工干预。本文提出了从候选术语中选择最合适的概念,在一定程度上降低了添加或删除概念时可能带来的噪声和信息的丢失。本文所涉及的其他问题尚待研究,如确定概念与概念之间的关系、领域本体更新的维护等。
参考文献:
[1] Perez G,Macho M.A survey of ontology learning methods and techniques[M].Onto Web Deliverable D1,2003:1-86.
[2] Shauntrelle D D,Tia B W.Engineering knowledge[M].In:Proceedings of the 42nd Annual Southeast Regional Co-nference,Huntsvllle,Alabama,2004:406-407.
[3] ZHENG De-quan,ZHAO Tie-jun,YU Fe-ng,et al.Machine learning for automaticac quisition of Chinese ingu-istic ontology knowledge[J].IEEE,2005.3728-3733.
[4] Navigli R,Velardi P.Learning domain ontologies from document warehouses and dedicated web site[M].Computational Linguistics(30-2),MIT Press,2004.
[5] Kwok Yin Lai,Lava W.Automatic Textual Document Categorization Using Multiple Similarity Based Models.SDM2001,Nov.2001.
[6] 孙丽华,张积东,李静梅.一种改进的KNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27.
[7] LIU Bai-song, GAO Ji. General Ontology Learning famework[J]. Journal of Southeast University(English Edition).2006,22,(3):381-384.
[8] Maedche A,Staab S.Ontology Learning for the Semantic Web[J].IEEE Intelligent Systems:Special Issue on the Semantic Web,2001,16(2):72-79.
[9] A1exander Maedchel and Steffen Staab[Z].Onto1ogy Learning,2005.
[10] Velardi P,Navigli R,Cuchiarelli A,et al.Evaluation of ontoLearn,a methodology for automatic learning of domain ontologies[A].In:Ontology Learning from Text:Methods,Evaluation and Applications[C].IOS Press,2005:1-32.
[11] Maedche A,Staab S.On tology learning for the semantic web[J].IEEE Intelligent Systems,2001,16(2):72-79.