基于LDA聚类的语义Web服务发现

来源 :南京大学 | 被引量 : 0次 | 上传用户:wonghost
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网与分布式技术的快速发展,面向服务的体系结构(SOA)得到了学术界和工业界的青睐和广泛应用。作为一种基于互联网标准和XML规范的新型分布式计算模型和实现SOA的主要技术,Web服务已成为当前研究的热点。随着互联网上Web服务数量的指数型增长,如何从庞大的Web服务中有效地获得满足需求功能的Web服务?如何在功能相似的Web服务中找到用户最满意的服务?这些难以解决的问题,正是Web服务发现的研究内容。目前常见的Web服务发现方法主要有基于逻辑的方法、基于非逻辑的方法和基于混合的方法。其中基于逻辑的方法依赖于推理机和推理规则的完整性,虽然准确性较高,但是灵活性和可行性较差;而基于非逻辑的方法很难确定一个合适的相似度计算函数,并且相似度计算函数的优劣也很难保证;基于混合的方法能够充分取长补短,且有很多实验证明混合方法具有明显的效果。本文在已有工作的基础上,提出了一种基于LDA聚类的语义Web服务发现方法,也是一种混合的Web服务发现方法。即首先对OWL-S Web服务文档解析,得到文档词汇向量;然后对文档词汇向量进行扩充,使文档语义信息更加丰富;再对文档扩充词汇向量集合建模,并进行训练和推断,得到文档-主题分布,并对Web服务文档聚类;最后通过查找Web服务请求记录或者直接在簇中查找满足需求的Web服务。论文的主要工作包括:(1)文档解析。提出了一种新颖的文档解析方法,即首先对OWL-S文档进行解析得到服务名称、服务描述、输入和输出四个关键信息,然后对服务名称和服务描述进行去停用词、词性还原等处理得到文档词汇向量。为了丰富文档语义信息,解析OWL-S文档对应的本体OWL文件,得到输入输出概念的等价类、父类、祖先类、子类、后代类等相关本体类概念,加入文档词汇向量,并且利用WordNet和Word2Vec对处理后的文档词汇向量查找相似度较高的词汇,再加入其中,最后合并所有词汇向量,得到扩充文档词汇向量。扩充后的文档词汇向量具有丰富的语义信息。(2)文档聚类。实现一种基于概率主题模型的文档聚类方法,即首先对扩充后的文档词汇向量集合建立LDA主题模型,并使用Gibbs采样算法进行训练和推断得到文档-主题分布,基于此,对文档使用本文提出的LKMSIMPClustering聚类算法,对所有文档进行聚类,得到Web服务簇集合。(3)请求查询。实现了一种轻量级的Web服务请求查询,即首先查找备忘录DB模块中是否存在对应的Web服务请求记录,若存在,直接返回查询结果,若不存在,则需要查找Web服务簇中最相关的簇,并在这个簇中匹配满足相似度阈值的Web服务集,作为Web服务发现的结果。(4)系统开发和实验评估。完成了基于LDA聚类的语义Web发现系统的开发,针对OWLS-TC4和hRESTS-TC3_release2这两个服务数据集(有1083个服务和42个查询请求)进行了充分的实验,并与现有工作在准确率、召回率、F值以及效率等方面进行了对比。实验结果表明:本系统比传统的基于TFIDF的VSM方法在准确率、召回率和F值方面分别高出13.52%、37.37%和30.47%,并且系统的性能也更加好。我们对准确率、召回率和F值进行了显著性验证,并通过一个实例完整演示了Web服务的发现过程。
其他文献
该文的研究重点是探索总线型网络的附网存储系统的实现方法,建立系统分析模型,同时对系统进行实验测试及性能分析。主要研究内容包括:局域网环境下的附网存储系统的结构选择;附
该文简述了国内外应用广泛的三类得要的自动机与一类著名的布尔函数的主要研究成果.对布尔代数上的自动机进行了研究,同时根据线性内动结构特征破译了一种基于阵列变换的密码
云计算的发展是信息技术快速进步和大数据时代的必然产物。云计算整合了网格计算,并发式计算和虚拟化技术,成为目前主流的一种研究方向。云计算技术的不断发展和深入给信息时
伴随着信息时代的到来以及通信技术和计算机技术的迅猛发展,无线寻呼通信也必将发生革命性的变革.目前无线寻呼正将朝着大信息量、多种服务功能的方向发展.该文所描述的综合
石油物探是人们勘探地下油气资源的重要手段,通常的勘探方法是地震勘探,通过地震勘探可以比较准确地了解地下构造,地质层位和断层分布。但是在实际勘探中,特别是海洋勘探中,人们发
该论文介绍了一种基于PSTN网的远程电话语音采集与传输系统的软件和硬件电路,提出了通过高效的电话语音采集和压缩技术,借助于PSTN网进行传送的方法.采用远端处理机和中心站