基于半监督学习的WMS元数据文本多标签分类方法

来源 :武汉大学 | 被引量 : 0次 | 上传用户:dsfsdfdfdsf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着地理信息网络共享和志愿者地理信息技术(VGI)的发展,主题内容多样的开放式网络地图服务(Web Map Service,WMS)资源大量涌现,为地学研究与应用提供了丰富的数据资源。但现有元数据标准缺乏显式、细粒度和面向领域的内容描述机制,导致领域专家和服务用户无法快速定位目标专题内的资源数据。目标领域的服务检索需求对服务数据的主题多标签分类提出了迫切的要求。但WMS元数据文本内容纷繁复杂、长短各异、语言不一,地学术语和通识词汇混杂,且缺乏标注应用领域的元数据集,导致WMS元数据文本的精准多标签分类面临着巨大的挑战。本文提出了一种基于半监督学习的WMS元数据文本多标签分类方法,在仅依赖少量标记样本数据的前提下,实现了WMS元数据双层多标签主题匹配。该方法包含特征选择、多标签分类和二次主题提取三部分:1)特征选择:选取社会受益领域(Societal Benefit Areas,SBAs)作为粗粒度领域主题,引入语料库抽取与SBAs语义密切相关的典型词,基于Word2vec算法计算典型词与文本特征的空间距离,实现最优领域特征子集的选择。2)多标签分类:提出多标签分类基模型ML-CSW,该模型以语料库计算得到的文本特征与主题的语义相似度作为文本特征权重,训练主题预测模型。在此基础上,提出基于半监督学习的多标签分类算法SML-SWKNN,将ML-CSW与经典的多标签分类算法ML-KNN(Multi-label K Nearest Neighbor)结合进行协同训练,实现WMS元数据的多标签分类。3)二次主题提取:基于粗粒度领域主题分类结果,利用LDA算法进行二次主题提取,构建双层领域主题目录,获得WMS元数据与双层领域主题的匹配映射关系。为了验证本文多标签分类方法的可行性,本文分别以WMS和图层元数据作为研究对象,开展了特征选择准确性、协同训练基模型准确性和SML-SWKNN算法的分类准确性、语义合理性、适用场景等验证实验。实验结果表明本文提出的特征选择算法能够有效提升分类性能,协同训练基模型单独在数据视图中分类性能也较好。SML-SWKNN算法相比经典的多标签分类算法有较大的提升,且算法在富含主题信息的长英文文本中性能最优。多标签分类和双层主题匹配具备语义合理性,能够推广应用于地理信息门户或目录服务中辅助WMS资源的检索发现。
其他文献
高精度等级砝码的质量测量需要进行空气浮力修正,而砝码的体积是空气浮力修正计算的重要参数。本课题针对声学法体积测量装置的驱动信号参数与腔体旋合位置影响体积测量准确
苹果品种选育是苹果产业发展的基础,常规杂交育种是苹果品种选育的主要途径。近年来分子生物技术发展迅速,但田间经验育种依然是苹果育种最有效的方法。为获得生产中能广泛推
Mo S2是与石墨稀有相似结构的新型二维材料,具有独特的半导体性质、超薄成膜性、高比表面积,并且其禁带宽度随层数可调(范围为1.2-1.9 e V),在光催化领域具有巨大的应用前景。
随着我国近年来对深海资源勘探需求的增大,勘探设备对声纳系统的性能也有着更高的要求,一方面需要提升探测距离与距离分辨率,另一方面需要对具有随机性质的接收信号进行参数
锂硫电池因其硫正极具有高比容量(1675 m Ah g-1)和高能量密度(2600 Wh kg-1)而受到越来越多的关注。此外,硫单质储量丰富,并且对环境危害很小,因此被认为是最有发展前途的可持续
经济发展至今,我们对能源的需求量也越来越大,而目前我国的主要能源还是以煤炭为主,煤炭的过量使用势必会造成大量的环境污染,因此我们必须节约能源以减少环境污染。日益增长
土石混合体是一种由作为骨料的砾石或块石与作为填充料的黏土或砂土组成的地质体。其粒径级配不连续,在大粒径的石料和小粒径的颗粒之间存在着粒径断层。土石混合体已经被认为是一种特殊的岩土体,其力学性质不是土体和岩体的简单叠加。土石混合体在我国分布广泛,长江流域的三峡库岸周边分布着大量土石混合体质的不稳定边坡,川藏公路沿线发生的滑坡也多为土石混合体滑坡。土石混合体在边坡治理过程中经常被视作锚杆、挡墙、抗滑桩
托盘是物流产业中最为基本的集装单元,它与产品包装、叉车、货架、运输车辆、轮船、集装箱等许多方面均有较为严格的尺寸匹配关系。托盘的标准化是带动物流标准化的有效手段
不结球白菜(Brassica rapa ssp.chinensis),原产中国,是长江流域及其以南地区大量种植,分布最广,种类最多的芸薹属蔬菜作物之一。不结球白菜存在三个变种:普通不结球白菜,乌塌
随着城市化进程加快和商业经济快速发展,城市生活中的出行导航与位置服务不再满足于室外大尺度空间下的电子地图服务,以室内空间精细化服务、三维可视化、实时交互为特点的室