面向地理学科领域的知识库构建方法研究

来源 :东南大学 | 被引量 : 2次 | 上传用户:ly6624
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
地理学科领域知识库的构建对地理高考问答系统的研究至关重要。海量知识库的构建,若仅靠人工进行知识内容的理解、标注,需要消耗大量的人力和时间。因此,本文主要研究地理学科领域知识库的构建,具体包括实体及属性值的抽取、比较句识别分类及比较元素抽取,为基于知识库的问题求解系统提供支撑。本文的主要工作包括:(1)地理学科领域命名实体识别,分别采用两种不同的模型对地理学科核心术语和地理区域位置两类实体进行识别。设计选取地理学科领域特征,采用条件随机场模型进行地理学科领域命名实体识别。同时,为了探究词向量对地理学科领域实体识别的影响,从大规模未标注数据中无监督地学习词的语义向量,并综合词的基础特征,作为Elman神经网络模型的输入特征进行命名实体识别。(2)地理学科领域实体属性值抽取,在实体识别的基础上,给定实体的常用属性。借助百科类数据,首先抽取实体的页面信息。然后采用基于字符串相似度算法抽取属性值。最后清洗属性值,并通过人工审核,从而实现对实体属性值的抽取。(3)地理学科领域比较句分类及比较元素抽取,分别采用基于特征词和类序列规则的方法进行比较句的识别和分类。在比较句分类的基础上,采用基于回答集编程语言(ASP)对比较句的比较元素进行抽取。首先将比较句中词汇的词性、词之间的依存关系、比较特征词和启发式位置等信息转成ASP事实。然后将比较元素抽取规则转成ASP规则。最后采用现有的ASP回答集求解器自动求解。实验结果验证了本文所提方法的有效性。在地理学科领域实体识别语料库上的实验结果表明,基于CRF和Elman神经网络的方法对两类实体识别的F1值均在77.69%以上。此外,在地理学科领域比较句语料库上的实验结果表明,基于ASP的比较元素抽取方法不仅简洁高效,而且对于大部分比较元素,都取得了比CRF基准模型更好的实验结果。
其他文献
软件度量是进行软件质量评估的有效手段。然而随着软件规模的不断扩大、软件构件的不断增加,现有的度量方法通过度量代码结构属性(如:代码复杂度等)来评估软件的质量,忽视了
目的:一氧化氮(Nitric Oxide,NO)是一种由一氧化氮合酶催化精氨酸合成的短寿命自由基,参与调控生物体内多种重要的病理生理过程,是目前研究最广泛的小分子信号分子。鉴于NO的多种生物学效应,已经在血管松弛效应、神经信号传递、免疫系统防御、癌症治疗等方面取得了重要的研究进展,但是关于抗菌和胃肠道疾病的研究较为少见。NO的生物合成在体内受到多种因素的调控,其生理功能与它在体内的浓度、产生速率、
根据人口老龄化的标准,中国自二十世纪末开始进入老龄化社会,而且随着老龄化的加剧,如何解决老人的养老问题已成为社会关注的焦点。上海是中国老龄化程度最高的城市,提高养老
针对传统可编程逻辑控制器(Programmable Logic Controller,PLC)存在新构件融入难度高、开发环境兼容性差、构件组合灵活性弱、二次编程难度大、梯形图编程功能深度缺乏、变
在近50年半导体产业的发展历程中,以Si CMOS器件为基础的集成电路产业遵循“摩尔定律”的预言得到了飞速发展。通过MOSFET沟道长度及器件尺寸的不断缩小及工作电压的不断下降
全球ICT产业的迅速发展,推动着互联网的规模和业务急剧增长,与此同时由网络设备所带来的能耗需求也与之剧增。近年来,通信行业的能耗问题得到世界各国的高度关注,绿色通信成
分数阶模型常被用来描述带有遗传特性的各种材料和反应过程。对于很多实际系统来说,相比于整数阶模型,分数阶模型往往更贴合实际数据,能大大提高模型精度。但是,许多传统的控
本文主要研究了二维无限大质量约束的混沌狄拉克弹球系统的时间反演对称性破坏机制,并通过在弹球中心加点磁通,进而实现了对手征疤痕态的调控。我们通过分析平面波模型,得出
房地产行业的非理性繁荣已经引发全社会的广泛关注,过度的房地产投融资行为已经引发社会经济结构性问题,伤害到实体经济的发展以及社会的健康稳定运行,因此降低各类政策不确定性对我国房地产业投融资造成的影响是极其重要的目标。随着近一个阶段自上而下对于实体经济的刺激以及对于房子自然属性的强调与回归,摸索不确定性背景下房地产企业投融资行为的规律对于对房地产行业及住房市场的有效调控即为重要。房地产企业作为资金密集
随着中国卫生医疗体制改革的发展,我国于2011年提出了推进家庭医生制服务试点工作,进一步落实“居民的健康守门人”。时至今日,实施这一措施已有七年之久,推行我国家庭医生制