面向中文科研机构的实体解析研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:tony569257
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体解析是指匹配并合并数据中指向现实世界同一实体的数据记录,它是数据清洗数据集成中关键的一步。传统的实体解析研究工作主要是针对一个或多个数据库中的数据记录进行解析。网页数据具有非结构化,非格式化的特性,且真实数据中数据问题是多种多样的,因此传统匹配特征单一的算法很难获得令人满意的召回效果。本文通过对万方网上的论文数据进行爬取与解析,构建科研信息知识库,与传统实体解析工作具有不同的应用背景。本文首先分析了现有实体解析算法的特点,提出了基于文本匹配的实体解析算法模型。将长文本语义属性的相似度计算看作文本匹配问题,根据实体解析应用场景对文本匹配模型进行调整,结合字符级相似度度量方式,捕捉数据对中字符相似度特征和语义相似度特征,对数据进行实体解析。实验证明该方法比传统仅考虑字符相似度特征的算法在数据噪音较大的任务中能获得更好的结果。随后分析了实际网站中爬取的科研数据特点,提出了结合属性相似度、关系相似度、语义信息相似度的多特征融合实体解析算法。爬取科研论文数据,标注数据构建数据集。对机构名称相似度、关系网络相似度、研究领域相似度三种特征进行研究与实验,设计了科研机构名称特征词算法,构建科研机构关系网络计算关系相似度,通过对科研机构的高质量论文的信息提取,将科研机构研究领域信息向量化。实验证明这三种特征的结合能够提高算法的召回率,有效解决实际数据场景中杂质多样化的问题。最后将本研究的实体解析算法应用到实际系统中,构建科研信息知识库,为上层应用提供数据支持。基于数据分散难以一次性地完成实体解析的特点,提出了线下迭代聚集的实体解析流程。
其他文献
【摘要】随着现代社会人们对于教育的要求越来越高,教育改革势在必行,课程改革属于教育改革的一个重要环节。高职药学仪器分析课程在教学方式方法以及教学效果评价等方面都相对缺乏科学性,比较落后,与社会经济的发展水平之间存在差距。本文主要针对提高学生针对药学仪器分析课程的学习提供了教学方法,希望可以为相关人员提供参考意见。  【关键词】仪器分析 课程改革 教学手段 高职教育  【中图分类号】R9-4 【文献
探测器主要用于医学、粒子物理领域。硅微条探测器(SMD)测量粒子位置时,虽然分辨率高,但不耐辐射。三维沟槽电极探测器(3D-Trench Electrode Detector,3D-TED)测量粒子位置时,分辨率等于电极间隔,但芯片纵向在衬底(非贯穿区)存在慢区。在此区域,探测器阵列之间的信号相互串扰。此外“电极盲区”体积大。提高3D-TED位置分辨率时,容易击穿且收集极读出路数变多,数据处理电路
【摘要】3-6岁的幼儿的大脑发育已经是成人的百分之七十,这个时期是发展语言的关键期。语言发展是幼儿自身发展的需要,是幼儿园教育教学的主要目标之一。文章对幼儿园教育中发展幼儿语言的途径和方法进行探讨,从三个方面进行简单的论述。  【关键词】幼儿园 语言发展 主要途径  【中图分类号】G613.2 【文献标识码】A 【文章编号】2095-3089(2018)17-0096-02  幼儿期是语言发展的最
【摘要】口语交际是指人们用口头语言进行面对面的交谈。《新课程标准》指出:小学生应当“具有日常口语交际的基本能力,在各种交际活动中,学会倾听、表达与交流,初步学会文明地进行人际沟通和社会交往,发展合作精神。”进行口语交际训练是素质教育的重要内容,也是语文教学义不容辞的职责。作为一名低年级语文教师,我们应当重视低年级口语交际教学,注重培养学生说话的兴趣,选择与学生生活接近、感兴趣的内容,让低年级学生在
可见光夜景图像受限于其较弱的光照环境,若拍摄不当则存在图像噪声过大、图像模糊以及动态范围受限与过曝光等像质退化的问题。这些问题会严重影响可见光夜景信息的准确采集
随着多媒体技术发展和计算机运算效率提高,多媒体信息数据呈现快速增长的趋势。目前在国内广播电影电视行业的音效剪辑仅依靠人工听辨音效素材,由于素材声源混杂,且具有丰富语义及听觉特性,要从海量的音效素材中找到目标文件耗时且低效,因此迫切需要一个音效素材自动分类系统。本研究首次在广播电影电视行业内部应用机器学习方法对音效素材的自动分类进行探索,通过对音效素材提取特征参数建立标准数据集,采用不同的算法对于数