基于Web的主题相关数据源识别技术研究

来源 :天津理工大学 | 被引量 : 0次 | 上传用户:suanjava
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网自诞生以来迅猛发展,数据呈现爆炸式增长的趋势。互联网上的数据具有独特的特点,其中的大部分数据都是非结构化的文本,不同主题的数据分散在互联网的不同节点上,这给用户有效利用互联网数据带来了极大困难。用户对于数据源的需求往往是面向主题的,搜索引擎的出现使得人们可以向搜索引擎提交查询来获得某一主题的数据源。然而搜索引擎提交查询时采用关键词的形式,单个的关键词不能准确表征一个主题。同时,使用单个主题关键词进行搜索会返回大量与查询主题无关的数据源,需要用户花费大量时间筛选返回结果。如何快速对搜索引擎返回的大量数据源进行主题识别成为一个热门研究问题。本文通过对现有数据源识别方法进行分析,发现现有数据源识别方法仅仅考虑数据源内容与查询的相关度,而数据源与查询的相关度与很多因素有关,本文提出将数据源文档数量、数据源权威性、数据源主题相结合计算数据源与查询相关度,进行主题相关数据源识别的方法,主要贡献如下:(1)提出了基于Web的主题相关数据源集成框架。针对单个通用搜索引擎对特定主题查询的返回结果覆盖率低、数据量庞大等问题,本文集成多个搜索引擎进行主题数据源查询来提高搜索结果的查全率,通过向集成接口提交若干主题查询词以及查询词权重、收集不同搜索引擎返回的数据源、合并数据源、计算数据源与查询的相关度、主题相关数据源排序等步骤获得主题相关数据源。基于该框架进行主题相关数据源查询不仅提高了查全率也提高了查准率。(2)提出了一种基于Web的主题相关词集构建方法。针对数据源识别研究中需要扩展查询主题词的问题,本文通过对现有关键词提取工作进行分析,发现现有关键词提取的相关方法主要针对特定文档提取关键词,不能直接应用于提取某一主题相关的词集,本文提出了一种基于领域专家知识和大规模Web数据信息构建主题相关词集的方法,使用该方法获得的主题相关词集不仅可以应用于主题查询词还可以作为查询文本。(3)提出了一种基于Web的主题相关数据源识别方法。针对现有数据源识别方法考虑因素单一的问题,本文首先将主题查询词提交给不同的搜索引擎获得数据源,通过数据源在不同搜索引擎中的排名以及主题查询词的权重获得数据源外部影响因子,然后获得数据源以及查询的主题概率分布并计算主题概率分布之间的相似度,结合数据源外部影响因子和数据源与查询主题概率分布之间的相似度,计算数据源与用户查询之间的相关度并进行排序,最后选择相关度高的数据源作为返回结果。本文通过实验验证了该方法的可行性。
其他文献
虽然南极陆坡区域仅占南极海洋的较小部分,但其对南极底层水的形成、南极生物地球化学物质的循环以及生态系统都具有重要的影响。研究南极陆坡流动特征及其动力学对于认识南
当前,在存量化时代的转型和城市双修背景的影响下,城市的发展状况与旧城区的诉求差异很大。老旧社区是旧城区的重要组成部分,我国的老旧社区大多为单位企业居住区,随着商品房的与日俱增和单位企业的重组发展,老旧社区居住品质难以满足居民的生活需求。此外,很多社区内部的改造形式也只是单一的复制粘贴,社区景观大同小异,毫无特色而言。究其根本原因在于设计改造过程中对场地原生的人文历史环境和地域自然环境的忽视,缺乏场
本论文根据海龙3号ROV的设计开发,对基于变量伺服原理的ROV液压推进系统数学建模和系统辨识算法进行了深入的研究,以海龙3号ROV液压伺服推进系统为试验平台,利用改进的辩识算
随着软件的不断更新迭代,软件正确性检测的必要性愈加凸显,而且软件正确性检测的处理时间直接决定软件的维护成本。虽然动态测试的断言编写和静态分析的符号执行均针对软件正
丛藓科(Pottiaceae Hampe.)是藓类植物中种数最多的一个科,全科约有83属1500种。湿地藓族(Hyophileae M.Fleisch.)隶属于丛藓科丛藓亚科(Pottioideae Broth.),该族约有18属296种,是温带干旱半干旱地区藓类植物区系的重要组成部分。本研究以蒙古高原中主体部分(以下简称蒙古高原),即中国内蒙古和蒙古国作为研究区,在文献考证及标本研究的基础上,对
液压挖掘机作为一种用途广泛的工程机械,已经在土石方工程及矿山开采等各类施工现场成为不可或缺的一员。改革开放以来,随着国家各类政策和战略的实施,各种工程建设也同步开
波片是一种十分重要的光学器件,被广泛应用于应用光学和无损检测等领域中,相位延迟量和快轴方位角作为波片的重要参数,对其进行精确测量不仅可以监测波片在加工过程中造成的应力不均匀,还可以为波片应用者提供参数指导。随着电子信息技术和光学应用技术的迅猛发展,特别是自动测量技术和数字显示技术的引入更使光学精密测量获得了突破性进展。传统波片相位延迟量和快轴方位角测量方法已不能满足光学精密测量的时代要求。为了能够
目的观察火留针疗法治疗第三腰椎横突综合征的临床疗效,为火留针治疗第三腰椎横突综合征提供有效依据。方法本研究纳入2019年5月至2020年1月就诊于天津中医药大学第二附属医院住院部及门诊部符合纳排标准的第三腰椎横突综合征患者44例,随机分为治疗组(火留针组)与对照组(输刺组)。对照组:取穴:L2、L4夹脊穴、L3横突压痛点,采用输刺针法。治疗组取穴同对照组,L3横突压痛点火留针,余穴操作同输刺组,两
随着人类基因组计划的实施,以及更多生物基因组测序计划的完成,生物学数据呈爆炸性增长,传统的生化试验方法已经远远不能满足需求。智能算法在生物信息领域有其独特的优势。已有研究表明,智能算法能成功解决生物信息学的这些问题。但是在蛋白质靶向预测上仍然面临着诸多问题和挑战。比如真核生物中末端锚定蛋白质(tail-anchored proteins,TA蛋白)靶向预测尚未有智能算法应用的实现。TA蛋白靶向与C
煤炭是我国的重要能源之一,提高煤矿安全生产水平意义重大,建立健全煤矿井下监控系统是煤矿安全生产和应急救援的重要保障。随着数字化矿用视频监控系统的广泛应用,智能化视频监控和矿井下的目标跟踪具备了强大的硬件基础。对矿井下的目标跟踪进行研究非常必要,可以通过分析视频中出现的违规行为、可疑目标和潜在危险快速报警,同时为事故发生后总结经验教训和分析事故原因提供资料。因此,本文针对矿井下低能见度、缺乏颜色信息