科技资源跨媒体信息的分布式检索查询研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:chengl1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网中的科技信息日益丰富,不同学科之间相互融合又催生新的研究方向,科研工作者通过发表论文等形式分享自己的研究成果,他们也会通过检索等方式了解其他人的研究进展,对于科研工作者来说,了解学科动态和热点研究主题有利于深入探索不同的研究方向。科技资源不仅包括论文、项目和资讯等文本信息,还包括图像等不同媒体的数据,这些数据中包含着科技资源独特的属性,关键词、学科和研究主题之间存在着关联关系,而传统的方法并不能很好地针对这些特性做检索查询。本文基于神经网络、聚类算法、分布式搜索引擎等技术,通过BERT模型、聚类算法和卷积神经网络分别提取科技资源跨媒体信息中的文本特征和图像特征,根据关键词、学科和研究主题的映射发现学科交叉关系,对学科和研究主题的趋势做预测,将预测结果和研究主题影响力指数共同作为因子影响查询排序结果,实现了科技资源跨媒体信息分布式搜索系统。本文完成的工作可以分为以下四点:(1)针对科技资源跨媒体信息中各属性的特性,提出了基于科技资源学科特性的特征提取算法。结合Scrapy爬虫技术获得了科技资源跨媒体数据集,获得的数据总量超过十五万条,由于这些数据有着多源异构的特性,本文针对不同来源的数据进行了去重等预处理操作。在文本特征提取方面,基于BERT模型,通过编码器实现了文本向量化,对于科技资源图像,通过构建的十三个卷积层获得了图像特征,并进一步应用聚类算法获得了这些资源中的学科和研究主题。(2)提出了科技资源跨媒体信息关系发现和演进规律分析的方法。根据已经获得的科技资源特征,研究了学科和研究主题的关联关系,构建出科技资源交叉学科的整体体系。根据科技资源的时序特性,提出了针对科技资源的学科及研究主题演进预测算法,该算法引入了卷积层进行训练和学习,最终达到了预测学科下的研究主题的发展趋势的效果,该预测结果将作为检索查询阶段的重要因子影响系统最终的展示结果。(3)提出了结合科技资源跨媒体信息特征的基于学科关系及影响力的检索算法,通过定义针对科技资源的研究主题影响力指数对研究主题影响力进行量化表示,根据特征提取阶段和关系发现阶段获得的结果明确检索中学科和研究主题的关联关系,在对检索结果进行排序展示时,除了考虑学科交叉关系,加入影响力指数和趋势预测结果作为因子,最终得到能够有效表达科技资源学科发展情况的结果。基于Elasticsearch分布式搜索引擎,加入Redis缓存技术,提升系统在检索查询时的响应速度,另外,根据实际应用场景考虑用户的需求,结合可视化方法,细化系统使用逻辑,提供良好的交互,为用户展示清晰的结果。(4)设计并实现了科技资源跨媒体信息的分布式检索查询系统,针对不同的功能实现做出描述,并以可视化示意图进行展示。系统共分为科技资源中学科关系发现、科技资源跨媒体信息检索查询和科技资源中学科及研究主题演进规律分析三个功能模块,并通过测试验证了系统的性能,以及模块功能的正确性。本文实现了科技资源跨媒体信息的获取与数据预处理、科技资源跨媒体信息特征提取、科技资源跨媒体学科关系发现与演进规律分析、科技资源跨媒体信息检索查询与可视化,最终完成了科技资源跨媒体信息的分布式检索查询系统,可以实现交叉学科资源的检索查询,可视化展示学科关系和趋势,计算研究主题影响力,并且系统的交互良好,有一定的实用价值。
其他文献
如今的互联网时代充斥着海量信息,如何快速检索并获取所需信息成为了一项挑战。在信息服务应用中,问答系统是一种高级的信息检索系统,能够以自然语言形式回答用户提出的问题。为了提升信息服务的准确性,结构化的知识图谱被作为问答系统的底层支撑,为系统提供回答问题所需的知识,但是这又引出了知识如何表示的问题。传统的基于符号表示和语义解析的问答系统在实际使用过程中面临着计算效率低和数据稀疏性等问题,不利于问句理解