论文部分内容阅读
数字博物馆作为传统博物馆在时空维度的延伸,并在大数据、人工智能等技术的大力推动下,已发展为一种新兴展示模式,在我国文物信息化事业中具有不可替代的作用。我国各文物收藏单位顺应时代潮流,响应国家政策,结合现代信息技术来加快馆藏文物的数字化建设,不断通过互联网向社会、文化研究者提供多元化的文物数据以及快捷服务。随着馆藏文物数字化工作的不断推进,文物数据越来越庞大,信息资源越来越多样化,这些数据背后潜藏着大量的价值信息,对于研究文物的历史、艺术和科学价值等方面有显著的推动作用。数据挖掘作为一种发掘高价值信息的有利方法,可合理利用其挖掘文物价值数据来开展多层次、多角度的可视化分析研究,以此推进中国文物信息资源的创造性转化和创新性发展。因此,本文以特定文物资源数据为核心,进行了文物数据可视化分析的相关研究。具体研究工作如下:1、特定文物资源数据来源于互联网公开数据,运用Python网络爬虫技术采集数据,结合正则表达式与NumPy库等技术清洗数据,针对处理后的价值数据设计了表结构与字段名,建立了文物资源数据库。数据库包含了禁止出国(境)文物共195件(组),国有博物馆共5354座,馆藏文物共235.4372万件,为本文的可视化研究奠定了基础。2、详细的论述了文物资源数据的可视化方案。针对文物资源领域所涉及的相关知识与可视化原理进行了阐述,概述了网络爬虫与深度学习融合的知识抽取方法,尤其对可视化方案中的整体架构、爬虫架构以及知识抽取架构进行了设计,最终将完成知识构建的文物数据在Neo4j中存储,结构化的文物数据存储在Mysql中并结合Echarts技术进行图表化的展示。3、在文物资源知识化的过程中,根据文物资源的采集与文物文本信息非结构化的特点,同时为了保证文本信息中命名实体识别的准确度,提出了一种基于聚焦爬虫的改进架构与BiLSTM-CRF混合调度的知识抽取模型。该混合调度模型首先依据爬虫模式灌装文物名称,调用爬虫模块抓取文物数据,对抓取的数据进行清洗处理,将结构化的本体属性数据和文物图片进行保存,对于非结构文本数据进行文本处理后由BiLSTMCRF模型进行实体识别并采用BIO标注集,根据命名实体再调用爬虫模块完成拓展属性数据的采集,最后经一系列处理将拓展属性与本体属性存储到文件或者数据库。实验结果表明,该混合调度模型可有效的完成文物数据的采集和实体识别,实现对文物数据知识化的构建。4、基于上述构建的文物混合调度模型,并结合可视化技术,使用Django框架、TensorFlow、Keras库等技术对馆藏文物资源可视化系统进行了设计与实现。首先,概述了系统使用的相关技术,接着遵循软件系统项目的构建流程完成开发,最后依据测试用例开展了系统测试。测试结论表明,系统运行稳定流畅,模块功能符合逻辑需求,各接口传输数据无误。