论文部分内容阅读
医疗健康产业是实施健康中国战略的重要支撑,是山东省新旧动能转换“十强产业”之一。“全人群全生命周期健康危险暴露及健康状况研究”项目是山东省卫生健康委员会针对山东省居民开展的健康现状和健康变化趋势的项目研究。该项目覆盖的区域及人群范围广泛,包含山东省17个地市的85亿条健康医疗数据。这些健康医疗数据来源广泛,种类繁杂,涵盖多类医疗数据,例如居民电子健康档案及基本公共卫生、健康体检、临床诊疗、疾病检测、健康医疗保险等多类数据。这些多源数据呈现出数据量庞大、数据来源广泛、数据结构多样、数据存储模式分散、数据质量参差不齐等特征。这些数据极大地拉低了健康医疗数据可用性,很难直接进行数据分析及挖掘、得到有效利用。因此需要对健康医疗数据进行治理,才能开发其潜在价值,为医疗数据的分析及研究工作提供良好的大数据基础。在山东省卫生健康委员会“全人群全生命周期健康危险暴露及健康状况研究”项目支持下,结合其健康医疗数据特点及存在的治理问题,设计并实现一个多源异构健康医疗大数据治理平台,对项目整合到的多源异构山东省健康医疗数据进行数据治理。系统选用webstorm开发平台,利用Nodejs后端框架结合AngularJS前端框架进行系统的设计与开发。在功能方面,系统充分考虑到采集、联接和融合多种形式的数据、核查医疗数据的质量、医疗数据的术语规范和全民健康图谱展示等需求特点,设计多个功能模块满足用户健康医疗数据治理的需求。系统具体的功能模块主要包括医疗数据集成、医疗数据模式统一、医疗数据质量管理、医疗数据融合、病历文本结构化、医疗健康图谱可视化展示、疾病人群数据提取和关联、系统管理8个功能模块。为实现健康医疗数据治理,系统建立统一数据模式对医疗数据进行整合,同时提出和使用了医疗数据缺失补全方法、医学术语归一化方法等关键技术对医疗数据质量进行核查,对医学术语进行标准化,来提高医疗数据质量。为使数据治理后的医疗数据应用更加丰富多样,系统设计了病历文本结构化,医疗数据可视化,并提出和利用了疾病队列生成方法对疾病人群进行数据提取和相关信息关联。在数据存储存储过程中,采用Mysq1数据库作为数据存储工具存储各类医疗数据,对100余万病人的千万余条健康医疗数据进行数据治理。健康医疗大数据治理平台对189余万疾病诊断数据、260余万用药数据、70余万手术数据和120余万检查项目数据进行医学术语标准化,使健康医疗数据完全匹配或近似匹配至医学标准术语大类,标准化匹配的准确率达93.4%,规范了医学术语,极大提高了医疗数据质量。面向山东省卫健委工作人员、山东省健康医疗大数据分析研究人员和工程师、临床医学和公共卫生专业医生和研究生等用户群体,多源异构健康医疗大数据治理平台为3000余名用户提供健康医疗数据治理服务,为用户的医疗数据研究及分析挖掘工作提供便利,促使他们发挥健康医疗数据的潜在价值,使健康医疗大数据更加蓬勃发展。