论文部分内容阅读
自2000年基因本体问世以来,本体作为数据标准化的一种手段,在生物医学数据整合中扮演了日益重要的作用。国际上许多大型的生物医学数据库,如UniProt、ENCODE DCC,都使用本体为其提供标准化的术语与语义支持。在本体迅猛发展的过程中,本体平台的建立对本体的推广起到了促进作用。一方面,各平台基于相应的准则收录本体资源,为用户提供了拥有不同规范标准的本体。另一方面,平台还为用户提供了不同的本体应用工具,方便其使用本体进行数据注释、数据整合,乃至本体开发等工作。本研究主要分两部分工作:第一,建立国内的生物医学本体资源存储与应用平台,收录以OBO Foundry本体为主的精准医学相关本体,为国内用户提供相关的本体应用服务;第二,在所建平台的基础上,针对国家人口与健康科学数据共享平台中国国民体质与健康数据库中的横断面调查数据,建立人群横断面调查应用型本体,为数据库的建设提供基于本体的语义支持。我们通过复用NCBOBioPortal技术,搭建了本体资源平台软件框架,遴选精准医学相关本体,构建了 MedPotal本体资源存储与应用平台。对原框架中的代码和本体处理工具,我们进行了修正和完善,使之能够在本体稳定运行的基础上满足大批量数据的自动化处理。目前,本平台整合了 42个主流的生物医学本体,建立了本体之间术语映射关系,通过页面和REST API方式提供术语检索、本体映射、数据标准化注释等本体应用服务(http://medportal.bmicc.cn)。基于第一部分工作,第二部分是构建人群横断面调查应用型本体。遵循OBO Foundry的本体构建原则,选取BFO为上层本体,复用相关本体中的术语与关系,使用从上到下的本体构建方法,分语义建模、本体构建与本体校验三步对本体进行搭建。最终建成人群横断面调查本体包含术语676个,关系21个。以BFO为上层本体,OGMS、IAO与OBI为中层本体,覆盖了国民体质与健康数据库中78%的术语。该本体描述了横断面调查所涉及的的研究设计、样本采集、资料收集等主要环节。除标准化数据库术语外,该本体支持复杂的检索与自动化推理。本研究建立的MedPortal本体资源存储与应用平台为国内用户的数据整合与本体构建提供了服务,而以MedPortal平台作为基础最终建立的人群横断面调查本体,将为国民体质与健康数据库提供语义支撑。