论文部分内容阅读
目的:
寻找一种通过文本挖掘获取医学文献中的有益信息进而用于解释生物数据的方法。本文以非小细胞肺癌相关基因为研究主题,通过文献轮廓的方法,对与非小细胞肺癌特定基因相关的医学文献进行挖掘分析,从而发现基因之间的共性和个性关系,基本实现发现基因与疾病之间联系的目的,并对结果的有效性进行评价。
材料与方法:
通过PubMed数据库,以TextWord(题名词和文摘词)中包含43种非小细胞肺癌相关基因的官方名称、缩写或别名的条目来获取基因的相关文献集合,基因命名的信息从人类基因命名委员会(HGNC)的网站和NCBI的Gene网站上获取。
检索时间为1963年到2009年9月23日,获得43个NSCLC相关基因文献集,将检索结果保存为XML格式,作为文本挖掘样本。
本研究应用BICOMB,分别分析43个基因文献集合中每个文献集主题词的频次、百分比指标。然后,根据高频、低频词分界临界值公式,分别提取出超过一定阈值的高频主题词,并且至少有两个基因中出现的主题词才保留下来,以此为基础生成43 x 163的基因/主题词关联矩阵,再通过Cluster软件的系统聚类算法进行聚类分析。
结果:
聚类结果将NSCLC 43种相关基因分成6类。通过阅读原始文献中有关各基因作用的内容进行比较,验证聚类结果的有效性。聚类结果中与NSCLC相关的43种基因中有35种有文献证据支持,聚类结果与文献内容相符的符合率为81.4%。
结论:
通过对相关文献进行挖掘分析,可以获取文献中有关主题的有益信息。
1、用基于文献轮廓的分析方法表现基因与疾病之间的潜在联系是切实可行的;
2、根据高频、低频词分界临界值公式对主题词进行精细分类和调整,有利于对疾病与基因关系的全面了解。
3、应用文献轮廓的方法,从主题词的角度,提取基因并进行分类,可为疾病差异表达基因的筛选提供参考,挖掘深度越大,所表达的知识越丰富。