基于文献轮廓的疾病相关基因的功能分析:以非小细胞肺癌为例

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:kmffly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:   寻找一种通过文本挖掘获取医学文献中的有益信息进而用于解释生物数据的方法。本文以非小细胞肺癌相关基因为研究主题,通过文献轮廓的方法,对与非小细胞肺癌特定基因相关的医学文献进行挖掘分析,从而发现基因之间的共性和个性关系,基本实现发现基因与疾病之间联系的目的,并对结果的有效性进行评价。   材料与方法:   通过PubMed数据库,以TextWord(题名词和文摘词)中包含43种非小细胞肺癌相关基因的官方名称、缩写或别名的条目来获取基因的相关文献集合,基因命名的信息从人类基因命名委员会(HGNC)的网站和NCBI的Gene网站上获取。   检索时间为1963年到2009年9月23日,获得43个NSCLC相关基因文献集,将检索结果保存为XML格式,作为文本挖掘样本。   本研究应用BICOMB,分别分析43个基因文献集合中每个文献集主题词的频次、百分比指标。然后,根据高频、低频词分界临界值公式,分别提取出超过一定阈值的高频主题词,并且至少有两个基因中出现的主题词才保留下来,以此为基础生成43 x 163的基因/主题词关联矩阵,再通过Cluster软件的系统聚类算法进行聚类分析。   结果:   聚类结果将NSCLC 43种相关基因分成6类。通过阅读原始文献中有关各基因作用的内容进行比较,验证聚类结果的有效性。聚类结果中与NSCLC相关的43种基因中有35种有文献证据支持,聚类结果与文献内容相符的符合率为81.4%。   结论:   通过对相关文献进行挖掘分析,可以获取文献中有关主题的有益信息。   1、用基于文献轮廓的分析方法表现基因与疾病之间的潜在联系是切实可行的;   2、根据高频、低频词分界临界值公式对主题词进行精细分类和调整,有利于对疾病与基因关系的全面了解。   3、应用文献轮廓的方法,从主题词的角度,提取基因并进行分类,可为疾病差异表达基因的筛选提供参考,挖掘深度越大,所表达的知识越丰富。
其他文献
随着社会的发展,人们的观念意识、情感态度也变得更加复杂多样,这其中,尤以青春期对个体心理的健康成长以至最终的成熟起了决定性的作用,而在这一时期的青少年在心理上很容易产生
[目的 /意义]探索一个学科或研究领域的历史根源问题,找出对该学科领域起源具有重要作用的根源文献,对于学科的建设和研究具有重要意义。[方法 /过程]引入一种被称为“参考文
数字参考咨询服务被认为是图书馆未来服务的核心业务,受到各级各类图书馆的重视,近些年得到了快速发展。高校图书馆的服务对象是高校师生,而学生又是数字参考咨询服务的主要用户
学位
[目的 /意义]介绍美国加利福尼亚州立大学圣贝纳迪诺分校约翰·普福图书馆批判性信息素养教育的具体做法,总结其实践经验。[方法 /过程]梳理国外高校开展批判性信息素养教育
[目的 /意义]为提高引文网络的社团划分的准确性,提出一种基于加权的引文网络的社团划分方法。[方法/过程]以Louvain社团划分方法为算法基础,将科学论文用向量空间模型表示,
本文通过对荣华二采区10
[目的/意义]概念非等级关系抽取是本体构建的必要步骤,学术文献作为一种重要的学术资源类型,本文主要利用其结构特点来进行本体概念非等级关系的抽取.[方法/过程]首先,在本体
摘 要:近些年来,锡矿山矿山机械得到了较快的发展,但其安全状况仍然是目前矿山机械所面临的较大问题,所以必须提出目前矿山机械安全技术领域存在的一些问题,并针对这些问题作出具体的分析,同时提出加强高级技术人才培养、强化操作人员培训、建立矿山机械安全设计体系等有效的措施。  关键词:矿山机械;工程机械;安全  中图分类号:TD40 文献标识码:A 文章编号:1004-7344(2018)23-0185-
网络信息技术的迅猛发展,给各个行业带来了巨大影响,并渗透到人们生活、学习、工作的各个方面。网络发展初期主要以各种门户网站为代表发布、传播、集合各种网络数字信息;随着
学位
期刊