急性白血病相关基因的文本挖掘分析

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:asiware
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的 寻找一种通过文本挖掘获取医学文献中的有益信息进而用于解释生物数据的方法。本文以急性白血病为例,通过主题词和自然语言两种途径以疾病与基因的共现关系为基础进行聚类分析,挖掘基因与疾病之间的关系,并对两种途径的有效性进行评价。 材料与方法 以“leukemia[majr] AND genes[majr]”为检索策略通过PUBMED检索1966年到2005年9月6日的有关白血病与基因关系的相关文献,共检得3529篇。将检索结果分别保存为XML格式和Medline格式,作为挖掘样本。对XML格式的样本,根据主题词的树状结构从中筛选急性白血病类和基因类主题词进行处理,选取出现频次大于等于3的主要主题词共75个进行统计,生成词篇矩阵,对生成的词篇矩阵采用二值(Binary)资料测量中的hamann变换,使用重心法(centroid clustering)进行聚类。对medline格式样本采用MMTx进行处理,从处理结果中提取语义类型为“neoplastic process”出现频次大于30的前30个肿瘤类概念为列,另取语义类型为“gene or genome”出现频次大于67的前60个基因类概念为行,计算生成肿瘤类概念与基因类概念的共句矩阵,对生成的矩阵采用计数资料(counts)测量中的chisquare法,使用最大距离(furthest neighbor)进行聚类。 结果 从XML格式文件中提取出来的有关急性白血病类主题词/副主题词与基因类主题词/副主题词生成的词篇矩阵中涉及29种具体基因。medline
其他文献
奥运会已成为全球瞩目的盛大体育赛事,奥运赛场不仅是各国体育成绩的比拼,更是展示各国运动健儿风采、展示国家形象的舞台,它对提升国家形象、发挥国际影响力起到非常大的作
本文以电梯蹲底原因的分析及预防措施解析为主要内容阐述,结合当下电梯蹲低原因分析和电梯蹲低问题的解决措施为主要依据,从制动问题、端站保护开关出现的问题、电梯硬件检查
结直肠癌是人类主要的恶性肿瘤之一,在西方国家发病率较高:我国2002年结直肠癌的发病率和死亡率分别居常见恶性肿瘤发病率和死亡率的第五和第六位。近几年来随着人民生活水平
为了使建筑工程的质量得到充分的体现,我们必须从房屋建筑施工的质量管理的实际出发。但是在实际中,会出现建筑物的质量水平低,存有极大的安全隐患,这主要是因为有的建筑企业
新时期企业开展内部控制制度的建立及完善工作,应该根据内部控制的要求和内容,结合当前企业的实际需求,制定针对性的制度体系,并注重其实用性和可行性。与此同时,内部控制工
络脉是指经脉支横别出的分支,具有渗灌气血、通达表里等独特的生理功能。肝纤维化是指在慢性肝病的基础上肝脏的细胞外基质过度沉积,主要病变在肝窦,而肝窦是肝内血管的终末
针对九龙矿开采4号煤时受底板奥灰水威胁情况,采用井下钻孔注水、室内数值模拟等方法对4号煤底板进行破坏深度探测及破坏规律的研究。研究表明,开采对监测点开始产生影响的距
革命历史题材和英雄主义电影如何走出“高、大、全”和乏少人情味的模式和概念化的窠臼,是一件难了几十年的事情。因之,中国这类的影片没有能在国际市场上打得出去。 年轻的
高性能计算的飞速发展使得超级计算机的计算能力得到了大幅度的提升,然而,与之对应的是超级计算机的I/O性能发展相对缓慢。同时,超级计算机中的I/O子系统对于应用来说访问路径长、高度竞争,导致其总体资源利用率难以提升,应用体验不好。对于目前的许多科学计算应用来说,I/O性能而不是计算能力成为了性能瓶颈。因此,在超级计算机这样复杂的架构上分析大规模应用的I/O行为,同时及时对系统进行I/O性能异常检测,
为了准确预测机场终端区航空器飞行冲突风险,以便能最大程度地利用低空空域资源,通过整合考虑加速度的运输飞机轨迹模型和通用飞机随机轨迹模型,建立终端区航空器飞行冲突风