【摘 要】
:
肺癌的发病率与死亡率全球第一,种类多样,发病机制复杂。目前,肺癌依然存在着预后差、生存率低、早期难以筛查的特点。随着基因芯片技术和数据挖掘技术的迅猛发展,越来越多的高通量组学数据被应用于癌症的研究中。在这种背景下,利用生物组学数据寻找与肺癌相关的特征标志物,为肺癌患者的早期筛查和靶向治疗提供指导,并且探究肺癌的发病机理意义十分重要。然而,大多数生物组学数据都具有维度高,噪音数据多,样本数目过少的特
论文部分内容阅读
肺癌的发病率与死亡率全球第一,种类多样,发病机制复杂。目前,肺癌依然存在着预后差、生存率低、早期难以筛查的特点。随着基因芯片技术和数据挖掘技术的迅猛发展,越来越多的高通量组学数据被应用于癌症的研究中。在这种背景下,利用生物组学数据寻找与肺癌相关的特征标志物,为肺癌患者的早期筛查和靶向治疗提供指导,并且探究肺癌的发病机理意义十分重要。然而,大多数生物组学数据都具有维度高,噪音数据多,样本数目过少的特点。如何在高维度的数据中挖掘出与患者的预后或者疾病发展程度高度相关的生物学标志物并且构建预测效果最佳的模型是当前面临的重要挑战。为了解决这个问题,本文选定肺腺癌组学数据为研究对象,提出了两种特征建模算法。第一种算法,是基于转录组数据预测患者生存预后的多步骤特征建模算法。以生存期3年为阈值划分正负样本。从TCGA数据库中下载数据并进行清理和归一化,先使用fold-change法和学生t检验法对基因进行初步过滤,然后使用SFMC方法选出质量较高的特征集。接下来使用引入基因相关性调控网络调节权重的递归特征清除算法对上一步选出的特征集进行更精准的特征基因选择,当基因数目为48时获取了最佳的基因集,最后使用改进的动态更新SFFS算法进行特征去冗余操作。最终,我们得到了当预后模型为线性支持向量机时,分类性能为AUC=0.98,ACC=0.92,数目仅有45个的基因集合。此外,对该基因集进行功能分析、通路分析、生存分析、靶基因调控分析等多种生物信息学分析,证明了本文提出的算法可以用于临床指导和疾病机制探究。第二种算法,是基于多组学数据预测肿瘤分期的多步骤特征建模算法。实验中使用了肺腺癌患者的转录组数据集、甲基化数据集以及两者的早期整合数据集。该算法充分考虑了肿瘤分期标签的连续性和有序性,将回归算法与分类算法相结合。流程如下:首先将三分类任务分解成六个二分类任务,然后对每一个二分类分别使用L1正则化方法,选择稀疏训练后不为0的特征,接下来采用嵌入回归模型的SFMC方法,同时考虑子集的分类与回归性能,使用R~2和ACC的乘积作为评价指标,选出6个最佳特征集并将其合并,在并集上执行递归特征清除算法,得到最优特征集后使用SBS算法进行特征去冗余。实验结果证明该算法能在几十万维特征中选取与肿瘤分期密切相关的标志物集合。在多组学整合数据集中,可以得到特征数目为182,逻辑回归模型上多分类性能为ACC=0.925,BACC=0.86,KAPPA=0.80的标志物集合。在转录组数据中,可以得到特征数目为157,ACC=0.924,BACC=0.79,KAPPA=0.75的标志物集合;在甲基化数据中,可以得到特征数目为128,ACC=0.9956,BACC=0.9708,KAPPA=0.9665的甲基化标志物集合。并且我们还对甲基化标志物进行突变分析和通路分析,同样证明选出的标志物集合参与了肺腺癌疾病发展过程,具有一定的生物学意义和临床指导意义。以上两种算法,都是适用于患者基因表达数据集,筛选标志物并预测某一重要预后指标的算法。它们都具有预测标签随着病情的程度加重渐近式变化、同时受多个基因特征影响且基因之间彼此协同促进或相互抑制的特点。两种算法在各自的任务中均取得较好的结果,说明充分利用基因之间潜在的互作关系,考虑到预测指标在生物信息学上的连续性特征,可以提升生物标志物的相关算法性能。
其他文献
在数字化时代新趋势下,传媒通信等主要领域信息达到了极速的传播推广,掀起了社交网络的浪潮。用户在各大网络平台快速的收集翻阅信息,如社交网络微博、知乎论坛、以及豆瓣影评等。这类文本内容精简多样,但蕴含着用户的潜在需求、兴趣方向和行为意图等丰富的信息。如何处理短文本信息将其归纳整理提取有价值的知识为人们所用,一直深受研究者的关注。对比于长文本,短文本自身具有的特征过于稀疏,内容短少且对上下文语义具有较强
随着21世纪互联网的迅猛发展,web应用程序和APP的产品数量呈现井喷式增长,成为了人们日常生活中必不可少的一部分,由此带来了巨大的市场经济效益和广阔的行业发展空间。为在激烈的市场竞争中夺得一席之地,开发者需要及时了解用户偏好,对产品进行针对性地更新以提升其产品生命力。软件评论数据是开发者获取用户需求及喜好的重要来源。目前,评论分析通常遵循“数据分类——信息抽取”的一般过程,其中评论分类是数据有效
我国经济发展进入新时代,企业成为推动经济发展的重要力量。在这种情形下,企业的发展不进则退,人才是当今企业前进的驱动因素,人力资源是各个企业争相抢夺的对象,维持并能够源源不断地吸引人才是企业能够保持长远发展的重要因素之一。本文选择研究的公司是一家2006年在深交所中小板上市的通信配套服务公司,公司得益于优秀的人力资源,上市之后不断成长,2016年国脉科技首次发布股权激励计划,现已全部完成。本文对国脉
随着汽车保有量的大幅提升,汽车的安全性问题成为越来越多人关注的焦点。汽车高级驾驶辅助系统的出现为汽车安全性问题提供了解决思路。本着低成本、高集成的原则,本文以单目视觉传感器为基础,将车道线检测系统与车道偏离预警系统相融合,设计了车道线检测功能与偏离预警决策功能于一体的车道偏离预警系统,以期更好地实现汽车偏离时的提前预警达到辅助驾驶的目的。本文首先进行摄像机标定,并对汽车驾驶视频流以符合人眼刷新的频
近段时间以来,数据挖掘和预测分析技术已经无处不在地应用到了在我们的日常生活中,社交网络的兴起也为我们带来了极大的便捷。随着社交网络的用户规模呈几何级增长,与之相关的研究也在近期逐渐流行起来。社交网络中用户的行为可以对与之相关的其他用户行为产生影响,在潜移默化中对其他用户的思想或行为进行改造,因此除了为了留住用户,也是为了通过用户间的关系进行深层次的信息挖掘,对用户进行相关信息推荐极为重要。通过社交
随着经济的飞速发展,汽车惠及大众的同时也引发了大量的交通事故。汽车高级驾驶辅助系统和无人驾驶技术在辅助驾驶和提高行车安全方面具有极大潜力,因此受到了广泛关注。车道线检测作为汽车高级驾驶辅助系统和无人驾驶中基础且重要的部分已经成为研究热点领域,但在弯道检测、“无视觉检索”等方面仍需进一步研究。基于传统的车道线检测方法一般先进行一系列图像预处理,然后再根据提取到的图像特征进行车道线拟合,输出检测结果时
近年来,汽车保有量在逐年递增,但是相应的停车资源却增长缓慢,同时现有停车资源并没有得到充分的利用,这使得停车难问题愈加严重。因此可以通过提高停车资源的利用率来缓解停车难问题。本文设计实现了一个共享停车资源信息的服务平台,为驾驶员停车提供参考信息,以提高停车资源的利用率。平台采用前后端分离架构,使用Django和DRF作为后端开发框架实现平台后端功能服务的各项业务逻辑;使用Vue和uni-app作为
随着经济的飞速发展,国人的生活水平迅速提高,人民对医疗健康领域话题的关注度日益增多。检索式医疗问答系统作为问答系统的子领域,可以根据用户提出的医学问题检索知识库,给出专业的医学答案,具有极其重要的研究与应用前景。典型的检索式问答系统主要包含召回模块与排序模块两个关键模块。在排序模块中,使用深度语义匹配模型对召回的数据重排序,深度语义匹配模型的性能直接影响到检索式问答系统的性能。因此,检索式问答系统
互联网信息时代下,就计算机应用而言,以结构化和非结构化形式存储并用于语言文字的信息处理占比十分巨大,在神经网络广泛应用于自然语言处理任务之前,命名实体识别领域的研究通常集中在利用词汇和句法知识来提高模型或方法的性能。随着低资源的命名实体识别任务成为主流方向,作为应对的手段之一的迁移学习也逐渐成为热门的研究方向。跨领域迁移学习是一种可以将知识从高资源领域传递到低资源领域来弥补数据信息不足的技术,在处
随着人工智能和大数据的飞速发展,无人驾驶技术在全世界掀起研究热潮,吸引了社会各界高度关注。无人驾驶技术分为环境感知、行为决策、路径规划以及路径跟踪四个部分。其中,路径跟踪部分控制车辆准确地遵循路径规划部分生成的参考路径,是无人驾驶技术中的重要研究方向。因此,研发跟踪准确性强、实时性高的路径跟踪算法是无人驾驶技术研究的重点工作。纯追踪算法是自动驾驶汽车中最有效的路径跟踪方法之一。与其他路径跟踪算法相