论文部分内容阅读
分泌蛋白在多细胞生物体中决定、控制和协调着许多生物学过程。采用实验方法对分泌蛋白质组研究存在一些技术上的困难,来自基因组和转录组的数据的增长使得采用生物信息学方法对分泌蛋白质组进行研究成为可能。肝脏在人体中是仅次于脑的第二大器官,有着重要的生理功能。对人肝脏分泌蛋白质组的研究有助于揭示肝脏自身、肝脏与人体其它组织、器官之间关系(如肝脏与血液之间关系),以及肝脏蛋白质的分泌途径。由于分泌蛋白具有重要的生物学功能,因此肝脏分泌蛋白有可能成为肝病诊断与治疗重要的标志物和药物靶标。 本研究基于转录组数据,采用生物信息学方法对人肝脏分泌蛋白质组进行了研究。 首先建立了一套分泌蛋白质组预测系统,并对该系统的准确性进行了评估。结果表明,本研究建立的分泌蛋白质组预测系统的准确率和回复率分别为78.8%和80.7%。换言之,此方法体系的假阳性和假阴性比例分别为21.2%和19.3%。对造成假阳性和假阴性的原因作了进一步分析,结果表明溶酶体蛋白、膜蛋白和内质网蛋白是造成假阳性的主要原因;假阴性结果主要来自两个方面:多位点定位蛋白和分泌蛋白。 之后,根据人肝脏转录组数据,利用建立起来的分泌蛋白质组预测系统确定了人肝脏分泌蛋白质组由1597个分泌蛋白组成,涉及1037个基因。 进一步,从7个方面对人肝脏分泌蛋白质组的特征进行了分析。 (1) InterPro结构域分析。有1414个蛋白质(占人肝脏分泌蛋白质组蛋白质总数的88.54%)含有InterPro结构域,共匹配了745个InterPro结构域。出现频数最多的前20个InterPro结构域中包括了表皮生长因子(epidermal growth factor,EGF)结构域超家族中的4个成员:EGFlike、IEGF、EGFCabd和EGF2;免疫球蛋白超家族中的5个成员:Ig-like、Ig、Igv、Igc2和Igc1;纤维连接蛋白超家族中的2个成员:FNⅢ-like和FNⅢ;Peptidase超家族中的2个成员: