【摘 要】
:
随着人类基因组计划的完成,大量的基因表达数据被人们发掘出来,如何通过对基因表达数据的挖掘,揭示出数据中所蕴含的生物学信息,已经成为数据挖掘中和生物信息学研究中的热点
论文部分内容阅读
随着人类基因组计划的完成,大量的基因表达数据被人们发掘出来,如何通过对基因表达数据的挖掘,揭示出数据中所蕴含的生物学信息,已经成为数据挖掘中和生物信息学研究中的热点内容。 但由于基因表达数据具有不同于传统数据集的高维、低样本的特点,使得对生物信息的挖掘具有很大的挑战性。其中由于关联规则的形式简单而且容易理解,已经成为了基因表达数据分析中的重要方法之一。频繁闭合项集挖掘则在关联规则挖掘占据了重要的地位。 本文在研究已有的基因表达数据的频繁闭合项集挖掘算法的基础上,针对当前算法中存在的一些不足,提出改进算法,主要工作如下: 1)对已有频繁项集和频繁闭合项集挖掘算法进行深入研究。分析现有算法的优缺点,重点研究了基因表达数据频繁闭合项集挖掘算法。 2)本文研究了基因表达数据中挖掘top-k频繁闭合项集问题,并设计了挖掘算法ZDtop。算法使用ZBDD结构压缩存储数据集,采用递归的思想构造ZBDD结构,通过是否包含某个特定的项目集对搜索空间进行划分,并结合有效的剪枝策略,加快了频繁闭合项集的产生速度。同时ZDtop算法不需要用户事先给定支持度阈值,使输出的频繁闭合项集的数量在用户的可控制范围内。通过实例分析,证明了该算法正确有效性。 3)在对经典频繁项集并行算法的研究分析后,提出了基于局部 ZBDD结构的频繁闭合项集并行挖掘算法 DL-ZBDD,通过在各处理机上构造局部 ZBDD结构,并行使用串行ZBDD算法在各处理机上进行挖掘。理论分析表明,算法是正确有效的。
其他文献
互联网的开放性、互动性和共享性深得广大网民的喜爱,网络成为网民表达思想、获取信息、与其他网民互动互通以及建立社交圈子的主要平台。用户的相互交流、话题和资源的发布、
随着群体仿真技术在影视特效、公共安全等领域的广泛应用,在计算机生成空间中绘制数十万(甚至百万)运动群体已经成为必要,大规模人群的快速绘制也逐渐成为虚拟现实和图形学领域
本论文是根据国家“高档数控机床与基础制造装备”科技重大专项的“基于国产‘龙芯’CPU芯片的高档数控装置(2009ZX04009-022)”的子课题,以建立基于数控装置的可靠性设计、测
随着分布式网络服务的广泛应用,网络安全问题日益突出,传统的安全技术不能适应网络发展的新趋势。信任管理提供的软安全技术被认为是解决网络安全问题的有效补充手段。然而,
复杂曲线曲面加工被广泛地应用于航空航天等现代制造业中,而传统五轴数控系统只微小直线段或圆弧插补,不具备参数曲线直接插补功能。为了达到加工精度要求,需把待加工曲线离散为
现有的群体运动模拟多采用几何、物理模型,集中于群体动力学的研究,在路径规划、冲突避免、行为规则等方面取得了多项研究成果。然而,人群作为高级的智能群体,具有丰富的情感特征
随着互联网的普及、用户数量的急剧增加,其安全形势也日益严峻。其中,网络蠕虫以其利用软件漏洞进行自我复制的特点在因特网中快速传播,成为互联网安全当前面临的主要威胁之
计算机动画是计算机图形学中一个非常重要的分支领域,其综合了真实感图形生成技术、运动控制原理、图像处理技术等诸多技术。计算机动画的研究对象可以是现实世界和虚拟世界的
随着Web技术和数据库技术的发展,各个企业、政府部门均建立了复杂的应用系统,这些系统往往采用不同的开发平台和技术,实现各自业务需求的数据库管理系统也不一样,要在这些异构的
SIMPLE IM是目前定义较为完整的IM标准,但其中仍有不少地方需要进一步完善;OMA、IETF、3GPP正不断地更新出台最新版本的SIMPLE IM标准。由于标准的不断更新完善,存在的SIP/IMS客