【摘 要】
:
在对高维数据的处理中,若不考虑数据降维的问题,会导致数据量大,计算复杂,难以提取有价值的信息等问题,因此,高维数据的特征提取是数据挖掘中重要的数据预处理问题。高维数据
论文部分内容阅读
在对高维数据的处理中,若不考虑数据降维的问题,会导致数据量大,计算复杂,难以提取有价值的信息等问题,因此,高维数据的特征提取是数据挖掘中重要的数据预处理问题。高维数据特征提取是从原始数据中提取对分类识别最有效的特征,以表示原始数据,从而实现特征空间维数的压缩。本文以湖南省自然科学基金项目为背景,系统研究了激光诱导自体荧光光谱数据的特征提取技术。本文通过分析比较当前经典的特征提取技术,并分析其优缺点,提出了两种数据特征提取方法。首先,从统计分析角度,提出了一种基于主成分判别分析的特征提取方法,该方法克服了主成分分析中鲁棒性差、没有充分利用类别信息的问题,克服了FLDA算法的小样本问题和秩限制问题,可有效降低数据维数。其次,引入粗糙集理论,从知识发现的角度提出了基于容错关系信息熵的粗糙主成分分析方法,该方法不需要任何先验知识,可对知识进行严密分析和处理。通过实验证明,粗糙主成分分析方法不仅解决了主成分判别分析方法难以处理的信息不完备问题,而且取得了更高的分类识别率、敏感性和特异性。
其他文献
本文描述和实现的数据管理软件是空间信号子系统中的核心软件,主要是作为子系统中的数据管理中心,对整个系统中的数据进行统一的管理。空间信号子系统在分系统中主要负责空间
Verilog语言编辑环境简单、设计方法多样,既可以描述硬件系统模型的结构和行为,又可以描述系统的功能,因其简洁多样的形式,在数字电路系统模型设计中得到广泛应用。需求和功
随着通信理论的发展,低密度奇偶校验码(Low-Density Parity-Check codes,LDPC codes)作为一种逼近香农限的线性分组码,凭借其较低的译码复杂度和良好的纠错性能,成为当前信道
随着网络信息化技术的发展,存储系统在整个信息系统中所占的比重逐渐增加。目前存储数据被非法访问、泄漏和篡改等安全问题日益受到重视。本文对SAN和NAS融合的安全问题进行
词语对齐的目标在于指明平行文本片段之间的对应关系,最早是作为统计翻译模型的中间产物而被提出。在英汉词对齐技术研究中,词形、语义、句法的多样性和灵活性,未登录词及分
随着计算机技术的迅速发展,信息资源的异构性在各行各业的信息管理系统中无处不在,形成了大量的信息孤岛。电力行业作为国民经济的基础产业,在国民经济和社会发展中发挥着重
目前,基于先进的互联网和多媒体技术的网络教育,较以前的教育模式有很大的进步。随着新世纪的来临,终身教育成为现代社会的需要。要真正解决和实现教学在任何时间、任何地点进行
织物染色是提高纺织服装产品附加值的关键行业,也是纺织行业的发展和技术水平的综合体现,而配色又是染色行业中至关重要的一个环节。传统的配色过程工作量大,费时费料,而且还
在非易失性存储器中,主流的NAND闪存由于吞吐性能好,能量消耗低,数据存储稳定,成为了数据存储领域的一种重要的存储媒介。多级存储单元(MLC)技术通过提高闪存单元存储密度来
随着互联网中信息量的不断增长,搜索引擎已经成为人们快速获取有效信息的重要手段,是人们日常生活中必不可少的工具之一。但是单一搜索引擎能够检索到的信息量有限;而且有多