论文部分内容阅读
人工免疫系统(Artificial Immune System, AIS)是一种新的软计算技术,在过去的十多年间得到了迅速的发展。由于具有强大的信息处理能力,AIS被广泛应用于各种领域,尤其是机器学习中的分类问题。在AIS的所有的模型中,免疫网络能够快速、有效地归纳训练空间,因此,基于AIS的分类器大多是采用免疫网络来设计和实现的。虽然免疫分类器在实际应用中取得了较大的成功,但是这些分类器也存在问题,限制了分类器的分类性能。这些问题包括:1、没有考虑细胞之间的相互关系对分类性能的影响,记忆细胞的确定缺乏有效的指导;2、没有对训练空间进行适当的转换,分类学习直接在输入空间中进行,限制了算法的能力;3、有些系统采用线性机制来控制抗体群体的进化,难以对抗体群体的进化产生有效的扰动,影响了算法的精细搜索能力;4、记忆细胞群体的产生过于随机,算法没有有效的细胞质量评估和淘汰机制;5、在使用批量训练方法时,抗体群体的进化缺乏有效的指导,使得抗体群体的组合空间过大而难以搜索到优化的分类器。为了改善人工免疫分类器的问题,本文提出了基于抗原对的训练方法、记忆细胞剪切方法、核空间以及模糊逻辑等方法,并结合免疫网络高效的归纳能力来设计分类器。具体细节描述如下:1、提出了一种新的训练方法,该方法利用抗原对来指导记忆细胞的生成。对于每一个训练抗原,确定与训练抗原最近且不同类的抗原为其对偶抗原,并以训练抗原为中心,抗原对距离一半为半径确定候选细胞区域。当抗体群体在进化的过程有抗体出现在该区域时结束对训练抗原的训练,并确定候选细胞区域中距离对偶抗原最近的抗体为记忆细胞。这种训练方法不仅考虑到了抗体-抗原之间的相互关系,还考虑到了细胞之间的相互位置关系对分类性能的影响,有利于搜索到更优的分类器。算法被用于6个人工数据集以及5个UCI数据集的分类,同时,该算法被应用于语音情感识别。算法的分类结果与支持向量机SVM、决策树算法C4.5、BayesNet等著名算法的分类结果进行了比较,结果显示该算法对于这些问题具有良好的分类性能。2、提出了一种基于核函数的人工免疫识别系统。在传统的人工免疫识别系统AIRS中,抗体-抗原的亲和度采用Euclidean距离来表示,这种线性空间的表示机制限制了算法的非线性能力。通过使用核函数,将训练空间由输入空间转换至高维的特征空间,改善算法的非线性能力。同时,对记忆细胞群体中的每个细胞进行质量评估,淘汰完全不能识别近邻抗原的弱细胞。算法被用于5个UCI标准数据集的分类,同时,算法被应用于肝炎和心脏病的诊断,诊断结果通过混淆矩阵和AUC指标加以评估。通过比较本文算法与其他算法的分类性能,发现本文算法获得的分类准确率不仅显著高于AIRS获得分类准确率,而且也优于参与比较的经典分类算法达到的分类准确率。3、传统AIRS采用的线性资源分配方法难以对抗体群体的进化产生有效的扰动,不利于算法对训练空间进行精细搜索。本文提出2种非线性资源分配方法来改善算法性能,即离散资源分配方法和模糊逻辑资源分配方法。离散资源分配方法将整个刺激度区间离散为若干个子区间,并为位于相同子区间的抗体分配等量资源,这样即可在资源数量不变的情况下仅通过优化子区间数量来改变资源分配结果,实现对抗体群体生成的扰动,提高算法的精细搜索能力。模糊逻辑资源分配方法将模糊逻辑表示为一个参数,这样就不需要根据不同的问题预先设计模糊逻辑,而仅通过改变参数即可实现模糊逻辑的搜索,改善算法的精细搜索能力。最后,算法对记忆细胞进行适应度评估,并通过淘汰适应度偏低的记忆细胞来进一步优化分类器。算法被应用于6个标准UCI数据集的分类测试,结果显示算法具有良好的分类性能。同时,算法被应用于心脏病、糖尿病和乳腺癌3种疾病的诊断,诊断结果通过AUC和混淆矩阵进行检验,结果显示算法对这3种疾病的诊断性能良好。最后,将算法应用于银行用户信用分析,通过比较发现算法在用户信用评估方面也有良好的性能。4、免疫网络分类算法大多采用增量式训练方法,这种方法虽然可以为每个抗原产生一个优化的记忆细胞,但不能保证获得优化的记忆细胞群体,为此,提出了一种基于禁忌搜索策略的免疫网络分类算法。算法采用批量式训练方法,该方法将抗原整体提呈给抗体群体,并通过评估抗体群体整体质量来进化分类器。为了有效减少搜索空间,类域内部区域被禁止产生同类抗体,这样,抗体的生成被主要限制在类域分界线附近。同时,评估抗体的适应度,淘汰类域分界线附近低适应度的抗体,使得抗体群体能够较好地归纳抗原空间,更好地反映抗原空间的局部特征。算法被应用于4个UCI数据集的分类测试,结果显示算法具有优良的分类性能,特别是对Wine数据集,算法的分类准确率达到了100%。同时算法被应用于语音情感识别,以及肝炎和乳腺癌的疾病诊断,结果显示算法对于这些问题具有良好的分类性能。