论文部分内容阅读
目前,世界已经进入数据信息流时代,挖掘大规模数据中的有效信息变得越来越重要。经过了几十年的发展,虽然针对数据挖掘的研究已经取得了不少的研究成果,但是不同的数据挖掘技术所得到的应用效果并不相同。对于不同的研究领域,不同的数据挖掘模型算法所得到的效果已经成为各研究学者们一直关注的热点。如近几年在图像识别方面,深度神经网络已经被证明其识别精度要比其他识别模型更好。然而在识别小规模特征数据样本的领域中,向量机或随机森林算法能够具有较高的精度。因此,在不同的研究领域,对于数据挖掘与应用,并不存在一个通用的较优模型算法。故本文在以数据流信息为特征的时代下,提出了基于各类型数据挖掘模型算法,适合于各研究应用领域。除此之外,本文将其得到的结论推广至实际应用中,为改进不同领域的数据挖掘提供一定的指导。其具体的研究内容及结果分别如下:(1)研究了基于TM遥感数据的土地石漠化监控,通过深入分析TM遥感数据的特点,建立了 SOM神经网络对得到的各特征指数指标进行分类与识别,该模型算法综合了各TM遥感数据的特征指数,并通过实际TM遥感数据的模拟进行测试。结果表明:基于TM遥感数据的特征指数的SOM神经网络模型可以有效的获得研究区域的整体综合评价。该模型能够规划开发核心分布结果,还可以实时监控研究区域的石漠化分布、植被分布及水体流域分布情况。在城市建设发展及规划中有实际的指导意义,可为研究区域中石漠化遥感图像数据分析提供理论基础。(2)针对上市企业的财务预警监控,本文研究了基于主成分的模型和融合熵值法,并提出了基于SOM网络融合BP网络的企业财务预警监控模型。并对各模型进行了模拟验证。结果表明:①传统的主成分模型和基于主成分融合的熵值模型能在一定程度上区分非ST企业与ST企业,但该模型的识别率存在较大的可提升空间。②本文提出的基于SOM网络融合BP网络的财务预警模型,对所有的ST样本与非ST样本对象进行提取筛选,并根据SOM网络对初始训练样本进行了提取,不仅得到了最优样本的匹配率,还构建出完整的财务预警模型系统。该模型的识别准确率均比直接使用Logistic模型、BP神经网络模型、SVM模型、主成分模型或主成分融合熵值模型要高。(3)针对交通流量数据的挖掘分析,采集了不同环境下的关键交通流量参数。建立了Van-Aerd模型来标定交通道路参数,并分析不同环境对道路的实际影响。同时针对识别实际交通状态的特征,深入分析了 FCM聚类模型的计算原理。本文根据各环境下的有效函数建立了各种环境下的最优聚类数的自适应识别,并对实际交通流量数据进行模拟。结果表明:本文提出的模型算法能够有效地划分快速路的交通状态。通过不同的聚类中心值能够反映出各类交通流量的特征状态。对不确定程度的交通状态给出了一个明确的状态类型,为实际的交通控制与管理奠定了基础。(4)针对数据规模下的图像信息保密技术,本文重点研究了基于Logistic映射的混沌系统。本文在一维Logistic映射的基础上,引入了二维混沌Logistic映射的动力学方程,并基于二维混沌Logistic系统对图像安全进行了模拟分析。同时为了能够克服在图像解密过程中二维混沌Logistic系统的图像失真现象并满足图像局部信息的高精度传输的要求,本文提出了基于混沌与小波变换的图像加密算法。最后,通过实际的模拟实验表明:①当用二维Logistic混沌系统对二维图像进行加密时,整体的密钥空间数量级可达到1018级别。当扩展到3维图像加密时,密钥空间的数量级可达到1054级别,具有较好的安全性,但会产生一定的图像失真现象。②融合了小波变换算法的二维Logistic混沌系统不但具有较好的安全性,还克服了图像加密与解密过程中的失真现象。其中当小波的分解层数为2层时,其密钥的空间数量级已经达到了 10126级别。该系统不但能够保证图像的局部信息得以保留,还极大提升了安全性。研究背景及目的近年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万个数据库被用于政府办公、科学研究和工程开发等商业化管理,而且这一势头仍将持续发展下去。于是,这个被称之为信息爆炸的时代,迎来了一个新的挑战。信息过量几乎成为人人需要面对的问题,而如何从中及时地发现有用的知识,提高信息利用率是当下的一个主要研究热点。若要使数据真正成为一个资源,只有充分得利用其涵盖的信息才能更好的获取最新的信息,否则大量的数据可能成为包袱。目前人们迫切需要一种可以自动并智能地将待处理的数据转化为有用信息和知识的方法,从而为决策进行服务。在这种情况下,数据挖掘技术应运而生,该过程是一个从数据挖掘的大量模式中,通过提取不完整数据中的噪声信息发现有用信息的过程,其中所提取挖掘的数据对象可以是数据库或数据仓库的内容,也可以是其它数据源的内容。数据挖掘是一个新兴的多学科交叉领域,具有广泛的应用前景,数据挖掘可以用于研究信息管理科学,决策支持和其他多种领域。数据挖掘技术与各个行业的结合更是体现了其核心的价值,其中数据挖掘在各行业的应用分别如下:(1)在电信业中的应用在激烈的电信市场竞争和迅速的业务扩张中,可以利用数据挖掘技术来解释商业行为并通过确定通信模式来捕捉滥用行为,从而更好地利用资源和提高服务质量。(2)在金融领域中的应用多数银行和金融机构产生的金融数据通常比较完整可靠,这有利于系统化的数据分析和数据挖掘。在具体的应用中,采用多维数据分析来分析这些数据的一般特性以及串行模式分析工具的数据可视化分类聚类分析,例如可以协助侦破洗黑钱和其他金融犯罪行为。(3)在零售业中的应用零售业是数据挖掘的主要应用领域,零售数据挖掘有助于划分顾客群体,使用分类技术和聚类技术,可以更精确地挑选出潜在的顾客,识别顾客的购买行为,发现顾客的购买模式和趋势,进行关联分析,以便更好地进行货架摆放等等。(4)在工业生产的应用在生产工业领域,工业生产是数据挖掘最具潜力的应用之一,大部分工厂都积累了大量的实际生产数据,这些数据大多以数据库数据文件生产记录等形式存在。操作决策和对操作者的控制中蕴涵了与生产设备、生产过程相关的许多规律性知识和生产决策操作。由于缺乏必要的数据分析和处理工具,这些数据中的大部分闲置数据的挖掘在该领域的应用将使这些数据发挥出极为可观的作用。(5)在生物与医学的应用数据挖掘在生物信息学中已经被广泛应用,而网络数据挖掘技术在生物信息学中的应用则方兴未艾。网络数据挖掘和生物信息学中传统的数据挖掘相比,有许多不同之处。生物信息学中的数据挖掘主要是利用统计学的方法对生物序列进行分析,试图找出某种规律,而网络数据挖掘更多是利用网络技术,网页源代码和一些语言语义学的知识对远程数据库进行查询,然后对返回的结果进行分析提炼挖掘,然后将经过网络数据挖掘处理过的结果返回给用户,此结果比用户直接从网上查询得到的结果更精练,更符合用户查询的要求。而目前,国内十多位院士针对最新的对于数据分析的战略意义联名向高层提出建议,他们认为我国应制定针对数据挖掘与分析的国家战略,并在发展目标、发展原则、关键技术等方面作出顶层设计。其中,数据将成为由国家层面规划的国家战略。主要内容包括:1)构建大规模数据研究平台,整合创新资源,实施“专项计划”,突破关键技术。2)构建大规模数据良性生态环境,制定支持政策,形成行业联盟,制定行业标准。3)构建大规模数据产业链,促进创新链与产业链有效嫁接。重点任务主要有关键技术布局、推进示范应用、完善支持政策等三方面。1)首先,关键技术布局的研发创新,以数据分析技术为核心,加强人工智能、商业智能、机器学习等领域的理论研究和技术研发,夯实发展基础。2)加快非结构化数据处理技术、非关系型数据库管理技术、可视化技术等基础技术研发,并推动与云计算、物联网、移动互联网等技术的融合,形成较为成熟、可行的解决方案。3)面向数据的直接应用,加强网页搜索技术、知识计算搜索技术、知识库技术等核心技术的研发,开发出高质量的单项技术产品,并与数据处理技术相结合,为实现商业智能服务提供技术体系支撑。通过国内对数据的战略意义我们可以看出,合理的从大规模数据中提取有效的信息并将目前先进的数据处理方法应用于数据分析挖掘与研究,己经成为研究的一大热点,而对于不同类型的数据挖掘模型,其在相关领域的应用效果更是各研究学者一直关注的问题,因为对于不同领域的实际应用,没有一个通用性较好的模型。综上所述,在以数据流信息为特征的时代,基于各类型数据挖掘模型算法的发展和其在各研究应用领域的实际应用,以及将其得到的结果推广至实际应用过程中,这些不仅对学术研究领域和实际应用领域都有较好的指导意义,甚至能够在针对具体的研究问题时,快速给出使用何种数据挖掘模型可以较优解决实际问题。因此,本文的研究对于提高生产过程的效率及经济性都具有重要的研究意义。下面将针对本文所要研究的各个领域,对数据挖掘的主要研究分别进行阐述。主要创新关键点(1)针对不同的实际应用研究领域,深入分析了不同数据挖掘模型算法的适用性,并根据得到的研究结果,对各类型数据挖掘模型算法的在各研究应用领域的实际应用进行了对比,并将其得到的结果推广至实际应用过程中。在一定程度上对于不同的实际问题,给出了使用不同数据挖掘模型算法的优劣性。(2)针对上市公司财务预警,建立了基于SOM神经网络融合BP神经网络的模型。首先利用SOM网络可以输入数据的特征信息的优势来自行修正单元连接的权重,并使权重矢量分布近似于样本数据的分布。进而在所有训练样本中获得较优的训练样本对象。(3)针对图像信息的保密,基于混沌保密模型将不同图像的3维RGB信息进行融合,对每一维度分别设计了混沌序列来提升安全强度。同时,本文针对多层密码进行了研究,结果表明,图像的保密强度远高于一层密码。(4)针对遥感图像的监控,本文采用了基于Landsat 8类型和11个波段的TM遥感图像信息。提取出了研究区域的植被覆盖度、归一化植被指数及城镇建设用地指数等参数指标。并建立了自组织竞争型神经网络对获得的各指标进行分类与识别。最后通过将各指数进行综合,得到了研究区域的整体综合评价及可规划开发的核心分布结果。主要研究内容及结果本文针对不同实际应用领域的数据挖掘与应用,对各领域要研究的问题对象进行深入分析,并引入合理的数据挖掘模型来解决问题。同时将得到的结果与其他模型算法进行对比分析,给出不同实际研究领域下各类型数据的挖掘与分析算法的适应性,为提高不同领域的数据挖掘技术提供一定的指导。其中本文针对各领域数据分析模型的主要研究如下所示:第一章绪论。阐述本文的研究背景、国内外研究现状、研究目的及意义。介绍了基于数据的财务预警监控、交通流量监控、遥感动态监控及隐私保密的各项研究进展,通过基于上述各类型数据的实际应用,给出了本文的主要研究内容及研究技术路线。第二章数据挖掘与处理综述。阐述数据挖掘的概念及处理过程,并分析数据处理与挖掘特征。最后通过分析数据挖掘模型的相关技术,给出数据挖掘的系统流程,为后文数据挖掘的实际应用案例奠定基础。第三章基于数据挖掘的遥感图像实时监控研究。针对当下遥感图像数据挖掘的应用及其难点的研究,为了能够快速且有效的实现遥感图像数据的挖掘模型,本文介绍基于数据的遥感图像实时监控的背景,提出了遥感图像数据监控的问题及相关研究意义。最后针对遥感图像数据设计计算分析模型算法,并通过实验模拟分析,给出遥感图像实时监控的结果,为遥感图像数据分析研究提供一定的理论依据。其中,本章针对基于遥感图像的土地石漠化实时监控的研究的主要步骤如下:步骤1:对Landsat 8类型的TM遥感数据进行相关参数校正(其中研究区域中TM遥感数据的取样时间是2014年8月20日,其太阳高度角=55.25°),其中校正公式如下式3.7-3.8所示,其中所需要校正的参数如表3.3所示。(1)光谱辐射强度校正:Lλ=ML·Qcal+AL(3.7)其中,Lλ为光谱辐射校正值;ML为像素波段特异性乘法缩放因子;AL为像素波段特异性增加缩放因子;Qcal为遥感图像像素值;(2)反射率校正:pλ=(MP·Qcal+Ap)/sin(θSE)(3.8)其中,Pλ为反射率校正值;Mp为波段特异性乘法缩放因子;Ap为波段特异性增加缩放因子;Qcal为遥感图像像素值;θSE为太阳高度角;步骤2:对步骤1提取得到的数据进行计算,得到各指标值。其中本文选取的与石漠化相关的综合指标包含:1)归一化植被指数,该指标值越大,则表明石漠化程度越低。2)水体指数,该指标值越大,则表明石漠化程度越低。3)城镇建设用地指数,该指标值越大,则表明石漠化程度越高。由于各指标与石漠化程度存在非统一的方向性关系,故需要对各指标进行极大归一化,由于石漠化程度越低越好,则以上3个指标中,归一化植被指数、水体指数为正向指标,而城镇建设用地指数为负向指标。归一化公式如下式3.9所示:正向指标有Yi=yi-min(y)/max(y)-min(y),负向指标:yi=max(y)-yi/max(y)-min(y)(3.9)步骤3:建立SOM网络模型,将步骤2得到的各归一化指标进行综合,同时作为SOM网络的输入信息,建立基于各指标参数的聚类识别模型,最后得到研究区域的各指标中心分布值。步骤4:通过步骤3获得的训练好的SOM网络,对其他已知区域进行测试和识别,最终实现对研究区域石漠化的动态跟踪。将上述模型算法和其他模型对比,获得以下主要结论:模型算法的设计显示出基于Landsat 8类型的11个波段的TM遥感图像的信息。以漓江流域为例,首先通过计算提取出与研究区域相关的指数,包括植被覆盖度、归一化植被指数及城镇建设用地指数。其次,并建立自组织竞争型神经网络来对各指标进行分类与识别,从而得到漓江领域的各指标的分布情况。最后,对各指数进行综合分析,获得研究区域的整体综合评价及可规划开发的核心分布结果。结果表明:通过基于TM遥感图像提取的特征指数的自组织神经网络模型的分类与识别,可以有效的得到各指标参数的分布情况,分类结果具有较高的可辨别度,可以实时监控漓江流域的石漠化分布、植被分布及水体流域分布情况,可为漓江石漠化遥感图像的数据分析提供理论基础。除此之外,模型监控结果对城市建设发展及规划具有实际的指导意义。同时,通过与相关模型算法进行对比可以发现,在遥感大数据实时监控的过程中,SOM模型在算法效率、监控性能、应对异常数据的敏感性与实际监控准确性上均要高于其他模型算法。因此,基于遥感大数据的土地石漠化实时监控过程可以优先以SOM神经网络为主。第四章基于数据挖掘的上市公司财务预警监控研究。针对目前上市企业的财务预警研究存在的缺陷,本文给出一种提高企业财务监控及预警准确度和效率的算法。本文介绍了基于数据挖掘的企业财务预警的背景,给出了企业财务预警监控的研究目的和意义。最后构建上市公司企业的财务预警模型,并通过实时动态模拟监控显示出各上市公司的财务预警级别情况,为针对企业财务预警的大规模数据挖掘提供一定的理论分析和指导依据。其中,本章基于SOM融合BP神经网络建立企业财务预警模型的主要步骤如下:步骤1:计算所有ST样本与非ST样本的财务指标值,并对其进行归一化。其中归一化的范围设定为[0,1]。步骤2:将训练样本数据的ST与非ST样本作为SOM网络的输入信息,其中SOM网络的聚类数设定为2,即将同类型的样本进行内部划分,并通过SOM网络返回各样本对应的类别编号。步骤3:对SOM返回的样本编号进行筛选,得到最好的样本对象。其中筛选的规则是将返回的各样本编号进行内部统计编码,其中当非ST样本与ST样本的编号分别为1与2时,将非ST样本中编号为2和ST样本中编号为1的样本剔除。而当非ST样本与ST样本的编号分别为2与1时,则将非ST样本中编号为1和ST样本中编号为2的样本剔除。步骤4:将得到的较优ST与非ST样本数据再次作为SOM网络的输入信息,进行5级划分,分别为危机、严重警告、警告、提醒与正常,最后得到5个级别的样本对象,并分别对各类型样本进行编码。步骤5:将得到的5个级别警告样本作为BP神经网络的输入信息,进行网络的训练,进而构建完整的5级财务预警模型系统。将上述模型算法和其他模型进行对比,得到的主要结论如下:本章节提出的财务预警模型算法对于短期的财务预警具有较高的识别精度,主要是因为在样本数据的提取过程中,SOM模型剔除了较差的训练样本,自动匹配了最优数量的ST公司样本与非ST公司样本。同时对于短期预测模型而言,由于本文的算法已经事先提取了较优样本,因此对于数据量较少的情况下,模型依然具有较高的有效性,而对于其他模型而言,由于训练样本对象中含有较多的混淆样本,影响了模型的训练与模型的预测能力,其对应的模型准确度也有所下降。最后将本章提出的所有财务预警模型应用于2015年的企业财务的短期预警监控中,计算各模型的预警准确率,如下表1所示。由各模型的对比分析结果可以看出,基于SOM网络融合BP网络的模型综合准确率最高,该识别准确率达到了 0.875。其次是基于主成分融合熵值法,该识别准确率达到了 0.8571。由以上的综合准确率结果还可以看出,针对企业财务预警的监控,往往使用一个模型,即针对数据的单方面提取是不够的。而使用不同模型的融合,通过不同的角度对其进行多角度挖掘,得到的综合准确率相比于单一模型的要高出许多,更能适用于实际的企业财务预警监控。由于本文所使用的为融合神经网络模型处理的方式,即预先将危险等级划分了不同的类型,并在最后用BP网络对企业财务进行识别,可见融合模型对于不同的数据样本分布,其预先的划分等级会影响到后面的各子BP系统的识别准确性,因此本文模型虽然识别率较高,但在应对不同的实际问题时,模型的参数具有一定的敏感性,即对比其他模型算法,本文提出的模型在其他领域的监控上还需要做出自适应的参数调整。因此对于企业财务预警的应用,传统的数据挖掘模型或单一的神经网络模型并不是较优的选择,而将各种模型算法融合得到的效果具有较好的鲁棒性,因此,针对企业财务的预警过程,可以优先考虑SOM融合BP神经网络模型或者SOM融合SVM等其他模型算法。第五章基于数据挖掘的快速路交通流量行为监控研究。针对大规模实时数据流的交通流量研究领域,为能够系统化的实现交通流量状态的监控和识别应用,并使之能快速处理实时状态下的交通流量行为。本文通过引入基于数据定位的交通问题背景,给出针对交通流量行为分析的研究目的及意义。最后通过构建针对研究区域内的交通流量Van-Aerde模型与交通流量状态识别系统,并通过模拟分析,给出不同的交通流量行为模式的行为判别结果。其中,本章针对快速路交通流量特征参数的标定与其他标定模型的对比结果如下:将Van-Aerd模型与其他相关算法在各指标性能上进行对比分析,其中针对本文的模型算法,分析了算法的实际使用性能,包括模型标定的耗时、有效性、模型标定结束后的速度误差。其中不同的算法模型对比结果如下表2所示:由以上的各模型对比可以看出,虽然遗传算法和粒子群算法能够得到更加精确的标定结果,但由于这两种模型在标定的时候需要不断的通过迭代进行求解,最终才能得到较完整的标定模型。因此,模型的计算耗时非常长,并不适用于大规模数量级的实时交通流量的应用。而对于元包自动机,由于模型的设计主要依靠相应的规则进行迭代,因此,模型在标定的过程中,并不能够适用于经常变化的实际交通状态。而非线性最小二乘模型对于交通流量的标定误差值较大,且随着数据量的增加,模型误差会不断累加,因此此模型并不能直接应用于交通流量特征参数的标定。而Van-Aerd模型由于只需要对设定的目标函数进行优化,因此模型在误差上均能满足实际的需求,且由于Van-Aerd模型的耗时比其他模型少,更能适用于实际大规模数据下的交通流量标定,并且此模型在算法效率、与实际的监控准确性上均要高于其他模型算法。由Van-Aerd模型的推导可以看出,本文模型算法相当于一个迭代求解的过程,因此此模型是在基于一定规模数据量时,才具有比其他模型优越的特点。而当数据样本较少时,模型的标定结果会出现较大的误差。因此,目前Van-Aerd模型更多的适用于有大规模数据产生的环境下。第六章基于数据挖掘的信息安全保密研究。针对目前社交通信大规模数据传输过程的信息保密过程,为能够快速的加密大规模传输的图像数据信息,使之在传输过程中尽可能的保留原有图像信息并保证安全传输,本文通过分析目前数据图像信息保密的意义,给出目前图像信息的保密背景。最后通过构建应用混沌序列密码的保密通信模型,并通过实际的图像保密实验进行验证,同时通过分析该算法的保密误差灵敏度,为图像数据保密提供一定的理论分析。其中,本章以图像信息数据的保密为例,提出的基于小波变换融合二维Logistic的数值图像信息加密算法与其他模型的对比结果如下:对数值图像数据信息的加密挖掘过程采用了 2层小波分解变换提取,得到的图像中挖掘分解系数矩阵总共有7个,通过分别对这7个系数矩阵进行二维Logistic混沌加密后,分别得到挖掘后的核心加密矩阵。由于7层系数的矩阵分别进行了二维Logistic混沌加密,而每一层的系数均为一个2维矩阵,因此每一个矩阵的密钥数量级为1018级别,共有7个层级,因此整体的密钥空间数量级已经达到了 10126级别。而当小波挖掘分解的层数设定为3时,得到的挖掘分解系数矩阵总共有10个,因此当小波分解层数为3时,其整体的密钥空间数量级可达到10180级别。可见基于小波变换融合二维Logistic的图像加密算法不但实现了信息的高精度保留,同时还可以显著增强其密钥的空间数量级,大大提升了图像信息的保密强度。其中不同的算法模型对比结果如下表3所示:由以上的各模型对比可以看出,针对传统的Arnold变换和M序列变换的信息加密的密钥空间较小,容易被通过暴力手段进行密码破解,并且加密后的信息与原始信息的相关系数较高,对信息的保密程度较低。而对于二维Logistic混沌加密算法,由于利用了 RGB这3个维度的信息,因此信息加密过程相对于原始二维信息提高了 3倍,其密钥空间达到了 1054级别。而对于超混沌AES和离散Hopfleld网络加密算法,其密钥空间均达到了 100100以上,其加密性能已无法通过暴力破解的方式进行破译。而本文提出的小波+Logistic混沌加密算法,当采用了 2层小波分解变换提取并加密时,其整体的密钥空间数量级已经达到了 10126级别。而当小波挖掘分解的层数设定为3时,则得到的挖掘分解系数矩阵总共有10个,因此当小波分解层数为3时,其整体的密钥空间数量级可达到10180级别。因此,只要小波分解层数越大,其密钥空间数量级可以成倍增加,理论上甚至可以达到无穷大。因此本文提出的加密模型在各指标上均优于其他的模型算法,更能满足实际的需求。因此针对数据信息的加密过程,如果不更改原始加密数据的维度,其得到的加密效果最大达到了 10120的级别,而通过小波对原始数据进行分解,其密钥空间可以达到10126级别甚至更高,且保证了传输过程数据的损失。因此,针对信息的加密传输,小波融合Logistic混沌加密算法具有较高的适用性。进一步研究与改进针对数据的挖掘是一个具有实际应用的研究领域,得到了各个国家和各个企业的高度重视。与一般的数据研究和服务领域不一样,相比于一般的数据分析,数据挖掘中主要的工作在于数据的整理、收集和数据的标准化过程。另外,目前的许多数据具有异构化的特点,使得在数据的整理上难度较大,且目前的咨询数据研究服务框架并未成熟,所以导致了数据的分析与挖掘的深度均达不到实际的应用需求。而本文虽然在数据的应用案例上作了许多的研究工作,但这方面的研究相对而言还存在许多不足,其中还可以在本文的基础上做进一步的研究,分别如以下几个方面。(1)在本文各领域的数据研究模型中,目前的研究领域还存在其他模型和算法。而本文仅与近几年研究较为火热的某几个模型进行比较,在一定程度上,本文所研究的模型算法和结果还不能完全反映出该领域的核心解决方案。研究的广度还有较大的提升空间,同时还应该尝试国内外最新研究方向提供的思路或模型。(2)在相关数据挖掘的应用案例中,由于本文涉及的大部分都是数据的模型算法与案例研究应用。而对于数据中存在的异构化数据和缺失数据并未做出深入的研究,因此本文还可以在数据的非结构化的提取与挖掘上作进一步的研究。可尝试性的突破目前数据的异构化提取,进而为更深入的数据挖掘奠定分析基础与条件。(3)在针对数据的分析上,本文仅给出了模型的模拟分析结果与实际情况的对比,未能从整体的层面讨论模型的挖掘能力。因此需要对模型在实际应用中的服务能力进行有效评估,并对数据挖掘模型的研究作进一步的梳理。