数据挖掘中的统计方法及其应用研究

被引量 : 0次 | 上传用户:LQL12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于在数据挖掘的各种方法和技术中,最基础和最重要的方法是统计方法,而且统计理论也催生了许多新的数据挖掘方法,所以研究数据挖掘中的统计方法及其应用不仅可以给数据挖掘的实际工作者提供使用建议和指导,而且可利用统计方法分析数据挖掘中的数据特征,为研究者和实践者推进科技发展和创造社会财富奠定理论基础。本文在研究现有主要数据挖掘方法和软件及其应用基础上,着重分析研究了数据挖掘中涉及的统计方法、模型及它们在数据挖掘中的应用;剖析了数据挖掘中的机器学习和统计学习机理;在研究了覆盖分类学习方法和基于概率的覆盖算法对海量数据处理能力的局限性后,提出了基于贝叶斯理论的改进覆盖算法,即以贝叶斯公式获得的后验概率替代通过投票方式确定覆盖边界中的样本类别,该算法提高了分类的可信度和稳定性。主要有以下四个方面:1.比较分析研究了现有主要数据挖掘方法和软件及其应用,可为使用者使用这些方法和软件提供选用帮助和建议;2.按照数据挖掘的过程和任务,逐一分析研究了其中使用的统计方法、模型等统计学中的理论,可为挖掘具有统计特征的数据信息的知识提供参考;3.重点从产生数据挖掘的新方法的学习机理分析入手,研究了一些基于机器学习和统计学习的数据挖掘方法的机理,为构造挖掘具有统计特征的数据知识新方法提供方向建议;4.针对支持向量机方法在处理大型数据库中使用数据分类的困难,分析研究了覆盖分类学习方法和基于概率的覆盖算法对一些样本不能正确分类的问题后,提出使用贝叶斯的理论融合覆盖分类学习方法和基于概率的覆盖算法解决测试样本中边界样本的分类问题的新学习机。该学习机包括二层结构:基于覆盖学习的分类模型的结构和基于贝叶斯理论的覆盖分类学习模型结构--覆盖分类学习机,实现了对海量数据进行高效地分类。本文的创新和特色体现在第4个方面。
其他文献
目的调查沈阳市某三甲医院2016年-2018年维持性血液透析(MHD)住院患者入院原因,分析此类患者并发症防治的薄弱环节。方法通过医院电子病案管理系统提取2016年1月1日-2018年12
目的:探讨桂枝加龙骨牡蛎汤联合氯硝西泮治疗高血压病合并失眠患者治疗的临床疗效。方法:选取106例高血压病合并失眠患者,随机分为对照组与观察组,每组53例。对照组给予氯硝
21世纪是一个竞争与挑战并存的新时代,“以人为本”的理念成为了竞争主体管理工作中的“软件”。伴随着我国市场经济的稳步发展,用工制度改革的深度推进,以及劳动力市场主体地位
目的研究灵芝多糖联合二甲双胍对2型糖尿病大鼠氧化应激的影响。方法采用斯泼累格·多雷(SD)大鼠高脂饮食4周后,腹腔注射小剂量链脲佐菌素30 mg·kg-1造模。成模后将大鼠随机
客户关系管理是近年来随着网络经济的发展而出现的一种新的管理理念和方法。它不仅改变了企业的管理和运营方式,也直接地影响到了企业的竞争力。随着医药流通企业竞争的加剧,原
《体育与健康课程标准》只能为体育教师提供宏观性的指导,而开发下位的可操性体育课程对于课程实施非常重要。从弗兰(M.Fullan)等人的课程实施取向、古德莱德(J.I.Goodlad)的
关于所谓"郑玄弹性定律"学界向有争论。从制作筋角弓的经验和郑玄注释文本的目的出发,再次阐明郑玄之论与胡克弹性定律的不等价性,认为郑玄的观点不属于弹性定律的科学表述。
恐怖主义势力的活动在全球范围内日益蔓延,美国9·11事件之后在中国—东盟地区也开始出现恐怖主义活动。东盟地区印尼的“亚齐运动”、菲律宾的“摩洛民族解放阵线”以及“东
目的探讨系统性健康教育改善稳定期慢性阻塞性肺疾病患者生活质量及预后的作用。方法将2010年9月~2013年6月义乌市中心医院新生儿科收治的124例稳定期慢性阻塞性肺疾病患者分
谷子是我国北方重要杂粮。晋谷21诱变育成后20多年来一直被公认为顶级米质品种,五次获全国农业博览会优质谷米金奖,在山西省谷子生产上占主导地位。然而谷子品质育种却比较滞