【摘 要】
:
当今时代,由于互联网和信息技术的高速发展,人们获取大量的数据变得越来越容易。因此,如何将这些数据变为能够指导人们生活工作的有用信息,变得尤为重要。但是当今数据多具有
论文部分内容阅读
当今时代,由于互联网和信息技术的高速发展,人们获取大量的数据变得越来越容易。因此,如何将这些数据变为能够指导人们生活工作的有用信息,变得尤为重要。但是当今数据多具有高维度,增量性和具有少量先验标签信息的特点。虽然传统的聚类算法曾作为挖掘数据中潜在信息的重要手段,但在处理具有以上这些特点的数据时,变得低效、不准确且不能有效利用数据的先验信息。因此,如何挖掘这种具有高维度增量性的数据,且在挖掘过程中能有效的利用数据的先验信息,则变得尤为重要。本文针对以上问题,提出了一种新的增量聚类算法。该算法由解决数据高维度问题的特征选择算法和解决增量数据聚类问题的增量聚类算法两部分组成。在特征选择算法方面,首先通过对Relief算法的评价权重进行更改,使得更改后的权重可以用于评价特征子集。其次,使用二次Renyi信息熵并结合互信息的思想提出了QJMI评价准则,该准则可以判别特征子集中特征的间的相关性与冗余性,且具有较低的计算负载。最后,通过将两者结合,提出了基于复合相关度评价准则的FSIRQ特征选择算法。该算法能够选出具有代表性的特征子集,且具有计算速度快的特点。在增量聚类算法方面,本文通过选择聚类结果中的样本代表点,将样本代表点与增量数据混合进行聚类,解决了增量数据的聚类问题。最后,通过将FSIRQ算法与该增量聚类算法结合,提出了FS-RDRS-IC增量聚类算法。该算法可以很好的解决高维度增量型数据的增量聚类问题,并且能够合理的利用数据所具有的先验知识,使得算法具有较好的高效性与准确性。实验选用UCI数据库中的数据集,首先通过对比现有的特征选择算法,证明了FSIRQ算法的准确性与高效性。然后通过与传统聚类算法的比较,结果表明了FS-RDRS-IC增量聚类在计算速度与计算准确度上的所具有的优势。
其他文献
雷击跳闸是影响特高压输电线路安全运行的主要因素,尤其在雷电活动强烈地区面临的防护压力很大,本文对特高压输电线路的雷击特点、耐雷性能研究方法与影响因素、防雷措施进行
随着通信事业的快速发展,短信文本信息量非常巨大,乃至亿级,同时大类别短信文本中隐含着热点事件。现有聚类算法对海量短信文本进行聚类分析显得力不从心。利用短信文本在给定时
骨龄是反映青少年骨骼及身体发育的重要指标,在医学、体育、司法鉴定等多个领域都有着广泛的应用。传统的骨龄评定方法由骨龄专家对手骨的X光图像进行人工读片完成,具有评定
目的调查腹膜透析置管患者出院准备度现状并分析其影响因素,以指导出院准备服务。方法采用一般情况调查表、出院准备度量表对62例腹膜透析置管患者出院前进行问卷调查。结果
当前社会随着科技全球化的不断发展,互联网已经成为当前社会资源利用的重要辅助之一。在当前互联网+的背景下,通过对当前高新科技创新资源的需求分析,在计算机技术的背景理念
1998年房改以来,我国的房地产产业经历了十余年的快速发展,取得一个又一个令人瞩目的成绩,我国居民平均住房面积逐年增加,住房条件不断改善,人们的生活条件有了极大的提高。
20世纪80年代初期,很多发达国家的学者开始研究作业成本法与作业成本管理,以迎接新技术革命时代的到来,从而适应日益激烈的市场竞争。依据这一先进的成本管理理念,许多企业开
磷(Phosphorus, P)是植物生长发育必需的大量营养元素之一,广泛地参与到植物体内的能量转移、信号转导、光合作用等过程。它还是许多生物大分子如核酸、磷脂和含磷蛋白酶类的重
探索建立行政公益诉讼制度是十八届四中全会以来党中央提出的重要改革任务,随着2015年试点工作的开展到2018年在全国范围内普遍展开,检察机关提起行政公益诉讼制度在我国取得了日渐瞩目的效果同时也是建立健全司法体制改革的一次有益尝试。相较于西方国家的公益诉讼制度,检察机关提起行政公益诉讼中诉前程序的设立是我国独有的创新。三年来的实践结果也证明了诉前程序的作用。行政公益诉讼诉前程序以其特有的前置性和独立
当病毒感染宿主,病毒的特定组分会被宿主细胞的特定受体识别,信号再通过一些接头蛋白和激酶的传递,级联放大,最终诱导宿主表达出大量的抗病毒细胞因子和免疫调节因子,如干扰