【摘 要】
:
随着信息技术的不断发展,大量的数据也随之而产生,数据挖掘成为整合这些数据的关键技术。数据挖掘中常用的分析技术有聚类、分类、关联规则、回归分析、Web挖掘等。本文主要采用聚类分析技术对大规模的数据集进行聚类分析研究。通过借鉴物理场中物质粒子间的相互作用思想,将数据场引入到数域空间中,通过研究数据点间存在的引力关系和数据场影响因子参数,提出了基于数据场的相对质量(Relative mass algor
论文部分内容阅读
随着信息技术的不断发展,大量的数据也随之而产生,数据挖掘成为整合这些数据的关键技术。数据挖掘中常用的分析技术有聚类、分类、关联规则、回归分析、Web挖掘等。本文主要采用聚类分析技术对大规模的数据集进行聚类分析研究。通过借鉴物理场中物质粒子间的相互作用思想,将数据场引入到数域空间中,通过研究数据点间存在的引力关系和数据场影响因子参数,提出了基于数据场的相对质量(Relative mass algorithm)计算方法,下文简称RM算法。在数据场中,选取较大质量的点作为初始聚类中心点,改善传统聚类算法选取初始中心点时随机性较大问题,通过研究数据场力程半径,把半径参数值用于改善传统聚类算法的参数选择问题,针对大规模数据集,采取分布式计算的方式,提升算法的计算效率。本文主要工作如下:(1)数据场的概念源于物理场,数据点间存在引力关系,因此根据数据点间存在的引力关系提出了基于数据场的相对质量计算方法,用于解决聚类质量受初始中心点选取影响的问题。在大规模的数据集中采用分布式计算的方式,提高了求解数据质量的效率。(2)通过RM算法,求数据点的相对质量,选前N个相对质量较大的点,作为K-means算法初始中心点的待选点。这种方案有效改善了K-means算法随机选点导致聚类结果不稳定的情况,通过讨论了数据场中影响因子参数启发Kmeans算法K值的选取,设计并行化实验,并在大规模的数据集上进行测试,有效提升了算法的计算效率。(3)通过RM算法,求出数据对象的相对质量,选取质量较大的对象作为密度聚类算法的初始标记点,改善DBSCAN聚类算法随机标记点的情况;针对DBSCAN聚类算法的邻域半径参数选择困难问题,通过优化数据场中影响因子的值为DBSCAN聚类算发中的领域半径参数提供参考。同时设计了并行化实验,并在大规模的数据集上进行测试,加快了聚类处理速度。
其他文献
近年来,可弯曲的柔性电子器件引起了人们广泛的关注,但器件的性能稳定性和弯折稳定性阻碍了其实际应用。本文通过对柔性量子点发光二极管(QLED)施加弯折作用力,着重探究QLED弯折前后功能薄膜及器件性能的变化。通过调控QLED的弯折曲率半径,测试得到薄膜参数和器件电学性能。利用有限元方法对不同弯折半径下的聚对二甲酸乙二醇酯-氧化铟锡(PET-ITO)复合透明电极的进行分析,结果显示随着弯曲曲率半径的减
大气温湿度是影响全球气象与气候变化的重要参数,在全球气候与气象研究中发挥的作用越来越重要。2017年11月,我国极轨气象卫星“风云三号”系列第四颗星FY3-D成功发射,其中搭载了两个大气探测载荷微波温度探测仪MWTS与微波温湿度探测仪MWHTS,能够全天时、全天候实现对全球大气温湿廓线的垂直探测,对提升全球数值天气预报精度具有重要价值。微波大气探测的关键是定量化。因此,对于微波载荷观测数据而言,精
近年来诸多学者以中医药理论建立"病证结合"模型得到广泛应用。传统疾病造模方式叠加中医证候因素造模能较好模拟临床发病实际,因此建立"病证"模型更适用于现代中医药基础研究。湿热证模型是目前模型制作体系较成熟、评价较完备、应用较广泛的中医证候模型之一,已受到学者们广泛关注。文章就近年来湿热证"病证结合"模型生物学在炎症反应、肠道菌群、代谢组学、免疫平衡的研究现状展开综述,以期为同类研究提供借鉴参考。
随着信息技术的快速发展,无纸化办公已经应用到多个行业领域,但是文件在传输过程中可能存在数据篡改、数据泄露等安全问题,而数字签名能保证数据以不可篡改和不可否认的方式传输,然而传统数字签名在多人对同一文件签名的场景下存在存储开销过高、不易管理、验签效率低下等问题。针对上述问题,设计协同签名方案是非常有必要的。同时由于公钥密码体制证书管理复杂,所以本系统采用的是基于身份的密码体制。另外为了提高系统安全性
证候是中医诊治疾病的关键,证候本质研究是中医药学研究的关键科学问题,因此寻找证候的生物学标记物是当前中医界研究的热点问题。笔者通过回顾、总结文献,阐述了现代学者运用系统生物学组学技术从分子水平多角度对实热证生物学基础所做的研究,并就系统生物学组学技术在中医实热证本质研究中出现的部分问题进行了思考,以期为开展相关研究提供借鉴。
贵安新区是贵州省贵阳市正在建设的一个新城区,其东部具有优越的资源和较好的生态环境质量,新区的建设给水生态和水环境系统带来较大压力,为了保护该区域地下水环境质量和合理开发利用地下水资源提出本文的研究。通过收集的区域地质资料和野外调查资料,详细分析了研究区环境地质条件;根据2020年1月、5月、9月、11月在野外采集的4期84件地下水样品,采用火焰原子化法、离子色谱法、分光光度法等测试方法,利用SPS
光谱解混在高光谱图像应用中起到重要作用。由于高光谱传感器的低空间分辨率特性以及地物分布的复杂性,高光谱图像中的每个像元通常包含一种以上地物的光谱信息,形成所谓的“混合像元”。“混合像元”的出现为高光谱图像的定量分析带来诸多困难。高光谱解混旨在将每个混合像元的测量光谱分解为一组端元和相应端元的丰度。近年来,非负矩阵分解(Non-negative Matrix Factorization,NMF)作为
近20年来,金属有机骨架材料(MOFs)由于出色的性能被广泛应用于空气污染与水污染的防治,对污染物起到有效的控制。UiO-66及其衍生物由于其优异的稳定性以及可调节性被视为一种极具潜力的MOFs材料,通过选择有机配体、官能团、金属离子活化等方法设计孔径、官能度从而赋予UiO-66特殊的化学、物理性质以适应不同场景需求。简单介绍了UiO-66及其衍生物的的调控方法、合成技术及对于挥发性有机物(VOC
在B2B(企业直连企业)、C2M(用户直连制造)电子商务平台中,各店家、供应商通过加盟的形式与品牌商在电商平台中完成资金、货物之间的交易流通。然而该电商平台中,电商平台一般由品牌商建立,它占据了整个电商平台的绝对主导权,可在毫无约束的情况下,查看修改各加盟店家之间的交易隐私文件等信息,当产生交易纠纷时,交易双方需要当面通过真实的纸质凭证才能进行对账操作,极大的浪费人力、物力、财力。采用区块链技术能
配电网是电力系统的最后一个环节,也是直接建立起用户与电网之间联系的重要桥梁。文献研究表明,电力系统的故障80%以上源于配电网,配电网发生故障将会影响人们的日常生活。目前,越来越多的学者致力于配电网故障定位方法研究,配电网故障的快速排除会给人们的生产生活带来有力的保障。配电网故障定位是通过故障时的相关电气量快速判断出故障位置,并隔离故障区段。配电网故障定位效率一定程度上受电力通信网络的影响。高速率、