【摘 要】
:
随着信息时代的到来,数据量呈现爆炸式增长,如何从海量数据中挖掘出有用的信息已经成为一个亟待解决的问题。聚类作为一种无监督学习方法,已经被广泛用于数据挖掘任务中。作为一种基于密度的聚类算法,密度峰值聚类算法使用局部密度和相对距离来描述聚类中心,并且可以聚类任意形状的类簇。然而,密度峰值聚类算法存在以下问题:在密度差距较大的数据集中不能选择到正确的聚类中心;分配策略容易引起连续错误;聚类效率较低。因此
论文部分内容阅读
随着信息时代的到来,数据量呈现爆炸式增长,如何从海量数据中挖掘出有用的信息已经成为一个亟待解决的问题。聚类作为一种无监督学习方法,已经被广泛用于数据挖掘任务中。作为一种基于密度的聚类算法,密度峰值聚类算法使用局部密度和相对距离来描述聚类中心,并且可以聚类任意形状的类簇。然而,密度峰值聚类算法存在以下问题:在密度差距较大的数据集中不能选择到正确的聚类中心;分配策略容易引起连续错误;聚类效率较低。因此,本文通过对密度峰值聚类算法的深入研究,提出了两种改进的密度峰值聚类算法,其主要研究工作如下所示:(1)基于反向k近邻关系,提出融合相对密度与近邻关系的密度峰值聚类算法。首先,基于样本的反向k近邻数定义相对密度,用于消除不同类簇间的密度差距。其次,根据样本的反向k近邻与k近邻,定义边界样本。此外,引入共享近邻相似度并结合k近邻分配思想提出两步分配策略用于分配非聚类中心点。最后,通过设计对比实验,验证了所提出模型相比原始的密度峰值聚类算法可以取得更好的聚类效果。(2)基于相互k近邻关系和同一簇内样本可达的思想,提出融合平衡密度与可达性的密度峰值聚类算法。首先,基于样本的相互k近邻数定义平衡密度,提高密度峰值聚类算法识别聚类中心的准确率。其次,定义加权相互k近邻图,并在图上寻找每一个样本的最近的更高密度点,保证样本与其最近的更高密度点之间满足可达性。此外,为了加快寻找最近的更高密度点的效率,基于广度优先搜索思想提出一种快速搜索策略。最后,通过设计对比实验,验证了所提出的模型相比原始的密度峰值聚类算法可以取得更好的聚类效果并且有更高的聚类效率。
其他文献
随着移动定位设备的不断发展与应用,大量移动轨迹得以被采集并保存。如何有效分析这类轨迹数据一直是众多研究者们的关注重点,其中异常轨迹检测作为轨迹数据挖掘的重要部分,被广泛应用于人群轨迹监控、海事船舶运动、灾害天气预警和城市交通管理等领域。在智能化信息时代背景下,公交、出租车等车辆轨迹数据持续增长,本文以车辆移动轨迹数据为研究对象,针对异常轨迹检测问题进行进一步的研究与改进。主要研究内容如下:1.针对
精细化医疗是今年来医学领域研究的重点之一,其核心在于诊疗流程的精细化,包括诊疗环境的精细化和诊疗流程规范的精细化。传统的流程建模工具,如Petri网、业务流程图、实体流图以及面向对象建模工具等,用于诊疗流程的建模能较好的表示流程信息,却难以表示流程所涉及的医学知识。知识图谱由于其能表示事物之间的各种关系,很适合精细化诊疗流程模型的构建。目前,已有大量研究根据精细化的疾病诊疗流程构建了疾病诊疗知识图
PPP模式是公共基础建设领域新兴的一种投融资机制,是PublicPrivate-Partnership的简称,国内将其理解为政府与社会资本合作或公私合营模式。PPP模式为我国改革开放及新型城镇化建设事业注入了新动力,促进了我国基础设施和公共工程项目建设的快速发展。然而,PPP建设项目的运行过程中衍生出各种违规乱象,甚至成为地方政府变相融资、违规举债的渠道。政府审计作为国民经济的免疫系统,对PPP建
随着脑机接口(Brain Computer Interface,BCI)技术的发展,BCI控制系统引起了研究人员的广泛关注,其在残疾人辅助设备上表现突出。在BCI系统中,运动想象(Motor Imagery,MI)由于其自发性特点深受研究人员的喜爱。眼电(Electrooculography,EOG)对于脑电(Electroencephalograph,EEG)是一种伪迹,但EOG具有信号稳定、识
目标检测是计算机视觉领域的一个重要研究方向。近年来,以卷积神经网络为代表的深度学习技术的运用使检测准确度大幅提升。在自然场景图像的目标检测研究中,该领域的学者不断取得显著的成果。基于无锚框的检测方法相比于锚框的检测方法,能够避免过多超参数的设计,冗余框过多带来的繁琐的计算量。遥感场景图像相较于自然场景图像,存在任意方向排列的目标,且目标尺寸变化大,尺寸较小等问题。直接借鉴自然场景下的无锚框目标检测
单目标跟踪一直是计算机视觉领域研究的经典问题,它是指在一段视频中,根据初始帧已知的目标信息,用边界框在后续帧中实时定位这个目标的具体位置并且估计目标的运动状态。单目标跟踪最初在视频监控领域得到广泛的应用,随着单目标跟踪的发展,逐渐应用于人机交互、医疗诊断、军事制导等领域,并取得了较大的突破。基于深度学习的单目标跟踪算法最大的优势是既保留了相关滤波算法的速度,又利用深度神经网络提高了跟踪器的精度,使
通常在传统的卷积神经网络分类模型中,存在特征信息丢失、光谱特征上下文信息被忽略的问题,且高光谱图像缺乏空间结构特征会存在混淆现象。这些因素会影响高光谱图像的分类性能。但高光谱图像分类技术应用于诸多领域,如在遥感图像处理领域中也被广泛关注,其分类原理是针对高光谱不同公开数据集逐个像素进行地物类型的判别。因此本文基于卷积和长短期记忆网络结构,进一步提升了高光谱图像的分类精度。主要研究内容为:第一,为了
急性髓系白血病是血液系统的恶性肿瘤,主要临床表现为出血、感染、贫血和多器官浸润等,病情进展迅速,病死率高。化疗依然是治疗急性髓系白血病的主要方式,但仍有部分患者死于化疗期。减少化疗期的死亡率和提高治愈率是治疗该病的难点,所以围绕化疗期间增效减毒是中医药的优势和特色。中医认为急性髓系白血病的病因病机为正气虚损与邪毒内伏,故“扶正透毒”这一治疗原则贯穿整个疾病治疗过程。在治疗该病时尤其强调分期论治:化
行人检测技术在生活中应用广泛,推动了安防、自动辅助驾驶和机器人等的技术迭代更新。近年来,随着设备的计算能力的提升,行人检测技术也不断有新的突破。目前效果较好的行人检测算法多是基于双阶段检测方法,但是检测效率低,在商业落地实现时也比较困难。而单阶段行人检测算法虽然检测速度较快,但大多都是基于SSD结构的,且在拥挤场景中,对高度重叠行人的检测能力较弱。本文基于单阶段检测算法,提出了一种融合多实例预测的