融合实例层和属性知识的半监督聚类及应用研究

来源 :青岛理工大学 | 被引量 : 0次 | 上传用户:ii688
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种重要的数据挖掘技术,聚类自发将相似的物体划分在一起,而将差别较大的物体划分开。传统的聚类算法基于无监督学习机制,仅依据某种特定的距离或相似度进行划分。然而,无监督学习机制使传统的聚类算法不能融合和满足用户提出的要求,并且聚类结果常常难以理解,准确性和稳定性也较低。为了改善、解决这些问题,许多研究者提出了半监督聚类算法。通过少量先验知识的融合即可有效辅助聚类,提升用户的满意度及聚类划分的可理解性。   作为一种重要的先验信息,成对约束描述了物体间关联和非关联关系。相比于标签,成对约束与聚类的定义更加吻合。在实际应用中,除了给定成对约束这种实例层知识,用户往往还会提供属性层知识。作为一种有效的属性层知识,属性排序能够表示属性之间的重要性程度差异。通过融合属性排序形式的属性层知识,可使重要属性的作用变得明显,从而获得令人满意的结果。   在实际中,同时利用这两种不同种类的先验信息,往往能够得到更好的聚类效果。为此,本文探讨了融合实例层和属性层两种知识进行半监督聚类的问题,主要工作包括:   (1)提出了一种基于测度学习策略融合成对约束形式的实例层知识和属性排序形式的属性层知识的半监督聚类算法。通过构建优化问题同时融合实例层和属性层知识,利用优化问题求解得到属性权重、获取新的距离度量,最终采用新的距离度量对数据集进行划分。实验结果证实了该算法的有效性。   (2)提出了一种基于属性选择的实例层和属性层知识融合的半监督聚类框架。该框架按先后顺序融合成对约束形式的实例层知识和属性排序形式的属性层知识。首先,基于测度学习策略融合成对约束以得到初始属性权重;然后,依据初始属性权重进行属性选择,并添加属性排序,采用基于距离度量和软约束的策略学习两种知识。实验结果证实了该框架优于仅融合一种知识(实例层知识或属性层知识)的半监督聚类算法,且优于基于测度学习策略融合实例层和属性层知识的半监督聚类框架。   (3)提出了一种融合成对约束形式的实例层知识和重要词形式的属性层知识的半监督文本聚类方法。采用基于距离度量和软约束的策略,按先后顺序融合两种知识辅助文本聚类。实验结果证实了融合两种知识可有效辅助文本聚类。
其他文献
由于现场可编程门阵列FPGA具有可多次重复编程的特点,它赋予了使用者很大的设计灵活性。同时随着FPGA容量的迅速提高和其内嵌的硬核处理器性能的不断提升,FPGA成为嵌入式系统
随着国民经济的快速发展,现代工业向着非线性、大型、综合化方向发展,越来越需要有快速、高效、鲁棒的优化算法的支持。智能计算方法的出现,给这些复杂问题的解决带来了希望
移动Ad Hoc网络是一种多跳、支持移动性、无基础设施、网络拓扑结构动态变化的无线自组织网络,具有组网快捷灵活、配置简便、系统整体抗击摧毁能力强、构造成本低等优点,在军
命名实体是自然语言中承载信息的重要语言单位。中文命名实体识别是中文信息处理的关键技术之一,随着中文命名实体在各个领域的广泛应用,它既是一项基础性研究也是一项具有较
入侵检测是对入侵攻击行为的检测,它通过收集和分析网络行为、安全日志、审计数据、其它网络上可以获得的信息以及计算机系统中若干关键点的信息,检查网络或系统中是否存在违
随着3S技术和信息技术的快速发展,人类对地表综合观测能力以及对地表信息的处理、传输和应用能力得到了极大的提升。然而,随着各国高光谱遥感研究部门对高光谱遥感数据日益增长的需求,以及高光谱遥感数据获取手段的不断革新,高光谱遥感数据正以爆炸型的态势激增。如何合理地存储海量的高光谱遥感数据并从中检索出用户感兴趣的信息,已经成为当前遥感研究领域亟待解决的问题。同时,由于高光谱图像波段多、光谱分辨率高的特点,
当今世界越来越多人被内耳疾病所困恼,内耳是听觉的功能性器官,深入研究内耳早期发育是探索治疗方法的重要途径。本文提出一种基于渐变的内耳早期发育三维仿真方法解决内耳发
为了节约资源,实现可持续化发展,产品服务系统(PSS)的概念在上世纪90年代被提出,经过十几年的发展,其在越来越多的领域都得到了很好的应用。将PSS理念应用到现代物流业的配送优化
无线传感器网络是多学科交叉的前沿研究领域,以其众多的优点和优势,赢得了学术界和工业界的极大关注。无线传感器网络的应用前景广阔,可应用于军事侦查、环境监测、医疗保健
随着Internet的迅速发展,电子商务市场的竞争愈发激烈,而目前传统的Web技术已经不能完全满足电了商务系统发展的需求,大量企业正在改进原有的电子商务系统来支持新兴的网络经济