【摘 要】
:
监督学习需要知道所有数据的类别信息,而传统的无监督聚类学习对于已知的先验知识没有在挖掘过程中的充分利用,导致聚类过程的盲目性。半监督学习因具监督学习及无监督学习的
论文部分内容阅读
监督学习需要知道所有数据的类别信息,而传统的无监督聚类学习对于已知的先验知识没有在挖掘过程中的充分利用,导致聚类过程的盲目性。半监督学习因具监督学习及无监督学习的优点,成为近几年来数据挖掘领域研究热点问题之一。本文研究了半监督算法与聚类算法。针对search-kmeans算法中心点的选取只满足局部最优,而非全局最优,导致簇的划分不合理的缺点;提出了DS-Kmeans算法,该方法采用二分法在未标记数据集中选取中心点,所选中心点达到全局最优,同时在寻找中心点的过程中,通过一次遍历即可找到所有的中心点,与search-kmeans算法中利用候选集合寻找中心点的方法相比较,减少了遍历次数,从而降低了算法的时间复杂度。K-means算法及其改进算法必须事先确定簇的划分数目,而划分数目的选取具有随机性和盲目性,基于此,提出了BSC-Kmeans算法,该算法不需要事先知道划分数目就可以自组织得到最后的类别数目。通过实验分析了BSC-Kmeans算法在Iris数据集和生成的数据集上进行实验,结果表明BSC-Kmeans算法在事先不指定划分数目的情况下,能够正确的得到聚类结果。最后研究了BSC-Kmeans算法和DS-Kmeans算法在海尔集团的客户分群问题上的应用。对两种算法进行了比较,实现了海尔客户不同群体的划分,并研究了各群体的特点,相关结果将为企业的业务分析和决策提供辅助支持。
其他文献
随着互联网技术的发展,网络已经对人们表达自己和与他人互动的方式产生了巨大的影响。在线评论在今天的电子商务中起到至关重要的作用,消费者常常会通过网络查看商品或者商店
决策树算法在数据挖掘技术中有重要的作用,本文着重研究了决策树理论中的C4.5算法,针对其在当训练集样本包含大量的连续值属性时,算法将会效率低下的缺点,提出了利用划分熵取
在日常生活中,不规则物体是一类比较特殊的物体,它们没有固定的外观形状,人们可以很容易的指认这些物体,却总是不能准确地给出这些物体的统一定义,因此不规则物体模拟是计算
病历信息是医疗过程的记录,是医护人员进行医疗活动的客观依据。随着医院信息化的不断发展,病历正逐步从传统的纸质病历过渡到电子病历。电子病历具有超越纸质病历的许多优点
随着电子商务的快速发展和微博、微信等的崛起,互联网上的短文本评论呈指数形式地增长,这些评论信息的背后蕴藏着巨大的经济和社会价值。传统的手工处理方法变得越来越困难,
软件即服务是一种最近兴起的软件模式。它将服务的概念融入传统软件模式之中,客户先试用再购买其所需的服务,降低了软件费用。由于其按需付费、方便快捷的升级维护和低费用等
随着软件的需求和规模的增大,软件的质量变得日益重要。软件测试是软件质量的最重要解决方案,而测试用例的生成则是软件测试中最重要的环节。由于测试用例生成的效率和方法将
近年来软件开发在需求分析阶段的高失败率,使得包括需求获取和需求分析在内的软件需求工程成为当前软件工程领域研究的热点。而作为软件开发周期中的关键技术,需求工程技术的研
在信息检索技术中,查询词扩展是一种能够有效提高查询效率的技术。因此,通过充分发挥查询词扩展技术的优越性可以大大提高搜索引擎在搜索精确度方面的效率。查询词扩展技术通