基于时间序列聚类的关联规则挖掘研究

被引量 : 3次 | 上传用户:kuvincent
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和电子商务的发展,越来越多的结构化数据、半结构化数据以及非结构化数据聚集在互联网上。例如,顾客网上购买行为、新闻浏览和跳转踪迹以及Web点击量等等。在大规模海量数据的整合处理和深层次量化分析的实际需求下,孕育了一项重大技术,即数据挖掘技术。数据挖掘大致可分为分类模式、回归模式、关联模式、时间序列模式和聚类模式。其中,关联规则是数据挖掘里面研究热点之一。传统的关联规则挖掘算法用于挖掘静态的规则,即没有考虑关联规则是随着时间变化而变化的,但实际数据库中的数据多带有时间这一特性,因此有必要把时间这一因素添加进来观测关联规则在时间上的变化,即为动态关联规则挖掘。时间序列是指一系列在一定时间间隔下获取,且具有先后顺序的观测值。时间序列自身存在趋势性、季节性以及趋势与季节混合等特点。同时,子序列在时间上可能存在一定的关联性。首先,本文根据时间序列自身的特点,通过研究时序中特定时间段内的某种趋势频繁发生,提出基于滑动窗口聚类的时序关联规则挖掘方法。滑动窗口能够将连续的时间序列离散为多个子序列,并对子序列进行符号化,从而体现出时间序列的局部趋势和特征。在此基础上,利用聚类算法对子序列进行聚类,发现相似趋势。之后利用关联规则挖掘方法挖掘相似趋势之间的相关关系。该算法不仅能使用户发现更感兴趣的规则,且能反映该规则在特定时间段内的变化趋势,同时可指导用户做短期的预测或决策。其次,为了能更加有效的发现时序中的季节性,本文通过改进ERP-growth算法得到LERP-growth算法。利用带有时间约束的聚类算法将一个时间周期划分为有意义的若干段。减少扫描数据库的次数,构造链表数据结构,在挖掘较短模式时,具有更高的效率和更好地可伸缩性,并且能够省略对冗余数据项的扫描,从而提高挖掘效率。通过这种改进,算法可以有针对性地高效地对稀疏型数据源的数据库进行挖掘,从而挖掘潜在的周期性关联规则。最后,通过实验验证和分析算法的有效性和高效性。
其他文献
目的当前,伴随着我国人口老龄化问题的急剧加重,一些神经系统退行性疾病,如阿尔茨海默病(AD)、帕金森病(PD)的发病率日益增加。这些疾病不仅严重威胁着老年人口的生命健康,而
人参(Panax ginseng C.A.Meyer)为五加科多年生草本植物人参的根,素有“百草之王”的美称,是我国传统名贵中药。在中国、朝鲜、日本乃至亚洲国家被广泛用于滋补保健和医疗。
目的探讨个性化舒适护理在老年股骨头置换术围术期中的应用效果。方法选择我院2011年8月—2014年2月收治的96例老年股骨颈骨折患者,根据入院时间分为研究组和对照组各48例。
目的:对分离于和田地区不同临床表现的头癣患儿的26株犬小孢子菌采用ISSR-PCR技术进行基因分型,分析了该地区犬小孢子菌菌的基因多态性,并证实了ISSR-PCR技术对犬小孢子菌的基
自高铁进入到交通运输中以来,给交通运输行业带来了巨大的变革,并且改变了现有的交通运输方式竞争的格局。高铁以其独特的技术优势对民航,传统铁路客运,公路客运都造成了冲击,在市
高压输电线路故障而引发停电,给人民生活、工业企业和国家造成了巨大的经济损失。需要及时发现输电线路的隐患和缺陷,并进行修复,防患于未然,必须对输电线进行定期的巡检。输电线
发展区域农村经济,不仅是建设社会主义新农村的重要基础,更是扭转工农差距、城乡差距、地区差距的关键所在。要完成这一伟大历史任务,重点难点在于如何提高农民的收入水平。农用
目的:提供一种制备奥美拉唑磺酰化物的简单方法。方法:2-巯基-5-甲氧基苯并咪唑和2-氯甲基-3,5-二甲基-4-甲氧基吡啶盐酸盐经缩合、氧化可制得奥美拉唑。奥美拉唑再用高锰酸
目的:检测哮喘患儿血清VEGF和Ang-2的含量,探讨其在支气管哮喘发病中的作用。方法:选取选取2010年2月~2012年8月间在本院门诊或住院治疗的肺炎及哮喘惠儿,分为哮喘组38例及肺炎组
目的探讨护理干预对门诊学龄前期患儿静脉输液依从性的影响。方法选取我院2013年6月—2014年6月门诊收治的学龄前期患儿90例,随机分为观察组和对照组各45例,对照组给予常规护