【摘 要】
:
现代计算机网络和传感器网络技术的快速发展引发产生了一类具有广阔发展前景的新数据—流数据。区别于传统数据库中相对静态的数据,流数据有以下特点:持续、快速、无限量到达
论文部分内容阅读
现代计算机网络和传感器网络技术的快速发展引发产生了一类具有广阔发展前景的新数据—流数据。区别于传统数据库中相对静态的数据,流数据有以下特点:持续、快速、无限量到达。数据流数据量的无限性使得数据流挖掘往往无法保留原始数据,仅能在内存中维护原始数据的一系列概要信息,并基于这些概要信息生成最终结果,所以数据流挖掘结果往往是有一定允许误差的近似结果。基于数据流的聚类挖掘得到国内外许多学者的研究和探讨,并提出了一些模型和方法,比如界标模型、滑动窗口模型等。本文基于滑动窗口模型改进了一种聚类方法,并将核密度估计理论应用于滑动窗口模型下的流数据密度估计。主要工作如下:采用指数直方图技术实现滑动窗口模型下的流数据聚类,通过将直方图分成大小不同的桶,各桶用来存储流数据的概要数据信息,实现滑动窗口内数据的增加删除,在线层主要实现流数据概要信息增量维护以及微聚类,通过计算新到数据与原有EHCF的距离确定被微簇吸收或者新建EHCF。离线层采用较为成熟的聚类算法对在线层的结果进行宏聚类,最终得到较为精确的聚类结果。本文希望通过对流数据密度估计的研究改进在线层的聚类模型,利用基本窗口技术将滑动窗口进行平均划分,每个基本窗口用一个四元组保存数据信息。将核密度估计理论运用于滑动窗口模型下的流数据密度估计,将表示每个基本窗口密度的核函数累加得到原数据的近似密度分布函数,并且结果精度仅受基本窗口个数的影响。实验表明,随着基本窗口个数的增加该方法具有一定准确性。
其他文献
随着我国改革开放的进一步加快,中国经济日益融入全球市场,特别是我国加入WTO后,建设市场将进一步开放。为了适应这种对外开放建设市场的形势,就必须与国际通行的计价方法相
成骨细胞是骨质疏松(osteoporosis)研究的重要平台,骨质疏松的病理改变是成骨细胞Ⅰ型胶原分泌减少、钙结节形成减少。随着我国老龄化社会的到来,骨质疏松症的防治已成为本世
话语标记语在日常语言使用中几乎无处不在,对其正确的使用和理解既有助于我们更好的理解他人的话语,也可以使自己的话语更加连贯。同时,把话语标记语从其所依附的话语中去掉
高压、超高压输电线路长期的运行统计结果表明,雷击事故在线路故障中占很大比例,随着我国电网建设不断往超高压方向发展,采用同杆四回输电线路已成为超高压发展的必然趋势。
在山水风光旅游和山地民俗文化旅游发达的桂北地区,旅游产业是当地的经济支柱产业,而旅游建筑作为与旅游业配套的主要硬件设施,其建设和发展直接影响着桂北地区山地旅游业的
国内的网络思想政治教育研究是伴随着互联网在我国的普及而逐步发展起来的,目前已经取得了较丰富的理论研究成果。但总体来看,网络思想政治教育工作在教育主体、教育对象、教
随着我国的城市交通建设事业的迅猛发展,大城市轨道交通路网的规划和建设中,浅埋暗挖大跨度隧道的需求越来越多。与以往修建的隧道相比,浅埋暗挖大跨度隧道的修建,在隧道开挖
供应链管理是目前企业经营管理的重要趋势。射频识别(Radio FrequencyIdentification,RFID)技术作为一种新型的自动识别技术,正以其非接触式阅读、不易损坏、读写速度快、可
观光农业、生态农业的开发,在于通过产业的交叉渗透,建立起产业间的互动机制,它对创建和谐农业生态体系、实现观光农业优化调整、减少旅游开发投资的风险、实现旅游跨产业发
在激烈的市场竞争中,对于企业来说,其商品知名度越高,企业的前景也就越光明,因此创立自己的知名商品是每一个企业为之奋斗的目标。随着市场经济的发展,我国已不断涌现出一批