【摘 要】
:
随着互联网技术以及计算机科学技术的蓬勃发展,我们身边的很多日常行为都会以数据的方式被存储起来。随着数据量的不断增长,对这些数据背后所隐藏的特性的研究成为当下的一个
论文部分内容阅读
随着互联网技术以及计算机科学技术的蓬勃发展,我们身边的很多日常行为都会以数据的方式被存储起来。随着数据量的不断增长,对这些数据背后所隐藏的特性的研究成为当下的一个热点课题。类似于这样的通过对数据的研究而得到的模型的办法,统称为数据挖掘方法。伴随着数据挖掘热度的不断提高,异常点检测作为数据挖掘的重要领域也被人们重视起来。异常点又叫离群点,它与一组数据集中的多数数据有着明显的不同。异常点区别于噪声,它无褒义贬义之说,但背后拥有很多重要的意义,通过对异常点的分析可以给人们的工作和生活带来很多的应用。近年来,人们通过多种方法对异常点进行分析,取得了很多重要的成果并应用于多个领域。异常点检测技术发展的同时也为人类带来了更多的挑战,如何在短时间内针对高维大数据进行异常点分析已经成为广大学者们热衷的研究方向。本文提出了一种基于社交关系与地理位置检测异常点的方法,该方法可以快速准确的对用户的行为数据进行分类,并找到与大多数用户行为特征不符合的异常用户。算法可以分成下面的三个步骤:首先,对地理位置进行聚类,区别出不同密度下用户的运动轨迹模式;其次,提取用户的社交关系,并与地理位置相融合得到用户对应的特征值属性。针对特征属性中可能存在的特征空间过大而特征数据稀疏的情况,在不改变原有数据特征的基础上,使用t-SNE对数据进行降维;最后,使用聚类算法对特征空间上的数据进行聚类,在得到结果后,通过模型比对查找异常类簇,最终找到异常点。本文使用某电信运营商的通话记录单作为样本数据,对比分析了单纯基于社交关系与融合社交关系与地理位置信息作为特征值检测异常点的优劣,我们发现通过增加地理空间维度上的信息可以很明显的区分出不同年龄段的用户的社交关系,极大地便利了对异常点的寻找工作。本文还对用户日通话数据和周通话数据进行对比,验证了我们的方法在大数据量的情况下,通过丰富用户的特征属性,进而可以获得更准确的结果。最后我们使用KMEANS和DBSCAN两种常用的聚类方法在我们的模型上的对比,证明了在我们的数据集上,使用KMEANS的聚类的效果要好于DBSCAN。因此通过本文的原理分析与实验验证结果对比的研究,我们证明了我们方法的可行性,该方法可以为未来的异常点检测提供参考意义。
其他文献
我国国土面积辽阔,山川河流不计其数。相对应的,降雨量分布并不均匀,每到夏季的汛期,洪涝频频发生,不仅国家的经济损失严重,也使河流附近的人民难以维持正常的生活。为了把自
高校思想政治教育是铸魂育人的工作,人文关怀是思想政治教育事业发展的内在动力,这决定了高校思想政治理论课教师必须做到"情怀要深"。具体而言,高校思想政治理论课教师"情怀
随着传感器与计算机应用技术的迅速发展,在未知环境中需要移动机器人在自身位置未知,并且保持连续移动的前提下,利用自身安装的传感器感知周围环境的关键信息,进而完成对环境的稀疏地图构建以及传感器位置的实时定位,此过程称作同时定位与地图构建(Simultaneous Localization and Mapping,记作SLAM)。视觉SLAM问题的难点在于如何对传感器提取的周围环境进行建模描述。一般将视
机器学习是当下的热门研究领域,而单任务支持向量机是机器学习中一种常见的方法。单任务支持向量机在解决小样本、非线性和局部极小值等问题上表现出了良好的性能,但在解决一些复杂样本的分类问题时,单任务支持向量机往往不能很好的解决。在此情况下,一些学者提出了多任务支持向量机来尝试解决这一问题。与单任务支持向量机相比,多任务可以通过所有任务之间的共享信息来提高学习方法的性能,因此,多任务支持向量机较之单任务支
随着“知假买假”现象的发酵,逐渐出现了一类名为“职业打假人”的人群。这类人群的出现,对“消费者”概念的界定提出了挑战。在实际的生活当中,其所体现的外在购买行为与普通消费者的消费行为并无差别,导致司法实践中对这类人的界定出现了“同案异判”以及说理不清等问题,对这类人的消费者身份界定存在困惑。同时,在《消费者权益保护法》中,“消费者”概念具有一定的不确定性,对这一概念的内涵及主体外延上并未予以明确。以
在当前信息技术时代的大背景下,世界各国都纷纷对本国的著作权制度进行客观的审视与反思,这其中,与信息技术密切相关的技术措施制度在这一时代的发展更迭中暴露出若干的不足与缺陷,在司法实践中的运作也暴露出许多问题,这些都亟需得到研究的关注与重视。技术措施制度设置的初衷是为了更好的保护著作权人的权利与权益,更是为了鼓励优秀的原创与更多的创新,如何在信息技术时代的背景下更好的让技术措施制度发挥其应有的保护功能
微小型四旋翼无人直升机是一种结构简单、飞行方式独特的垂直起降无人机,在很多领域都有着广阔的应用前景。本文以四旋翼无人直升机为研究对象,根据微小型四旋翼直升机的动力
大力发展新能源汽车已成国家战略,我国出台了密集的财税政策鼓励新能源汽车产业的发展,众多新能源车企也因此收到大量财政补贴,目前的财税政策是否能够促进行业的发展进步,新能源车企能否有效利用好这笔资金,是我们关注的重点。比亚迪作为我国销量靠前的新能源车企,每年都享有巨额的财税补贴。因此,本文将比亚迪作为案例研究对象,从供需两侧对财税补贴的效益进行分析。首先从供求关系与政企博弈的角度,分析了财税补贴作用于
碳纤维增强复合材料(CFRP)因其轻质高强,抗腐蚀及力学性能优良等特点,越来越多的建筑选择使用纤维材料替代传统钢制筋材。粘结型锚固系统优良的锚固性能主要依靠化学粘结力与材料间摩擦力,而化学粘结力随着年限增长有失效的可能,因此材料间摩擦系数对于结构的锚固性能至关重要。锚固结构内存在着碳纤维与不同材料所组成的摩擦副,而摩擦副在高压应力作用下摩擦系数的变化规律还存在疑问。因此在现有摩擦系数基础理论和研究