论文部分内容阅读
移动互联网(Mobile Internet)和全球定位系统(Global Positioning System,GPS)技术的进步带动了基于位置的移动社交网络(Location-based social networks,LBSNs)的快速发展,因此积累了海量的签到数据。LBSNs数据中隐藏了大量的从用户的活动特征和行为模式,因此对LBSNs数据的特征提取工作成为了热门的研究问题。从中发现对用户出行和城市发展的价值,对进一步提升基于位置的服务质量有重要意义。本文从LBSNs中用户的签到行为出发,研究了用户签到的位置特征和语义特征,挖掘了城市中用户的行为模式,具体工作体现在以下三个方面:(1)基于用户签到行为的位置特征提取。签到数据中包含海量的位置信息,本文对LBSNs中的签到点进行聚类,发现作为访问热点的POI(Point of Interest)(用户签到频次较高的热点区域),从而提取出用户的位置特征。针对LBSNs数据量大和密度分布不均匀等特点,本文提出了两种基于集成思想的聚类算法:1)基于Meanshift和K-means的集成聚类算法;2)基于DPC和KNN的集成聚类算法。在与经典算法的比较中,本文发现DPC+KNN算法具有最好的聚类精度且能适应任意形状的数据集,而Meanshift+K-means对LBSNs签到数据中提取POI的工作具有更好的适应性。(2)基于LBSNs中文本内容的语义特征提取。为了发现用户签到的语义特征(理解用户的出行目的),本文在POI位置挖掘工作的基础上对POI进行标注,为每个POI添加了语义标签,从而能够直观地理解用户的行为语义。由此,本文提出了一种基于文本规则的POI语义标注方法。主要思想是从LBSNs中的文本信息里提取不同类别的语义规则,通过文本匹配的方式,对POI进行多类别的语义标注。与现有的方法相比,本文的标注方法在部分类别的标注精度以及算法效率上有一定优势。(3)基于用户行为模式的城市功能区识别。为挖掘LBSNs中用户的行为模式,以及挖掘城市范围内用户行为模式的应用价值,本文在POI提取和标注的基础上,提出了一种基于用户行为模式的城市功能区识别方法。该方法引入概率主题模型思想,将城市区域的功能类比为文章的“主题”,将区域内的POI类比为文章中的“单词”,对城市区域的功能进行提取。通过将识别结果与目标城市区域规划数据进行对比,作者发现该方法所提取的城市区域功能基本符合城市区域规划。与其他现有方法相比,本文识别结果的精度上具有一定的提升。