论文部分内容阅读
大数据时代,无处不在、大量涌现的文本类用户贡献内容(UGC)为旅游地理学研究提供了重要数据源,但缺少针对大规模、非结构化旅游文本中隐含时空信息的有效挖掘方法。论文主要研究基于粒计算的旅游文本分类与热度挖掘T&T-GrC(Tourism Text Classification and Tourist Destination Popularity Mining based on Granular Computing)方法,解决了基于粒计算的旅游文本挖掘过程中的文本信息粒化、粒计算模型构建、数据集构建、文本关联特征选择和数据粒自动分类、旅游热度计算等问题。以九寨沟、泰山、黄山、平遥古城和丽江古城为案例地进行文本特征与旅游热度的景区精细化研究及多案例综合比较。主要工作包括:1、提出设计了T&T-GrC方法,完成了系列模型开发。T&T-GrC引入粒计算来精确定位并粒化旅游文本空间和时间信息:利用旅游文本数据粒表征旅游地理学中景观对象,它是由空间、时间维度等多个属性构成的统一整体;以粒计算的多层级结构刻画旅游地理学中的多时空尺度,通过空间、时间尺度选择实现粒层和数据粒大小的变换。使各空间层、时间层、空间-时间层间均具有关联,各数据粒均具有可比性,实现相邻尺度、跨尺度间数据粒热度值、特征关联度的定量化描述和比较,从而在系统模型框架中完成多尺度旅游热度推演和景区可视化。模型包括以下组成部分:(1)旅游文本信息粒化方法。将“信息粒”概念引入旅游地理学,利用旅游文本数据粒表征景观对象,从而精确定位并粒化旅游文本空间和时间信息。(2)基于包含度的旅游文本粒计算模型构建。基于包含度理论构建粒计算模型,可从不同粒度上对多时空尺度下旅游热度进行定量化推理,解析不同时空尺度间的旅游热度耦合关系及演变规律。(3)基于粒计算的数据集构建方法。依据空间尺度由小到大、粒度由细到粗的方向,自底向上构建空间数据集,然后对每个空间尺度数据粒由大到小、粒度由粗到细,自顶向下进行时间尺度划分,最终完成空间和时间维度上的数据集构建。例如旅游地文本可以按照“景点—线路—景区—旅游地”4级空间尺度和“年—月—日—时”4级时间尺度进行数据集构建。T&T-GrC模型的数据集构建方法,为大规模、非结构化文本重组和公共文本时空数据集建设提供了可行方案。(4)文本关联特征选择与数据粒分类方法。构造基于文本内容和空间位置坐标的训练集,提出基于关联度的多尺度旅游文本特征选择方法,将所选特征用于SVM分类器,实现多尺度旅游数据粒的自动化分类。将分类结果输入数据集结构框架中,实现数据集自动化构建和更新,同时提升T&T-GrC模型的旅游热度计算效率。(5)基于粒计算的旅游热度计算方法。详细描述不同空间、时间尺度下景观数据粒的旅游热度计算方法,以及相邻尺度、跨尺度间旅游热度推演规则。2、通过单案例精细研究和多案例对比分析证明了T&T-GrC方法可行性(1)基于T&T-GrC方法的九寨沟旅游地文本特征与热度计算以九寨沟景区为案例地,对T&T-GrC模型的文本数据粒分类性能、特征关联度可视化、旅游热度进行深入解析,证明了T&T-GrC模型的优越性能。(1)文本数据粒分类性能。通过在公共数据集Reuters-21578和九寨沟旅游文本数据集上的实验得知,T&T-GrC分类性能优于当前普遍应用的经典方法和新方法。(2)基于特征关联度的景观可视化。基于文本粒中的特征关联度,以标签云的方式对各尺度景观进行可视化,定量、精细、直观地描述了景观特征。(3)T&T-GrC模型可实现景区细粒度时空分析结果对上级甚至跨时空尺度的定量化推演。基于T&T-GrC的研究结果与已有研究成果基本一致,证实了方法的可行性和有效性;此外,通过定量解析下层数据粒对上层空间旅游热度贡献情况,揭示了比已有研究更精细的旅游热度特征,对部分现象的驱动力给出定量数据支撑。(2)基于T&T-GrC方法的多案例文本特征与热度比较研究T&T-GrC模型可使多景区在各时空尺度下的旅游文本特征和旅游热度均具有可比性。多案例综合比较结果表明:(1)地名在旅游者标识自己旅游位置时具有重要作用,多数旅游者对旅游地的认知位于景区尺度。同一景区内不同线路或子景区的热度差异显著;旅游过程中能够关注线路或子景区尺度旅游空间单元的微博用户,大多会直接描述具体旅游景点,且均以描述单景点为主,较少描述线路或子景区名称。旅游者更倾向于在自然景区中的描述自己较为完整的游览行程,且对知名度较高的景点聚焦性更强。(2)旅游景区高热度月份主要为夏秋季节,热度高峰通常出现在2、4、8、10月。自然类景区受气候影响,高热月份集中在气候适宜的“暖春—金秋”时节,水文型和山岳型景区最高峰分别为10、4月;古城类人文景区受气候影响较小,高热月份跨度较大。景区月际热度高峰通常与旅游刺激政策或节假日相关。(3)九寨沟、丽江古城旅游热度无明显“周末效应”,泰山、黄山、平遥古城旅游热度具有较为明显的“周末效应”。(4)景区日内变化模式呈现出共性与特性:景区热度均呈现明显月度分异和季节性,高热度夏秋旅游旺季热度明显高于冬春淡季;旺季呈三峰三谷、三峰双谷模式,淡季呈双峰、单峰或峰谷不显著模式,山岳型自然景区凌晨达到峰值,水文类自然景区和古城类人文景区深夜达到热度峰值。(5)线路或子景区热度变化模式受旅游引导模式、游览政策、景点特征影响明显。(6)景点热度月际变化呈单峰、双峰、三峰、四峰四种模式,2、4、5、6、8、10月为热度峰值出现较多的月份。(7)线路或子景区对旅游景区的热度贡献、景点热度数值特征均符合“巴莱特定律”。(8)高热度景点级别、数目、变化模式对线路、子景区、景区热度变化模式具有贡献意义。(9)景点日内变化模式均呈多峰多谷波动形态。从景区类别看,自然旅游景区和古城类人文旅游景区在峰值型态、高峰起始时间、上升模式、峰值出现时间、峰值持续时间等方面存在显著差异:自然旅游景区内景点峰值形态总体呈“n”或“w”型,热度上升时间较早,攀升较为迅速,中午12时达到热度峰值,峰值持续时间长;古城类人文景区内景点峰值形态呈“√”型,热度上升时间晚,攀升较为缓慢,晚上22时达到热度峰值,峰值持续时间较短。各景区内景点热度模式对线路或景区的热度模式影响显著。论文创新点体现在:⑴首次将粒计算引入旅游地理学构建T&T-GrC模型,使得各时空尺度间均具有关联,各空间层、时间层、空间-时间层数据粒均具有可比性,可实现相邻尺度、跨尺度比较。既可定量描述单一时空尺度旅游热度,还可综合分析多景区、多尺度旅游热度的格局与演变过程。⑵提出旅游文本粒计算模型的数据集构建方法,为大规模、非结构化文本重组和公共数据集构建提供可行方案。⑶提出旅游文本关联特征选择与数据粒分类方法,为旅游文本多尺度自动化分类提供高效解决方法。