旅游地理研究驱动的旅游文本数据清洗方法——以北京市A级景区为例

来源 :河北师范大学 | 被引量 : 0次 | 上传用户:kk831013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济发展和人民生活水平的提高,越来越多的人选择在闲暇的时候出门旅游,通过文字的形式记录下其旅游过程。互联网的普及和发展使网民数量爆炸式增长,也由此产生了一种新的游记形式----网络游记。网络游记为旅游研究打开了新的视野,提供了海量的最真实、最及时的数据。但是,INTERNET是一把双刃剑,存在大量有价值的旅游文本的同时,也伴随着大量的“脏数据”,例如空文本、重复信息、推销信息、不良信息等,使旅游研究结果的准确性大打折扣。通过观察旅游文本所应用的领域相关的文献发现,其采集的原始数据,基本上都是通过肉眼观察进行清洗,或者干脆没有清洗直接使用,很少有人使用文本清洗方法进行清洗。  本文在国内外数据清洗研究的基础上,以北京市216家A级景区为研究对象,采集新浪旅游博客中相应旅游文本信息,对旅游文本内容进行分类,分别说明不同类型旅游文本反映的地理信息的差异,提出了清洗标准和清洗目标;对旅游景区进行分类,针对不同类型景区制定不同的清洗流程,以提高清洗效率;通过构建核心词地名字典的方法进行匹配,以最具代表性的北京欢乐谷为例来进行清洗。研究表明:⑴从总体方法的角度来说,该方法能够将旅游地类型进行分类,根据不同的类型制定不同清洗流程,提高了清洗效率;将旅游文本内容进行分类,通过对清洗过程的细化,编辑字典对不同内容进行清洗,提高了结果的精确度。⑵从具体清洗步骤的角度来说,对于精度影响最大的是广告、新闻、攻略文本,虽然不是完全符合要求的游记,但是大多数为广告、新闻、攻略,与旅游地也有一定的联系,对后期研究影响不大。⑶从最终结果来看,结果剩余483篇旅游文本,其中完全符合要求的有376篇,干净率为77%,结果已经能够满足大部分的后期研究;较之清洗之前的523篇完全符合要求的数量,干净文本保留率为71%,虽然有一部分符合要求的游记在清洗的过程中被剔除,但是这部分游记内容简单,或者文字较少、或者内容空洞,没有符合筛选的要求,这样的游记对后期研究价值不大。
其他文献
在全球化的背景下,世界经济的地域联系及其空间结构正在发生复杂而深刻的变化。随着金融业等高级生产者服务业向世界主要城市集中,“全球城市”已经成为世界经济活动的重要单
随着包装设计迅速的发展,包装在满足使用功能的前提下,其审美情趣成为包装设计的热点。传统民间剪纸艺术是中华民族传统文化的组成部分,有其独特的艺术魅力,成为设计者运用的
伴随着旅游业的迅猛发展,各旅游目的地之间以争夺客源为中心的竞争越来越激烈。游客之所以要出游,从根本上讲是受目的地景区(点)产品吸引的结果。目前,旅游景区(点)已成为我国旅
Macfrut是国际级果蔬展会,至今已举办34届。该展会由切塞纳展览中心组织,将于2017年5月10—12日在意大利里米尼举办。作为展会合作国,中国已是意大利猕猴桃的主要市场。意大
介绍利用联合抽放进行综采工作面瓦斯治理途径,解决了深煤层高瓦斯综采工作面回风,转角瓦斯超限问题,保证了综采工作面安全快速回采。 This paper introduced the method of
学位
本刊辑2017年1月11日消息,据厦门海沧检验检疫局统计,2016年厦门海沧自贸园区共进口乳制品398批、2.2万吨、5 236万美元,同比分别增长86%、150%和96.8%,进口量占厦门口岸9成
辽宁省是我国北方严重缺水的省份之一,水资源时空分布极不均匀,随着工业化、城市化进程的推进以及全面建设小康社会步伐的加快,社会经济对于水资源需求的日益扩大,水资源供需
在工作组模型的网络中访问网络共享资源时,整个访问过程共分为四步,其中任何一步出现问题都将导致网络访问无法进行。只有对整个网络访问过程进行全面了解,才有可能解决其中
空间结构研究既是区域科学研究的主要内容,也是旅游学研究的核心问题之一。旅游空间结构是旅游地理学和旅游规划研究的重点,旅游景区(点)是旅游地理学研究中一个重要内容,它是旅