论文部分内容阅读
随着人们生活质量的不断提高,旅游行业迅速崛起,在国民经济中占据着举足轻重的地位。云南省顺应时代的发展,在当前的发展优势下紧紧抓住这个机遇,大力发展旅游业,现已成为国内外知名的旅游胜地。信息技术随着经济的发展而进步,互联网技术的快速发展和智能手机的普及导致使用社交软件的门槛越来越低,各大社交网站已经成为了各种有关云南旅游声音汇聚的重要场所。众多网民针对网络旅游话题所持有的代表性意见随着网络舆论对旅游业影响力的不断提升而扩大,在这种局势下,微博以其简单方便快捷的优点迅速成为人们感兴趣的平台,渐渐成为旅游网络舆情的主要传播途径之一。为了长期维护云南旅游业的安全稳定和健康发展,发现微博上的云南旅游热点话题并对旅游网络舆情的演化趋势进行分析预测具有重大的现实意义。本文研究的主要内容是:如何将网民们关注的旅游热点话题从复杂的、分散的网络数据中提取出来;如何解析提取出来的旅游热点话题的信息,并以此来分析该话题的演化趋势。目前发现网络热点话题的大多数研究方法都是通过文本挖掘技术解释信息内容,并发现这些信息之间的关系,进而挖掘出虚拟网络中的网民们关注的热点话题,但是效果都不是很理想,尤其在不同的领域,同样的挖掘方法得到的结果却不如人意。本文根据现在研究的不足,针对具体领域构建领域本体,并将该领域本体应用在舆情分析中的数据处理、文本建模和话题聚类等过程中,从而发现人们关注度高的话题,最后按照人们对话题关注的热度为话题排序,从而得到热点话题。在此基础上,综合其他学科的相关理论来分析热点话题的形成机制和演化特点来预测热点话题的演化趋势。本文在研究中所做的创新性工作如下:(1)基于云南旅游这个具体的领域构建领域本体。(2)在深入研究特征提取算法的基础上,提出一种基于领域本体的特征提取算法。该方法融合领域本体与TF-IDF方法,对本体推理从而优化特征抽取,用改进过的TF-IDF公式来计算特征词的权重。利用传统算法和改进后的算法进行实验,实验结果对比表明了该优化算法提高了特征抽取的正确率,证明了它是一种有效提取特征的方法。(3)依据微博评论数、点赞数和转发数三者的调和数对旅游话题的热度进行评定,按照评估值对话题排序,将排序的结果与微博官方公布的排行进行比对,从而验证了该评估法的有效性。