基于虚拟观点文档的旅游景点的动态观点挖掘

来源 :东南大学 | 被引量 : 1次 | 上传用户:y51211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着在线旅游的迅猛发展,实时分析旅游者对旅游景点的观点与态度的需求愈发迫切。面对在线旅游平台中日益激增的评论数据,仅靠人工分析,耗时耗力且供不应求。因此,观点挖掘即通过计算机自动从海量的用户评论中提取出能表达用户观点和情感的信息,具有重要的理论价值和应用价值。观点挖掘具体包含方面抽取和观点摘要两个重要的子任务。前者的目的是识别文本中用户所评价的方面及其情感倾向,后者的目的是在于对提取的观点信息进行量化汇总,形成便于用户理解的形式。近些年,虽然针对上述子任务的研究成果层出不穷,但是目前的观点挖掘技术仍无法解决旅游领域中所存在的问题。具体而言,第一,旅游者在撰写景点评论时,通常会夹杂了个人的旅游经历,会引入大量与评价主题不太相关的内容,而现阶段的方面抽取研究的关注点集中在对评价对象的抽取和观点词的判定,很少有研究关注如何衡量所抽取方面与评价主题的相关程度;第二,在线旅游平台中,即使是同一景点,其评论的评分在时间上会呈现较大差异,即在时间轴上存在“变点”情况,而传统的观点摘要技术并不能很好地反映用户的情感变化。针对上述问题,本文提出了动态观点挖掘的概念,并提出虚拟观点文档模型作为实现。主要工作包括:(1)提出一种基于词频和句法关联度相结合的权重算法,用来动态衡量所抽取的方面与评价主题的相关程度。本文提出的权重计算策略源于对在线旅游平台中评论数据的两个观察,结合方面抽取过程中的统计信息,分别为所抽取的方面在全局文档中的出现频率以及在局部文档中的句法关联度。(2)提出一种基于时间轴的观点摘要策略,用来动态描述用户的观点变化。本文首先在句子级别上对传统的观点四元组进行扩展,增加时间变量。然后在篇章级别根据时间值对已构建虚拟观点文档进行聚合。最后生成基于时间轴的观点分布。(3)实现一个完整的基于虚拟观点文档的动态观点挖掘系统。该系统采用了微服务的分布式架构,通过分解单体应用为多个微服务的方式,实现了虚拟观点文档的分布式构建、计算和应用,并提供了可视化的动态观点摘要。本文爬取TripAdvisor评论数据在上述系统中进行实验。实验结果表明,相比于传统的观点挖掘技术,本文所提出的模型以及策略在旅游领域中的观点挖掘问题上取得有效的提升,并取得良好的性能。
其他文献
2007年以来,我国信托公司业务规模获得了飞速发展,目前已成为仅次于银行业的第二大金融子行业。截止2017年第二季度末,全国68家信托公司管理的信托资产规模已达到23.14万亿元
随着互联网技术的发展,各领域信息化建设普遍升级,但医疗卫生领域信息化程度始终处于相对落后的局面。区域医疗信息平台的作用在于统筹区域范围内医疗资源,为患者提供更好的
随着通信业务量的不断增加,人们对通信传输容量及速率的要求越来越高。为了提高系统的传输速率,可以应用光复用技术,实际的光复用系统中一般使用多个激光器作为光源。由于激
随着国内经济建设的持续发展,计算机和网络技术在印刷产业得到了广泛的应用,数字化和网络化正在成为制造业今后的生产技术。自动化印前工作流程和技术的逐步成熟,越来越多的
光学压敏涂料测压技术是风洞试验中表面压力测量的新手段.介绍了光学压敏涂料测压技术原理,光学压敏涂料的研制及其在风洞试验中的应用.试验表明:所研制的光学压力敏感涂料与
随着Internet和Web2.0技术的飞速发展,社会化标签系统的应用也越来越广泛,与传统的用户通过浏览器获取信息的方式有所不同,用户可以根据自己的喜好随意标注自己感兴趣的资源,
随着互联网技术的飞速发展,互联网的业务种类越来越多,同时面临的问题和挑战也越来越大,其中多媒体的流量冗余是较为突出的挑战之一。用户对于热点内容的访问往往呈现高并发
无论是短信、电子商务的商品评价,还是微博消息,都呈现爆炸式增长的趋势,说明用简短的文字表达信息即短文本在我们传递信息的过程中起着越来越重要的作用。但是,短文本欠缺长
随着无线通信技术和数字信号处理技术的发展,数字化的优势越来越明显,专网无线通信也已经在向数字化转型。在这一领域中,典型的应用就是数字对讲机。目前我国正在大力推行数
随着网络技术的发展和企业业务的多地区合作,广域网中数据传输的高性能和高可靠性已经是系统必需具备的特性。但是在广域网中进行数据传输不仅要面临传输性能、安全性方面的