论文部分内容阅读
随着在线旅游的迅猛发展,实时分析旅游者对旅游景点的观点与态度的需求愈发迫切。面对在线旅游平台中日益激增的评论数据,仅靠人工分析,耗时耗力且供不应求。因此,观点挖掘即通过计算机自动从海量的用户评论中提取出能表达用户观点和情感的信息,具有重要的理论价值和应用价值。观点挖掘具体包含方面抽取和观点摘要两个重要的子任务。前者的目的是识别文本中用户所评价的方面及其情感倾向,后者的目的是在于对提取的观点信息进行量化汇总,形成便于用户理解的形式。近些年,虽然针对上述子任务的研究成果层出不穷,但是目前的观点挖掘技术仍无法解决旅游领域中所存在的问题。具体而言,第一,旅游者在撰写景点评论时,通常会夹杂了个人的旅游经历,会引入大量与评价主题不太相关的内容,而现阶段的方面抽取研究的关注点集中在对评价对象的抽取和观点词的判定,很少有研究关注如何衡量所抽取方面与评价主题的相关程度;第二,在线旅游平台中,即使是同一景点,其评论的评分在时间上会呈现较大差异,即在时间轴上存在“变点”情况,而传统的观点摘要技术并不能很好地反映用户的情感变化。针对上述问题,本文提出了动态观点挖掘的概念,并提出虚拟观点文档模型作为实现。主要工作包括:(1)提出一种基于词频和句法关联度相结合的权重算法,用来动态衡量所抽取的方面与评价主题的相关程度。本文提出的权重计算策略源于对在线旅游平台中评论数据的两个观察,结合方面抽取过程中的统计信息,分别为所抽取的方面在全局文档中的出现频率以及在局部文档中的句法关联度。(2)提出一种基于时间轴的观点摘要策略,用来动态描述用户的观点变化。本文首先在句子级别上对传统的观点四元组进行扩展,增加时间变量。然后在篇章级别根据时间值对已构建虚拟观点文档进行聚合。最后生成基于时间轴的观点分布。(3)实现一个完整的基于虚拟观点文档的动态观点挖掘系统。该系统采用了微服务的分布式架构,通过分解单体应用为多个微服务的方式,实现了虚拟观点文档的分布式构建、计算和应用,并提供了可视化的动态观点摘要。本文爬取TripAdvisor评论数据在上述系统中进行实验。实验结果表明,相比于传统的观点挖掘技术,本文所提出的模型以及策略在旅游领域中的观点挖掘问题上取得有效的提升,并取得良好的性能。