论文部分内容阅读
图书评论作为当前图书评价的一种重要形式,反映了读者对一本书的质量的主观性见解和价值判断。挖掘图书评论,不仅有助于用户了解图书内容,辅助挑选图书,还可以作为反馈机制帮助出版社提高图书质量,优化营销策略。传统的专家评论虽具权威性,但数量少难以覆盖全部图书。互联网环境催生的在线评论数量多,但质量良莠不齐,这就对评论挖掘研究提出新要求。如何从大量评论数据中获取用户所需信息是评论挖掘的核心。将评论挖掘的结果以摘要的形式展现出来,用户只需简短阅读摘要就可以初步窥探评论的重点内容,大幅度提升用户获取或理解信息的效率。因此,如何为用户提供简洁、准确的图书评论摘要具有重要研究意义。此外,不同图书评论平台在评论偏向性方面存在较大差异,例如亚马逊等电子商务平台的图书评论包含诸如图书性价比、包装等方面的丰富信息,而豆瓣网则包含图书内容质量相关的信息。仅基于单一平台的评论,用户无法通过评论进一步全面了解图书。因此,本文利用多源数据,借助自然语言处理、自动摘要等技术对评论进行深度挖掘,从而构建图书评论摘要。在多源数据差异性分析研究中,本文以电商平台、社区阅读型平台以及专家评论平台的在线图书评论数据为实验数据,从评分、评论数、正面评论数以及负面评论数等四个方面,分析不同平台数据的差异。然后,本文以联机计算机图书馆中心(Online Computer Library Center,OCLC)提供的图书馆藏信息作为图书评价验证数据,评估基于多源数据的图书评价效果,从而为设计基于多源数据的图书评论摘要模型提供依据。理论模型构建研究中,为充分考虑不同平台数据的差异,本文提出构建评论摘要的两个基本原则,从而给出了图书评论摘要的结构化定义。在此评论摘要理论基础上,本文结合属性情感分析技术以及多文档自动摘要技术,提出一种基于多源异构数据生成图书评论摘要的方法。生成模块,本文将其分成两个阶段进行,即:图书属性摘要自动构建与图书内容摘要自动构建。在图书属性摘要自动构建研究中,我们利用属性情感分析方法细粒度挖掘图书评论数据,从属性关注度与属性满意度两个维度自动抽取图书属性信息,从而形成图书属性摘要。在图书内容摘要自动构建研究中,本研究以评论数据中的内容句进行挖掘,一方面利用多文档自动摘要技术自动抽取图书内容信息,另一方面利用规则的方法从评论内容句中抽取出核心观点句,随后整合图书内容信息以及核心观点句,从而得到图书内容摘要。最后本文整合图书基本信息、图书属性摘要以及图书内容摘要三个部分,得到基于多源数据的图书评论摘要。本文研究不但可以为图书评论摘要研究提供新的研究视角,还可以为用户选择图书提供参考。