论文部分内容阅读
电子商务交易过程中能够产生大量有价值的用户消费数据和口碑信息,这些信息能够提供最直观的用户体验,并有助于消费者对不同偏好、不同品质的产品进行筛选。这些短文本信息数量大,所要表达的主题针对性强。针对以在线评论为载体的口碑信息挖掘是研究热点,本文的核心是从海量的评论文本中提取出具有代表性的关键词,并对关键词进行语义关联,使之具有一定的解释性和可读性。该问题研究的难点是提出有效的关键词抽取方法以及建立关键词间的语义关联。本文主要分为以下三部分:第一,为尽可能多的保留评论文本信息,避免分词工具错误地识别未登录词而丢失信息,针对中文文本预处理过程中分词后出现的大量的词碎片,本文通过加入规则模型的词碎片处理,识别词碎片中单个字为主的未登录词和词碎片组合的未登录词,以提高对评论文本的利用率和分词准确率,为关键词抽取和以关键词为基础的语义关联奠定了基础并提供了更丰富的语料信息。第二,针对在线评论进行关键词抽取,提出利用LDA主题模型、Word2vec词向量模型与TextRank相融合的关键词抽取算法。本文将主题影响力纳入到节点之间相互转移的影响因素中,并认为主题影响力大的节点向主题影响力小的节点转移的概率要大,利用LDA主题模型计算候选词在文档中以潜在主题为中间层的主题影响力;并且,认为如果一个词具有很强的文档重要性,那么其他词与该词在语义上越是相近,则越具有重要性,这种语义上的相关性消除了基于词频辨识关键词的影响,利用Word2vec词向量方法计算文档中词汇之间的相似性度,将这种基于全局和局部的候选关键词信息融合到以邻接关系为主的结构信息中;最后,通过图模型TextRank算法计算出词汇节点的得分,最后得到按得分排序的关键词抽取结果。第三,利用LDA主题模型和分布式表示中的Sentence2vec模型,在词性分类基础上,计算主题和语义相似的关键词间的关联度,按照关联度大小对不同类别关键词语义关联关系进行排序,最终得到带有关联程度的在线评论文本的关键词关联结果。本文针对在线评论的关键词知识,提出语义关联的挖掘方法,建立以关键词为核心的产品评论信息的语义关联。提出关键词抽取的融合算法和关键词关联方法,通过实验分析进行方法评估,结果表明关键词抽取算法具有较好的表现、基于关键词词性的语义表示具有一定的解释性和关联性。该研究进一步完善了短文本信息处理,并且能够在面对海量的评论文本时为用户提供凝练的文本表示信息。