论文部分内容阅读
问答社区(Community Question Answering,CQA)是当下较为流行的一种知识获取以及分享的用户互动平台。CQA提供了很多服务来提升用户获取知识的效率,其中之一就是问题响应时间预测服务。问题响应时间预测通过对提问问题进行分析来预测问题被回答的时间,为用户的科学时间管理提供依据并且促进社区的用户体验。现有的问题响应时间预测方法一般通过构建问题特征模型与回答者特征模型来预测问题第一次被回答的响应时间。然而,问答社区中的用户水平高低不一,提供的答案的质量往往参差不齐,问题的第一个答案并不一定能够有效解决用户疑问。这就导致了响应时间预测服务在一定程度上无法真正满足用户需求。因此,本文提出了一种基于高质量问答匹配模型的问题响应时间预测方法。该方法首先利用耦合LC-LDA与BERT的高质量相似问题检索方法匹配了高质量的相似问题集合;然后,利用融入兴趣偏移的高质量领域专家发现模型找到了与提问问题相关的高质量专家集合;最后,根据高质量相似问题集合以及专家集合构建了高质量的问答模型,利用多分类方法对高质量用户给出高质量答案的时间做出了预测。本文的主要研究内容和创新点具体如下:(1)提出了耦合LC-LDA与BERT的高质量相似问题检索方法(High-Quality Question Retrieval based on Coupling of LC-LDA and BERT,HQLB-QR)。该方法耦合了LC-LDA(Label Cluster Latent Dirichlet Allocation)与BERT(Bidirectional Encoder Representation from Transformers),对问题进行了主题与词两个粗细级别的语义抽取以检索出具有相似语义的问题,从而克服了一词多义带来的影响并提升了语义检索的精度;进一步,从多个维度对问题的质量进行了评估,分别构建了基于生命周期的问题流行度刻画模型、问题评价质量模型、答案评价质量模型以及用户评价质量模型,并利用这些模型对语义检索的结果进行了质量优化,使得检索的结果是语义相似且具有高质量的相似问题集合;最后,通过在CQADup Stack数据集上的对比实验证明,HQLB-QR与LC-LDA、Word2vec以及BERT相比,能够更准确检索出高质量相似问题集合。(2)提出了一种融入兴趣偏移的高质量领域专家发现方法(High-Quality Domain Expert Finding Incorporating Interest Shift,HQIS-DEF)。该方法首先耦合了LC-LDA与BERT从多个层次对用户的领域进行语义表示以提升问题短文本以及用户领域长文本匹配的准确率;同时,基于用户的活动度提取用户的潜在兴趣分布,并修正专家的领域表示使其可以有效地表征专家当前的兴趣领域,接着利用兴趣偏移修正的专家领域表示与问题表示进行匹配,使得检索的结果都是对当前提问问题所属领域感兴趣的专家;紧接着,构建了专家评价质量模型,并将其融入TSWPR(Topic Sensitive Weighted Page Rank),对用户的专业度进行了刻画并进一步优化了领域专家匹配的结果,使得发现的专家集合是具有潜在兴趣、领域相似、高评价质量以及高专业度的专家用户;最后,在CQADup Stack数据集上的对比实验证明,HQIS-DEF相比于LDA-EF(LDA based Expert Finding)以及LPR-EF(LDA based Expert Finding Incorporating with Page Rank)能够更为准确地找到高质量专家。(3)提出了一种基于高质量问答匹配模型的问题响应时间预测方法(Question-Answerer Matching Model with High Quality for Question Response Time Prediction,QAMHQ-QRTP)。首先,利用HQLB-QR检索高质量的相似问题集合,并构建能够描述其问答规律的高质量相似问题特征模型;其次,利用HQISDEF发现高质量的专家集合,并构建能够刻画专家问答规律的高质量专家特征模型;接着,利用统计数据构建问题特征模型对问题本身的质量进行评估;然后,基于上述提取的三个质量特征模型,利用随机森林分类方法构建了响应时间预测模型,以对高质量用户给出高质量答案的时间进行预测;最后,在CQADup Stack数据集上的对比实验证明,QAMHQ-QRTP相比TSM(Text Statistic based Method)以及TITP(Tag Information based Response Time Prediction Method)能够更准确地预测高质量专家给出高质量答案的响应时间。