基于质量分析的问答社区问题响应时间预测方法研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:killsmagicer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答社区(Community Question Answering,CQA)是当下较为流行的一种知识获取以及分享的用户互动平台。CQA提供了很多服务来提升用户获取知识的效率,其中之一就是问题响应时间预测服务。问题响应时间预测通过对提问问题进行分析来预测问题被回答的时间,为用户的科学时间管理提供依据并且促进社区的用户体验。现有的问题响应时间预测方法一般通过构建问题特征模型与回答者特征模型来预测问题第一次被回答的响应时间。然而,问答社区中的用户水平高低不一,提供的答案的质量往往参差不齐,问题的第一个答案并不一定能够有效解决用户疑问。这就导致了响应时间预测服务在一定程度上无法真正满足用户需求。因此,本文提出了一种基于高质量问答匹配模型的问题响应时间预测方法。该方法首先利用耦合LC-LDA与BERT的高质量相似问题检索方法匹配了高质量的相似问题集合;然后,利用融入兴趣偏移的高质量领域专家发现模型找到了与提问问题相关的高质量专家集合;最后,根据高质量相似问题集合以及专家集合构建了高质量的问答模型,利用多分类方法对高质量用户给出高质量答案的时间做出了预测。本文的主要研究内容和创新点具体如下:(1)提出了耦合LC-LDA与BERT的高质量相似问题检索方法(High-Quality Question Retrieval based on Coupling of LC-LDA and BERT,HQLB-QR)。该方法耦合了LC-LDA(Label Cluster Latent Dirichlet Allocation)与BERT(Bidirectional Encoder Representation from Transformers),对问题进行了主题与词两个粗细级别的语义抽取以检索出具有相似语义的问题,从而克服了一词多义带来的影响并提升了语义检索的精度;进一步,从多个维度对问题的质量进行了评估,分别构建了基于生命周期的问题流行度刻画模型、问题评价质量模型、答案评价质量模型以及用户评价质量模型,并利用这些模型对语义检索的结果进行了质量优化,使得检索的结果是语义相似且具有高质量的相似问题集合;最后,通过在CQADup Stack数据集上的对比实验证明,HQLB-QR与LC-LDA、Word2vec以及BERT相比,能够更准确检索出高质量相似问题集合。(2)提出了一种融入兴趣偏移的高质量领域专家发现方法(High-Quality Domain Expert Finding Incorporating Interest Shift,HQIS-DEF)。该方法首先耦合了LC-LDA与BERT从多个层次对用户的领域进行语义表示以提升问题短文本以及用户领域长文本匹配的准确率;同时,基于用户的活动度提取用户的潜在兴趣分布,并修正专家的领域表示使其可以有效地表征专家当前的兴趣领域,接着利用兴趣偏移修正的专家领域表示与问题表示进行匹配,使得检索的结果都是对当前提问问题所属领域感兴趣的专家;紧接着,构建了专家评价质量模型,并将其融入TSWPR(Topic Sensitive Weighted Page Rank),对用户的专业度进行了刻画并进一步优化了领域专家匹配的结果,使得发现的专家集合是具有潜在兴趣、领域相似、高评价质量以及高专业度的专家用户;最后,在CQADup Stack数据集上的对比实验证明,HQIS-DEF相比于LDA-EF(LDA based Expert Finding)以及LPR-EF(LDA based Expert Finding Incorporating with Page Rank)能够更为准确地找到高质量专家。(3)提出了一种基于高质量问答匹配模型的问题响应时间预测方法(Question-Answerer Matching Model with High Quality for Question Response Time Prediction,QAMHQ-QRTP)。首先,利用HQLB-QR检索高质量的相似问题集合,并构建能够描述其问答规律的高质量相似问题特征模型;其次,利用HQISDEF发现高质量的专家集合,并构建能够刻画专家问答规律的高质量专家特征模型;接着,利用统计数据构建问题特征模型对问题本身的质量进行评估;然后,基于上述提取的三个质量特征模型,利用随机森林分类方法构建了响应时间预测模型,以对高质量用户给出高质量答案的时间进行预测;最后,在CQADup Stack数据集上的对比实验证明,QAMHQ-QRTP相比TSM(Text Statistic based Method)以及TITP(Tag Information based Response Time Prediction Method)能够更准确地预测高质量专家给出高质量答案的响应时间。
其他文献
在磁性材料中,磁畴壁、磁化涡旋、磁性斯格明子等拓扑磁结构具有独特的力、电、磁、热多场耦合特性,使得其在未来新型自旋电子器件中有着广泛的应用前景。本文针对拓扑磁结构
信用衍生产品是旨在转移,防控信用风险的合同。合同的双方通过信用衍生工具来防控实体企业所承担的信用风险承担。在信用衍生产品交易合同中,买方通过支付给卖方一定的费用将信用风险转移给卖方。在国外的信用衍生品市场中,信用衍生产品不断创新,在上世纪90年代初,信用违约互换开始发行,逐渐成为必不可少的预防和控制信用风险工具。是国际上运用最为广泛的信用衍生产品,可以帮助投资者实现信用风险的有效规避、转移。国外的
互联网的高速发展,以及“互联网+教育”等新型教育方式的形成,不仅影响着信息传播和接收的速度与方式,也改变了当代图书馆用户对信息公开的实时需求。除此之外,图书馆信息公开不仅能保障用户的知情权,还可以对图书馆业务进行透明化监管。高校图书馆信息公开改革在此背景下应运而生,而改革应该基于用户对其服务各方面的满意度和影响因素。因此,本文以调研国内外高校图书馆信息公开的相关文献为理论研究,选择河南省高校图书馆
目的:观察健脾调肝方治疗肝胃不和型功能性消化不良的临床疗效和复发情况。方法:选取2018年9月至2019年9月期间就诊于石家庄市中医院脾胃科门诊符合纳入标准的肝胃不和型功能性消化不良患者70例。利用随机数字表的方法,将患者分为治疗组和对照组,每组各35例。治疗组给予健脾调肝方口服,对照组给予奥美拉唑肠溶片口服。两组治疗疗程均为4周。分别于治疗前后记录两组患者的中医证候积分、功能性消化不良生存质量量
高维目标优化问题广泛存在于科学研究和工程实践中,有着重要的研究价值及应用前景。随着目标维度的增加,传统的多目标优化算法的性能会急剧下降。基于分解的多目标进化算法MO
随着计算机科学技术的快速发展和人类安全意识的不断提高,数字水印技术逐渐被应用到多媒体信息安全领域中。图像的数字水印技术主要是把水印信息嵌入到图像中去,隐藏的信息不容易被发觉,且不会影响原图像的应用价值,对于防伪溯源和版权保护起到了很好的作用。目前,人们已经提出了很多数字水印的算法,经过证实,这些算法在很多领域都得到了应用。近些年,半色调化技术已经变得很成熟,将半色调技术与数字水印结合已经成为新的研
非线性科学作为一门交叉学科,已经逐渐发展成为科学研究的一个重要领域。许多非线性系统伴随有混沌现象,且系统的非线性程度越高意味着其动力学行为越丰富,因此混沌理论与应
石膏是一种重要的工业原料,同时也在一些工业过程中以副产物的形式生成。我国的工业副产石膏产量日益增加,其堆存会造成一定的环境问题。大部分工业副产石膏主要为二水石膏(DH
本文主要研究了光诱导N-芳基丙炔酰胺环加成反应合成卤代氮杂螺[4,5]三烯酮的方法。第一部分研究了光诱导条件下高价碘试剂PhI(OCOCF3)2作用的N-芳基丙炔酰胺合成卤代氮杂螺[4,
光本身携带动量,当光照射在物体表面时,动量会传递给物体,并由此对物体产生力的作用,即光辐射压力。基于此原理,布兰津斯基(Braginsky)等人于1967年提出了由光腔和力学振子通