Web社区问答检索的关键技术研究

来源 :复旦大学 | 被引量 : 3次 | 上传用户:nihaohaoya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社区问答服务是指人们通过web社区相互交流来提出问题和获取解答的服务。由于社区问答系统中包含了许多真实人工用户生成的知识和经验分享,它已经成为人们常用的除传统搜索引擎以外比较流行的信息求助方式。在社区问答系统中,用户可以基于自然语言表达的方式提交问题直接向社区中的其他用户寻求答案,也可以通过自动检索得到与该提问相似的问题,并进一步使用相似问题的现成答案。对于大多数非事实性问题特别是一些带个人上下文或寻求建议的开放性问题,问题检索往往比基于自然语言处理和信息检索从web文档中抽取文档片段并提取答案的传统方法更加有效。正因为如此,针对web社区一般性问题的检索已经成为下一代智能信息检索的一个重要组成部分。稀疏化学习是近年来兴起的新型统计学习方法。本文以稀疏正则化为主要工具,对社区问答中的一系列关键技术开展研究。具体而言,本文主要研究了web社区中复杂多语句问题的答案摘要技术,问题的自动层次话题分类技术和问题检索模型的改进技术。本文的主要工作和创新点如下:1.自动答案摘要:对于社区中的复杂多语句问题,即那些往往包含很多子问题和相应上下文的问题,其“最佳答案”往往存在所谓的“答案不完整”缺陷--它对应的“最佳答案”不够全面完整,缺失了其它答案中包含的对问题回答有用的信息。本文提出一种新颖的自动答案摘要方法来归纳问题的所有答案中的有价值的信息。该方法基于条件随机场模型来对答案句子间的局部/非局部上下文关系进行建模,并使用组L1正则化来对参数进行惩罚,充分挖掘各特征的潜能。2.问题层次分类:用户在社区问答系统上提交问题时,系统要求用户为该问题手工选择一个层次目录来表明问题的话题类别,这样既方便系统将该问题推荐给相应话题的领域专家去解答,也可以便利今后其他用户的浏览和检索。然而,手工给问题进行类别标注需要对整个层次目录体系有全面认识,因而既费时又影响用户体验。为了省去手工对问题进行话题分类的麻烦,本文提出一种自动的问题核化层次话题分类算法,将问题中各特征的多核学习和参数的稀疏正交约束结合起来,在提升模型对相似话题类别的判别能力的同时减少了模型的参数个数。3.问题检索模型:为了进一步提高社区问答中已有问题的可用性,本文研究了基于自动分类结果改善问题检索效果的技术。现有的检索模型在度量某个查询词对该查询的重要性时往往按其在查询中出现的频率来计算,这对于那些每个查询词只出现一次的情形不起作用。与现有的检索方法不同,我们使用稀疏化的问题分类方法来模拟真实用户的层次类别标注过程,并且根据该过程来自动挑选其中的重要检索词项和获取其对该查询的局部权重。另外,我们还对初步检索结果进行基于结果间相似度的重排序,进一步提高问题检索的性能。本文的多数方法都使用带有稀疏性质的正则化项来约束模型的参数。这样做有几个好处:第一,减少了模型的参数。由于特征的减少,模型所需要的训练数据也相应地减少,防止了模型因为参数太多而过拟合的情况,并且增强了在新数据上的泛化能力;第二,提高了模型的效率。由于参数的减少,用于存储模型的空间和计算时间也有所降低;第三,有利于关系依赖的发现。通过稀疏化模型将那些干扰性的无关项去除后,模型能更加专注于那些真正对模型推理有帮助的特征。因此,本文中提出的稀疏化方法除了对社区问答检索比较有帮助,在其它web应用如冗长关键字检索、web文档分类和摘要上也有一定的启发意义。在真实社区问答数据集Yahoo! Answers上的一系列实验结果表明,本文提出的方法无轮是与当前较为先进的研究方法还是与一些强基准方法相比,准确度都取得了明显的提高。
其他文献
论文探讨了中国高等院校双语教学发展情况,指出双语教学中存在认识问题、教材问题、师资问题和学生能力问题。为推进双语教学发展,应正确认识、领导重视、教材建设、建立激励
中国民办高校进过30年的发展,数量已经不少,但是如何将民办高校做强做大,民办教育界的一个问题。增强师资队伍的建设、建立完善的法人治理制度、明确董事会与校长的关系等措
随着云计算和移动技术的发展,互联网进入大数据时代,人们面对急剧膨胀的多媒体信息,需要有效的内容管理和快速的信息查找。分类算法通过学习已标注数据建立模型,对数据进行分
目的比较胸腔镜辅助下红霉素干粉和滑石粉行胸膜固定术治疗难治性自发性气胸的临床疗效及不良反应。方法61例均在胸腔镜辅助下向胸膜腔内均匀喷入无菌红霉素干粉1.5g(红霉素组
走样是由于对连续信息进行离散采样、存储或表示等所导致的一种信号失真现象,反走样是计算机图形学研究的基本问题之一。图形反走样可以有效地重建出几何、纹理、运动等各种
近年来,数字图像处理已成为信息科学、计算机科学、生物医学、军事学甚至社会科学等领域中各学科竞相学习和研究的对象。图像分割则是数字图像处理和计算机视觉领域的关键技
SaaS(Software as a Service,软件即服务)是21世纪初期兴起的一种新的软件应用模式。最近5年来,基于SaaS模式的企业信息化应用快速发展,极大地改变了软件市场的格局。目前基