论文部分内容阅读
社区问答服务是指人们通过web社区相互交流来提出问题和获取解答的服务。由于社区问答系统中包含了许多真实人工用户生成的知识和经验分享,它已经成为人们常用的除传统搜索引擎以外比较流行的信息求助方式。在社区问答系统中,用户可以基于自然语言表达的方式提交问题直接向社区中的其他用户寻求答案,也可以通过自动检索得到与该提问相似的问题,并进一步使用相似问题的现成答案。对于大多数非事实性问题特别是一些带个人上下文或寻求建议的开放性问题,问题检索往往比基于自然语言处理和信息检索从web文档中抽取文档片段并提取答案的传统方法更加有效。正因为如此,针对web社区一般性问题的检索已经成为下一代智能信息检索的一个重要组成部分。稀疏化学习是近年来兴起的新型统计学习方法。本文以稀疏正则化为主要工具,对社区问答中的一系列关键技术开展研究。具体而言,本文主要研究了web社区中复杂多语句问题的答案摘要技术,问题的自动层次话题分类技术和问题检索模型的改进技术。本文的主要工作和创新点如下:1.自动答案摘要:对于社区中的复杂多语句问题,即那些往往包含很多子问题和相应上下文的问题,其“最佳答案”往往存在所谓的“答案不完整”缺陷--它对应的“最佳答案”不够全面完整,缺失了其它答案中包含的对问题回答有用的信息。本文提出一种新颖的自动答案摘要方法来归纳问题的所有答案中的有价值的信息。该方法基于条件随机场模型来对答案句子间的局部/非局部上下文关系进行建模,并使用组L1正则化来对参数进行惩罚,充分挖掘各特征的潜能。2.问题层次分类:用户在社区问答系统上提交问题时,系统要求用户为该问题手工选择一个层次目录来表明问题的话题类别,这样既方便系统将该问题推荐给相应话题的领域专家去解答,也可以便利今后其他用户的浏览和检索。然而,手工给问题进行类别标注需要对整个层次目录体系有全面认识,因而既费时又影响用户体验。为了省去手工对问题进行话题分类的麻烦,本文提出一种自动的问题核化层次话题分类算法,将问题中各特征的多核学习和参数的稀疏正交约束结合起来,在提升模型对相似话题类别的判别能力的同时减少了模型的参数个数。3.问题检索模型:为了进一步提高社区问答中已有问题的可用性,本文研究了基于自动分类结果改善问题检索效果的技术。现有的检索模型在度量某个查询词对该查询的重要性时往往按其在查询中出现的频率来计算,这对于那些每个查询词只出现一次的情形不起作用。与现有的检索方法不同,我们使用稀疏化的问题分类方法来模拟真实用户的层次类别标注过程,并且根据该过程来自动挑选其中的重要检索词项和获取其对该查询的局部权重。另外,我们还对初步检索结果进行基于结果间相似度的重排序,进一步提高问题检索的性能。本文的多数方法都使用带有稀疏性质的正则化项来约束模型的参数。这样做有几个好处:第一,减少了模型的参数。由于特征的减少,模型所需要的训练数据也相应地减少,防止了模型因为参数太多而过拟合的情况,并且增强了在新数据上的泛化能力;第二,提高了模型的效率。由于参数的减少,用于存储模型的空间和计算时间也有所降低;第三,有利于关系依赖的发现。通过稀疏化模型将那些干扰性的无关项去除后,模型能更加专注于那些真正对模型推理有帮助的特征。因此,本文中提出的稀疏化方法除了对社区问答检索比较有帮助,在其它web应用如冗长关键字检索、web文档分类和摘要上也有一定的启发意义。在真实社区问答数据集Yahoo! Answers上的一系列实验结果表明,本文提出的方法无轮是与当前较为先进的研究方法还是与一些强基准方法相比,准确度都取得了明显的提高。