论文部分内容阅读
随着信息化革命在军事领域的深入推进,各类军事信息系统呈融合发展趋势,军事信息体量急剧增长,军事信息服务面临着信息过载的困境。查询词自动推荐是信息系统根据用户输入的字符,采用一定的技术和方法,向用户推荐补全完整的查询词,以提高用户的信息获取效率。而查询词本身具有歧义性和模糊性,且不同用户在兴趣偏好上存在差异,如何根据用户的搜索历史,理解他们的信息需求,建立相应的关注模型,准确推荐满足其个性化需求的查询词,是我军信息服务技术发展中亟待解决的关键问题。
论文以实现个性化军事信息服务为目标,以用户数据挖掘和排序模型构建为关键技术,围绕军事信息服务中查询词自动推荐研究的理论与技术问题,分别从时间敏感特征、地理位置偏好、用户主题兴趣、检索任务分析、神经网络应用五个方面开展了深入的研究,并提出了相应的方法。论文的主要工作和创新点如下:
(1)提出了基于查询词时敏特征的个性化查询词自动推荐方法
针对当前研究没有考虑查询词频率的非周期性激增趋势,无法及时推荐时效性查询词的问题,论文提出了基于查询词时敏特征的个性化查询词自动推荐方法。首先我们利用傅里叶变换方法挖掘查询词的周期性时敏特征,以此预测未来查询频率。然后采用加权移动平均方法分析查询词的非周期性时敏特征,以此预测未来查询频率的增长幅度。最后将两个预测的变化趋势结合起来对查询词进行排序,使得查询词时敏特征得到充分的利用。实验结果表明,该方法比基准方法的排序准确率更高,能识别时效性查询词并满足用户的时效性信息需求。
(2)提出了对于地理位置敏感的个性化查询词自动推荐方法
针对当前研究忽略了地理查询词中包含的特殊语义信息和限定条件的问题,论文提出了对于地理位置敏感的个性化查询词自动推荐方法。该方法首先对显性地理查询词和隐性地理查询词分别进行分析和提取,并计算地理位置在查询词和用户兴趣偏好中的概率分布,然后将用户地理位置偏好作为排序标志之一对查询词进行排序。实验结果表明,该方法在排序准确率和推荐成功率上优于基准方法,满足用户对地理信息的个性化需求。
(3)提出了基于用户主题兴趣的个性化查询词自动推荐方法
针对个性化查询词自动推荐在用户建模时遇到的数据稀疏性问题,论文提出了基于用户主题兴趣的个性化查询词自动推荐方法。该方法首先利用主题模型挖掘用户的主题兴趣,然后采用聚类方法将主题兴趣相似的用户聚集成群,最后以相似用户历史查询词为补充数据建立当前用户的关注模型,并对查询词进行排序。由于聚类方法通常将用户划分至唯一一个用户群,不能反映用户主题兴趣的多元化,故论文提出了相似用户主题模型,使得用户能够以一定概率隶属于多个用户群。实验结果表明,该方法不仅在推荐准确率上明显优于基准方法,而且对于历史数据稀疏的用户也能给出准确的推荐结果。
(4)提出了面向复杂检索任务的个性化查询词自动推荐方法
针对当前研究以搜索会话为基本单元分析用户的信息需求,无法处理横跨多个搜索会话的复杂检索任务的问题,论文提出了面向复杂检索任务的个性化查询词自动推荐方法。我们首先给出搜索会话和检索任务的形式化定义,并将文本相似度与语义相似度结合来识别检索任务。然后从搜索历史、检索任务、搜索会话和查询词四个层次提出相关的排序特征,通过机器学习方法预测查询词与用户当前检索任务的相关度。实验结果表明,相比于基准方法,该方法对于不同复杂程度的检索任务均能推荐更为准确的查询词。
(5)提出了基于神经网络的个性化查询词自动推荐方法
针对基于机器学习的方法采用的排序特征过于主观,而且无法模拟复杂用户行为的问题,论文提出了基于神经网络的个性化查询词自动推荐方法。该方法共包含三个层层递进的排序模型。第一个排序模型是一个单层的循环神经网络(Recurrent Neural Network,RNN),它在排序中仅考虑用户在一个搜索会话内的行为信息。第二个排序模型是一个个性化的RNN,它在第一个排序模型的基础上增加了一层模拟用户兴趣偏好的RNN,从而将用户在各个搜索会话中的行为信息串联起来进行排序。第三个排序模型是一个基于注意力机制的RNN,它在第二个模型的基础上加入了注意力机制,从而能够抓住用户在搜索过程中的重点关注内容,减少干扰词对排序造成的不良影响。实验结果表明,我们所提出的个性化排序模型在排序准确率和推荐成功率上均大幅超过基准模型。
论文以实现个性化军事信息服务为目标,以用户数据挖掘和排序模型构建为关键技术,围绕军事信息服务中查询词自动推荐研究的理论与技术问题,分别从时间敏感特征、地理位置偏好、用户主题兴趣、检索任务分析、神经网络应用五个方面开展了深入的研究,并提出了相应的方法。论文的主要工作和创新点如下:
(1)提出了基于查询词时敏特征的个性化查询词自动推荐方法
针对当前研究没有考虑查询词频率的非周期性激增趋势,无法及时推荐时效性查询词的问题,论文提出了基于查询词时敏特征的个性化查询词自动推荐方法。首先我们利用傅里叶变换方法挖掘查询词的周期性时敏特征,以此预测未来查询频率。然后采用加权移动平均方法分析查询词的非周期性时敏特征,以此预测未来查询频率的增长幅度。最后将两个预测的变化趋势结合起来对查询词进行排序,使得查询词时敏特征得到充分的利用。实验结果表明,该方法比基准方法的排序准确率更高,能识别时效性查询词并满足用户的时效性信息需求。
(2)提出了对于地理位置敏感的个性化查询词自动推荐方法
针对当前研究忽略了地理查询词中包含的特殊语义信息和限定条件的问题,论文提出了对于地理位置敏感的个性化查询词自动推荐方法。该方法首先对显性地理查询词和隐性地理查询词分别进行分析和提取,并计算地理位置在查询词和用户兴趣偏好中的概率分布,然后将用户地理位置偏好作为排序标志之一对查询词进行排序。实验结果表明,该方法在排序准确率和推荐成功率上优于基准方法,满足用户对地理信息的个性化需求。
(3)提出了基于用户主题兴趣的个性化查询词自动推荐方法
针对个性化查询词自动推荐在用户建模时遇到的数据稀疏性问题,论文提出了基于用户主题兴趣的个性化查询词自动推荐方法。该方法首先利用主题模型挖掘用户的主题兴趣,然后采用聚类方法将主题兴趣相似的用户聚集成群,最后以相似用户历史查询词为补充数据建立当前用户的关注模型,并对查询词进行排序。由于聚类方法通常将用户划分至唯一一个用户群,不能反映用户主题兴趣的多元化,故论文提出了相似用户主题模型,使得用户能够以一定概率隶属于多个用户群。实验结果表明,该方法不仅在推荐准确率上明显优于基准方法,而且对于历史数据稀疏的用户也能给出准确的推荐结果。
(4)提出了面向复杂检索任务的个性化查询词自动推荐方法
针对当前研究以搜索会话为基本单元分析用户的信息需求,无法处理横跨多个搜索会话的复杂检索任务的问题,论文提出了面向复杂检索任务的个性化查询词自动推荐方法。我们首先给出搜索会话和检索任务的形式化定义,并将文本相似度与语义相似度结合来识别检索任务。然后从搜索历史、检索任务、搜索会话和查询词四个层次提出相关的排序特征,通过机器学习方法预测查询词与用户当前检索任务的相关度。实验结果表明,相比于基准方法,该方法对于不同复杂程度的检索任务均能推荐更为准确的查询词。
(5)提出了基于神经网络的个性化查询词自动推荐方法
针对基于机器学习的方法采用的排序特征过于主观,而且无法模拟复杂用户行为的问题,论文提出了基于神经网络的个性化查询词自动推荐方法。该方法共包含三个层层递进的排序模型。第一个排序模型是一个单层的循环神经网络(Recurrent Neural Network,RNN),它在排序中仅考虑用户在一个搜索会话内的行为信息。第二个排序模型是一个个性化的RNN,它在第一个排序模型的基础上增加了一层模拟用户兴趣偏好的RNN,从而将用户在各个搜索会话中的行为信息串联起来进行排序。第三个排序模型是一个基于注意力机制的RNN,它在第二个模型的基础上加入了注意力机制,从而能够抓住用户在搜索过程中的重点关注内容,减少干扰词对排序造成的不良影响。实验结果表明,我们所提出的个性化排序模型在排序准确率和推荐成功率上均大幅超过基准模型。