论文部分内容阅读
随着移动社交网络和基于位置服务的发展,时间信息、空间位置信息与短文本信息间的联系日益紧密,时空信息的综合处理与分析有着重要的应用需求。智能手机和应用软件日益繁多导致其用户数量不断增加,带有时间、空间位置属性的短文本数据也呈现爆炸式增长。如何从海量数据中高效查找出满足多样性需求的信息问题受到越来越多专家学者的关注,海量短文本时空关键字查询问题成为研究热点,对该问题的研究具有重要的意义和应用价值。经典短文本空间关键字查询算法忽略时间维度的重要性,并在大规模数据下算法的执行效果不理想,不能满足用户查询的性能需求;另一方面,已有的查询算法大多不适用于社交网络应用环境,由于忽略用户间的社交关系,导致其查询结果质量较差。针对以上问题,在短文本空间关键字查询问题基础上进行改进和创新,主要研究内容如下。(1)根据用户实际需求,对经典短文本空间关键字查询进行了时间维度的扩展,构建了短文本时空关键字查询模型,将时间、空间和短文本信息因素相结合。同时,提高了短文本时空关键字查询在海量数据环境下的效率,设计了基于MapReduce模型的海量短文本时空关键字查询框架。查询框架流程包括:1)利用滑动窗口模型在数据流环境下建立多版本时空索引(MVSTR-tree,MultiVersions Spatio-temporal R-tree);2)在构建的MVSTR-tree索引结构基础上,实现索引的更新维护;3)在MVSTR-tree索引基础上提出了海量短文本Top-k时空关键字查询算法,利用MapReduce计算模型并行查询出距离用户查询时间、空间位置最接近且短文本内容最相似的Top-k个短文本数据对象。(2)针对社交网络环境的应用需求,提出了面向社交网络应用的海量短文本时空关键字查询算法。将用户间的社交关系作用于短文本时空关键字查询中,为用户返回k个文本相关性较高且时间、空间和社交相关性三者之和最高的短文本数据对象。为了实现高效查询的目标,在算法中提出了适合社交网络应用的查询索引(SIR-tree,Social IR-tree)和剪枝策略,并且将海量短文本时空关键字查询框架与SIR-tree索引结合并行查询出所需信息。在不同的数据集上对提出的算法进行实验对比,实验结果表明海量短文本Top-k时空关键字查询方法和面向社交网络应用的海量短文本时空关键字查询算法具有更好的适用性和高效性。