海量短文本时空关键字查询算法研究

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:rtpy1015
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动社交网络和基于位置服务的发展,时间信息、空间位置信息与短文本信息间的联系日益紧密,时空信息的综合处理与分析有着重要的应用需求。智能手机和应用软件日益繁多导致其用户数量不断增加,带有时间、空间位置属性的短文本数据也呈现爆炸式增长。如何从海量数据中高效查找出满足多样性需求的信息问题受到越来越多专家学者的关注,海量短文本时空关键字查询问题成为研究热点,对该问题的研究具有重要的意义和应用价值。经典短文本空间关键字查询算法忽略时间维度的重要性,并在大规模数据下算法的执行效果不理想,不能满足用户查询的性能需求;另一方面,已有的查询算法大多不适用于社交网络应用环境,由于忽略用户间的社交关系,导致其查询结果质量较差。针对以上问题,在短文本空间关键字查询问题基础上进行改进和创新,主要研究内容如下。(1)根据用户实际需求,对经典短文本空间关键字查询进行了时间维度的扩展,构建了短文本时空关键字查询模型,将时间、空间和短文本信息因素相结合。同时,提高了短文本时空关键字查询在海量数据环境下的效率,设计了基于MapReduce模型的海量短文本时空关键字查询框架。查询框架流程包括:1)利用滑动窗口模型在数据流环境下建立多版本时空索引(MVSTR-tree,MultiVersions Spatio-temporal R-tree);2)在构建的MVSTR-tree索引结构基础上,实现索引的更新维护;3)在MVSTR-tree索引基础上提出了海量短文本Top-k时空关键字查询算法,利用MapReduce计算模型并行查询出距离用户查询时间、空间位置最接近且短文本内容最相似的Top-k个短文本数据对象。(2)针对社交网络环境的应用需求,提出了面向社交网络应用的海量短文本时空关键字查询算法。将用户间的社交关系作用于短文本时空关键字查询中,为用户返回k个文本相关性较高且时间、空间和社交相关性三者之和最高的短文本数据对象。为了实现高效查询的目标,在算法中提出了适合社交网络应用的查询索引(SIR-tree,Social IR-tree)和剪枝策略,并且将海量短文本时空关键字查询框架与SIR-tree索引结合并行查询出所需信息。在不同的数据集上对提出的算法进行实验对比,实验结果表明海量短文本Top-k时空关键字查询方法和面向社交网络应用的海量短文本时空关键字查询算法具有更好的适用性和高效性。
其他文献
"医生,我的肩膀很疼,做外展的动作时根本打不开。"23岁的小李捂着肩膀,来到杭州市红会医院运动康复科。小李是一位IT工作者,平时忙于工作很少锻炼。看着自己日渐圆润的身材,他
报告了采用新的方法对2005、2006届45名护理本科生进行临床护理教学查房的方法。查房前制定教学查房计划,带教老师、护生和病人均做好准备;查房中,由主管护生汇报病情并系统
2010年1月9—10日,世界灾害护理学会主办的世界灾害护理学会首届科研会议 (1ST Research Conference of World Society of Disaster Nursing) 于日本神户市成功举行。作为一名
随着时代的发展,我国电力事业得到了快速的发展,发电企业作为电力事业发展的先头兵,只有在企业经营管理中加强经济活动分析,才能更好的促进电力事业发展。经济活动分析是盘绕
目前我国在工程试验中所用的石料加速磨光机及其试验规程是在上个世纪80年代初投入使用的,至今已有近20年.本次研究中针对使用过程中发现的问题,参照国际先进标准进行了改进,
为了解上饶市信州区农村生活饮用水水质现状,响应卫生部开展《2010—2013年全国农村饮水安全工程规划》规划人口调查复核水质卫生检测工作的号召,为全面推进农村防病改水工程
7月13-14日,以"共享智能,共赢未来"为主题的2018中国(宁夏)智能科技及应用博览会在银川国际会展中心举办。西仪股份有限公司宋普总经理、高嵩副总经理、姚文军销售总监带队参加了