论文部分内容阅读
随着互联网信息产业的飞速发展,各行各业的数据都在以指数形式快速增长,数据以多元、多态、互联等形式影响着人们的生产生活,大数据已经成为我们时代发展的标志。在学术界,每年都有大量的文献发表,文献之间的关系网络也越来越复杂,传统的文献发现方法是基于某种数据库管理系统中存在的文献数据来发现相关信息,如采用关键词匹配的方式来进行主题发现等,而对于文献之间的关联关系及用户对某类文献的喜好程度等方面研究甚少,因此造成的结果就是筛选出的文献通常存在文献关联性差、主题不明确、文献质量不高等缺陷。在海量文献数据的场景下,上述缺陷将更加明显。大数据技术的快速发展为解决以上问题提供了有效的手段。目前,开源Hadoop项目是最流行的处理大规模数据的工具之一,其基本组成部分有分布式计算框架MapReduce和分布式文件系统HDFS。本文利用其中的并行计算框架MapReduce对文献发现的相关方法与技术进行研究,构建了基于MapReduce的文献发现系统,以快速地发现用户所需的文献信息,对大数据时代快速高效地实现文献发现具有重要意义。首先,本文对分布式计算技术进行了研究,并结合相关的数据挖掘算法对基于MapReduce的文献发现方法进行了设计与实现。针对大规模文献数据,一方面采用分布式的方式分析了文献的活跃度,并对文献的活跃度进行了排名;另一方面,通过对FP-Growth频繁模式挖掘算法进行并行化实现,达到挖掘文献数据中的频繁项集的目的,从而给出文献之间潜在的关联关系,并进一步对该并行化算法进行了性能测试,验证了该算法的有效性。然后,在上述理论方法研究的基础上,对分布式文献发现系统进行了架构设计与功能实现。通过分析用户的历史搜索日志,挖掘出了用户喜好,从而实现了该分布式文献发现系统的个性化推荐功能,并进一步应用本文设计的分布式文献发现方法为用户提供高质量的文献,提高了用户的体验效果。通过利用分布式计算的方式处理学术领域内的文献大数据集,并结合并行FP-Growth算法发现文献之间的关联关系,充分发挥了分布式计算在该领域的应用创新,同时为大数据处理技术在该领域的进一步应用和发展提供了坚实的基础。本文通过对用户的喜好进行分析来实现文献信息的个性化推荐,此举切实贴合了大数据时代“以人为本”的理念,具有深刻的、现实的意义。