基于MapReduce的文献发现系统研究与设计

来源 :山东大学 | 被引量 : 0次 | 上传用户:baby_xiaojuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息产业的飞速发展,各行各业的数据都在以指数形式快速增长,数据以多元、多态、互联等形式影响着人们的生产生活,大数据已经成为我们时代发展的标志。在学术界,每年都有大量的文献发表,文献之间的关系网络也越来越复杂,传统的文献发现方法是基于某种数据库管理系统中存在的文献数据来发现相关信息,如采用关键词匹配的方式来进行主题发现等,而对于文献之间的关联关系及用户对某类文献的喜好程度等方面研究甚少,因此造成的结果就是筛选出的文献通常存在文献关联性差、主题不明确、文献质量不高等缺陷。在海量文献数据的场景下,上述缺陷将更加明显。大数据技术的快速发展为解决以上问题提供了有效的手段。目前,开源Hadoop项目是最流行的处理大规模数据的工具之一,其基本组成部分有分布式计算框架MapReduce和分布式文件系统HDFS。本文利用其中的并行计算框架MapReduce对文献发现的相关方法与技术进行研究,构建了基于MapReduce的文献发现系统,以快速地发现用户所需的文献信息,对大数据时代快速高效地实现文献发现具有重要意义。首先,本文对分布式计算技术进行了研究,并结合相关的数据挖掘算法对基于MapReduce的文献发现方法进行了设计与实现。针对大规模文献数据,一方面采用分布式的方式分析了文献的活跃度,并对文献的活跃度进行了排名;另一方面,通过对FP-Growth频繁模式挖掘算法进行并行化实现,达到挖掘文献数据中的频繁项集的目的,从而给出文献之间潜在的关联关系,并进一步对该并行化算法进行了性能测试,验证了该算法的有效性。然后,在上述理论方法研究的基础上,对分布式文献发现系统进行了架构设计与功能实现。通过分析用户的历史搜索日志,挖掘出了用户喜好,从而实现了该分布式文献发现系统的个性化推荐功能,并进一步应用本文设计的分布式文献发现方法为用户提供高质量的文献,提高了用户的体验效果。通过利用分布式计算的方式处理学术领域内的文献大数据集,并结合并行FP-Growth算法发现文献之间的关联关系,充分发挥了分布式计算在该领域的应用创新,同时为大数据处理技术在该领域的进一步应用和发展提供了坚实的基础。本文通过对用户的喜好进行分析来实现文献信息的个性化推荐,此举切实贴合了大数据时代“以人为本”的理念,具有深刻的、现实的意义。
其他文献
无线光通信由于其无可比拟的特点,已经引起学术界和产业界的广泛关注和研究,具有广阔的应用前景和巨大的市场潜力,并将在未来的无线通信领域中占据非常重要的地位。在无线光通信
认知无线传感器网络CWSN是在传统的无线传感器网络中引入认知无线电技术形成的智能网络,网络的节点具有认知功能,能够检测周围的空闲频谱,然后机会接入空闲频段,以便快速完成
多输入多输出技术(MIMO)是无线通信领域的关键技术之一,可以在不增加带宽的情况下,极大地提高频谱利用率和信道容量。协作通信技术作为MIMO技术的扩展,融合了分集技术和中继传输
MIMO-OFDM技术充分利用时间分集、频率分集和空间分集来提高传输信号的质量,是下一代移动通信系统中非常有潜力的技术实施方案。信道估计,作为无线通信系统的一项关键技术,是MIM
未来通信网络是一个泛在,异构的网络模式,同时又是一个智能化的通信系统,能够随时感知外界的环境,动态地调整网络的配置,并在此基础上进行计划、决策和行动,从而灵活的适应网络环境