论文部分内容阅读
地球系统科学是典型的数据密集型学科,主要研究地球各圈层和子系统间相互作用中的规律和机理,学科相关研究需要使用交叉学科、跨区域、多尺度的综合数据,在地球系统科学领域开展数据共享可以对数据进行有效挖掘利用,促进学术交流与合作。随着地学大数据时代和新地理信息时代的来临,信息获取技术的发展使得学科相关的研究数据呈现出爆炸性增长的趋势,同时互联网技术的发展使得越来越多的互联网用户能够参与到地球系统科学数据共享等地学相关的网络空间信息服务中。数据量的增加和用户群体的扩大,导致了地球系统科学共享过程中过量的数据量超出了用户可以接受的程度,用户难以在海量数据中寻找自己所需要的信息与数据,出现“数据过载”问题。因此在地球系统科学数据共享过程中,研究如何准确高效地获取数据,并设计数据推荐方法,无论是对于专业研究人员还是普通大众都具有重要意义。针对地球系统科学数据进行推荐方法的设计,需要解决以下关键问题:首先,地球系统科学数据具有数据量大、结构异构、信息多元复杂的特点,使用传统的推荐方式进行数据推荐时需要对待推荐对象的特征进行统一描述,使用在结构上同构的方式对地球系统科学数据进行描述时存在困难。其次,地球系统科学数据间关系复杂,用户的需求多样,基于数据属性或用户行为的单一推荐方法难以满足用户对数据的具体需求,需要从多角度设计推荐方法。最后,地球系统科学数据共享平台用户数量多,包含的数据量庞大,用户反馈信息绝大多数为隐性反馈,不包含用户对数据的具体态度,基于这些反馈信息建立的用户-数据关系表中呈现出高维、稀疏、异构且包含冗余信息和噪声的特点,需要结合学科特点研究如何利用这些用户反馈信息开展数据推荐研究。基于上述问题,本文从数据特征和用户需求两个方面着手,在地球系统科学数据共享过程中开展推数据荐研究,取得了如下主要成果:1.面向数据推荐对地球系统科学数据的特征进行描述。地球系统科学数据海量、异构、繁杂,不适合使用单一同构的方式进行特征描述。本文通过分析地球系统科学数据的特点以及用户在研究过程中对数据的具体需求,基于元数据标准从共享数据的元数据中提取了描述数据特征的关键信息,并进行层次化表达,从数据本身角度描述地球系统科学数据特征,为基于内容的推荐方法的设计提供必要支撑。2.使用用户的隐性反馈对数据进行聚类。在用户历史行为数据的基础上,引入复杂网络概念分析数据共享网络的特点,设计使用隐性反馈信息得出数据间的相似性的方法,并在此基础上对研究数据按照研究专题进行聚类,从用户的角度描述地球系统科学数据特征,为基于研究专题的推荐方法设计提供数据基础。3.使用数据本身的特征和用户反馈中归纳的研究专题共同进行推荐。通过对比地球系统科学数据推荐与电子商务领域推荐的异同点,在基于数据内容进行特征提取和基于用户反馈信息进行研究专题聚类的基础上,设计基于数据特征以及基于研究专题的推荐方法,并比较两种方法的性能,实现两种方法的结合。基于上述研究成果,选择国家地球系统科学数据共享平台——长三角科学数据中心的数据为研究对象,提出推荐结果检验标准,开展数据推荐试验。试验结果证明了地球系统科学数据个性化推荐系统的可行性,证明本文提出的地球系统科学数据个性化推荐算法能够较为有效地在地球系统科学数据共享过程中根据用户的偏好进行数据推荐,在一定程度上缓解地球系统科学数据共享中存在的“数据过载”问题,并为其他相关研究提供借鉴。