科技论文和在线课程资源的获取与相互推荐

来源 :北京大学 | 被引量 : 0次 | 上传用户:hjkl123lkjh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文和在线课程网页都是科研人员重要的学习和参考资料,目前有很多论文的管理平台或者在线课程的管理平台,但是还没有一个平台能够将这两类资源有机地整合在一起。本文基于以论文共享为目的PKUSpace平台与以在线课程检索为目的OCOS平台设计并实现了一个整合了论文和在线课程两类资源的科研协作平台。本文重点解决平台中论文和在线课程的资源获取与相互推荐子系统。   资源获取子系统的目的是高效地爬取足够多的论文和在线课程网页,同时设计并实现简单实用的更新策略。针对论文的爬取,本文提出了一种新的、完全自动地基于URL模式路径的主题爬取方法,对于规则站点,给定几个目标样本网页,该算法能够自动分析站点结构,生成一条爬取目标网页的URL模式路径进行爬取。针对在线课程网页的爬取,由于在线课程网页的分散与不规则性,本文提出了一种基于“学校”→“教授主页”→“课程主页”这条路径爬取课程网页的启发式方法。   推荐子系统实现的是论文和在线课程两类之间的相互推荐,即用户在检索论文时,根据用户的检索词,推荐与用户关注的研究领域相关的在线课程网页,这样用户可以从一个更广的角度来学习和研究;用户在检索课程时,推荐用户关注的研究领域中经典的论文,这样用户可以更深的了解其关注的研究领域。本文设计和实现了基于语义关联的推荐子系统,其核心算法是语义关联计算,针对系统的需求,本文引入了维基百科,设计和实现了基于随机游走的语义关联计算算法。   本文的主要贡献如下:   ●针对论文站点这一类规范站点,提出了一种基于URL模式路径的主题爬取方法,对于规范站点,给定一些目标网页,能够自动地生成URL模式并构建从主页到目标网页的路径,能够在较少的代价下爬取尽可能多地目标网页。利用这种方法,能够有效地爬取论文收录站点中的论文资源。同时该方法能够自动地对站点结构进行分析,在最少的代价对论文资源进行更新,并且不需要因为站点结构的变化而自己编写规则。   ●针对分散不规则的课程资源的爬取,提出了基于“学校”→“教授主页”→“课程主页”这样一条爬取路径,基于搜索引擎抓取教授的个人主页,再从个人主页中抓取课程网页,相比于传统的主题爬取,能够在很少的代价下爬取更多的课程主页。   ●利用维基百科作为外部知识源,采用了随机游走算法进行语义相关度的计算。针对不同粒度之间的词之间计算相关度的特点,设计了新的关系图,同时优化了传统算法,能够很快地进行相关度的计算,从而有效地进行论文与课程的相互推荐。
其他文献
信息隐藏技术作为保护机密信息的一种新手段,越来越受到人们的重视,得到广泛的应用与研究。将标识产品的数字序列、文字、图像等信息隐藏于产品中,这就是数字水印技术,它是信
网络恐怖信息过滤的研究不仅能够促进网络内容安全和人类情感认知等相关领域研究的发展,而且对构建和谐网络环境,维护社会稳定具有重要的社会意义。本文针对恐怖视频展开研究
随着终端数量和流量需求的提高,无线局域网(WLAN,Wireless Local Aera Network)中单位空间设备和流量密度越来越高,高密场景吞吐量瓶颈越来越突出。IEEE802.11协议中的增强分布
访存性能是影响高性能计算机性能的重要因素之一,提高访存性能对提高应用性能具有重要作用。超并行(Hyper Parallel Processing,HPP)体系结构是国家智能计算机研究开发中心提出
框架排歧研究是SemEval-2007中第19项语义分析评测"Frame Semantic Structure Extraction"中的一个子任务。该研究基于FrameNet语义知识库,针对句子中给定的歧义目标词(能够
目标跟踪是通过对摄像机所拍摄的视频图像序列进行处理,找出连续图像帧间的对应关系,实现对图像和图像序列中的运动目标进行跟踪,给出其运动轨迹。目标跟踪在目标运动的视觉
航空航天可靠性的评估是航空航天领域的热点和难点。由于航空航天器可靠性关系到航空航天产品的造价、寿命以及其在空间的运行情况等多个方面,因此航空航天可靠性技术的发展
确定性启发式路径规划算法能够利用启发函数高效地进行目标搜索,在导航、制图、地理信息系统以及机器人学等方面得到广泛应用,是人工智能领域的研究热点之一。本文在分析传统确
本文研究基于突发信息(Burst)的高效率事件挖掘技术,并在中国网络信息博物馆(Web Infomall)[2]的历史网页数据上实现了一个事件挖掘系统。本文的主要内容包括三个部分:  
随着互联网络的不断发展壮大,出现了很多基于P2P网络应用,如bitcomet,emule,share,maze,迅雷等P2P应用软件层出不穷,为互联网用户带来了极大的便利。   本课题的研究工作源自国家