论文部分内容阅读
随着科技的飞速发展、互联网的广泛普及,信息过量的问题越来越严重。信息海量增长与人们接受能力之间的矛盾,导致大量的信息资源得不到有效地利用。在科学研究领域,大量的论文信息呈指数级增长,在Internet上想要查找一篇自己想要的文献常常会伴随着大量无用结果的返回而失败。科研工作者如何解决文献资源利用的问题,已成为科研领域的一大难题。科技文献作为科研工作者辛勤工作的结晶,是作者研究方向和研究成果的最直接体现,在科技创新活动中起着重要作用:对于科技工作者而言,能否快速、准确地获取所需要的信息直接影响到科研、教学工作的效率与成败;对科学研究的发展而言,对科技文献信息资源的占有、配置、开发、利用的程度与速度,是决定国家或地区科技能力强弱、科技水平高低的重要因素。本文研究的目的是为计算机领域的科研工作者提供一个良好的信息平台,该平台集文献爬取、信息查询、知识挖掘等功能为一体。本系统的优势在于利用网络爬虫将杂乱无章的论文信息统一组织,统一管理,实施快速的检索查询,同时便于数据统计和知识挖掘。本文基于B/S结构,论文的主要内容是实现了一个计算机领域中文文献管理和知识挖掘系统——“科技论文社区”系统。该系统采用.NET体系结构,建立起基于Web的比较规范的三层体系结构,能够实现对论文数据库的多角度检索查询,使系统的应用更为简单方便。本文采用基于模板的网络爬虫技术,对Internet上无结构的论文信息进行模板匹配,实现论文数据的自动下载,并保证本地数据信息的实时更新;实现了论文信息的基础检索和统计显示。本文提出了一种基于推荐度的个性化论文推荐算法,该算法在传统的基于文档向量的推荐算法基础上,采用了改进的向量空间模型,考虑了文章各部分的主题表达能力的差异,同时加入了对论文本身价值的考量,价值高的论文优先显示;为了保证推荐有效性,该算法在推荐过程中还结合了用户的浏览历史。通过实验证明,该算法能较好地改善文献推荐的查准率和误判率。本文采用重叠社团挖掘技术对自建的论文合作网络进行社团发现,从而发现网络潜在的领域圈子。领域圈子的具体描述通过对该社团中心节点的描述来体现。在此本文整理和比较了几种不同的重叠社团发现算法,并针对科技论文系统的实际情况加以改进,能够解决社团挖掘过程中的局部最优问题。在合作网络的构建上,突出了第一作者的重要性,简化网络结构,降低算法复杂程度。