Internet化学化工搜索引擎的主题网络爬虫和索引研究

来源 :中国科学院过程工程研究所 | 被引量 : 0次 | 上传用户:yaoyaoqi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet作为信息的主要载体之一,其信息资源几乎涵盖所有学科领域。化学专业领域也不例外,Internet已经逐渐成为人们获取化学信息的主要途径。由于Internet具有节点平等、自由发布的特点,使Internet资源不仅体现为分布式、高度动态和海量,而且信息的质量参差不齐,出现所谓的“信息过载”和“信息迷失”的现象。化学工作者如何有效地从海量信息中检索所需要的、高质量的化学信息,面临着前所未有的挑战。尽管大型的通用搜索引擎可以用于专业信息的查询,但是这类通用搜索引擎在搜索专业信息的同时常会返回很多与主题不相关的噪声信息,因此研究与开发领域化、专业化的主题搜索引擎和针对个人兴趣的个性化搜索引擎是网络信息检索的一个发展趋势。   本文在对Internet化学化工主题搜索引擎设计和分析的基础上,设计并实现了化学化工主题搜索引擎的两个主要模块:化学化工主题网络爬虫和基于化学化工词典的倒排索引,以此为基础建立了一个规模为1000万网页的化学化工专业搜索引擎原型系统ChemEngine。   主题网络爬虫系统最大的特点是将待爬行的URL按照主题相关性进行排序。与广度优先(Breadth First)和深度优先(Depth First)等通用网络爬虫等相比,主题网络爬虫的爬行策略变为主题相关优先(Topic First)或者最佳优先(Best First)。本文通过对网络化学化工资源的抓取,比较了基于分类器(支持向量机、简单贝叶斯和中心向量)主题网络爬虫、基于关键词匹配主题网络爬虫(匹配网页全文、匹配标题文本和匹配锚文本)和基于链接分析(PageRank和BackLink)主题网络爬虫的爬行效果。爬行实验结果表明基于支持向量机分类器的主题网络爬虫的抓取效果优于其他主题网络爬虫和广度优先通用网络爬虫。实验还发现基于文档对象模型(DOM)的页面分块算法和基于视觉(VIPS)的页面分块算法的主题网络爬虫能进一步降低页面噪音和提高主题网页的爬行效果。另外实验结果显示种子URL对主题爬行的效果有较大的影响,尤其是在爬行的初始阶段。   倒排文件作为一种简单、高效的文档数据索引方式,是搜索引擎系统实现的一项基础技术。在对Internet化学化工主题搜索引擎ChemEngine的倒排索引的设计和实现中,本文提出了对中文网页基于化学化工专业词典进行分词并以词为单位建立索引,而对除中文以外的网页以字为单位建立索引的方式,这样可以在查全率和查准率之间做出一定的权衡,并且能够减少索引信息对磁盘空间的占用。本文还提出了分桶建索引的算法,即正排索引和倒排索引都按照一定规则被存放在一系列的桶中,每一个桶中只存放一定范围词条(根据词条ID号)所对应的索引,通过合理安排桶的数量就可以减小各个索引文件的大小,方便倒排索引分布式的存储和处理。   本文设计并实现了一种个性化搜索引擎的原型系统。用户首先通过个性化信息收集与管理系统采集和管理各自的兴趣信息,如关键字、样本文档和URL等。个性化信息收集与管理系统可根据获取的用户兴趣信息,为用户自动生成各自的兴趣模型。个性化爬行时根据用户提交的URL作为爬行起点,并在爬行过程中通过用户兴趣模型来对待爬行的URL进行用户兴趣优先级预测。实验结果表明基于支持向量机的个性化网络爬虫策略的爬行效果优于基于关键词匹配个性化网络爬虫和广度优先策略通用网络爬虫。实验同时显示用户兴趣范围的大小和用户兴趣信息收集的准确性对个性化网络爬虫的性能有较大影响。  
其他文献
  卵黄抑制激素(vitellogenesis-inhibiting hormone,VIH)是CHH家族中重要的神经肽类激素之一,通过抑制甲壳动物卵黄蛋白原(VTG)的生成,从而调控卵巢的发育和成熟.本研究在
会议
随着丙烯需求量的迅速增长,增产丙烯技术的研究受到了广泛的关注。目前,增产丙烯的催化剂助剂通常是把ZSM-5沸石与基质机械混合在一起,这种制备方法使得基质与沸石间不具有通畅
  拟穴青蟹(Scylla paramamosain)是我国东南沿海重要的经济养殖蟹类之一。目前对于青蟹性腺发育调控的分子机制研究较为薄弱。本研究在实验室所构建的青蟹EST文库基础上筛
编者按:自从20年前国内资本市场勃兴以来,“借助资本市场迅速做大”就成为上千家上市公司的首选战略目标。然而中小板和创业板的推出,令我们看到一些不同的商业故事。一方面
  In this study a full-length cDNA (Sp-RPCH) was cloned from the eyestalk ganglia of the mud crab Scylla paramamosain.Sp-RPCH is 660 base pairs in length and
会议
  甲壳动物高血糖激素(CHH)家族是一类重要的神经肽激素,在调控甲壳动物的能量代谢、蜕皮、性腺发育和渗透压调节等重要生理活动中发挥着重要的作用.蜕皮抑制激素(MIH)是CH
  The full-length cDNA of a Chk1 gene (DpChk1) was cloned from D.pulex using RACE method.This cDNA is 1767 bp in length, consisting of a 1497 bp open reading
会议
  雌激素相关受体(ERR)在甲壳动物蜕皮过程中可能起着重要的调节作用,但是尚不清楚该基因在三疣梭子蟹不同组织和不同蜕皮阶段的表达模式。本研究通过养殖实验和荧光定量PC
  Vitellogenin (Vg) is usually considered as a female-specific protein associated with vitellogenesis, while it can be induced in males by environmental hormo
会议
  Insulin-like peptides (ILPs) have been proved to exist extensively in invertebrates and play critical roles in regulating growth, metabolism and reproductio
会议