一种基于语义分析的主题爬虫算法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:qxw4721
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量网页的存在及其量的急速增长使得通用搜索引擎难以为面向主题或领域的查询提供满意结果。本文研究的主题爬虫致力于收集主题相关信息,达到极大降低网页处理量的目的。它通过评价网页的主题相关度,并优先爬取相关度较高的网页。利用一种基于子空间的语义分析技术,并结合贝叶斯以及支持向量机,设计并实现了一个高效的主题爬虫。实验表明,此算法具有很好的准确性和高效性。
其他文献
国家消亡、人类解放是马克思国家理论研究的宗旨和理想信念。马克思所追求的这一理想是合目的性和合规律性的,并且在其国家理论形成中起到了积极的引导作用。一是马克思批判
问题式探究学习是与当前课程改革所提倡的"自主、合作、探究"的学习方式是相一致的,本文从问题式探究学习的内涵及其特征、基本流程、教学策略等三个方面,探讨了在语文教学中
中职教育的众多学科中,语文既具有文学性,又具有思想性,且非常形象和生动,易于感染学生,在实施德育方面具有得天独厚的条件,德育效果更加明显。在中职语文教学中实施德育渗透
本文提出一种基于变学习率三角基函数神经网络的线性相位4型FIR滤波器设计方法。该方法根据三角基函数神经网络与线性相位4型FIR滤波器幅频特性之间的关系,构建了一种变学习率
随着我国教育事业的快速发展,初中英语教学活动的创新力度大大提高。优化课堂教学活动的每一个环节,给学生新鲜的学习体验,才能让初中英语课堂成为学生心之向往的课堂。结合
随着计算机计算能力的发展以及数学模型的完善,目前,借用计算流体力学,可有效预测反应器内的流场及浓度场分布,为相应的设备优化改造提供指导。本文对燃煤电厂中的脱硝反应器