【摘 要】
:
Web页面检索和推荐是搜索引擎中网络信息处理的重要组成部分,它可以自动地从网络文档中发现和抽取用户感兴趣的信息,对于构建主题式的搜索引擎具有重要作用。本文对主题式搜
论文部分内容阅读
Web页面检索和推荐是搜索引擎中网络信息处理的重要组成部分,它可以自动地从网络文档中发现和抽取用户感兴趣的信息,对于构建主题式的搜索引擎具有重要作用。本文对主题式搜索引擎中的Web页面检索和推荐技术进行了研究,所完成的主要工作有:1、在分析了当前搜索引擎的工作原理及关键技术、比较研究了典型的通用搜索引擎与主题搜索引擎的基础上,提出了将两者结合起来的思想,设计了基于元搜索的特定主题的搜索引擎MBTSE系统。2、针对系统中页面检索所遇到的问题,研究分析了文本过滤和常用的页面检索模型,为克服实际检索中计算量大的困难,提出并实现了一种将快速检索算法运用到文本过滤的页面检索思想,在实验中验证了该方法的可行性。3、针对页面相似性问题,提出了一种改进的页面相似度度量方法,并对此度量方法做了详细的理论分析和实验验证。同时,把改进的相似度度量运用到KNN分类算法中,提出了一种改进的MKNN决策规则,并与原KNN决策规则作了对比实验,实验结果表明此改进提高了平均正确率。4、通过对网页结构的分析,对网页进行一系列的预处理操作,包括网页解析、过滤停用词、词根还原、特征提取以及最后生成单词的特征向量空间表示和ngram的网页表示。5、研究分析了基于LOF的孤立点挖掘算法,提出了通过孤立点挖掘来实现主题式搜索引擎中基于内容的页面主动推荐,用于自动地、主动地发现相关主题领域的研究新发现,体现了搜索引擎智能化的思想。同时,从用户的角度出发,提出了一种根据概率来求孤立因子阈值的top-n%方法,并采取文本嵌入主题的方法对提出的方案进行了实验,验证了从top-n到top-n%的改进在发现web页面孤立点上有效可行。
其他文献
可分级视频编码(SVC)作为H.264/AVC的可分级扩展,是正在制订中的视频编码标准。它通过时域层、空域层和质量(SNR)层的混合可分级的机制,在比特流级上实现可分级性,同时具有很
网格使人们可以无缝的集成广域资源来合作解决问题。在网格环境里如何有效的管理资源和调度计算就成为影响网格计算是否成功的最重要因素之一。而资源发现和资源选择又是网格
Linux系统是一款优秀的开放源码的操作系统,正是因为其开放性和可移植性使它在当前的嵌入式产品开发中有着非常重要地位。通用串行总线(USB)作为一种新型总线,日益广泛地应用
Web服务(Web Services)已经成为分布式网络计算的发展趋势。然而现有的Web服务技术只关注对服务输入输出数据类型以及访问细节的说明。由于缺乏语义描述,无法支持服务的自动
工厂各车间选址、医院布局、电脑键盘分布设计、任务分配调度等都可归结为二次分配问题。在理论上,二次分配问题属于组合优化问题,存在“组合爆炸”现象。归因于NP-hard属性,很
手语识别研究的目的是增进聋人与听力健康人之间无障碍的交流,提高计算机对人体语言的理解能力。非特定人手语识别是推动手语识别系统实用化所必须解决的问题。目前,非特定人
语音识别是计算机技术的一个重要发展方向,是指机器通过学习来实现从语音信号到文字符号的理解过程,也就是让计算机听懂人的话,并做出正确的反应。语音识别作为一门交叉学科,与声
传统的基于内容的图像检索系统返回给用户的是按照与查询图像相似性大小排序的目标图像序列,而目标图像之间的相似性在系统中被忽略掉,基于聚类的图像检索系统返回给用户的是
随着Web资源的不断丰富和增加,Web站点结构变得越来越复杂,传统的Web站点缺乏智能性和主动性,因此,面对复杂而庞大的万维网,人们不容易找到自己感兴趣的信息,同时Web站点和Web服务
无线局域网技术使得网络的接入方式不再受物理线路的局限,嵌入式技术使得通信设备向着微型化、低功耗、高性能的方向发展。本文研究的地铁无线通信系统正是无线局域网与嵌入