论文部分内容阅读
因特网是最富有的信息资源库,但是因特网数据本身具有的特殊性质使得传统的数据库技术不适合于因特网上的信息检索。搜索引擎主要利用Web的结构来检索,这使得搜索引擎返回的结果集太大,相关的文档和不相关的文档都混合在一起。Web内容挖掘是Web挖掘的一个重要的分支,Web内容挖掘是一种主题更为明确的Web挖掘方法,Web内容挖掘的对象是夹杂着HTML标记的网页数据,数据可能是结构化的、半结构化的和无结构的自由文本等,数据本身还是动态的,传统的数据挖掘技术不能直接应用到Web数据的挖掘上,任何试图利用Web数据进行生产或者研究的项目必然先遇到Web数据的抽取问题,即把具有隐含格式的网页数据转换成具有明显结构化的数据。因此近年来各种Web内容挖掘技术的相关研究工作大量出现在各种学术会议、期刊杂志中,这也说明了Web内容挖掘技术研究是一个具有实际应用价值的研究课题。 Wrapper所承担的就是把HTML格式的数据抽取并转化成结构化的数据的程序,Wrapper的核心是抽取规则,抽取规则是基于HTML文档格式的。对于HTML文档,有两种看待方式:一种是将HTML文档看作是字符流;另一种是将HTML文档看作是树结构。既然HTML文档有两种视图,本文从两个方面进行研究。首先研究基于逻辑的网页描述形式,然后研究了基于逻辑的网页描述形式的结构化数据抽取模型,最后研究基于图的网页描述形式及其结构化数据抽取系统。本章还讨论了相关的研究工作,比较了抽取模型的不同点,最后对现成的结构化数据抽取工具做了比较。 海量的数据给搜索引擎带来了巨大的挑战,要求搜索引擎的crawler程序能够进行足够频繁地采样,以保证查询结果的有效性;采样的页面要足够广泛,以保证所有有价值的页面都能够被访问到。现有的搜索引擎采样页面都没有超过Web页面的16%,联合11个主要的搜索引擎采样的数据仍然低于Web数据的50%。所以,增大搜索的粒度是个研究的热点,社区是个比较适合的搜索单元。本章研究了Web的结构,分别讨论了基于PageRank、基于HITS、基于二分有向图和基于最大流的社区发现算法。 此外,本文最后研究了搜索引擎结果聚类的相关问题,搜索引擎结果聚类技术实质上是为了方便用户的检索,将聚类技术应用于Web信息检索结果的可视化输出,使用户能够在更高的主题层次上来查看搜索引擎返回的结果。本文研究了搜索引擎结果聚类的相关算法及其特点。