WEB文本信息抽取和分类研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户：konlee53

【摘要】

：

伴随着Internet的飞速发展,Web上出现了海量的、异构的、半结构化的、动态的信息资源,并且在这些Web信息中有80%以上的信息是以Web文本的形式存在的。如何从这些浩如烟海的We

【作者】

：

王志强

【机构】

：

辽宁工程技术大学

【出处】

：

辽宁工程技术大学

【发表日期】

：

2006年期

【关键词】

：

网路蜘蛛信息抽取文本分类支持向量机分类搜索引擎

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

伴随着Internet的飞速发展,Web上出现了海量的、异构的、半结构化的、动态的信息资源,并且在这些Web信息中有80%以上的信息是以Web文本的形式存在的。如何从这些浩如烟海的Web信息资源中寻找并获取有价值的信息和知识模式,已经成为信息处理领域的一个亟待解决的问题。Web文本分类可以有效的解决上述问题,它起源于ATC技术(自动文本分类技术),是Web文本挖掘的关键组成部分;Web文本分类可以提高用户进行网上信息搜索的效率,可以对搜索结果进行分门别类,帮助用户快速的对目标知识进行定位,并且能够从中抽取有价值的知识。本文首先介绍了文本自动分类的主要方法,分析了WEB文档的特点,提出了WEB文本自动分类所要研究的两个技术层面:信息抽取和文本分类,研究了基于视觉的WEB文本抽取和基于支持向量机的多层次文本分类方法,并进行了WEB文本自动分类工具的总体设计,它主要包括网页采集、信息抽取、文本预处理和文本分类等功能模块,在以上研究的基础上最后提出了分类搜索引擎的设计。最后通过本文所设计的WEB文本自动采集和分类系统结合SQL Server 2005 Text Mining对本文所提出的理论方法进行了实验,实验表明信息抽取比较准确、分类方法有较高的准确度和运行效率。

其他文献

改进EDD策略在门诊排队管理中的应用

随着我国卫生改革的不断深入和居民生活水平的不断提高，人们越来越注重个人健康，对医疗服务质量的要求也逐渐提高，我国医院面临着巨大的挑战。在医院的各个部门当中，门诊是医院的

学位

医院管理排队策略时间效用门诊排队

On Practical English Teaching in Universities of Technology under the New National Standards for Eng

期刊

肿瘤相关巨噬细胞和基质溶解素在喉鳞状细胞癌组织的表达与肿瘤微血管密度的关系

目的:探讨CD68抗体标记的肿瘤相关巨噬细胞TAMs和基质溶解素MMP-7在喉鳞状细胞癌组织的表达及与临床病理参数的关系,探讨两种分子标志物表达与喉癌组织MVD的关系。方法:使用

期刊