WEB文本信息抽取和分类研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:konlee53
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Internet的飞速发展,Web上出现了海量的、异构的、半结构化的、动态的信息资源,并且在这些Web信息中有80%以上的信息是以Web文本的形式存在的。如何从这些浩如烟海的Web信息资源中寻找并获取有价值的信息和知识模式,已经成为信息处理领域的一个亟待解决的问题。Web文本分类可以有效的解决上述问题,它起源于ATC技术(自动文本分类技术),是Web文本挖掘的关键组成部分;Web文本分类可以提高用户进行网上信息搜索的效率,可以对搜索结果进行分门别类,帮助用户快速的对目标知识进行定位,并且能够从中抽取有价值的知识。本文首先介绍了文本自动分类的主要方法,分析了WEB文档的特点,提出了WEB文本自动分类所要研究的两个技术层面:信息抽取和文本分类,研究了基于视觉的WEB文本抽取和基于支持向量机的多层次文本分类方法,并进行了WEB文本自动分类工具的总体设计,它主要包括网页采集、信息抽取、文本预处理和文本分类等功能模块,在以上研究的基础上最后提出了分类搜索引擎的设计。最后通过本文所设计的WEB文本自动采集和分类系统结合SQL Server 2005 Text Mining对本文所提出的理论方法进行了实验,实验表明信息抽取比较准确、分类方法有较高的准确度和运行效率。
其他文献
随着我国卫生改革的不断深入和居民生活水平的不断提高,人们越来越注重个人健康,对医疗服务质量的要求也逐渐提高,我国医院面临着巨大的挑战。在医院的各个部门当中,门诊是医院的
免费电子邮箱是网民最经常使用的互联网功能之一,在为网站聚揽人气方面具有特殊优势。提高免费邮箱服务质量有助于网站吸引并留住更多网民,为网站带来利润。 本文通过对国内