基于Web的中英文文本分类系统的研究与实现

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:qwer32173
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,Internet的高速发展使得网络上的信息日益膨胀,Web已经成为人们获取信息的重要手段。为了使人们从庞大的网络信息中找到自己所需要的信息,就需要对网络上的信息进行组织和分类,因此基于Web的文本分类技术应运而生。基于Web的文本分类作为文本挖掘中的重要技术,是解决信息爆炸、信息组织、信息分类的有效途径。近年来,文本分类已经逐渐成为信息检索和信息过滤的研究基础。本文正是以基于Web的文本分类为研究目标,围绕着基于Web的中英文文本自动分类的实现方法和相关技术展开,主要研究内容和工作包括以下几个方面:  (1)对基于Web的文本分类系统实现流程进行了研究与设计。在对文本分类方法和技术研究现状进行调研的基础上,分析了Web文本分类技术的实现特点与重点所在,提出了本文的研究思路并设计了系统的实现流程。  (2)实现了基于正则表达式的网页文本提取技术,并对文本预处理技术进行了研究。在研究从Web服务器获取网页源码技术的基础上,设计了一种正则表达式,以实现网页纯文本的提取,并研究和实现了利用向量空间模型表示文本的预处理技术。  (3)设计了面向文本表示的混合特征提取模型。通过分析对比常用的几种特征提取方法及其优缺点,选择了文档频率、互信息、信息增益、卡方统计四种特征提取模型,并对四个特征子集进行取并操作,实验表明利用该混合特征提取模型的效果比单一特征提取模型效果要好。  (4)分析设计实现了三种分类器模型。对当前比较热门的分类算法,介绍了常见的分类模型,并对各个模型进行研究和对比,根据特征集合的特点选取朴素贝叶斯模型、KNN、Rocchio分类模型分别进行中英文文本分类器模型的设计与实现,并通过实验测试进行对比分析了三种模型的分类性能。  通过对以上各个部分的整合,采用WindowsXP系统,利用VS2005为开发环境,C#为开发语言,以及SqlServer2005为后台数据库,设计实现了基于Web的中英文文本分类系统。
其他文献
游戏引擎是游戏或一些交互式实时图像应用程序的核心组件,它为了简化游戏开发,将诸多游戏开发工具整合到一个开发环境中。这种介于硬件层与用户界面之间的游戏中间层的封装模式
语言知识库的建设在自然语言处理(Natural Language Processing,NLP)中起着重要的作用,它的规模与质量影响着语言应用软件的优劣性。现阶段,语言知识库的建设技术已经较为成熟。
软件构件技术通过复用和组装已有的软件资源,提高了软件质量与软件的开发效率,对于缓解软件危机起到了重要的作用。随着开放动态的Internet计算平台的发展,构件技术被应用到这一
当前互联网路由体系架构中的IP地址存在既作为身份标识又作为位置标识的语义过载问题,这造成了路由可扩展性,以及不能很好的支持多归属和移动等一系列问题。为此,国内外工业
近几年来,互联网技术有着突飞猛进的发展,伴随着科技的进步,人们充分享受到了科技所带来的便利和快捷,安全认证始终是研究互联网技术中的热点难点。面对着浩如烟海的数据和信
教授主页信息管理与发布系统是中国地质大学(北京)数字校园建设中的子系统。原有的教授主页信息管理与发布系统是基于ASP技术实现的,其代码执行效率不高,由于运行在IIS服务器
为了获得一个符合日益复杂要求的服务组合解决方案,大量的精力投入在服务选择和服务组合的研究中。但由于服务组合问题的难解性,在这个领域任然存在一些待攻克的技术难点,本文主
无线传感器网络的研究始于20世纪90年代,是当前国际学术界和工业界的研究热点内容。该技术具有广泛的应用前景,已经或正在被广泛应用于军事国防、环境监测、智能家居及护理、灾
家庭信息化程度正随着3C行业的快速发展而逐步地提高,网络化、智能化的趋势已经成为数字家庭产业的共识。数字家庭网络化的目的在于通过建构完整的家庭网络架构,进行内部设备
近年来,随着社交网络、微博等新兴网络应用的普及,因特网中的信息传播规模呈现指数级增长。在海量的数据中,如何找到网络里最有影响力的节点成了数据挖掘领域和社会网络分析领域