基于web文本挖掘技术的研究与应用

来源 :江苏大学 | 被引量 : 0次 | 上传用户:wowoni
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的快速发展使得信息资源急剧增长,越来越多的信息通过互联网被传送到世界各地。互联网中也积聚了越来越多的信息,网络成了人们获取信息的主要来源。但是由于它数据的半结构化和无索引特点,使我们充分利用这些丰富的信息变得越来越困难。以人工智能为基础的数据挖掘技术迅速发展,为解决这一问题带来了希望,web文本挖掘的概念应运而生。本文主要研究web文本挖掘技术。 本文首先介绍了web文本挖掘技术的研究背景、研究目的、研究意义以及国内外研究现状,接着介绍了web文本挖掘的一般过程,进一步介绍了web文本挖掘过程中的几个关键技术。针对web文本分类中的中文分词算法问题,设计了一个三层存储格式的词典并采用对字符串正向先取两字,随后逐一增一字的方法进行分词。针对经典挖掘频繁项集算法—Apriori算法所存在的问题,采用修剪频繁集策略,减少了候选项目的数量;采用优化连接策略,减少了执行次数,提高了Apriori算法的运行效率;采用库优化策略,减少了数据库中事务的个数,并且避免了事务的大量重复扫描,实验证明这一策略可以提高算法的效率。 本文最后设计并实现了一个中文web文本分类系统。把每个文本文档看作是一个具体的事务,把该文本文档中的频繁出现的词语看作是项,通过文档的词条集推出文档所属的类别。采用向量空间模型来表示文本,采用词和类别的互信息量作为特征项抽取的判断标准,采用CBA算法来构造分类器。经过分词实验,测试表明采用三层存储格式的词典及改进的分词算法改善了分词的速度和分词的精度。经过文本分类实验,表明应用改进的Apriori算法进行分类测试,能有效提高数据的分类查准率和查全率。
其他文献
数学相对于文史哲而言,更偏向与理性思维的应用.在高中学习阶段,数学作为三项基础学科之一,目的是为了培养学生的抽象思维能力.通常来说,数学教学由教师利用符号语言灌输给学
试验证实,同条件下不同品种的种子发芽力的差异来自发芽势,发芽势是室内和田间幼苗生长快而健壮的基础(未发表)。本试验测定了同条件下不同品种的萌发差异和与发芽势的关系,
真实感的三维特定人脸建模和表情动画是计算机图形学领域一个极富挑战性的课题。随着计算机游戏、影视制作和虚拟现实等领域的快速发展,这一研究课题越来越受到人们的普遍关注
信息技术的日新月异使得各个领域的数据量激增,在此背景下诞生的知识发现和数据挖掘给人们提供了一种新的认识数据、理解数据的智能手段。序列模式发现是其中的一个重要研究
数学探究是高中数学课程中引入的一种新的教学方式,有助于学生初步了解数学概念和结论产生的过程,初步理解直观和严谨的关系,初步尝试数学研究的过程,体验创造的激情,建立严
由于互联网的普及,Email已成为日常生活中最流行、最方便、最经济的通信手段。然而,在收到有用信息的同时,用户也收到各种各样的垃圾邮件,垃圾邮件的泛滥给互联网用户带来很
数学讲评课是数学教学的重要环节,其目的是反馈测试评价的结果,让学生了解自已知识,能力水平,弥补缺陷,纠正错误,完善知识系统和思维系统,提高分析问题和解决问题的能力.为了
高一数学教学首先遇到的就是初、高中数学如何有效衔接的问题.自从新课标实施后,初中数学的教学内容无论是从量还是从难度来看,都减少了不少,而高中数学教材的难度和要求都有
计算机三维人脸动画是一种重要的人体行为交互方法。其成果可以广泛地应用于虚拟现实、辅助教学、医疗研究、电影制作、游戏娱乐等很多领域。而人脸上的表情模拟以及表情细节
习题课是高中数学最为常见的课型,习题教学不是搞题海战术.传统的习题教学我们教师习惯于用“成题”,现成的资料、现成的参考答案,的确节约了不少备课的时间,但是反过来思考,