中文文本挖掘技术的研究与应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：zqszc

【摘要】

：

数据挖掘已经是一个发展很成熟的研究领域,它给人们提供了一个从大量杂乱无章的信息中获取有用价值信息的方法。目前,对于非结构化数据的数据挖掘技术已有很多研究,而对于网

【作者】

：

戚云霞

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2014年期

【关键词】

：

文本挖掘文本预处理向量空间模型特征提取扩展VSM

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘已经是一个发展很成熟的研究领域,它给人们提供了一个从大量杂乱无章的信息中获取有用价值信息的方法。目前,对于非结构化数据的数据挖掘技术已有很多研究,而对于网络中出现的越来越多的文本数据的挖掘技术研究还较少。文本中包含着丰富的内涵和知识,如何对大量的文本数据进行挖掘也是一个很重要的研究领域。文本分类是文本挖掘最基础的应用,是分析和处理大量文本数据的关键技术,它可以有效地解决大数据时代信息多而杂的问题,帮助人们准确高效的定位信息和分流信息,因此具有广泛的应用前景。本文对中文文本挖掘技术进行了研究,提出了一种新的基于特征义原扩展向量空间模型的文本分类方法,并实现分类器对分类方法进行验证。本文主要研究内容如下:1.介绍了文本挖掘技术的原理和实现方法。作为文本挖掘的基础,首先介绍了文本预处理流程,给出了预处理过程的具体步骤,包括:文本表示、中文分词技术、特征提取和特征权值计算方法,及各个步骤采用的相关算法。然后,介绍了多种常用的文本分类方法,详述了各种方法的技术原理以及优缺点。2.提出了一种基于特征义原扩展向量空间模型(VSM)的文本分类方法。本文根据知网中的“义原”,改进了文本的特征选择方法,重构向量空间模型。首先对每个类别中的文本采用改进的TF-IDF方法选择文本特征项,然后再从特征项中提取其中包含的特征义原,最后再对特征义原进行扩展,得到扩展后的特征项,生成该类别的义原文档。最后通过对生成的义原文档进行运算,得到每个特征义原的权值。3.本文还介绍了原始向量空间模型(VSM)和同义词向量空间模型(VSM)。原始VSM,即采用原始特征选择方法得到的VSM;同义词VSM,指特征选择经过同义词表处理后的VSM。为了结合不同VSM的优势,将三者融合,融合后的结果作为文本的特征项选择空间,得到重构的VSM模型,用来实现文本分类。4.进行实验验证了基于扩展VSM的分类方法。本文通过采用不同特征选择方法进行实验,得到分类结果的准确率和召回率,并与本文中给出的扩展VSM方法的实验结果进行比较分析。结果表明,本文方法能够提高特征项选择的准确性,使文本分类的正确率和稳定性均得到提高,是一个有效的文本分类方法。

其他文献

汽车音响与导航设备互连接口的设计与实现

随着我国经济的发展，私家车的市场越来越大，汽车上的娱乐设施——汽车音响有着广阔的市场前景。此外，汽车导航是近年来兴起的一种汽车驾驶辅助设备，正逐渐走入千家万户。它能够根

学位

汽车音响导航设备UART协议互连接口汽车导航

基于融合思想的改进IDS的贝叶斯网络解法

面对诸多挑战与威胁，具有积极防御功能的入侵检测系统，已经成为网络安全防护体系中的重要组成部分。然而，计算机技术和网络技术的飞速发展，给传统的入侵检测系统带来了前所未有的

学位

入侵检测信息融合贝叶斯网络状态转换协议分析网络安全

基于示例学习的肖像画自动生成系统

肖像画是一种非常流行的艺术表现形式。肖像画，特别是人脸的肖像可以艺术化地表现出个人的面部特性。但是，绘制肖像画，特别是要想把人物的脸部特征用线条简洁的肖像画描绘出来，并

学位

肖像画自动生成Markov随机场示例学习非参数化采样

路径与完全图，完全二分图的交图的交叉数

1983年，Garey与Johnson证明：确定一个任意图的交叉数问题是Np-困难的(NP-complete).计算一个给定图的交叉数也是非常困难的，目前，只有很少图族的交叉数是已知的.完全图，完全二分图

学位

交叉数交图完全图完全二分图交叉数值

流媒体缓存策略的研究与实现

自从“流媒体”概念诞生以来，流技术得到了飞速的发展，目前已广泛应用于远程教育、视频会议等互联网信息服务的方方面面，它已经由一种全新的技术发展成为一种人们体验Internet的

学位

流媒体缓存服务器远程教育视频点播系统媒体流发布模式

基于移动代理的网络性能管理的研究与实现

随着计算机网络技术的飞速发展，Internet已经渗透到社会生活的各个方面，并发挥着越来越重要的作用。特别随着近年来IPv6、WLAN、VoIP等技术的不断成熟和应用，计算机网络呈现出新

学位

SNMP性能管理移动代理Aglet网络性能网络管理系统网络管理计算机网络

基于LINUX的VPN安全网关的研究

本文首先介绍了VPN的概念,结合VPN发展现状提出了本文研究的理论意义和实际应用价值,接下来介绍了VPN的原理和VPN的主要技术以及其优缺点、IPSEC体系结构及实施方法,全面分析

学位

网络安全虚拟专用网防火墙网络地址翻译系统仿真

三维地形分形构造及其真实感渲染

地形的生成在游戏、影视、广告及虚拟现实等领域有着很广泛的需求。地形是自然界最复杂的景物之一，三维真实感地形的绘制一直是国内外计算机图形学领域研究的热点之一。分形学

学位

三维地形随机分形动力系统随机中点偏移法三维连续位势法计算机图形学图象处理多媒体

高效可扩展的垃圾邮件过滤系统体系结构

由于互联网的普及,以及电子邮件的廉价性,email正成为日常生活中最流行、最方便、最经济的通信手段。但是电子邮件在成为一种信息交流工具的同时,也正成为一种商业广告和网络

学位

分层过滤分布式可靠灵活机器学习

最大最小模块化支持向量机及其在多标号文本分类中的应用

本文重点介绍了最小最大模块化支持向量机的组成原理，详细说明了最小最大模块化支持向量机的模块分解和集成规则，并对其串行与并行训练时间复杂度进行了一定的分析。仿真实验表

学位

支持向量机最小最大模块模块集成并行学习多标号文本分类

中文文本挖掘技术的研究与应用

其他学术论文