【摘 要】
:
随着信息处理技术和计算机网络的普及,Internet上的Web页面数量呈指数增长,为了快速、方便地处理这些信息,Web文本自动分类技术应运而生,并且已经成为信息检索和文本数据挖掘领域
论文部分内容阅读
随着信息处理技术和计算机网络的普及,Internet上的Web页面数量呈指数增长,为了快速、方便地处理这些信息,Web文本自动分类技术应运而生,并且已经成为信息检索和文本数据挖掘领域的一个研究热点。本文在对国内外文本自动分类系统分析研究的基础上,从文本分类知识的自动获取到分类器设计,详细地讨论了中文Web文本分类系统中影响分类结果的几个关键技术,并且深入研究了如何提高中文Web文本分类的精度、速度和稳定性,最终实现了一个中文Web文本分类系统。首先本系统利用MapReduce原理对大量Web文本进行并行化预处理,然后利用改进的向量空间模型表示特征,同时通过对文本特征的提取方法研究,提出了一种新的联合特征提取方法,在分类器设计方面,利用改进的独立分量分析算法提升了朴素贝叶斯分类器的性能,另外为了提高系统的整体分类性能,本文实现了将SVM分类器和改进的Bayes分类器集成到一个系统中,构造多分类器引擎,获得了比单个分类器更好的分类性能。通过在该系统上的大量评估性实验及对实验数据的统计分析,证明本文采用的中文Web文本分类方法基本达到了上述目标。针对以上研究成果,本文描述了原型系统的设计实现细节。
其他文献
认知诊断性测验(Cognitive Diagnostic Test, CDT)不同于传统的纸笔测验(Paper and Pencil Test, PPT)和计算机自适应测验(Computerized Adaptive Test,CAT),它是一种全新的
文章的研究目的是强调家用纺织品配套设计的必然性与必要性,分析家用纺织品材质与工艺配套的方法、图案配套以及色彩配套方法.通过以上方法使室内呈现出和谐统一的视觉效果,
容迟网络作为一种新兴的挑战性网络,具有节点移动性强、网络拓扑频繁割裂、极高的端到端传输时延等特征。在消息的源节点与目的节点之间很难实时维持一条稳定的端到端通路,因
版式设计是书籍装帧的核心部分之一,版面的留白影响书籍风格定位.现在不少书籍装帧不注重版式的留白设计,视觉上的繁密让人感到压抑.留白具有审美性、功能性等特点,合理地运
Internet的快速发展使计算机病毒的数量急剧增加,但病毒分析人员对计算机病毒的鉴定和排查依然是靠手工确定的,面对大量要处理的可疑文件并要做出快速反应,进行预处理显得非
广西北部湾地区是客家民系的重要居住地之一.北部湾地区的客家围屋正是体现了本区域客家为了适应环境,在保留自身传统的基础上,既保留了自己的风俗与特性,也吸取了南方少数民
企业报是办给企业的广大职工看的,因此报纸理应面向职工群众,然而,我们往往做不到达一点。为什么?原因很多。其中一条主要原因,是我们办报人员的思想,还自觉不自觉地受着一
移动视觉搜索作为新兴的研究领域有诸多困难与挑战,如:移动端的计算能力与存储能力有限,在大规模图像搜索中面临着检索实时性和数据存储的难题;在海量图像数据库中搜索,面临搜索
本文以弱势群体使用的功能性家具为研究对象,分析了功能性家具对弱势群体生理、心理、行为体征的考虑并且对服务需求方面进行研究.从设计的角度提出功能性家具对弱势群体使用