文本自动分类系统的研究与实现

来源 :北京工业大学 | 被引量 : 11次 | 上传用户:qwer_xxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我的论文题目为“文本自动分类系统的研究与实现”,该项目得到了国家自然科学基金、北京市自然科学基金的资助。本文是对我研究生期间所作研究工作的总结。Internet的快速发展使得信息资源得到了急剧增长。越来越多的信息通过互联网被传送到世界各地,互联网中也积聚了越来越多的信息。从发展的趋势来看,网络必将成为人们获取信息的主要来源。但互联网的组织杂乱,缺乏必要的条理,多且杂的信息使得人们从中获取自己感兴趣的内容变得越来越困难。信息分类技术可以帮助人们准确高效的定位信息。文本是互联网上主要的信息载体,一个良好的文本自动分类系统能够有效地将信息组织管理起来,为信息获取提供有力的支持。文本分类技术的研究是我的主要研究课题。在我的研究工作中,首先建立了一个文本自动分类系统,以此作为深入研究文本分类技术的试验平台。在“the 4 Universities Data Set”数据集上,我们测试了各种特征提取算法和分类算法,分析总结了它们的效果和特点。在对特征提取实验结果的分析基础上,我们提出了一个针对特征提取算法的量化评测标准,并使用该标准对现有的特征提取算法作了评测。在对评测结果的分析中总结了特征提取应有的原则,根据该原则提出一个新的特征提取算法,对该方法完成了评测,并讨论了它相比其他算法的特点。
其他文献
在信息科技高速发展的今天,软件已成为现代高新领域中不可缺少的一部分,被广泛地应用于通信网络,尖端武器以及日常办公处理中。但是,由于软件以人为本,是一个主观创造过程,因此在开
随着以太网技术的广泛应用,各个应用领域对以太网数据传输的性能也提出了越来越多的要求,人们对以太网的应用已经不仅仅局限在传统的非实时数据的传输,而在一些实时数据传输
超声多普勒技术在临床医学中的应用十分广泛,如对循环系统血液动力学信息的获取,胎儿心率的测量等等。检测和量化人体各个血管中的血流状况是超声多普勒技术应用的一个主要方面
针对移动设备资源有限,网络不稳定,所需功能有限等特点,本文对MICO进行了深入的分析,并设计和实现了一个可应用于BREW平台的移动中间件——MICO2B.MICO2B是根据移动设备的特
PBS是目前已有的集群作业管理系统中颇具代表性和影响力的一种。PBS有OpenPBS和PBSpro二个系列。前者是免费软件,因而应用得更加广泛。但是OpenPBS只支持Globus的pre-WS版本,而
近年来,为了保证各种软件的正确性和提高软件的可维护性、可重用性,人们对软件形式方法的研究越来越广泛和深入,形式方法的研究之所以能够迅速,除了因为其本身固有的优点,如精确、
随着互联网与移动互联网的飞速发展和社交媒体的广泛应用,越来越多的网络用户可随时随地浏览热点新闻报道,并在网络中发表和交流观点,表达立场与情绪。因此文本情感分析研究吸引
由于密码产品本身的特殊性,各国对密码产品的进口、出口及使用都制定了政策和规定。在中国,所有对商用密码产品研究、生产、销售及使用都必须严格遵守《国家商用密码管理条例》
H.323和SIP是国际电联电信分会(ITU-T)和Interned工程任务组(IETF)制定的两条标准。H.323是用于提供多媒体实时通信的系统标准。它体现了一种集中式、层次式的控制模式。可以
随着P2P技术和商业应用的发展,P2P技术受到前所未有的重视。它可以说是一种网络结构的思想,从一定意义上讲P2P技术并非一种简单的计算机技术,而是一种传播技术。它使得网络信息