【摘 要】
:
近年来,随着信息技术的迅速发展,特别是Internet的普及,网页上的电子文本信息急剧增加,如何有效地组织和管理这些海量信息,并且能够快速、准确地获得用户所需要的信息是当今
论文部分内容阅读
近年来,随着信息技术的迅速发展,特别是Internet的普及,网页上的电子文本信息急剧增加,如何有效地组织和管理这些海量信息,并且能够快速、准确地获得用户所需要的信息是当今信息资源管理技术领域的一大挑战。通过文本自动分类技术的使用,可以使电子文本信息自动的按照类别的方式进行组织和管理,满足人们方便快捷的信息处理需求,准确定位所需信息资源。本文从分词算法,特征选择算法和文本分类算法三个方面对文本分类进行深入研究。首先,通过分析预处理中中文文本分类的特点,中文文本向量空间模型表示法,和两种机械的分词方法,在算法的词典结构、算法的匹配方式、算法对歧义词的处理策略和算法识别未登录词的策略上改进了分词方法,并进行了实验验证。其次,在文本预处理的基础上,为了进一步提高特征项对类别的区分能力,本文分析了基于绝对比例区分(CPD)的特征选择算法,分别在特征项的频度和特征项的冗余两个方面进行改进,提出了改进的CPD特征选择算法,并通过实验进行比较验证。最后,通过分析传统的K最近邻(KNN)分类算法具有计算量巨大和当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降的两点不足,提出了改进的KNN文本分类算法,并在中文文本分类语料库--TanCorpV1.0和搜狐互联网网页语料库两种数据集上,通过实验与传统的KNN算法进行比较验证。
其他文献
随着科技的飞速发展,传统抄表技术已不再适合当今物业管理的需要,传统抄表技术存在着很多不利因素,无线自动抄表技术与其相比具有不入户、管理费用低、快速以及避免误抄、错
断路器在线监测与故障诊断系统对电网安全运行具有重要意义。为确保断路器故障诊断系统能得出准确、可靠的结论,分析了断路器常见故障,提出了监测项目及相应的方法。分析了断
随着经济全球化和知识经济时代的到来,全球的高新技术企业得到了迅速发展,高新技术企业已成为各国经济增长的重要推动器。高新技术企业具有不同于传统企业的成长模式和发展特
随着经济的快速发展,各种个人消费贷款的规模迅速扩大。在消费信贷热不断升温的形势下,各商业银行均把发展消费贷款作为未来发展战略的重要组成部分。但是目前商业银行对消费
以碳化硅(SiC)、硅铁(FeSi)粉、硅(Si)粉为主要原料,在氮气气氛下1 380℃保温5 h制得氮化硅结合碳化硅制品,研究了硅铁粉加入量对试样常温力学性能的影响。结果表明:硅铁粉引
为了解矩形通道内的流动及换热特性,本文采用数值方法,研究了不同计算模型、当量直径以及入口条件下,矩形小通道及微通道内流体的流动和换热规律。首先,论文对0.6×0.8×300m
近年来,软件即服务(SaaS)在中国的软件市场掀起了一股新的浪潮,软件服务化的趋势得到了业界的广泛认可。SaaS与传统的信息产品和信息服务有着一定的共性,同时由于时代背景、
随着3G的普及,人们可以享受到更高的手机网络带宽和更加优质的服务。新兴的3G业务,使人们享受高品质的网络视频成为可能。手机视频会议系统应运而生,它可以让人们通过手机随
依据资本成本理论、可持续增长理论和股利理论,本文对资本成本、可持续增长率和分红比例的相关机理进行分析,构建了“可持续分红比例(SPOR)"估算模型(SPORM)。其基本理念在于