基于模糊粗糙集的Web文本分类研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:evemxy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机与网络技术的快速发展,网络已成为人们存储和获取信息的主要媒介,用户在享受便捷的同时,也饱受网络信息资源大、获取信息难的困扰。文本分类技术可以快速定位有用信息,帮助用户快速高效地获取知识。模糊粗糙集是一种处理不确定性问题的新方法,它在文本自动分类领域的应用,很好地解决了粗糙集处理离散化过程中的信息损失问题,从而使信息约简和文本分类具有更高的准确性。本文在系统地学习和研究模糊粗糙集理论与国内外相关文献的基础上,分析了当前主流文本自动类算法的缺点和不足,引入了一种基于模糊粗糙集的文本分类方法。首先,对从网络上采集到的Web文本进行预处理,用向量空间模型表示去噪后的Web文本,通过分析向量空间模型中的文档,筛选生成特征属性空间,并计算每个特征属性的权重;其次,引入粗糙集方法约简特征属性,对于每一个类别生成与之对应的最简属性集合,所有类别的最简属性集合生成了文本分类规则,对于每一类的最简属性集合,包含了每个属性属于该类的隶属度,这些最简属性集合是模糊集;第三,提出了一种基于模糊粗糙集的文本分类算法,对未经预处理的Web文本直接进行特征属性匹配,根据生成的分类规则,计算该文本与每个类别间的模糊粗糙贴似度,并选择贴似度最大的分类作为该文本所属类别;最后,通过实验对该算法进行测试,确定了特征属性空间维度与分类文档数量这两个参数,使算法的分类性能达到相对最优,并与传统分类算法进行了比较。通过分析实验结果得出,基于模糊粗糙集的文本分类算法与传统的KNN算法和SVM算法相比,在分类速度和分类精度指标都有显著的提高。
其他文献
目的:探讨自拟清热利胆方对原发性肝癌(PLC)行肝动脉化疗栓塞(TACE)联合经皮微波消融(MWA)术后炎症递质及免疫细胞水平的影响.方法:将90例接受TACE联合MWA术治疗的PLC患者随
汪受传教授是全国名中医,从事儿科临床、教学、研究工作50载,学验俱丰,造诣深厚,临证用药,疗效显著.麻黄杏仁甘草石膏汤出自《伤寒论》,相关记载有两条,即63条“发汗后,不可
曾学文,全国名老中医药专家学术经验继承工作指导老师.曾老临证以中医理论为本,西医技能为用,中西医结合,坚持动态整体观和辨证论治,在中西医结合诊治心系疾病方面颇有建树.
XML(eXtensible Markup Language)即可扩展的标记语言,由于具有简单、可扩展、互操作性强、开放性强等特点,正迅速成为一种与技术无关的数据交换的标准和传输格式。与HTML相
王文友教授是全国名老中医药专家学术经验继承工作指导老师,全国名老中医药专家传承工作室专家,首都国医名师,仲景书院“仲景国医导师”,师承于伤寒大家陈慎吾,从医60余载,注
当今社会中,越来越多的用到多媒体系统,例如数码相机,手机,视频会议等,它们的共同点就是可以显示人脸。由于人们审美观念的不断提高,对显示图像的质量要求也随之越来越高,虽
随着城市化进程的加速,破坏性地震灾害对人类社会的影响越来越严重。近年来日益增多的地震灾害,更是引起了各国政府及社会相关组织的密切关注。世界上很多国家都建立了相应的应