基于模糊粗糙集的Web文本分类研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户：evemxy

【摘要】

：

随着计算机与网络技术的快速发展,网络已成为人们存储和获取信息的主要媒介,用户在享受便捷的同时,也饱受网络信息资源大、获取信息难的困扰。文本分类技术可以快速定位有用

【作者】

：

孙海虹

【机构】

：

哈尔滨理工大学

【出处】

：

哈尔滨理工大学

【发表日期】

：

2010年期

【关键词】

：

机器学习模糊粗糙集 Web文本分类属性约简

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机与网络技术的快速发展,网络已成为人们存储和获取信息的主要媒介,用户在享受便捷的同时,也饱受网络信息资源大、获取信息难的困扰。文本分类技术可以快速定位有用信息,帮助用户快速高效地获取知识。模糊粗糙集是一种处理不确定性问题的新方法,它在文本自动分类领域的应用,很好地解决了粗糙集处理离散化过程中的信息损失问题,从而使信息约简和文本分类具有更高的准确性。本文在系统地学习和研究模糊粗糙集理论与国内外相关文献的基础上,分析了当前主流文本自动类算法的缺点和不足,引入了一种基于模糊粗糙集的文本分类方法。首先,对从网络上采集到的Web文本进行预处理,用向量空间模型表示去噪后的Web文本,通过分析向量空间模型中的文档,筛选生成特征属性空间,并计算每个特征属性的权重;其次,引入粗糙集方法约简特征属性,对于每一个类别生成与之对应的最简属性集合,所有类别的最简属性集合生成了文本分类规则,对于每一类的最简属性集合,包含了每个属性属于该类的隶属度,这些最简属性集合是模糊集;第三,提出了一种基于模糊粗糙集的文本分类算法,对未经预处理的Web文本直接进行特征属性匹配,根据生成的分类规则,计算该文本与每个类别间的模糊粗糙贴似度,并选择贴似度最大的分类作为该文本所属类别;最后,通过实验对该算法进行测试,确定了特征属性空间维度与分类文档数量这两个参数,使算法的分类性能达到相对最优,并与传统分类算法进行了比较。通过分析实验结果得出,基于模糊粗糙集的文本分类算法与传统的KNN算法和SVM算法相比,在分类速度和分类精度指标都有显著的提高。

其他文献

“清热利胆方”对原发性肝癌TACE联合MWA术后免疫细胞及炎症递质水平的影响r——附42例临床资料

目的:探讨自拟清热利胆方对原发性肝癌(PLC)行肝动脉化疗栓塞(TACE)联合经皮微波消融(MWA)术后炎症递质及免疫细胞水平的影响.方法:将90例接受TACE联合MWA术治疗的PLC患者随

期刊

原发性肝癌治疗性栓塞微波消融术清热利胆方自拟方炎症细胞因子T淋巴细胞亚群

汪受传运用麻黄杏仁甘草石膏汤化裁治疗儿科肺系疾病验案4则

汪受传教授是全国名中医,从事儿科临床、教学、研究工作50载,学验俱丰,造诣深厚,临证用药,疗效显著.麻黄杏仁甘草石膏汤出自《伤寒论》,相关记载有两条,即63条“发汗后,不可

期刊

肺系疾病麻黄杏仁甘草石膏汤验案名医经验汪受传

好点子需要落到实处

2008年1月1号辽宁电视台更换了新的台标,推出了全新改版的栏目,也对机构设置做出了较大的调整。与策划工作相关的主要有两大中心:经营发展中心与节目宣传管理中心。节目策划

期刊

节目宣传辽宁电视台策划部广告策划机构设置电视台节目传播中心经营部门宣传管理深度沟通

肠道菌群与疾病探析

肠道正常微生物在平衡人体健康和疾病的过程中起着重要作用,因此研究人的肠道菌群具有十分重要的意义和作用.本文探讨了肠道菌群对人体健康的影响以及调整肠道菌群失调的措施

期刊

肠道菌群疾病失调措施

曾学文“气血水厥理论”辨治急性心肌梗死验案1则

曾学文,全国名老中医药专家学术经验继承工作指导老师.曾老临证以中医理论为本,西医技能为用,中西医结合,坚持动态整体观和辨证论治,在中西医结合诊治心系疾病方面颇有建树.

期刊

心肌梗死中医药疗法验案名医经验曾学文

基于权重边集比较法的XML语义聚类研究

XML(eXtensible Markup Language)即可扩展的标记语言,由于具有简单、可扩展、互操作性强、开放性强等特点,正迅速成为一种与技术无关的数据交换的标准和传输格式。与HTML相

学位

数据挖掘XML聚类边集比较算法语义相似性

王文友应用“柴胡三仁汤”加减治疗杂病验案4则

王文友教授是全国名老中医药专家学术经验继承工作指导老师,全国名老中医药专家传承工作室专家,首都国医名师,仲景书院“仲景国医导师”,师承于伤寒大家陈慎吾,从医60余载,注

期刊

慢性扁桃体炎慢性浅表性胃炎偏头痛遗精柴胡三仁汤验案名医经验王文友

浅析如何提高复习课效率

本文主要从复习内容、复习策略、复习模式三个维度探讨了提高复习课效率,结合复习课的特点并针对学生在复习时应注意的问题,提出了几点措施建议,以期对教学工作者有所帮助。

期刊

复习效率策略

基于非线性ε-过滤器组的人脸美化算法的研究与改进

当今社会中,越来越多的用到多媒体系统,例如数码相机,手机,视频会议等,它们的共同点就是可以显示人脸。由于人们审美观念的不断提高,对显示图像的质量要求也随之越来越高,虽

学位

人脸检测人脸美化ε-过滤器组图像边缘增强

面向震害应急的数据集成与可视化技术研究

随着城市化进程的加速，破坏性地震灾害对人类社会的影响越来越严重。近年来日益增多的地震灾害，更是引起了各国政府及社会相关组织的密切关注。世界上很多国家都建立了相应的应

学位

震害应急指挥系统数据集成地形地物融合可视化技术

基于模糊粗糙集的Web文本分类研究

其他学术论文