【摘 要】
:
针对基于关联规则的分类方法在分类时仅考虑规则的置信度并使用规则修剪技术,导致分类器的分类精度难以进一步提高的问题,提出了一种基于类别相似度聚合的关联文本分类方法.
【机 构】
:
西安交通大学电子与信息工程学院,西安交通大学陕西省计算机网络重点实验室,西安财经学院信息学院
【基金项目】
:
国家自然科学基金资助项目(60873071,61172090);国家高技术研究发展计划重大专项资助项目(2012ZX03002001-004)
论文部分内容阅读
针对基于关联规则的分类方法在分类时仅考虑规则的置信度并使用规则修剪技术,导致分类器的分类精度难以进一步提高的问题,提出了一种基于类别相似度聚合的关联文本分类方法.该方法采用修改的χ2统计技术提取各类别的特征词;为保证规则匹配的精度和速度,使用CR-tree存储分类规则,并给出了CR-tree的构建与匹配算法;采用向量内积来计算文本类别分量与类别标志向量的相似度,进而使用规则置信度和类别相似度的聚合值作为文本分类的依据.基于实际网络文本的实验表明,该方法仅需提取30个特征词,分类结果的微平均值即可达到92.42%,优于未经剪枝的ARC-BC分类器及KNN、Bayes分类器;在分类耗时方面,该方法与未经剪枝的ARC-BC分类器持平,表明该方法引入的相似度与聚合值的计算开销在可接受的范围内.
其他文献
<正>吉州窑位于现在的江西吉安。确切地说,宋时地属吉州,是在当时的吉安府庐陵县的永和镇。由于永和窑是吉州当时最大的窑场,为区别于周边的小窑场,故习惯上又把吉州窑称为永
将车辆荷载的接地形状简化为矩形,将柔性路面视作多层粘弹性半空间体,并考虑路基材料对应变幅的依赖性,采用修正的平面应变模型,用传递矩阵配拉氏变换和傅立叶变换法,对移动
后殖民语境下的翻译具有重塑第三世界文化身份的使命。巴西食人主义翻译强调"吃透"原文,进行创造性翻译,将外来文化融入本土的文化模式。对第三世界的文化解殖民有着十分重要
建立采用固相萃取—高效液相色谱法同时测定肉制品中9种N-亚硝基化合物的方法。以甲醇为提取剂,60℃条件下超声提取,经CNWBOND HC-C18固相萃取柱净化后,采用AQ-C18色谱柱分析
研究网络视角下的应急情报体系"智慧"建设主题就是要探究网络科学与智能应急信息管理的结合点。文章在对社会语义网、事件链和信息流进行特点分析的基础上,依次论述了它们的
<正> 人民法院诉讼档案的管理、利用是法院档案工作的一个重要方面。新中国成立后的四十多年来,全国法院刑、民两大类案卷的管理工作已形成了以当事人姓氏笔划检索为主的一整
本文研究了从等外品咖啡豆提取水溶性食品抗氧化剂。该天然抗氧化剂是多组分的混合物,其抗氧化成分力咖啡酸、绿原酸和多种氨基酸。它的抗氧化性能良好,食用安全,有希望成为
大课间体育活动贯穿着大课间这段美好的黄金时间,它提高了学生的身体素质,给学生带来不少的欢乐。随着时间的推移,我们也发现了一些问题,如项目的单调、组织的僵化导致学生产
在等效热降理论的基础上,提出2个新的分析参量──抽汽热流与抽汽热流系数,使得实际循环内功和循环吸热量的计算公式具有同一形式,且公式的物理意义明确,并由此导得热力系统定量分
突发事件发生后网络谣言的产生和传播会对后续的救援和调查工作产生严重的阻碍,因此权威机构辟谣的效果对突发事件的有效解决具有重大意义。以2015年上海外滩踩踏事件中相关