论文部分内容阅读
在对基于微博的热点事件进行情感分析时,已有的特征选择算法通常根据训练集选择特征子集,容易存在统计上的偏差。针对该问题,提出一种从统计学角度考察特征可靠性的度量标准,通过考察特征项在面临随机噪声统计量时,在不同类别分布下的信息熵变化情况来评估该特征项的可靠性。采用对可靠性较低的特征量降低其权重的方式提高分类效果。实验结果表明,所提度量标准在信息增益和互信息特征选择算法中有效提升分类精度。