论文部分内容阅读
随着数据挖掘技术的广泛应用,通过数据挖掘等方法发现隐藏在大量业务数据背后的知识,将这些知识应用于决策支撑、商品营销等多个场景,可以为政府工作带来很多便利、为企业带来更多营收。利用数据挖掘技术针对税务数据进行企业欠税预测研究可以保障国家税收收入,同时为税务稽查部门带来很多便利。本文以某省地税局提供的税额征收记录以及企业注册信息为基础开展税源欠税研究,首先分析了税务记录的数据特点,如各字段的含义以及字段之间的关联,并据此制定了对应的过滤策略。为研究企业纳税行为与宏观经济及所在地区的关系,本文基于征收记录以及税务部门提供的数据字典建立事实表和维度表,从而建立数据仓库进行多维主题分析。通过多维主题分析发现,企业纳税税额及欠税行为与行业发展、所在地区存在一定的时间关联性,因此本文统计企业的税务数据包括每个企业每月的缴税数据、企业所在行业每月的缴税数据、企业所在区域每月的缴税数据作为判断企业是否欠税的一类决策特征,同时建立基于投资人、法人等关联人的企业网络,统计企业所关联企业每月的缴税情况作为描述企业营收情况的一类特征。为保障国家税收收入,本文根据企业之前一段时间的缴税信息预测下一个月企业是否欠税开展企业欠税的预测研究,采用基于数据挖掘的分类预测思想,通过统计观测时间窗口内的企业缴税信息、企业所在行业以及地域的缴税信息、企业关联企业的缴税信息作为特征,选择分类算法生成分类预测模型,预测下一个月是否会发生欠税行为。本文通过选择不同的实验数据集、属性筛选前后、设置不同的观测时间窗口数以及选择不同的分类算法对本文的分类预测模型的性能进行对比实验。实验结果表明:基于决策树的Random Forest分类算法的性能最优,分类模型的准确率、召回率、F值均可高达90%,企业欠税是可以通过企业之前一段时间的缴税情况以及所在行业、区域的缴税情况进行预测的,本文所提出的特征构建方法具有较强的适应性。