论文部分内容阅读
高质量的统计数据是研究的基础,保障统计数据的质量,学术研究成果也能进一步得以肯定。特别是近年来,统计数据的质量成为政府和社会关注的热点问题,随着我国经济发展水平的不断提高,国际环境日趋多极化,高质量的统计数据能帮助政府及其机构制定更为合理的政策制度。学者们在统计数据质量评估方面投入了很多精力,不同的评估方法和策略被运用在数据质量检测领域,但绝大多数学者的研究对象为宏观经济数据,对微观调查数据质量的研究较少。许多部门及高校为了能够更加全面的了解社会发展的现状,推出了许多由微观调查数据组成的数据库,这些数据库被广泛地运用在社会问题的研究。但目前对微观调查数据质量的统计评估没有一套较为系统的方法,本文研究的目的在于在微观调查数据质量评估方面,提出较为通用的方法。结合相关的理论,提出衡量微观调查数据质量的三个标准:代表性、完整性和准确性。用玛叶指数法和联合国年龄-性别指数法评估微观调查数据的代表性;计算人次缺失率和变量缺失率评估其完整性;采用逻辑评估法、Benford定律、决策树模型评估其准确性。并以CFPS数据库为例进行实证分析。在以CFPS数据库为例的实证分析中,首先运用玛叶指数法和联合国年龄-性别指数法判断数据库的代表性,数据库可能存在性别偏好问题;其次利用CFPS2016家庭经济问卷部分进行完整性和准确性的评估,通过计算该部分指标的人次缺失率和变量缺失率,得到该部分数据库完整性较好,但有些需强制性回答的指标,仍有较多的缺失值,需要访员提高询问技巧,尽量减少缺失值;采用逻辑评估方法中的比较逻辑评估法检测了CFPS2016家庭经济问卷部分三组指标,三组指标不符合逻辑的个案数较少,但仍有提高的空间,当受访者出现不回答“打工收入”,但回答“打工寄回家金额”情况时,不符合逻辑个案数最多,在之后的调查中,访员便可有针对性地改进;最后利用Benford定律及相关的检验方法,选出最有可能存在数据质量问题的指标,通过分析,该指标为“现金及存款总额”,利用距离检测的方法将该指标分为异常样本和正常样本两部分,分别采用决策树中的C5.0算法和CART算法进行建模分析,发现C5.0算法的决策树能较好地分类预测,可以通过该模型找到异常个体,以便后续研究。本文提供了评估微观调查数据质量的思路,利用该思路对CFPS数据库的质量进行了评估,进一步验证了该思路和可操作性和普遍适用性。但本思路仍不完善,存在不足之处需要改进,但仍为微观调查数据质量的统计评估提供了具有参考价值的新思路。