机器学习方法在上市公司财务舞弊预测问题中的应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:Waaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
上市公司公开发布的财务报表是使投资者了解其公司规模、经营状况、盈利潜力等综合水平并做出相关投资决策的最主要依据。过去人们认为,数据是最具有说服力的,而且如果财务报表中的数据出了差错,很容易通过较为简单的计算来发现,因而对财务报表给予了极大的信任。然而,随着市场经济的开放和现代技术手段的发展,一些上市公司为牟取私利而对财务报表进行舞弊,且舞弊手段日渐隐蔽,有时很难被及时发现,其潜在危害十分巨大。因此,亟需有效的方法来预测财务舞弊。本文旨在通过建立数学模型,针对上市公司公布的某年度财务报表数据进行分析,根据模型预测结果判断其是否存在舞弊现象。通过查阅近年来的相关文献发现,国外对财务报表的研究主要关注公司破产和公司财务危机等问题,国内研究主要关注上市公司是否会被特别处理(ST)及其是否会出现财务困境,而对财务舞弊预测的相关研究较少,因此本文对财务舞弊预测进行一定的研究和分析是很有意义的。本文将机器学习方法应用到财务舞弊的预测中。机器学习既可以自上而下的验证或反驳假设,又可以自下而上的从数据中得出无假设的结论。因此,本文采用机器学习方法分别建立了三种模型:Logistic回归模型,支持向量机(SVM)模型,以及随机森林(RF)模型。Logistic回归模型在发现隐藏的数据信息方面应用广泛,以往的研究也证明其具有良好的效果,本文以此为基础进行讨论,并对模型做出了一些改进。由于财务报表是否舞弊是一个典型的分类问题,因此采用机器学习中分类和预测更加准确的算法可能会取得更好的效果。由于获取的样本量有限,而样本维数较高,并且恰为经典的二分类问题,于是处理具有这些特性数据的支持向量机模型成为了一个很好的选择。随即,由二分类自然地联想到二叉树,从而对各个决策树分类器拟合集成效果较好的随机森林模型也成为了本文的选择。由于财务报表舞弊手段存在变化,模型若能随着时间的推移添加或删除变量以及自动选择变量,则能够更加有效地识别上市公司进行舞弊的财务报表。因此,对于每个模型,本文都利用交叉验证对参数进行选择,从而对模型进行了优化。根据2013-2018年间在证监会及其下属证监局官方网站上公布的被公开行政处罚的公司名单,本文收集了舞弊公司在不同舞弊年度的财务报表数据及相应年度非舞弊上市公司的财务报表数据。所获取数据中的一部分用来建立模型,另一部分用来检测模型。由于舞弊公司在上市公司总体中的数量相对较少,本文采用不同的数据处理方法,分别建立了非平衡数据加权模型、过采样模型和欠采样模型。对于模型效果的判断,本文选取了五个指标来进行分析。结果表明,欠采样方法下的支持向量机模型的查全率最高,而欠采样方法下的随机森林模型在其他指标上表现更好,因此本文建议在基于支持向量机模型对公司是否舞弊进行预测时,结合随机森林模型进行综合考虑。最后,对模型的应用进行拓展,用模型选择出舞弊概率较大的公司,并将其从股票池中剔除,回测结果表明投资组合的收益将得到提高,表明本文的研究具有很好的应用价值。
其他文献
近年来,南通市通州区内陆一些镇村的南美白对虾养殖生产发展迅猛,养殖方式和养殖模式也多种多样,常见的有单体小跨度土池温棚多茬养殖和室外池塘单茬养殖。单体小跨度土池温
期刊
热浸镀锌钢板表面粗糙度、无铬耐指纹钝化后锌层的均匀性及锌渣等表面状况直接影响着镀锌钢板漆膜层的各项性能;热浸镀锌钢板表面的粗糙度对钝化膜的性能有影响,进而影响耐指纹
目的骨形成蛋白4(bone morphogenetic protein 4,BMP4)可诱导大鼠H9C2心肌细胞肥大,为进一步寻求其调控机制,文中探讨细胞自噬在心肌肥大中的作用及其与细胞外信号调节激酶(extr
稻米品质除了受品种特性、栽培环境等因子的影响外,还受到加工条件,尤其是碾米条件的影响。目前国内米质实验室用的碾米机的种类和型号繁多,有的碾米机还有不同的压力档次。
酪蛋白为牛乳中主要的蛋白形式,不仅能为生物体生长发育提供必需的氨基酸,而且酶解后可得到一系列具有重要生理功能的生物活性肽,抗凝血肽就是其中一种,毒副作用小、抗凝血效果明
轮作是一项经济和有效的控制土传病害的措施。为进一步明确轮作作用机理,采用磷脂脂肪酸(phospholipidfattyacid,PLFA)谱图分析技术,分析了不同种植模式田块土壤微生物的PLFA构成
研究了五种催化剂在全芳族液晶聚酯合成过程中的催化效应以及对转化率的影响。通过反应动力学数据求得催化反应速率常数、反应活化能,确定催化剂存在下的全芳聚酯多元共缩聚反
罗布麻是一种抗逆性强、适应性广、耐盐碱的野生优良水土保持植物,具有很高的药用价值、纤维价值和生态价值,是干旱、盐碱、沙漠地区最具开发潜力和利用价值的植物品种之一。文
定中结构是汉语和俄语中常见的语法结构之一,使用频率高,语义关系多样,无论是在口语还是在书面语中,丰富的定语的使用都会使语言表达更加准确、生动、形象。结合对外汉语教学
为了研究沙棘黄酮对AA肉仔鸡胴体和肉品质的影响,选择1日龄健康AA肉仔鸡360羽,采用单因子试验设计,随机分为3个处理组,每组4个重复,每个重复30只,分别为基础饲粮组、0.1%沙棘