【摘 要】
:
数据挖掘作为一种跨领域的知识和技术应用已得到了大幅扩张。然而,尽管数据挖掘技术在解决复杂问题的过程中已被广泛使用,但是对于应用的适宜性、解决具体问题时选择最好的数据挖掘方法、以及归属选择方法等方面并没有形成共识。此外,由于各个学科中数据性质的急速变化,数据挖掘方法也需要不断调整以应对这些不断发生的变化。在本文中,我们的主要重点在于使用数据挖掘模型并检验其在财务报表欺诈检测中的适用性。财务报表欺诈检
论文部分内容阅读
数据挖掘作为一种跨领域的知识和技术应用已得到了大幅扩张。然而,尽管数据挖掘技术在解决复杂问题的过程中已被广泛使用,但是对于应用的适宜性、解决具体问题时选择最好的数据挖掘方法、以及归属选择方法等方面并没有形成共识。此外,由于各个学科中数据性质的急速变化,数据挖掘方法也需要不断调整以应对这些不断发生的变化。在本文中,我们的主要重点在于使用数据挖掘模型并检验其在财务报表欺诈检测中的适用性。财务报表欺诈检测问题在数据挖掘的情境中是十分有趣的,主要有以下几点原因:(1)由于随机样本中欺诈数据较少,导致财务数据的类别不平衡。因此,需要在运行模型之前给予足够的重视何准备。(2)财务报表中列出了许多比率和原始数据,但并非所有这些变量都对于识别欺诈性数据有用。因此,需要仔细检查这些变量并小心地引入相关变量。(3)需要研究使用最先进的数据挖掘方法,例如欺诈检测中的集成学习。在本文中,我们使用了两个截然不同的数据集,并全面开发和实现了两个跨行业数据挖掘标准流程(CRISP-DM)框架,用于检测欺诈性财务报表。我们使用了中国和美国股市的财务数据。我们将其中一个框架设置为另一个框架的基准。此外,我们设置了另一个外部基准来验证和评估本文的结果。据我们所知,该领域目前的研究文献中没有其他研究从两个不同的数据集派生的两个不同的框架进行研究。我们从电子计算机会计数据库(COMPUSTAT)中提取了中国的数据,并从会计和审计执行发布(AAER)数据库中提取了美国的数据。同时,美国证券交易委员会(SEC)数据库也用于获取真实的欺诈数据。为了解决数据冗余问题,我们使用了四种特征选择方法,其中三种是最新技术,另一种是经典模型。我们还通过提出了一种结合遗传算法和模糊逻辑的新特征选择模型来拓展现有的文献。财务数据天生就有类别失衡的特点,致使这一结果的原因在于数据集中很少出现欺诈数据。为了解决这个问题,我们在第一个框架中采用了综合少数过采样技术(SMOTE),并在另一个框架中使用了 RUSBoost作为分类器。RUSBoost既有采样过采样的优点,也有采样不足的优点。在第一个框架中,我们首先使用基于聚类的分类器进行初步的数据分类。然后,我们根据准确率和召回率对五种基于监管的分类器的成功率进行了测试。为了模拟第一个框架在现实世界中的真实场景,我们建立了实验样本,包括不同比例的欺诈、非欺诈和可疑数据,并形成了不同规模的测试样本。本文研究的第二个参照是Bao的最新研究,它使用原始数据而不是财务比率,并使用全体数据代替经典分类器来测试模型的有效性。我们还使用原始的财务数据、集成学习和相同的性能指标来建立标准的基础进行比较。此外,我们通过引入另一个称为“执行时间”的性能指标来扩展现有文献。在第一个框架中,我们发现多层前馈神经网络模型(MFFNN)比其他经典模型有更高的成功率。基于此,我们将MFFNN分类器作为本文的主要基准。本文通过对14个财务比率和28个原始财务数据进行比较,发现拥有财务比率的理论支持并不一定会导致这些比率在欺诈检测方面比原始数据更稳健。我们还发现,变量数量的增加并不一定会提高分类器的成功率,甚至可能会恶化分类器的结果。此外,我们还发现,虽然五种特征选择模型得到的结果大致相同,但在不影响分类器成功率的情况下,Wilcoxon模型在选择使用最少变量的情况下被证明是最好的模型。我们提出的特征选择模型具有相似的分类成功率和较短的运行时间。在相同的基准下,我们发现28个变量中至少有7个可以省略。我们的研究通过以下方式为数据挖掘文献做出了贡献:(1)本文使用两个不同的数据集对财务报表欺诈检测开发了两个不同的数据挖掘框架;(2)测试了广泛使用的经典分类和一个最先进的分类器,并对其进行了全面的比较分析;(3)使用一个创新模型和4个现有模型解决特征选择的问题;(4)引入一个新的性能指标来识别“实时”分类器。本文还提出了一些FSF检测的理论和实践贡献。此外,本文通过增加一个名为“异常模式”的新维度来扩展欺诈钻石理论。本文的实证研究结果支持了这一新的维度。
其他文献
α-位取代的手性内酯结构是microtermolides B,virginiae butanolides和salprzelactone等多类天然产物和药物活性分子的核心骨架,因此是十分重要的合成目标。从逆合成分析不难看出,内酯化合物羰基α-位的直接不对称官能化是合成手性α-取代内酯的理想方法。然而,内酯羰基的α-位质子酸性较低,导致其在温和条件下难以烯醇化;此外,内酯在亲核反应条件下存在开环的可能
Mn4+离子掺杂的红色氟化物荧光粉具有优异的光学特性,其在467 nm处的蓝光区域具有的宽吸收能与Ga N芯片的蓝光波长相匹配,而且Mn4+离子在红光区域630 nm左右具有的尖锐红光发射峰能够提高白光LED显色性能,得到高显色指数的暖白光。但是,对于利用室温合成法制备的Mn4+离子掺杂氟化物发光材料,其基质晶体结构大多是对称性比较高的,对于低对称性的复合氟化物研究还比较少,因此本文通过在室温条件
燃料电池作为清洁能源转换装置受到广泛关注,其阴极反应(氧气还原反应)需要高活性的催化剂来改善反应动力学。虽然Pt具有很高的催化活性,但是其抗毒性和耐久性有待提高,且Pt在成本上没有竞争力。因此,在降低Pt催化剂成本的同时提升其催化性能、抗毒性、稳定性就尤为重要。鉴于此,本论文利用Mo元素与贵金属(Pt、Pd)形成合金,一方面降低Pt的利用率进而降低催化剂成本;另一方面,利用Mo元素调整贵金属的电子
细胞膜将细胞内空间和细胞外环境相分隔。由于亲水代谢物和疏水细胞膜的结构不相容,离子或分子无法通过细胞膜进行扩散,离子通道可以作为一种载体来促进它们的跨膜运输行为。离子通道是一种由蛋白质形成的小孔,可以根据外界刺激如p H、离子强度、含水量因素等调节离子从细胞膜一侧流向另一侧。人工纳米孔/纳米孔道是生物离子通道的一种仿生产物,因其具有良好的力学性能和可控的化学性质,从而可实现更广阔的应用研究。人工纳
信息技术的发展改变了传统的大众传播方式,消息传播和意见交互从现实世界迁移到虚拟空间中,个体通过社交媒体以点对点的方式传递消息、意见,由此推动了传播学、管理学、计算机等学科相关研究的深度融合。由于社交媒体实现方式的多样性、参与者的广泛性、传播渠道的复杂性,所以社交媒体上消息传播和意见演化过程中易呈现出突发性、裂变性及复杂性等特点。这要求政府相关部门和学者专家们面对社交媒体上海量的数据信息,科学的把握
近十年来,越来越多的企业开始披露社会责任信息,以社会责任报告为主要载体的企业社会责任信息披露不仅成为企业向市场发送信号的重要方式,也成为外界了解和投资企业的重要途径,在此背景下,企业社会责任信息披露能否影响企业经济绩效逐渐成为各方关注的重要问题,但是,从上个世纪70年代以来,尽管学者们对企业社会责任信息披露与企业经济绩效关系进行了不间断的研究,众多实证研究却始终没有一致的结论。当下,中国正在推进注
多孔碳是一种重要的硫宿主材料,其结构与性质调控对锂硫电池性能优化起着关键作用。目前,设计合成高导电性、孔结构丰富的多孔碳大多采用模板法、生物质活化等方法,但因其制备中存在条件不可控、费时费力等不利因素,限制了其广泛应用。针对以上问题,本论文提供一种绿色、简便、无模板的方法合成超薄碳纳米片和泡沫状多孔碳,巧妙利用小分子调控纳米片厚度、孔结构和杂原子掺杂含量,避免了传统模板法或环境不友好试剂等缺陷,获
目的 建立一种基于微波萃取的前处理方法,结合液相色谱-电感耦合等离子体质谱法(LC-ICPMS),准确测定婴幼儿米粉中砷甜菜碱(AsB)、亚砷酸根(As(Ⅲ))、二甲基砷酸(DMA)、一甲基砷酸(MMA)和砷酸根(As(Ⅴ))5种砷形态的方法。方法 婴幼儿米粉样品采用1%HNO3作为提取溶液,在90℃条件下微波萃取60 min,提取液离心过膜后,用LC-ICPMS方法进行定量分析。结果 建立的5种
本文以硝基苯酚、二溴甲烷、1,4-二溴丁烷、1,10-二溴癸烷为原料,通过威廉姆逊反应和硝基还原反应,合成了二胺化合物。利用二胺化合物与2,3-二羟基苯甲醛、2-羟基-3-甲氧基苯甲醛反应,合成了五个新的席夫碱配体。以上五个席夫碱配体具有配位点丰富的特点。对以上合成的配体进行了核磁共振氢谱,碳谱的表征。在回流条件下,利用合成的席夫碱配体与过渡金属盐进行反应,成功合成了6个系列的13种含稀土金属配合
锂硫(Li-S)电池具有高的理论比容量和能量密度,被认为最有潜力的新型二次电池之一。但是,目前其实用化尚存在诸多难以解决的问题,这主要包括硫的电导率低、硫还原过程中体积的膨胀以及多硫化锂(Li PSs)的穿梭效应。针对这些挑战,本文提出在Li-S电池的正极与传统隔膜之间设计一层全新的插层膜,用于加速Li PSs的转化,抑制Li PSs的穿梭效应。论文的主要研究内容如下:(1)通过铜离子催化偶联反应