XBRL层次结构与财务信息数据挖掘

来源 :会计之友 | 被引量 : 0次 | 上传用户:dinosonic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】 XBRL是XML在商业报告领域的规范化,发展步伐迅猛。XBRL吸收了XML的结构层次特点,并有其独特的地方。它通过分层机制,有利于把握商业事实内在语义,便于计算机理解,促进了财务信息数据挖掘。
  【关键词】 XBRL; XML; 层次结构; 数据挖掘
  
  XBRL(eXtensible Business Reporting Language,可扩展商业报告语言)是用于企业财务数据电子交流的语言,是一种基于XML语言的实现(准确的说是规范化)。上世纪90年代末美国首先提出XBRL理论,很快为实务界所采纳,短短几年之内,XBRL得到超乎寻常的发展。在XBRL国际组织(xbrl.org)的推动下,目前XBRL在全球范围内已经被大多数会计师事务所、贸易机构、软件开发商、金融机构、投资者以及政府机构采用。
  现在对XBRL的研究普遍存在仅从技术上理解的倾向,但其实际情况并非如此。XBRL的广泛传播并不是仅仅是由于技术规范的成熟和标准的整齐划一,更重要的是因为它对于现实生活中商业行为的深刻理解和语义层面的把握,才使得不同语法形式下(外在表现为异质平台)信息共享成为可能,极大地促进了财务信息数据挖掘的进行,满足了决策者对有用信息和知识的需求。本文将探讨XBRL的层次结构特点,以说明为何它能有效地把握语义信息及由此而产生的数据挖掘问题。
  
  一、XML层次结构与计算机理解
  
  XBRL是XML在商业报告领域的应用。XML是一种面向计算机的使用元数据标识信息的标准化结构;XBRL则给出了元数据的一个规范化,并简单定义了财务报告文档信息标记的语义关系。
  XBRL,或者说XML之所以要采用层次结构的方式,是因为人和计算机对事物的理解,都是分层的。
  笔者采用自然语言描述这样一个事实——“红星股份有限公司2006年年报总资产是1 000万元”,我们理解这一语句的过程大致分为这么几步:分析语句语法结构为“<主语名词词组>(<‘是’><数量词宾语>=”,此语法结构对应的语义解释规则为“(等值于)(个体—>属性,数量值)”,据此语句解释为“(等值于)(红星股份有限公司—>总资产,1 000万元)”;至此解释并没有完成,而只是把对象语言的自然语言形式转化为了元语言的逻辑函数形式,对对象语言的理解也转化为了对逻辑函数的理解。要理解这一逻辑函数项,需要解释等值关系、年报总资产等语义要素的含义,对这些要素的理解又需要诉诸于更上一层的元语言。由此每一层次的语言都需要在更上一层的元语言中实现语义解释。当然,如此反复将导致无限循环,可能存在语义解释系统都以一定的假设(尤其是对某些形而上命题的假设,亦即本体论)为起点。以W3C总监Tim Berners-Lee在XML2000年会上提出的语义Web为例,其意义解释层次结构如图1所示。
  这一层次结构中,只有XML层、RDF层、Ontology层、Logic层是为语言解释而设计的,这四个层次本身还可以进一步划分。XML文档描述的是信息内容,NS定义了信息内容的访问地址标识,XML Schema则规定了文档的语法格式;RDF提供了标准的元数据语义描述规范;而本体论(ontology)在RDFs基础上定义了领域共享概念的形式化显式说明,Ontology一般分为顶层本体、领域本体、任务本体、应用本体;逻辑层则(Logic)提供了基于本体进行逻辑推理的规则,它目前有SWRL(Semantic Web Rule Language)与ORL(OWL Rule Language)两个提案,未形成标准。
  相比HTML及PDF的会计信息表述形式,XML的优势在于可标识信息的语义项,这种标识是对计算机而言的。以“投资收益1 000万元”为例,PDF与HTML等方式只是通过网络传递人类能通过视觉系统将其中的信息项“投资收益”与值项“1 000”相对应起来的、显示在屏幕上或打印到纸上的“电子图纸”;而在XML里,我们可以通过标签来唯一地标识信息项,如1000表示投资收益1 000万元,计算机可以轻松地通过查找各上市公司发布财务报表的固定网址上的标签来获得各上市公司投资收益。而对PDF与HTML文档,计算机只能将整篇的文档汇总到一起供我们集中阅读。
  
  
  XML的思想精髓在于分层,实现“信息显示与信息内容相分离”、“信息内容与信息语法格式相分离”、“语法格式与语义规则相分离”、“语义规则与本体论相分离”。分层机制将语义解释转化为了对树形结构文档的解读问题,这使得计算机能够使用一个相似的递归算法来实现,大大降低了工程实践的难度,也从实践的角度佐证了语义解释亦是递归计算。不过不能因此而认为树形结构的XML文件就完整地表示了信息语义关系,XML不过是信息的语法形式,尽管语义解释的元语言语句也可以是XML(事实上Schema、RDF、OWL都采用树形文档结构),但逻辑上两者处于不同层次上。
  狭义地讲,计算机对XML的理解是根据Schema文档定义的语法要素(element)及要素之间的组合关系(complexType)识别出XML实例文档中语法要素,并据此建立语法要素与信息内容之间的关联。但如果没有RDF、OWL、Logic层次的支持,计算机理解只可能是限定于特定语言层次上的形式化理解。从广义上看,XML是一个包含了RDF、OWL、Logic的完整体系结构,计算机理解实质上是借助于递归算法,对各层次的关系完整把握。
  
  二、XBRL的层次结构
  
  作为XML的一个应用模式,XBRL的层次结构也有其特点。可以将现有的XBRL分为三层:技术规格(specification)、分类标准(Taxonomy)和实例文档(Instance Documents)。
  技术规格,或称说明、规范,主要用于定义XBRL的各种专门术语,描述了XBRL文件的结构,详细规定了XBRL分类的标准和XBRL实例文档的语法和语义。虽然有XML元素和属性的语义上的表述,但XBRL规格是一项侧重技术的文件,目的在于定义一项符合规范的XBRL文档。
  分类标准是财务报告发布的语法格式,也部分定义了各会计报表要素的“语义关系”。如“资产=负债 所有者权益”、“主营业务收入是利润表的要素”、“Assets表达资产的概念”等等。分类标准由名为Taxonomy.xsd的XML Schema文档与相关联的五个XML链接库文件(Definition.xml,Calculation.xml, Presentation.xml,Label.xml,Reference.xml)组成,Taxonomy定义的是报表的语法形式,链接库文件定义的是报表语法要素的语义关系,其结构如图2所示。
  XML链接库文件是使用链接语言(XLink)定义的,并不局限于外在形式上标签之间的链接(HTML链接则是外在形式上的链接),而是主要用来描述信息内容标签(元数据)之间的联系。XBRL的五个链接库文件定义的是XBRL Schema文档中各标签之间的联系,属于XBRL Schema的元语言范畴。显然,XBRL并未遵循语义Web的体系结构,其语义表达功能较为简单。
  Definition链接库描述Schema文件中元素概念之间的关系,这些关系可取general-special、similar-tuples、essence
  -alias、requires-element等四种值,分别表示一般与特殊的种属关系、不同XML视图中的元组间的定义等价关系、概念间的相似关系、跟随出现关系。Calculation链接库定义了元素间的线性运算关系,具体关系式为“TO=FROM1*WEIGHT1 FROM2*WEIGHT2 …… FROM-n*WEIGHT-n”。Label链接库定义了Schema文档中的元素与XML中标记的对应关系,实现一个元素与多个标记相关联。Presentation链接库规定了元素展现的父子关系与兄弟元素的展现次序。Reference链接库建立了元素到元素涵义解释的权威参考文献链接。Label与Presentation定义的都是XBRL实例文档的展示问题,而Reference显然是为便于人类阅读者索取各元素权威解释而设计的,它们都不涉及信息项的语义关系定义;定义Schema元素语义关系的只有Definition与Calculation。
  实例文档是一个企业根据XBRL规范和XBRL分类标准做成的财务报表,它必须要同时满足分类标准的定义和规范的限制。实例文档封装了具体的商业事实(fact),根据信息的汇集程度分为条目(item)、元组(tuple)、组(groups)三个不同层次。其中,条目通常与一个数字型的事实对应;元组是事实的联合体,等同于关系数据库里的一条记录,组是实例文档的根结点,由相关联的数据项的集合构成。在不知道分类标准的情况下,实例文档没有任何意义。用户需要借助与分类标准和相应的软件才能从XBRL实例中提取所需要的数据并加以分析。
  可以看到,XBRL并没有完全遵循语义Web的规范,试图通过Definition链接库和Calculation链接库来把握财务对象的语义,这必将是不充分的。技术规格虽然也有一些专门术语语义层次上的表述,但总的来看,与XML存在的缺陷一样,XBRL缺乏本体层概念关系定义和逻辑层的计算规则定义。
  W3C也试图致力于弥补这一缺陷。2004年提出标准化的本体语言OWL就代表了这方面的努力。OWL由OWL Lite、OWL DL(Description Logics)、OWL Full三个并列的子集构成,OWL Lite用于表示只需一个分类层次和简单约束关系的形式语义关系;OWL DL用于表示需要最强表达力且需要保持计算的完备性(即所有结论可计算)与可判定性(所有计算能够在有限时间内完成)的形式语义关系;OWL Full用于需要最强表达力且无法提供计算完备性与可判定性保证的形式语义关系。其中,OWL DL也提供了完备的实例、类、属性、关系等元语言对象的表示工具。也就是说,OWL层提供了充分定义XBRL范畴概念关系的形式工具。
  若OWL能够得到充分的完善,必将为XBRL提供有力支持,弥补技术规范语义表达方面的不足。可以设想,较为理想的XBRL层次关系如图3所示。
  
  
  三、XBRL层次结构引致的财务数据挖掘
  
  数据挖掘(Data Mining,DM)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在的有用信息和知识的过程。相对于传统的数据分析,数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。
  因为信息具有强烈的时效性,一旦为所有人所知晓,信息的价值就荡然无存。在当今瞬息万变的商业环境中,竞争的主要方式是信息的竞争,传统的事后分析型的数据分析方法将被事前探索型的数据挖掘所取代。而与此同时,信息提供者之间也存在着激烈的竞争,如财务信息与非财务信息之间的竞争也日益激烈。XBRL的提出不但为财务信息提供者增加了竞争的筹码,也直接推动了财务数据挖掘的开展。
  XBRL的优势在其清晰的层次关系和语义表达能力。XBRL的层次结构在财务数据挖掘的优势表现在:
  (一)跨平台使用
  由于采用了XML的架构体系,在不同的操作系统下,如Windows、Unix和Linux等,XBRL文件无需修改就可以直接使用。在不同的应用软件中,即使所用的数据库不同,只要转换成XBRL格式,也可以实现数据的交换。跨平台使用的关键在于XBRL实现了语法格式与语义规则分层,在图3中表现为技术规范和分类标准的分层,从而使得XBRL在不同的技术实现之间没有障碍。
  (二)数据跟踪
  XBRL可以在不同的信息之间建立连接,跟踪相关的信息线索,自顶向下地考察数据源直到底层的数据,方便了对企业报告的阅读和数据分析。XBRL的技术结构使其具有良好的动态分析功能,计算机可以读懂XBRL标记的含义,而且操作员也可以很容易地从文档中获取有价值的信息。当搜索引擎找到所需的信息时,它能进一步追踪下去找到数据的最初来源及其它与该信息有关的资料。同时,完善的定义与唯一的XBRL要素使信息减少了模糊性。数据跟踪的关键则在于OWL与分类标准的分层结构,通过对OWL的深入挖掘可发现分类标准中各元素之间的内在联系,在图3中表现为OWL与分类标准的分层。
  (三)搜索快速、准确
  XBRL使用标签描述数据的含义。在进行数据搜索时,不是像HTML那样根据字面内容进行搜索,而是根据标签的语义进行定位,这样搜索引擎就能够快速、准确地找到用户所需的特定信息。同时,由于XBRL采用标签来标记数据,可以通过应用程序对搜索结果中的数据进行汇总。其效率远远高于目前互联网上的PDF、WORD和HTML等文件格式。而实现这一目标的要点在于图3中分类标准与实例文档的分层,清晰的分类有利于满足丰富实例中信息的挖掘。
  XBRL清晰的层次结构关系不但支持了数据收集和数据预处理过程,也为各种适用于不同范围与层次的数据挖掘工具提供了良好的材料。如在数据的预处理过程中,为对XBRL文档进行存储和校验,可以借助于IPEDO XML智能处理平台,利用其Schema Manager和XML Rule模块在OWL和分类标准层次上搜集相关信息,然后对XBRL实例文档进行校验。
  总之,XBRL的层次结构特点为财务数据的挖掘提供了极大的方便,这是XBRL得到广泛推崇的原动力之一。
  
  四、结论
  
  XBRL承继了XML分层的机构特征,有利于计算机对语义信息的把握和数据挖掘工具的使用,这是XBRL在短短几年的时间里得到迅猛发展的重要原因。但是,XBRL作为XML在财务方面的实现,也存在同样的缺陷,缺乏本体层次上的有力支撑。相信随着对其研究的深入开展和各领域本体构建的完善,能够弥补这方面的缺陷。●
  
  【主要参考文献】
  [1] 李雄飞,李军.数据挖掘与知识发现[M].北京:高等教育出版社,2003.
  [2] Bryan Bergeron. XBRL语言21世纪的财务报告[M]. 北京:中国人民大学出版社,2004.
  [3] Tim Berners-Lee. Semantic Web - XML2000. http:∥www.w3.org/2000/Talks/ 1206-xml2k-tbl,2000-12-06.
  [4] XBRL International. Extensible Business Reporting Language (XBRL)2.1 Specification. Http://www.xbrl.rog,2003-12-31.
其他文献
【摘 要】 以2013—2017年科技型中小企业A股上市公司的数据进行实证检验,立足于金融市场信息不对称的现实,结合科技型中小企业的特性,将高管团队社会网络、融资约束和创新投入三者纳入同一框架,从理论上探究非正式制度表现形式之一的高管团队社会网络与企业创新投入的关系,并进一步研究高管团队社会网络对企业创新投入的内在作用机制,揭开了高管团队社会网络影响企业创新投入的“黑箱”。研究结果表明:中小企业高
【摘要】主持人是电视节目的灵魂,是节目的定位和风格的集中体现。主持人的风格是否鲜明直接影响到节目的成败和传播效果,少儿节目主持人因受众群体的特殊性,对主持人的角色定位又有着特殊的要求。梳理安徽电视台少儿节目20多年的发展可以看到少儿电视节目主持人主持风格也发生了很多变化,经历了原生—模仿—提升—多元四个阶段。  【关键词】少儿节目 主持人 主持风格    少儿节目是电视节目中不可或缺的节目类型,随
【摘要】在许多新闻理论界和业界人士眼中,报业面对网络通信飞速发展带来的挑战,走“报网融合”的道路是其必然的选择。本文通过比较网络媒体与报纸信息传播方式、新闻内容生产的不同,说明仍处发展阶段的我国纸媒,虽然为了发展要迎合媒介融合大趋势,但报纸的本来任务或者说信念不曾改变,即以严肃的硬新闻、深度的分析报道占领观点市场,生产对受众来说真正有意义的新闻。  【关键词】报网融合 小众化 内容制作    一、
随着信息技术的飞速发展以及新教学理念的不断普及,学者们对智慧课堂结合具体学科的教学模式的研究不断深入。对智慧课堂的定义,国内学者评述不一。华东师范大学祝智庭教授主张借助信息技术的力量,将课堂由课内延伸到课外,由物理环境延伸到网络虚拟环境,创建具有一定智慧(如感知、推理、辅助决策)、多元评价、个性服务的学习时空环境。[1]东北师范大学钟绍春教授提出,智慧课堂应以主动、轻松愉快、高质高效和提升学生智慧
【摘 要】 如何对企业高管进行更有效的薪酬激励是公司治理领域的重要话题,相对业绩评价理论认为把相对业绩纳入到高管薪酬合约中能够实现对高管的有效激励。文章以房地产行业2007—2013年的数据为研究对象,就相对业绩评价是否在高管薪酬契约中存在进行检验。研究结果表明在以总资产收益率衡量企业业绩时,相对业绩评价在房地产企业高管薪酬合约中得到广泛使用,且这一结论通过多项稳健性检验。  【关键词】 相对业绩
近日,来自曼彻斯特大学的弗斯博士研究了16个随机对照试验的数据(共涉及45826名患者),他发现,吃高纤维、营养更丰富的食物对情绪有非常积极的影响,减少快餐和精制糖的摄入也是如此。  换句话说,吃很多快餐不仅会使你发胖,而且会使你抑郁。从弗斯博士的研究来看,这似乎对女性尤其适用。  因此,为了改善情绪,要减少食用加工食品及外卖食品、精制谷物(比如糕点),取而代之的是地中海飲食,主要包括蔬菜、深海鱼
新的研究表明,年轻的心脏干细胞可能恢复老化的心脏,甚至可能扭转其他衰老迹象。来自美国加利福尼亚州洛杉矶的雪松·西奈心脏研究所的研究人员发现,将来自于新生鼠的干细胞注射到老年鼠体内,似乎恢复了老年動物的心脏功能。  研究者认为,这一现象说明心源性细胞是可以有”重生“的。以前的实验已经显示,使用心脏干细胞输注可能治疗心力衰竭。这一新的发现说明,干细胞可能会扭转与心脏老化有关的问题。(《医学快报》)
【摘要】伴随着留学热潮的持续升温,海外文学创作文本中的留学生形象也越来越受到重视。本文试从中西文化冲突和交织背景下,留学生文学群像的心理状态入手,深入分析处于文化交流与碰撞漩涡之中的留学生形象在时代背景下折射出的人文精神嬗变和历史变化的轨迹。  【关键词】交织 冲突 母体文化 异域文化    行进到本世纪初,有关留学生题材的文学作品大量呈现在读者面前。探究这些体裁不一、形态各异的文学作品,其中不仅
通过稳定的汇率体系,美国在成为最大的工业国的同时,奠定了美元全球主导货币的地位。    中国处于工业化与城市化的关键阶段,在这样的时候,汇率不能轻易改变。  据佛里德曼《美国货币史》的研究,直到1960年,美国与黄金挂钩的汇率没有改变,除了中间为满足白银生产商的要求收购白银以外,汇率一直保持在较为平稳的水准。直到布雷顿森林体系崩溃,美元一直与黄金挂钩,只不过二战前是直接挂钩,二战后是美元与黄金直接
花语最早起源于古希腊,那个时候不止是花,叶子、果树都有一定的含义。在希腊神话里记载过爱神出生时创造了玫瑰的故事,玫瑰从那个时代就成为了爱情的代名词。  大众对于花语的接受是在19世纪左右,那时人们的观念不是很开放,并不善于用直接的语言表达情感,而花是美好的象征,人们就依照花的特性,为每种花赋予一种语言,表达一个心愿。    野蔷薇的浪漫    人工栽培的蔷薇花并不会结果,不过野蔷薇却会长出娇艳欲滴