论文部分内容阅读
可扩展业务报告语言XBRL是XML在业务报告信息交换领域的一种应用技术,具有对财务报表进行特定的识别和解析,简化生成财务报表的准备工作和相关财务信息的定义工作,降低网络信息交换成本,提高业务报告的可信度和数据准确性等优点。企业可以利用XBRL技术使财务数据从收集到报告全部自动化,其生成的XBRL格式的财务报告易于用户(包括投资者、决策者和监管者等)更快更有效的地进行数据存储、挖掘、分析和比较工作。近年来随着XBRL在国际金融机构中的大力推广使用,上市公司的财务季度报告已经开始使用XBRL标准报送,所以每个季度金融机构都会接收海量的XBRL财务报告数据。这些财务报告记录着每个季度上市公司的财务金融信息,有着非常高的挖掘、分析和研究价值。分布式计算平台Hadoop和分布式计算模型Map/Reduce的出现很好地解决了海量数据处理分析的问题,让基于海量信息的XBRL数据存储和分析成为可能。本文设计并实现了基于Hadoop的XBRL数据分析系统,首先对XBRL技术以及Hadoop平台的研究现状作出分析,并整理出海量XBRL数据分析系统的功能和性能方面的需求。在此基础上对XBRL中的技术规范、分类标准和实例文档进行建模,并且研究了与XBRL相关的XML解析技术,为XBRL数据存储与分析提供了重要的技术支持。然后对系统的数据存储和分析流程进行了整体设计,采用分布式计算Map/Reduce模型对XBRL数据进行提取、转换,之后存储到Hadoop平台的分布式文件系统HDFS和数据库HBase中。然后在Hive中对相关的XBRL数据进行分析计算,通过区间层析分析法对上市公司财务指标进行分析处理得到上市公司的投资可行性评价,最后将数据分析指标存储到HBase中,提供海量信息的查询。