论文部分内容阅读
2009年10月30日,我国筹备许久的创业板在深圳正式开盘。创业板的开启为许多不符合在主板或者中小板上市的中小企业开通了融资渠道。由于创业板是主板之外的一种新型资本市场形式,其与主板在市场定位、发行条件、信息披露和监督管理等方面存在差异。同时,由于创业板企业更关注于成长性,往往面临着更高的风险。因此本文针对在创业板拟上市企业发布的招股说明书,对这些创业板企业的风险信息披露状况进行分析。本文将招股说明书作为研究对象,主要因为招股说明书是上市公司信息披露最重要的法律文献之一,对投资者,监管者具有重要的参考价值。本文对于不同企业的招股说明书披露的风险信息先进行量化分析,对其中披露风险信息的数量以及披露风险因素所用篇幅进行描述性统计,对比不同地区的企业风险信息披露状况。在对招股说明书的文本内容进行分析时,本文引入了文本挖掘技术。首先,对搜集的招股说明书文本数据进行了清洗、降噪等预处理,利用中科院计算技术研究所研究的汉语词法分析系统——ICTCLAS,对文本数据进行分词处理。将文本非结构化的数据转化为结构化的存储模式,之后将文本数据降维。企业在进行风险披露时,按照其可能影响业绩的重要性依次披露,因此本文提取各个企业的首要风险,对其中关键词语进行分析。利用编程实现TF-IDF算法,词频TF展现了不同地区企业的共同性风险,利用TF-IDF取值提取了不同地区创业板拟上市企业的特异性风险,结合该地区企业所属行业的分布情况,总结我国创业板拟上市企业对于共同性风险披露的特点以及各地企业特异性风险披露状况。通过对创业板拟上市企业招股说明书的披露风险研究,本文得出我国创业板企业招股说明书中风险信息披露的现状,并对完善披露提出了思考及建议。本文将传统应用于互联网的文本挖掘技术,应用于传统的招股说明书的分析,具有创新性,但是本文建立的挖掘模型还不是很完善,模型缺乏连贯性。在之后的研究中,如果可以将预处理、分词、特征提取等挖掘模块集合起来,形成分析流程,对今后招股说明书信息挖掘更有帮助。