基于文本挖掘技术的创业板股票招股说明书风险分析

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:wangjinshui6699
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2009年10月30日,我国筹备许久的创业板在深圳正式开盘。创业板的开启为许多不符合在主板或者中小板上市的中小企业开通了融资渠道。由于创业板是主板之外的一种新型资本市场形式,其与主板在市场定位、发行条件、信息披露和监督管理等方面存在差异。同时,由于创业板企业更关注于成长性,往往面临着更高的风险。因此本文针对在创业板拟上市企业发布的招股说明书,对这些创业板企业的风险信息披露状况进行分析。本文将招股说明书作为研究对象,主要因为招股说明书是上市公司信息披露最重要的法律文献之一,对投资者,监管者具有重要的参考价值。本文对于不同企业的招股说明书披露的风险信息先进行量化分析,对其中披露风险信息的数量以及披露风险因素所用篇幅进行描述性统计,对比不同地区的企业风险信息披露状况。在对招股说明书的文本内容进行分析时,本文引入了文本挖掘技术。首先,对搜集的招股说明书文本数据进行了清洗、降噪等预处理,利用中科院计算技术研究所研究的汉语词法分析系统——ICTCLAS,对文本数据进行分词处理。将文本非结构化的数据转化为结构化的存储模式,之后将文本数据降维。企业在进行风险披露时,按照其可能影响业绩的重要性依次披露,因此本文提取各个企业的首要风险,对其中关键词语进行分析。利用编程实现TF-IDF算法,词频TF展现了不同地区企业的共同性风险,利用TF-IDF取值提取了不同地区创业板拟上市企业的特异性风险,结合该地区企业所属行业的分布情况,总结我国创业板拟上市企业对于共同性风险披露的特点以及各地企业特异性风险披露状况。通过对创业板拟上市企业招股说明书的披露风险研究,本文得出我国创业板企业招股说明书中风险信息披露的现状,并对完善披露提出了思考及建议。本文将传统应用于互联网的文本挖掘技术,应用于传统的招股说明书的分析,具有创新性,但是本文建立的挖掘模型还不是很完善,模型缺乏连贯性。在之后的研究中,如果可以将预处理、分词、特征提取等挖掘模块集合起来,形成分析流程,对今后招股说明书信息挖掘更有帮助。
其他文献
尽管人工智能的爆发期还未到来,但与此相关的各种尝试正暗潮涌动。6月29日,索尼在企业战略会议上透露,公司正在研发情感机器人;6月28日,深圳的Makeblock进行夏季发布会,展示
本文对现有中少学时工程力学的教学现状进行了分析思索,同时结合几年来教学改革实践,前后对比传统“窄而深”、“够用为度”的讲法和“宽而浅”、“定性半定量”的讲法,提出了自
对86例急性心肌梗塞病例,按1∶1配对进行了病例对照研究。条件logistic回归分析筛选出5个因素,其中高血压、总胆固醇、吸烟和体重指数为急性心肌梗塞的危险因素,HDL—C是保护因素。每天吸烟量与急
文中从航海专业的课程教学质量、教师科研活动及学生信息素养的培养三方面人手,论述了图书馆及其信息服务对航海专业教育的重要作用。
目的 采用锥形束CT(CBCT)分析单侧后牙正锁牙合患者的双侧髁突在关节窝内位置及其形态,探讨其对患者髁突位置及形态的影响和改善情况。方法 选择2012年2月至2015年8月间我院收
目的对比腰椎间盘突出患者运用MRI与CT诊断的价值。方法选取2014年3月至2015年5月我院收治的腰椎间盘突出症患者51例作为本次研究的对象,全部患者均予以MRI和CT检查,回顾性分
医疗安全(不良)事件(简称不良事件)是指在医疗机构运行和医疗活动中对患者安全、医务人员安全和医疗机构医疗安全造成或即将造成不良影响的事件。为了进一步加强医疗安全管理
《语文课程标准》要求扩大学生的阅读面,让学生广泛阅读各种类型的读物,所以我们小学语文教师应树立"拓展性阅读"教学观,应在课前、课中、课后加速学生的拓展性阅读,能迅速有