基于文本数据的混频预测模型及其应用研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:csss2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于文本数据的混频预测模型是本文提出的新模型,是指模型中存在非结构化文本数据时,自变量之间时间统计频率一致(同频)或者时间统计频率不一致(混频)的情形。目的在于解决目前大数据时代下管理预测研究中不断受到重视的新颖问题,即预测研究中同时存在非结构化文本数据和混频数据的问题。随着移动互联网、云计算等信息技术的快速发展,数据采集的类型种类丰富,获取成本和传输成本也在不断降低,并且数据的形式不仅是时间统计频率不一致的问题,也存在获得样本信息是文本类数据形式。在实际背景中往往会出现影响预测结果的因素既是混频数据也是文本数据的形式,如在金融市场中,影响市场月度波动率会受到日度和周度交易信息以及月度宏观信息的影响;其次,也会受到文本数据的影响,其中新闻、公司财务公告、论坛帖子等非结构化数据,其本身可以进一步洞察市场中的趋势和情绪波动,因此如何充分利用数据类型不一致问题以及时间统计频率不一致问题是目前企业和研究者亟待解决的挑战之一。总结目前混频问题研究依旧存在以下提升的空间:⑴由于信息获取渠道的不一致,通常存在非结构化文本数据的出现,导致现有混频模型无法利用文本信息对预测对象进行研究。⑵在已有对一元自变量混频预测问题进行研究时,还未充分挖掘当因变量和自变量数据维度不匹配时存在的非线性复杂关系。⑶相应地,在针对多元混频预测模型进行研究时,随着文本数据的出现,多元自变量和因变量之间出现的混频关系更加复杂,以及多元自变量之间也同时存在时间统计频率不一致的情形,这导致已有模型的处理存在局限。因此,鉴于语义向量模型更能还原语义信息、MIDAS模型为处理混频提供了新的视角、长短时记忆网络能有效解决时序数据的多种非线性设定问题,本文尝试集成三种理论的优势,聚焦于带有文本数据的混频预测模型及其应用研究,解决预测研究中同时存在变量之间时间统计频率不一致和非结构化文本特征的问题。本文主要工作从以下三个方面论述:第一,构建一元混频长短时记忆网络预测模型。在目前的管理实践和经济预测问题中,数据之间存在大量的时间统计频率不一致的混频问题。已有的混频MIDAS模型在分布滞后的模型基础上使用多项式函数直接对高频数据进行加总平均,解决了人为主观处理混频数据的信息丢失。但已有模型随着变量之间的非线性特征越来越显著,使得预测结果存在较大偏差。针对以上不足,通过引入长短时记忆网络理论,结合混频数据抽样模型的思想,构建了一元混频长短时记忆网络预测模型。该模型将MIDAS模型和长短时记忆网络进行集成,并给出参数优化和求解过程。最后运用于股票市场波动率进行实证分析,根据检验标准发现,与已有的一元MIDAS系列模型相比,本文模型具备一定的可行性。第二,在上一步研究基础上,本文构建出基于文本数据的同频多元混频预测模型。如何充分利用带有文本的混频数据进行预测是目前研究者关注的重点,也更加符合实际需求。已有的混频预测模型往往基于结构化数据,而新闻等文本数据往往是非结构化数据,如何准确高效地提取文本信息并考察其对应的预测能力成为重要问题。因此,为解决上述问题,本文基于MIDAS的思想,融合长短时记忆网络和语义向量模型,构建出基于文本数据的同频多元混频预测模型。在此模型中,多个自变量之间的时间统计频率是一致的,同时自变量中存在文本数据,但自变量和因变量之间是混频关系。最后将该模型应用于不同市场的股指波动率进行预测,和基于数值型结构化的混频预测模型进行对比,证明了该模型的适用性和优越性。第三、在前两个工作的基础上,本文最终构建基于文本数据的混频多元混频数据预测模型,这也是本文最大的创新点。基于文本数据的混频多元混频预测模型是预测领域现实存在的问题,有一定的现实意义和理论价值,但国内外研究集中解决该问题的研究较少。在上一个工作的内容中,基本文本数据的混频预测模型的自变量之间为同频数据。但在实际管理预测问题中,可获得的数据类型也越来越丰富,不仅变量之中存在文本数据,还有自变量之间存在混频现象。现有的多元混频MIDAS模型无法直接解决自变量间频率不一致,同时自变量中存在文本信息的情况。因此,本文最终构建基于文本数据的混频多元混频预测模型,并将该模型运用于股票市场股指波动率预测研究中,实验对比表明该模型的有效性。该模型适用于自变量中存在文本数据和多个自变量之间存在混频情况,在一定程度上填补了混频预测模型的研究范围,具有较高的创新性和实践意义。
其他文献
线上教学作为疫情防控常态化背景下的一种教学方式,被越来越普遍地应用到教学中。教师在开展线上教学时要紧密结合学生实际,以教材为基础,精选优质网络资源,结合小学数学学科特点,合理设计安排课程。笔者基于线上教学中的体会,提出了以下几种保证线上教学效果的策略。科学设计教学方法,符合学生学习需求不同于传统课堂教学,教师在开展线上教学活动时,应根据实际需求选择适合的教学方法。
期刊
目的:探究注射用透明质酸钠复合溶液(嗨体)联合超脉冲CO2点阵激光治疗痤疮凹陷性瘢痕临床疗效和安全性。方法:选择2019年1月至2020年6月,面部痤疮后遗凹陷性瘢痕患者100例,随机分为两组,每组患者各50例。两组均先行超脉冲CO2点阵激光,对照组在激光治疗后应用水光(嗨体2.5)治疗;试验组激光治疗后应用透明质酸钠复合溶液(嗨体1.5)局部填充注射,两组均治疗3次,每次间隔1个月。分别在治疗前
期刊
鉴于拉曼光谱具有无损快速、精确、检测范围广的优点,食源性致病菌的识别检测方法逐渐转变为新型的拉曼光谱检测方法。本文以大肠杆菌和布鲁氏菌作为实验对象,得到拉曼光谱图,使用PCA(principal component analysis,主成分分析)与LDA(linear discriminant analysis,线性判别分析)两种不同的降维方式进行降维,并通过机器学习中的GBDT(Gradient
食源性致病菌的检测分类一直是食品安全领域的重要研究对象,与传统的病原菌分类方法相比,基于拉曼光谱的分类识别方法具有更高的灵活性和准确性。实验以常见食源性致病菌的拉曼光谱为对象,利用11种病原菌的132条光谱数据,提出一种基于主成成分分析(PCA)和线性判别分析(LDA)的Adaboost集成分类识别模型。实验结果表明,该集成模型不仅优于传统的病原菌分类方法,而且分类准确率比决策树、支持向量机和lo
因传统教学模式存在不足,以及小学时期英语教学的重要意义,使得线上教学模式逐渐进入了人们的视野。线上教学更多的是通过虚拟空间来进行教学,学生可以通过QQ群等网络媒体渠道来获得学习资源,带给了学生更多的学习便利,所以教师应积极地开展线上教学。
随着信息技术在各公司内的深入应用,公司业务发展与日常经营活动对IT的依赖程度越来越高,数据中心成了企业发展中必不可缺的一个重要组成部分,在技术的推动下,当前的数据中心开始朝着智能化、全局化、流程化的模式发展,对于数据中心的运维服务管理体系也提出了更高要求。本文分析了信息技术服务与数据中心的相关概念,探讨数据中心运维服务管理体系的优化措施。
学位
自2008年国际金融危机爆发后,各国在反思危机起源的同时,更进一步意识到了金融监管在资本市场运行中的重要作用。中国资本市场自建立以来,无论是其规模还是结构,都在历次股票市场规范化改革中得到了迅猛的发展,为经济和社会的发展提供了重要的支持:一方面,作为企业不可或缺的融资平台,资本市场运行效率直接决定了上市公司的融资能力,进而对企业未来的经营发展决策产生重要影响;另一方面,作为投资者广泛参与的投资场所
在中国,地表水质量的迅速恶化已引起社会各界的广泛关注。为满足人民群众对良好生态环境的需求,自2006年起,中央政府将水污染物减排量纳入官员晋升考核指标,以激励地方官员加强环境监管。但以减排激励为核心的环境政策能否改善省域交界地区的水体状况仍存在较多争议。此外由于河流具有流动性,污染物会随河流顺流而下,省域交界地区的水污染不仅影响当地的水污染程度,还影响到广袤下游区域,从而影响中国整体河流治理。因此