基于深度学习的金融研报自动生成方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hwguomin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在金融领域中研究员的日常业务通常需要撰写大量的报告,比如宏观经济研究报告,投资策略报告,以及招股说明书。这类报告的撰写涉及到海量数据的收集、整理、分析等枯燥的工作,并且要求追踪热点金融新闻事件,具备高时效性。目前市面上的金融投资公司采取预先定义报告模板的方式,针对不同种类的报告个性化定制内容,通过海量结构化数据的处理与分析后,在报告的对应位置填充数据。但是数据结合固定格式模板的方式缺乏灵活性,只是减少了数据计算并复制这一环节。如何从海量的实时金融事件性新闻信息中提取金融知识和关键逻辑,继而自动产生相关分析研究报告,是个重要研究问题。对于金融研究报告自动生成这一任务,本文采用基于深度学习的自然语言生成技术来完成。通过网络爬虫采集东方财富网、新浪财经网、同花顺网三大财经门户网站的宏观分析报告。数据清洗后设置规则,智能提取出金融新闻的有效信息,从而构造一条金融新闻对应一篇研究报告的数据集。文本生成模型设计思路来源于调研近几年的常用模型,其中包括序列到序列模型、注意力机制、指针生成模型、以及变分自编码器模型。本文针对金融事件性新闻字数较少、研究报告篇幅较长这一特定的文本到文本生成任务,提出了两种能够实现短文本信息提取并分析,继而快速、自动生成长文本功能的深度学习模型,分别是基于关键词抽取的文本生成模型和基于多次编辑的文本生成模型。基于关键词抽取的文本生成模型在第一阶段采用无监督的Text Rank算法,将金融新闻的单词按照重要性排序选取最靠前的几个单词作为关键词,第二阶段采用关键词语义生成模型生成文本。基于多次编辑的文本生成模型在第一阶段解码时输入金融新闻,采用指针生成网络模型生成粗粒度的研究报告大纲。在第二阶段解码时,输入第一阶段生成的研究报告大纲和金融新闻,采用变分自编码器模型生成细粒度的研究报告终稿。本文采用爬虫获取的数据集设计了对比实验,对比模型包含常用的自然语言生成模型。评估指标选择了BLEU指标、ROUGE指标以及人工评测指标。通过对比实验,验证了本文提出的基于深度学习的文本生成模型的有效性。
其他文献
喷气织机具有速度快、效率高、产品适应性广等优点,主要采用主、辅助喷嘴加异形筘引纬方式,高速射流在异形筘槽内汇合,形成合成流场,牵引纱线完成引纬。其合成流场特性直接影
金属纳米颗粒(MNPs)作为经典的多相催化活性中心,在催化领域具有非常广泛的用途。尽管MNPs周围的化学环境对其催化性能有非常重要的影响,但受传统多相催化剂结构精准剪裁的限
在地球物理勘探中,电法勘探是一种重要的地质勘探方法,而超高密度电法则是一种新兴的电法勘探技术。超高密度电法是一种阵列勘探方法,采用多通道采集技术,一次性布设成百上千
令G=(V,E)是一个有限简单平面图,用△(G)和g(G)分别表示图G的最大度和围长.我们把不含孤立边的图称为正常图.设φ是G的一个正常边染色,满足任意相邻的两个顶点有不同的色集合
从20世纪50年代开始,企业文化相关理论在西方国家逐渐形成,甚至在诸多跨国企业中,企业文化的萌芽已经可以追溯百年。中国电信行业的发展历史悠久,历程复杂,伴随着国家产业政
我国自从改革开放以来,经历了长时期的高速增长,从1978年至2006年,我国GDP从1万亿元不到增长至超过20万亿元,实现近60倍的增长。但是随着全球经济危机导致的全球经济放缓,以
α-重氮羰基化合物在有机合成中具有重要的地位,由于其独特的反应活性,他们可以在过渡金属催化剂催化下发生各种有机反应。α-重氮羰基化合物还被用作单体制备各种高分子,其
随着企业在当今社会经济中的地位愈发的重要,企业社会责任相关问题在全球范围内得到越来越多的关注,同时激烈的商业竞争迫使企业不断与竞争对手区分开来。因此企业选择将绿色
降雨径流污染已成为城市面源污染的主要原因,也是城市水环境恶化的重要影响因素,其中初期雨水的污染在降雨径流中占据主要的部分。因此,掌握降雨径流的污染特征,研究初期雨水
面对日益严重的水污染问题,污水处理厂在整个污水处理工程中作为一种高效的末端治理手段,如今已被广泛应用。而近年来,随着国家新标准、新要求的提出,全国各污水处理厂将面临