论文部分内容阅读
在金融领域中研究员的日常业务通常需要撰写大量的报告,比如宏观经济研究报告,投资策略报告,以及招股说明书。这类报告的撰写涉及到海量数据的收集、整理、分析等枯燥的工作,并且要求追踪热点金融新闻事件,具备高时效性。目前市面上的金融投资公司采取预先定义报告模板的方式,针对不同种类的报告个性化定制内容,通过海量结构化数据的处理与分析后,在报告的对应位置填充数据。但是数据结合固定格式模板的方式缺乏灵活性,只是减少了数据计算并复制这一环节。如何从海量的实时金融事件性新闻信息中提取金融知识和关键逻辑,继而自动产生相关分析研究报告,是个重要研究问题。对于金融研究报告自动生成这一任务,本文采用基于深度学习的自然语言生成技术来完成。通过网络爬虫采集东方财富网、新浪财经网、同花顺网三大财经门户网站的宏观分析报告。数据清洗后设置规则,智能提取出金融新闻的有效信息,从而构造一条金融新闻对应一篇研究报告的数据集。文本生成模型设计思路来源于调研近几年的常用模型,其中包括序列到序列模型、注意力机制、指针生成模型、以及变分自编码器模型。本文针对金融事件性新闻字数较少、研究报告篇幅较长这一特定的文本到文本生成任务,提出了两种能够实现短文本信息提取并分析,继而快速、自动生成长文本功能的深度学习模型,分别是基于关键词抽取的文本生成模型和基于多次编辑的文本生成模型。基于关键词抽取的文本生成模型在第一阶段采用无监督的Text Rank算法,将金融新闻的单词按照重要性排序选取最靠前的几个单词作为关键词,第二阶段采用关键词语义生成模型生成文本。基于多次编辑的文本生成模型在第一阶段解码时输入金融新闻,采用指针生成网络模型生成粗粒度的研究报告大纲。在第二阶段解码时,输入第一阶段生成的研究报告大纲和金融新闻,采用变分自编码器模型生成细粒度的研究报告终稿。本文采用爬虫获取的数据集设计了对比实验,对比模型包含常用的自然语言生成模型。评估指标选择了BLEU指标、ROUGE指标以及人工评测指标。通过对比实验,验证了本文提出的基于深度学习的文本生成模型的有效性。