论文部分内容阅读
随着大数据技术的迅猛发展,当下已经进入一个信息爆炸的时代,互联网新闻每天都以指数的量级增长,对人们的生产、生活方式产生巨大影响。特别是在财经领域,互联网财经新闻起着至关重要的作用。财经新闻具有专业性、全面性、及时性等特点,它一般侧重于报道与上市公司相关的事件,还会披露上市公司公告、财务报表等信息以及金融专家观点、股民投资者言论和宏观经济政策等各类金融财经相关的信息,这些信息无论是对上市公司本身,还是股民投资者,亦或是金融行业从业者,都有着极大的价值。通过对财经新闻进行情感极性分类,可以更好地洞察财经市场的趋势,也可以辅助投资者做出更好的投资选择。基于此,本文展开以下研究。首先,本文创新地设计了一种基于XGBoost的新闻网页正文抽取方法,在10个知名财经新闻门户网站的内容抽取准确率达到97.63%,大大减少开网络爬虫的开发成本。在此基础之上,本文构建了一个财经新闻情感分类数据集。针对研究用财经新闻情感数据不足的问题,提出了通过互联网爬虫的方法采集雪球网上某知名金融信息提供商发布的《上市公司正负面新闻》作为种子数据集,鉴于采集到的种子集数量有限,采取搜索引擎在线搜索的方法,对种子集中的新闻进行扩充,最终构建了一个包含17149条财经新闻的情感分类数据集,并公开发布在全球最大的开源社区Github上。其次,将深度学习和注意力机制引入到财经新闻情感极性分类中。本文充分考虑了卷积神经网络、循环神经网络和注意力机制的先进性与不足之处,结合财经新闻文本的特点,提出了基于注意力机制的双通道LSTM-CNN情感分类模型。利用该模型在上述构建的财经新闻情感分类数据集中进行训练和预测,通过与CNN模型、RNN模型和基于注意力机制的双向LSTM模型进行对比,实验结果显示,本文提出的方法可以取得96.4%的分类准确率,充分验证了该模型的有效性。此外,本文还提取注意力层的权重向量,根据权值的大小赋予每个词不同深浅的颜色,从而对新闻文本进行可视化展示。