基于深度学习的财经新闻情感分类方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:xiaoxin_vb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术的迅猛发展,当下已经进入一个信息爆炸的时代,互联网新闻每天都以指数的量级增长,对人们的生产、生活方式产生巨大影响。特别是在财经领域,互联网财经新闻起着至关重要的作用。财经新闻具有专业性、全面性、及时性等特点,它一般侧重于报道与上市公司相关的事件,还会披露上市公司公告、财务报表等信息以及金融专家观点、股民投资者言论和宏观经济政策等各类金融财经相关的信息,这些信息无论是对上市公司本身,还是股民投资者,亦或是金融行业从业者,都有着极大的价值。通过对财经新闻进行情感极性分类,可以更好地洞察财经市场的趋势,也可以辅助投资者做出更好的投资选择。基于此,本文展开以下研究。首先,本文创新地设计了一种基于XGBoost的新闻网页正文抽取方法,在10个知名财经新闻门户网站的内容抽取准确率达到97.63%,大大减少开网络爬虫的开发成本。在此基础之上,本文构建了一个财经新闻情感分类数据集。针对研究用财经新闻情感数据不足的问题,提出了通过互联网爬虫的方法采集雪球网上某知名金融信息提供商发布的《上市公司正负面新闻》作为种子数据集,鉴于采集到的种子集数量有限,采取搜索引擎在线搜索的方法,对种子集中的新闻进行扩充,最终构建了一个包含17149条财经新闻的情感分类数据集,并公开发布在全球最大的开源社区Github上。其次,将深度学习和注意力机制引入到财经新闻情感极性分类中。本文充分考虑了卷积神经网络、循环神经网络和注意力机制的先进性与不足之处,结合财经新闻文本的特点,提出了基于注意力机制的双通道LSTM-CNN情感分类模型。利用该模型在上述构建的财经新闻情感分类数据集中进行训练和预测,通过与CNN模型、RNN模型和基于注意力机制的双向LSTM模型进行对比,实验结果显示,本文提出的方法可以取得96.4%的分类准确率,充分验证了该模型的有效性。此外,本文还提取注意力层的权重向量,根据权值的大小赋予每个词不同深浅的颜色,从而对新闻文本进行可视化展示。
其他文献
本文讲述了电力系统电压控制的必要性、复杂性,以及电压控制与电力系统安全经济运行的关系及如何控制电压和需要注意的问题.
目的探讨低剂量螺旋CT扫描技术在肺部肿瘤适形放疗CT定位中的应用与防护价值。方法对确诊的30例肺部肿瘤行适形放疗的患者以双盲法入选常规及低剂量组行CT扫描定位,观察比较
本文介绍了微机五防装置在潮州供电分公司的应用及管理,强调加强对五防装置的管理是保证倒闸操作安全、防止误操作的关键.
国发2号文提出"加快城镇化进程,推进新农村建设",在新农村建设中,农村信息化是其重要内容。而农村信息化中,网络建设是其基础,面临新的发展机遇和要求,贵州农村通信网络如何