论文部分内容阅读
行为金融学表示,股市的走势将会受非理性投资者的情感、心理等主观因素的影响。与国外股票市场相比较,我国的股市仍然不够成熟和完善。投资者采用短线交易的行为占多数,而且会通过各种途径收集信息来辅助制定投资决策。现代社会的信息传播除传统媒体外,网络成为了必不可少的传播介质,而且逐渐占据主流地位。包括金融领域在内,许多领域都一定程度上受到网络的影响。股吧拥有海量的股市相关数据以及丰富的投资者评论信息,为投资者提供了交流与讨论的场所。因此准确地获取股评情感倾向对于进一步研究股市的走势具有积极意义。本文通过分布式爬虫技术抓取股吧网站上的股评信息。由于股评具有随意性的特点,股评中存在很多使分词系统不能正确识别的新词。本文根据新词组词结构的特点,运用统计与规则相结合的技术对股评新词进行识别。本文采用图结构模型对文本进行结构化表示,运用两种基于图核的分类算法对股评进行情感分类,结果显示图核的分类效果优于其他常见核。本文主要研究内容列举如下:1、提出了一种基于改进Apriori的新词识别算法。首先,给出了一种后缀树的方式实现Apriori算法,目的是支持有序且存在重复词语的文本,简化了低频词剔除和词频计算的过程;其次,给出了一种添加组合频率因子的互信息值计算方法,解决了低频词可能具有高互信息值的问题;接着,利用左右上下文熵计算重复字串的灵活性;最后,给出了新词分值计算公式,进一步简化了新词识别的过程。2、提出了一种有向图模型文本表示方法。采用图的五元组对文本中的词语以及相邻词语之间的邻接关系进行表示。在文本表示方面,虽然向量空间模型具有实现简单的优势,但缺失文本结构信息,图模型能够弥补了这部分的信息缺失。3、提出了一种基于改进随机通路核的文本情感分类算法。该算法采用后缀树匹配的方式实现随机通路核,使时间复杂度从O(n~3)简化到O(n~2)。实验显示添加文本的结构信息能够提升文本分类效果。4、提出一种基于间隔通路核的文本情感分类算法。该算法从连续通路和间隔通路两个方面对文本的结构性进行计算,提高了匹配通路的完整性。实验结果显示间隔通路核的分类性能优于随机通路核。