论文部分内容阅读
互联网技术及大数据技术的飞速发展,大大促进了用户自动化、多样化、个性化的金融知识服务需求,而传统的金融知识服务方式、方法已经无法满足用户日新月异的需要。另一方面,金融大数据通常由海量网页信息、大量的PDF公告、图片、表格以及实时交易数据等形式各异、内容多样的异构信息组成。因此,为了给用户提供更高效、准确的知识服务,亟需异构信息处理技术、数据挖掘等方法的支撑。此外,选取金融知识服务领域中备受关注的问题和较为活跃的应用进行研究,更具应用前景和研究价值。基于以上分析,本文研究面向网络金融知识服务的模型与方法,通过互联网异构信息的获取和检索,利用金融本体知识及时间序列分析方法对信息整合和处理,为用户提供知识服务。在构造网络金融知识服务总体框架基础上,针对金融领域中用户关心的三个主要分支——股票、基金、债券,重点研究了活跃度较高的新股、封闭式基金、企业债券的知识服务模型和方法。主要研究内容包括:第一,基于互联网异构信息处理的金融知识服务总体设计。目前,专门针对某一领域尤其金融知识服务领域的异构信息处理方法进行结构化、系统化的阐述并不多见,也没有从基于互联网的异构信息处理角度提出对金融知识服务流程、框架的总结。因此,为了提高金融知识服务的质量和效率,对金融异构信息的获取、处理的方法进行阐述,建立金融异构信息处理总体框架。将异构信息自动获取、金融文本与数据关系发现、信息验证的过程模块化,并构建金融知识服务平台,提供新股、封基、企业债券等金融领域的实时知识服务。第二,基于分合增益模型的新股收益分析方法研究。提出N元分合增益问题,建立相应增益模型,利用动态规划思想,通过优化的最优路径算法、增益计算方法、增益评价方法解决该增益问题,并进行评价。最后,利用该模型解决了新股收益分析问题,计算出一段时间内新股的最优投资路径和投资收益率,为投资者、研究机构、监管机构提供横向、纵向投资对比数据,为未来新股投资策略提供参考。第三,基于最大熵的新股推荐最优策略模型研究。根据新股申购规则等约束条件结合新股数据特征,提出基于最大熵的新股推荐最优策略模型,实现新股推荐。该模型避免了传统统计学软件对固定算法的依赖性及数据特征的局限性,模型中采用了LMT(Logistic Model Tree)分类、多元线性回归、最大熵方法的结合,弥补了单一算法的弊端,根据预测结果计算对新股的推荐程度,避免了单独对股票价格或收益率直接预测的不确定性和可能出现的较大偏差。实验表明,提出的模型对新股投资收益路径的预测较平均水平有了较大提高。第四,基于神经网络的封闭式基金时序混合模型。提出了基于BP神经网络的多模型融合方法,将最大熵模型、趋势拟合模型、支持向量回归模型作为神经网络的输入,每个输入模型可以处理不同形式的特征,避免了单一方法中数据特征形式的局限性。将该模型应用于封闭式基金净值估值,为用户提供实时估值参考,且实验表明,提出的模型比单一估值方法的预测精度有所提高。第五,基于异构信息的企业债券分析方法研究。为了提供自动化、个性化、高效的金融知识服务,构建金融领域本体,提出基于互联网的债券检索评估模型、基于本体规则自适应的特征抽取模型、基于优化特征权重算法的非均衡数据分类方法,解决了债券公告检索过程中的时间敏感性问题、提高了特征自动抽取的准确率、强化了非均衡分类过程中少数类别特征的分类粒度。通过提出的信息验证方法对金融知识服务平台的信息进行验证,保证信息准确性。金融知识服务平台关键技术对比实验分析表明,提出的模型和方法使得基于互联网的金融领域检索问题、特征自动抽取问题及非均衡数据分类问题得到了解决和改善。