论文部分内容阅读
符号数据分析(Symbolic Data Analysis,简称SDA)是一种研究如何从海量数据中发掘系统知识的理论和方法。符号数据分析技术运用“数据打包”的思想,实现对庞大的样本空间的降维处理。相应的,样本数据的性质就发生了变化:由原来的“点数据”变为“符号数据”。区间数是最常用的一类符号数据。论文研究区间型符号数据分析的理论方法,并将其应用于金融中若干问题的求解,主要内容如下:1.区间型符号数据分析基础。主要研究区间型符号变量的统计描述。首先讨论了区间型符号变量的经验密度函数的计算,在此基础上,给出了直方图的绘制方法,并研究了均值和方差、协方差和相关函数的计算。这为后面几章对区间型符号数据进行多元分析的研究奠定了基础。2.区间型符号数据的主成分分析方法。首先对现有的区间数据主成分分析的两种主要方法——顶点法(V-PCA)和中点法(C-PCA)进行了比较研究。进一步,从公共主成分的角度出发,提出了基于公共主成分的区间PCA方法(Common PCA)。该方法还可适用于不同时间段的区间主成分分析,即进行动态的区间主成分分析。基于Hausdorff距离定义了一种效度指标,并通过模拟的方法,对V-PCA、C-PCA和Common PCA的方法有效性进行了比较研究。最后将上述方法应用于我国上海证券交易市场,研究上市公司的风险与公司规模之间的关系,以及股票的市场表现的动态评价。3.区间型符号数据的回归分析方法。首先给出了基于区间符号数据描述统计量的回归参数估计方法。其次对于可以线性化的非线性相关的区间变量,提出了基于误差传递理论对区间型符号变量进行非线性回归的方法。接下来鉴于因变量的估计y|^~i以及残差e_i均为区间数,论文提出了矩形残差图来进行回归诊断。进一步,基于Hausdorff距离定义了评价模型优劣的指标——反映绝对误差的RMSE_H和反映相对误差的UH。最后应用区间线性回归方法对沪深300指数与中信规模风格指数的相关性进行了实证分析。4.具区间型符号数据系数的多目标线性规划(简称区间多目标线性规划)问题的求解。首先讨论具区间系数的单目标线性规划问题的求解。在此基础上,研究区间多目标线性规划的Zimmermann模糊求解算法。最后将该算法应用于证券投资组合问题的实证分析。