论文部分内容阅读
传统的主成分分析主要针对点数据,面对信息社会知识爆炸、信息量倍增的现象,传统的分析方法在处理海量数据,从整体上把握数据属性方面有所欠缺,符号数据分析方法通过“数据打包”,实现了从整体上把握海量数据内部之间的关系。本文主要研究一般分布的区间型符号数据和分布式符号数据的主成分分析和因子分析。在现有的针对均匀分布区间数据作主成分分析(PCA)的研究成果基础上,本文从区间变量的经验密度函数入手,逐步推导了区间变量的均值、方差、协方差、相关系数等描述性统计量,继而研究了区间数据的标准化问题。在此基础上,进行了主成分分析和因子分析的方法研究。依次以中国股市不同类股票和不同市值范围股票为符号对象,以市场表现和财务报表相关指标为变量,进行了案例分析。对分布式符号数据的主成分分析和因子分析进行了一些探索研究,包括分布式符号数据的形成,分布式符号数据的标准化,分布式数据的主成分分析和因子分析等等。以中国股市不同类股票为符号对象,以市场表现和财务报表相关指标为变量,形成分布式符号数据,进行了案例分析。研究结论表明,与以往文献假设样本点在区间内服从均匀分布相比,一般分布的区间型符号数据PCA方法更具有实际意义,而分布式符号数据的PCA方法则是对符号数据分析方法体系的进一步完善。