主成分分析与因子分析法适合科技评价吗?

来源 :现代情报 | 被引量 : 0次 | 上传用户:760904
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘 要〕针对主成分分析和因子分析广泛应用于科技评价,但是对评价方法选用缺乏检验问题。本文建立了主成分分析与因子分析评价方法适用性的检验框架与检验体系,从评价前检验、评价中检验、评价后检验3个角度进行检验。评价前检验包括KMO检验、Bartlett检验、正态分布检验;评价中检验主要是评价指标信息损失检验;评价后检验主要包括主成分或公共因子的解释力检验、代表性检验、指标单调性检验和权重合理性检验。并以JCR 2015经济学期刊为例进行了实证分析,研究认为,采用主成分分析和因子分析评价必须进行方法适用性检验;因子分析在信息损失较大时不适用于科技评价;主成分分析并不适合评价对象较多的情况。
  〔关键词〕主成分分析;因子分析;方法检验;科技评价;学术期刊
  DOI:10.3969/j.issn.1008-0821.2018.06.011
  〔中圖分类号〕G302 〔文献标识码〕A 〔文章编号〕1008-0821(2018)06-0073-07
  〔Abstract〕Principal component analysis and factor analysis were widely used in science and technology evaluation,however,the selection of evaluation methods was lack of inspection.In this paper,the test framework and test system for the applicability of principal component analysis and factor analysis were established.It had three perspectives:pre evaluation,test in evaluation,and post evaluation test.The pre test includes KMO test,Bartlett test and normal distribution test;Test in evaluation included information loss test of evaluation index;The post test includes the explanatory power test,the representativeness test,the index monotonicity test and the weight rationality test.This paper suggested that the method suitability test should be carried out by principal component analysis and factor analysis;Factor analysis was not generally applicable to science and technology evaluation;Principal component analysis was not suitable for the evaluation with more objects.
  〔Key words〕principal component analysis;factor analysis;method test;science and technology evaluation;academic Journal
  主成分分析与因子分析是两种性质相近的多属性评价方法,由于两种方法均具有降维和不需要主观赋权的特点,在科技评价中得到了广泛的应用,但是对于评价方法的适用性,目前学术界基本采用KMO检验与Bartlett检验,这也是这两种方法自带的检验方法,很少有从其他角度对这两种方法的适用性进行思考的研究。对这个问题进行深入研究不仅能够从理论上丰富多属性评价理论,对于科技评价实践也具有重要意义,可以减少评价方法的误用,从技术层面保证评价的公平公正。
  在科技评价中,主成分分析得到了广泛的应用。在宏观研究层面,谭开明等(2013)[1]构建了西部地区创新能力评价指标体系,运用主成分分析方法对西部地区各省、区创新能力进行综合评价。杨武等(2014)[2]以创新周期为理论依据,利用主成分分析方法,构建了中国科技创新景气指数。史晓燕等(2009)[3]利用主成分分析法对包括陕西在内的全国内地30个省、市、自治区科技竞争力进行排序,分析陕西在科技发展水平方面与全国整体水平及与其它发达省市的差距。徐顽强等(2016)[4]根据波特钻石模型从科技资源市场需求外部环境和政府行为两个维度构建科技服务业集聚化发展分析框架。
  在微观主成分分析科技评价领域,李敬锁等(2015)[5]采用主成分分析对国家科技支撑计划农业领域项目绩效的影响因素进行分析评价。吴岩(2013)[6]基于主成分分析法对科技型中小企业技术创新能力的影响因素进行评价与分析。韩晓明等(2015)[7]结合主成分分析和熵值法,以省部共建的高校为研究对象,构建了高校科技创新能力评价指标体系。辛督强(2012)[8]采用主成分分析法对13种力学类中文期刊进行分析和排名,认为主成分分析法不仅可以解决期刊综合评价中指标的相关性和权重选取问题,还可以有效消除自引过高导致的影响力评价失真问题。何先刚等(2014)[9]按照分层分类分级思想,给出了网络电子期刊的综合评价指标体系,提出了基于主成分分析的网络电子期刊模糊综合评价方法。
  科技评价中因子分析的应用也比较广泛。顾雪松等(2010)[10]从科技投入、科技产出、科技对经济与社会影响3个方面选取指标,利用因子分析构建了科技综合评价指标体系。李子伦(2014)[11]建立了包括资源利用效率水平、人力资本积累水平以及科技创新能力的产业结构指标体系,基于因子分析对金砖国家产业结构升级水平进行测度。董晔璐(2015)[12]运用因子分析法评价了全国31个省市的高校科技创新能力。黄斌等(2013)[13]运用因子分析方法测度了江苏省13个地级市的科技服务业竞争力。翁媛媛等(2009)[14]采用因子分析法对上海市的科技创新环境进行了评价与分析。郑丽霞(2014)[15]以2014年汤森路透社JCR中SCI收录的20种期刊数据为样本,选取8个指标采用因子分析法进行综合评价。柴玉婷等(2016)[16]选取2015版中国科技期刊引证报告(扩刊版)中的14个文献计量指标,利用因子分析法对42所师范大学理科学报进行评价。何莉等(2014)[17]运用因子分析法,采用11个文献计量指标,评价了安徽省高校自然科学学报。   关于主成分分析在评价中的适用性研究,Edward(1992)[18]认为主成分或因子分析的前提条件是评价指标数据必须服从正态分布。俞立平等(2009)[19]认为采用主成分分析进行学术期刊评价,必须增加主成分分析回归系数为正这一条件。楼文高等(2010)[20]认为采用主成分分析进行评价,评价对象数量越多,效果越好。
  关于因子分析在评价中的适用性研究,MacCallum等(1999)[21]探讨了不同变量公共方差和不同样本大小情况下,因子载荷的精确程度问题,提出在大样本下应用因子分析较好。Fabrigar等(1999)[22]认为每个公共因子至少应包含4个或是更多的指标才能确保因子能被有效识别。傅德印(2007)[23]提出建立因子分析适用性以及提取公共因子数目多少的检验方法。俞立平等(2014)[24]根据因子分析隐含的假设是评价指标必须服从正态分布的原理,认为在期刊评价指标普遍呈幂律分布的情况下,最好将评价指标取对数后再进行评价,否则会扩大系统误差。
  从目前的研究现状看,无论是主成分分析还是因子分析,在科技评价中应用均比较广泛,既涉及到宏观与微观层面的评价,也涉及到采用这两种方法进行降维,然后进行探索性分析。关于主成分分析与因子分析的适用性检验,除了这两种方法自身提出的检验方法外,学术界还提出数据分布、评价对象数量、指标数量、指标单调性等方面,但是在实证研究中,很少有学者注意到这些问题。此外,关于主成分分析与因子分析评价的适用性检验方法,总体上还不够系统,在理论上需要进一步深化。本文首先建立主成分分析与因子分析的适用性检验框架,然后进行理论分析,并以JCR 2015经济学期刊评价为例,进一步分析讨论主成分分析与因子分析的适用性检验相关问题。
  1 主成分分析与因子分析的适用性检验分析
  1.1 主成分分析與因子分析检验框架
  主成分分析与因子分析的检验框架如图1所示,通过这个检验框架,可以全面检验主成分分析与因子分析两种方法在科技评价中的适用性。根据评价过程,分为评价前检验、评价中检验与评价后检验3个部分。评价前检验包括主成分分析与因子分析自带的KMO与Bartlett检验,此外还增加了指标数据分布检验。评价中分析主要指主成分分析与因子分析本质上都是降维技术,那么必然存在着信息损失,从而影响评价结果,所以要评估信息损失的大小。评价后检验包括主成分(因子)解释力检验、即每个主成分(因子)的含义是否明确;代表性检验,即每个主成分(因子)涉及相关指标数量多少,以及是否具有代表性;指标单调性检验,即是主成分分析和因子分析的评价结果与评价指标是否正相关;权重合理性检验就是指每个主成分(因子)涉及的指标权重之和是否合理,体现评价目的,是否具有管理意义。
  1.2 主成分分析与因子分析的评价前检验
  1.2.1 KMO检验与Bartlett检验
  这是主成分分析与因子分析检验的第一步,也是所有实证研究均比较重视的检验,KMO检验重点检验指标之间的相关度,以决定是否能够进行主成分或因子分析,这两种方法的检验结果相同。关于KMO检验的大小问题,目前并没有严格的说法,大致大于0.5就可以,当然越大越好,KMO越大,意味着评价指标之间的相关度越高。从评价的角度,KMO越小,意味着评价时数据的信息损失会越大,所以本文认为,无论是主成分还是因子分析评价,KMO检验值不宜低于0.8,当然,从数据探索的角度,这个要求可以低一些,大于0.5即可。
  1.2.2 指标数据分布检验
  根据主成分分析的原理,主成分分析不需要对评价指标数据的先验分布有任何假设。
  2)因子分析的原理与指标数据分布
  采用因子分析评价的关键是找出公共因子,并且解释每个公共因子的实际含义,以便对实际问题进行分析。为得增强公共因子的解释效应,往往要对因子载荷矩阵进行正交旋转或斜交旋转。公共因子用到的算法包括主因子法、加权最小二乘法、不加权最小二乘法、重心法等等。
  从因子分析的原理看,采用因子分析需要用到回归分析,那么回归分析的前提之一数据必需服从正态分布因子分析也必需具备,所以因子分析要进行评价指标的正态分布检验。
  1.3 主成分分析与因子分析的评价中检验
  评价中检验主要是主成分分析与因子分析对原始评价指标的信息损失检验,由于主成分分析与因子分析均进行降维,因此难免有信息损失。对于主成分分析而言,其信息损失主要表现在只选取有限的几个主成分进行评价,即特征根大于1的主成分,舍弃的主成分就是损失的信息,其信息损失可以用1减去累计方差贡献率来衡量。由于指标信息损失的存在,必然会影响评价结果的排序,这难免会得不到评价对象的认可,尤其是信息损失使得其排序下降时。
  因子分析的信息损失包括两部分,第一部分是每个原始指标的特殊因子,因子分析将每个原始指标信息用公共因子与特殊因子两部分进行衡量,在具体评价时只采用公共因子进行评价,而特殊因子信息被省略了,这部分信息损失就是1减去共同度。第二部分就是舍弃的特征根小于1的公共因子,与主成分分析类似,其信息损失就是1减去特征根大于1的公共因子的累计方差贡献率。
  根据以上分析,因子分析信息损失大于主成分分析,从评价的角度,主成分分析更合适。
  1.4 主成分分析与因子分析的评价后检验
  1.4.1 主成分与公共因子的解释力检验
  主成分或公共因子的解释能力,就是每个主成分或公共因子是否具有明确的含义。从主成分分析与因子分析的原理看,因子分析由于进行了矩阵旋转,因此公共因子的内涵往往比较明显,而主成分分析采用的原始指标矩阵,其解释力相对弱一些。在科技评价中,采用有限的公共因子或主成分进行评价,在赋权时如果经济含义不明显,解释力较差,这是不利于评价的,所以从这个角度分析,采用因子分析更好一些。   1.4.2 主成分与公共因子的代表性检验
  所谓代表性就是主成分或公共因子涉及的指标数量,以及其是否具有代表性。Fabrigar等(1999)[22]认为每个公共因子至少应包含4个或是更多的指标才能确保因子能被有效识别,但并没有给出严格的证明。但是如果主成分或公共因子涉及的指标太少,比如1个,那也说明代表性不够,所以主成分或公共因子涉及的指标数量最好为3个以上,最低不能低于2个。
  1.4.3 评价指标的单调性检验
  所谓单调性检验,就是检验主成分分析和因子分析的评价得分与评价指标之间是否正相关,当然前提条件是所有的评价指标必须都是正向指标,事先要进行标准化处理。但是由于评价指标之间往往相关,存在多重共线性,因此难以采用传统的回归分析法进行评价指标的单调性检验。但是可以采用岭回归来降低多重共线性的影响,如果绝大多数指标的回归系数为正,说明单调性较好。
  1.4.4 主成分分析与因子分析的权重合理性检验
  无论是主成分分析还是因子分析,在评价中是不需要权重的,其实默认的是等权重。在评价中往往选取特征根大于1的前几个主成分或公共因子进行评价,基于方差贡献率进行加权汇总。那么这些主成分或公共因子是否真的重要呢?能否真正为管理服务?方差贡献率能否体现权重呢?所有这些还需要进行人工专家判断,这就是权重合理性检验的本质所在。俞立平等(2009)[25]提出模拟权重的概念,就是将评价结果作为因变量,评价指标作为自变量进行回归,将回归系数标准化后就是模拟权重。这样将每个主成分或公共因子涉及的指标模拟权重相加,就得到了主成分或公共因子的模拟权重,进而进行进一步的分析判断。
  因子分析对公共因子经济含义的解释能力往往较好,而主成分分析对主成分所代表的经济含义的解释能力相对较低,所以从权重解释力的角度,因子分析評价更容易进行权重合理性检验,而主成分分析相对弱一些。
  1.5 主成分分析与因子分析检验对比
  2 研究数据
  为了对比主成分分析与因子分析的检验,本文以JCR 2015经济学期刊为例进行研究。JCR 2015经济学期刊共有333种,2015版JCR公布的评价指标共有11个,包括:总被引频次、影响因子、他引影响因子、5年影响因子、即年指标、特征因子分值、论文影响分值、标准化特征因子、被引半衰期、引用半衰期、影响因子百分位。由于存在数据缺失,需要进行清洗,经处理后还有278种期刊。另外被引半率期和引用半率期是反向指标,在标准化时必须进行正向处理。
  3 实证结果
  3.1 评价前检验
  3.1.1 KMO检验与Bartlett检验
  主成分分析与因子分析在评价前均必须进行KMO检验和Bartlett检验,而且两者的检验结果相同。经检验,KMO值为0.839,远远大于0.5的底线水平;Bartlett检验值为7 933.244,相伴概率为0.000,通过了统计检验,所以从KMO检验和Bartlett检验角度,JCR 2015经济学期刊评价可以采用主成分分析或因子分析。
  3.1.2 指标数据分布检验
  主成分分析不需要评价指标服从正态分布,因子分析需要评价指标服从正态分布。从正态分布检验结果看,全部11个指标均不服从正态分布,如表2所示。Price(1965)[26]最早发现引文网络的入度和出度均服从幂律分布特征,并指出幂指数介于2.5~3.0之间。Redner(1998)[27]也发现了引文网络的幂律分布规律,并指出出度幂指数为3.0。Seglen(1992)[28]发现引文指标数据呈典型的偏态分布,并不服从正态分布。由于JCR 2015数据库中,经济学期刊数量位居前三,对于期刊数量较少的学科而言,服从正态分布的机率更小。所以从数据分布看,JCR2015经济学期刊评价并不适合采用因子分析。
  3.2 评价中检验
  3.2.1 主成分分析评价的信息损失分析
  采用主成分分析进行评价共提取特征根大于1的两个主成分,如表3所示,第一主成分方差贡献率为58.39%,第二主成分的方差贡献率为15.93%,累计方差贡献率为74.32%,信息损失为25.68%,应该说,这个比例还是比较高的,用主成分分析进行评价要慎重。
  3.2.2 因子分析评价的信息损失度分析
  因子分析的信息损失包括两部分,一是提取公共因子造成的信息损失;二是原始指标的特殊因子信息损失。因子分析同样提取特征根大于1的两个公共因子,如表4所示,第一公共因子的方差贡献率为56.96%,第二公共因子的方差贡献率为17.37%,累计方差贡献率为74.32%,因子分析第一部分的信息损失为25.68%,和主成分分析的信息损失一致。
  因子分析评价的第二个信息损失是每个原始指标提取公共因子后的特殊因子信息,如表5所示,每个指标的信息损失可以用1减去共同度表示,不同指标的信息损失程度是不一样的,影响因子、他引影响因子的信息损失要小一些,只有9%左右,但是即年指标的信息损失很大,为58%。
  3.3 评价后检验
  3.3.1 主成分分析与因子分析的解释力与代表性检验
  1)主成分分析的解释力与代表性检验
  主成分载荷矩阵如表6所示。第一主成分载荷较大的指标包括总被引频次、影响因子、他引影响因子、5年影响因子、特征因子、论文影响分值、标准特征因子、影响因子百分位,代表了期刊影响力指标;第二主成分载荷较大的指标包括即年指标、被引半衰期、引用半衰期,代表了期刊时效性指标。第一主成分涉及8个指标,第二主成分涉及3个指标,总体上主成分分析的代表性较好。
  2)因子分析的解释力与代表性检验
  因子旋转矩阵如表7所示,其结果与主成分分析类似,虽然从理论上讲,因子分析的解释能力要大于主成分分析,但本例中,两者均具有较好的解释力。   [12]董晔璐.基于因子分析的我国高校科技创新能力评价[J].科学管理研究,2015,(6):32-34.
  [13]黄斌,汪长柳,马丽.基于因子分析的江苏省科技服务业竞争力综合评价[J].科技管理研究,2013,(22):59-62.
  [14]翁媛媛,高汝熹.科技创新环境的评价指标体系研究——基于上海市创新环境的因子分析[J].中国科技论坛,2009,(2):31-35.
  [15]郑丽霞.因子分析在SCI期刊综合评价中的应用[J].农业图书情报学刊,2016,(7):53-56.
  [16]柴玉婷,温学兵.师范大学理科学报学术影响力评价研究[J].渤海大学学报:自然科学版,2016,(1):24-29,34.
  [17]何莉,董梅生,丁吉海,等.安徽省高校自然科学学报学术影响力综合评价分析——基于因子分析法[J].中国科技期刊研究,2014,(3):427-431.
  [18]Edward Jackson J.A User’s Guide To Principal Components[M]. Newyork:A Wiley Inter Science Publication,1992.
  [19]俞立平,潘云涛,武夷山.学术期刊评价中主成分分析法应用悖论研究[J].情报理论与实践,2009,(9):84-87.
  [20]楼文高,吴雷鸣.科技期刊质量综合评价的主成分分析法及其改进[J].统计教育,2010,(5):57-62.
  [21]MacCallum R C,Widaman K F,Zhang S,Hong S.Sample Size in Factor Analysis[J].Psycholical Methods,1999,4(1):84-99.
  [22]Fabrigar L R,Wegener D T,MacCallum R C,Strahan E J.Evaluating the Use of Exploratory Factor Analysis in Psychological Research[J].Psychological Methods,1999,4(3):272-299.
  [23]傅德印.因子分析統计检验体系的探讨[J].统计研究,2007,(6):86-90.
  [24]俞立平,刘爱军.主成分分析与因子分析在期刊评价中的改进研究[J].情报杂志,2014,(12):94-98.
  [25]俞立平,潘云涛,武夷山.科技评价中不同客观评价方法权重的比较研究[J].科技管理研究,2009,(7):148-150.
  [26]Price D J S.Networks of Scientific Papers[J].Science,1965,149(368):510-515.
  [27]Redner S.How Popular is your Paper an Empirical Study of the Citation Distribution[J].Eur Phys.J.B 4,1998:131-134.
  [28]Seglen P O.The Skewness of Science[J].Journal of the American Society for Information Science,1992,43(9):628-638.
  (责任编辑:郭沫含)
其他文献
美国对中国的战略偏见,屡屡导致美国对中国的战略误判。二战结束后的70年来,美国对中国的重大战略误判就有六次之多。  第一次误判:  共产党和国民党,谁能赢得中国?  二战结束前后,中国的第一个问题是:国民党和共产党,究竟谁能赢得中国?而在这个问题上,美国的战略误判,导致其作出“扶蒋反共”的错误决策。  当时,美军驻延安观察组向美国国内提供了大量军事、政治报告,他们在报告中指出:“共产党由于得到当地
〔摘 要〕ESI学科科研绩效评价不仅需要对现有的数据分析,更需要从历史性的数据和连续性的数据中找出学科发展规律。Incites数据库作为科研绩效分析工具,在ESI学科评价分析中具有举足轻重的作用。本文分析了Incites数据库的连续数据对学校ESI学科进行动态性评价和持续追踪分析的重要意义,并提出了如何使用纵向维度与横向维度动态数据以及同类机构差异化数据实现ESI学科动态性评价和持续追踪分析。  
[摘要]随着竞争全球化的加剧,技术竞争情报在服务于各国企业发展的过程中起着不可替代的作用。以智能手机领域为例,选取华为、中兴、苹果、诺基亚、索尼、夏普、三星、LG等八大企业分别作为中国、美国、日本、韩国的智能手机代表厂商,通过专利计量分析和信息可视化技术对德温特专利检索数据库中的专利文献数据进行分析。通过分析技术竞争情报,探测企业关注产业技术发展趋势和新兴技术、突破性技术,进一步识别技术的机遇和威
关键词:可视化标引;自动标引;可视化自动标引;格萨尔  文献标引是针对文献的情报内容和特征,从目标文献中抽取检索标识的过程。当前的标引研究主要聚焦于关键词标引、分类标引等方面,在标引方法上以基于关键词等文本信息的统计分析和语言分析为主。主题法是从内容角度进行文献标引和检索的主要方法,主题标引是文献标引工作的核心之一,其“通过主题词及主题词组配所构成的主题标识,来揭示文献的学科内容”,在实践中常与分
〔摘 要〕专利文献中蕴含大量的经济、技术和法律信息,是技术创新的重要情报源。本文以1986-2013年我国抗肿瘤药物专利申请的基本数据为基础,通过对专利数据的检索分析,深入挖掘药物研发的专利信息,绘制了该领域研发的专利地图,从中总结出药物研发过程中存在的主要问题,提出相对应的建议及对策,旨在为我国抗肿瘤药物研发的专利战略制定、专利政策管理提供理论指导和实证支撑。  〔关键词〕抗肿瘤药物;专利统计;
那些陪我们度过“漫长岁月”的剧集,是学习英语的好帮手。  近日,著名情景喜剧《老友记》宣布将于2021年初开始拍摄重聚特别节目,该节目是由《老友记》六名主演和两名主创David Crane和Marta Kauffman参与的无剧本对话形式特别集,将在流媒体平台HBO Max上线。这一消息对于不少“90后”“00后”来说都是一件振奋人心的消息。诸如《老友记》《生活大爆炸》这类影视作品伴随着大家度过了
华为公司在发展历程中,先后收购或并购了多家国外知名企业,这样的成就自然令人自豪。  有一段时间,公司管理层沉浸在成功的喜悦中,几个副总的脸上都洋溢着自豪的微笑。  不过,老总任正非没有陶醉于眼前的辉煌。他发现大家思想情緒的变化后,立即决定召开一次高层会议。在会上,他没有讲什么大话和空话,而是讲述了一则寓言故事:  在一条河边,一只青蛙极力地向老鼠介绍着下水游泳的乐趣,而老鼠也努力向青蛙描述河岸上的
那年,他17岁。  家贫。过年吃饺子,只有爷爷、奶奶可以吃到白面包的饺子。  母亲把榆树皮磨成粉,再和玉米面掺和在一起,这样可以把馅儿裹住,不散——单用玉米面包饺子包不成。  那种榆树皮饺子難以下咽。  记忆中,可以分得两个白面饺子,小心翼翼吞咽,生怕遗漏了什么,但到底还是遗漏了——还未知是何滋味,已经咽下肚去。  衣裳更是因陋就简。老大穿了老二穿,老二穿了老三穿,裤子上常常有补丁。  有好多年只
布莱特是英国维克托航空公司的一名普通员工,由于业绩突出,公司奖励布莱特全家免费飞往法国戛纳休假。然而,布莱特全家却因堵车错过了当天的航班,下一航班需等到第二天早上。  焦急万分的布莱特急忙找公司的同事帮忙联系其他航空公司,但得到的答复是,要么还没有开通目的地的航班,要么已经错过。  无奈,布莱特正准备放弃时,同事说有一架朋友的私人飞机正好前往戛纳,如果愿意搭乘的话,可以帮忙联系。布莱特赶忙答应下来
公务员群体交织着外界各种自我想象与羡慕。而真正进入体制的新生代公务员,却是冷暖自知,并努力在A面之外,以各种B面,改写着人们眼中快要“格式化”的公务员形象  一场关于小说的    “绝地反击”  默纲是名经济学硕士,现在上海