A. 主成分分析与因子分析的区别与联系
主成分分析和因子分析,不少人初次看到觉得非常相似。特别是spss中并没有专门处理主成分分析的模块,只是在因子分析过程中使用了主成分方法,导致有些人云里雾里,将其混淆。其实二者不管从原理还是在使用上,均有较大差异。
原理不同
主成分分析(Principal components analysis,PCA)基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。
因子分析(Factor Analysis,FA)基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。就是要从数据中提取对变量起解释作用的少数公共因子(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)
线性表示方向不同
主成分分析中则是把主成分表示成各变量的线性组合;
因子分析是把变量表示成各公因子的线性组合。
假设条件不同
主成分分析:不需要有假设(assumptions);
因子分析:需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specificfactor)之间也不相关,共同因子和特殊因子之间也不相关。
B. 主成分分析有什么用
主成分分析最主要的用途在于“降维”.
举个例子,你要做一项分析,选中了20个指标,你觉得都很重要,但是20个指标对于你的分析确实太过繁琐,这时候,你就可以采用主成分分析的方法进行降维.
20个指标之间会有这样那样的相互关系,相互之间会有影响,通过主成分分析后,得到4个或者5个主成分指标.此时,这几个主成分指标既涵盖了你20个指标中的绝大部分信息,又让你的分析得到了简化(从20维降到4、5维),简化了分析过程,增加了结果精度.
C. 因子分析法和主成分分析法的区别与联系是什么
因子分析与主成分分析的异同点:
都对原始数据进行标准化处理; 都消除了原始指标的相关性对综合评价所造成的信息重复的影响; 构造综合评价时所涉及的权数具有客观性; 在信息损失不大的前提下,减少了评价工作量
公共因子比主成分更容易被解释; 因子分析的评价结果没有主成分分析准确; 因子分析比主成分分析的计算工作量大
主成分分析仅仅是变量变换,而因子分析需要构造因子模型。
主成分分析:原始变量的线性组合表示新的综合变量,即主成分;
因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。
D. 求高手:股份公司成长性与股票内在价值分析的联系 万分感谢
一、影响股份公司成长性的因素
股份公司的成长性是股票投资者选择投资对象的重要参考因素,因此,研究股份公司成长性构成要素及定量分析各要素变动对公司股票内在价值的影响,对指导投资者股票投资具有重要意义。
通常反映公司成长性的指标有总资产增长率、净资产增长率、主营业务增长率、主营利润增长率及净利润增长率等[1]。总资产与净资产的增长主要反映的是公司再投入的情况,它是公司成长的基础;主营业务与主营利润的增长主要反映的是公司市场开拓和产品盈利能力情况,它更多体现的是公司的成长潜力;净利润的增长是公司经营成果的综合反映,最能代表公司的成长性。因而,在研究股票内在价值时,一般是将净利润的增长率作为成长性的指标。
净利润增长率既与资产的盈利能力有关,又与公司资产的投入有关。从资产盈利方面看,资产盈利能力强,公司的成长性就高;反之,资产盈利能力弱,其成长性就可能受到影响。从公司投入增长方面看,公司的投入分内部投入和外部投入。内部投入是指公司将盈利资金不分配,全部投入到再生产中去,或将盈利分配一部分,另一部分投入到再生产中去。这样公司的资产增加了,必将使公司未来的盈利更多,成长性更好。外部投入是指公司通过配股、增发新股等方式从公司外部筹集资金来增加公司的资产,由于这一方式筹资数量大,不具有连续性,因而本文不把这一因素考虑在内。
任何行业都有寿命周期,一个公司不可能长期盈利能力强、成长性高。当一个行业或一个产品经过了高成长期以后,就进入了稳定发展期[2]。这时公司的收益率相对较低,成长性也相对较低。为了研究方便,本文把公司成长分成两个阶段,即高成长期和正常成长期。高成长期成长性的影响因素主要是收益率和成长年限;正常成长期成长性影响因素主要是收益率和利润留成率。因而,高成长期的收益率大小、高收益期的长短,以及正常成长期收益率大小、资产稳定增长的数量都影响着公司股票内在价值。总结上述分析可以看出,影响股份公司成长性的因素主要有:收益率的大小、高成长期的长短、利润留成率(反映资金投入的比例或资本的增长率)的多少。
二、成长型公司的股票内在价值模型
基本假设:公司前几年高收益,高成长,不分配红利;以后正常收益,正常成长,分配红利。则高成长期第t年股份公司每股净资本计算公式如下:
Kt=K0(1+Z1)t (1)
其中: Kt第t年每股净资本;
K0期初每股净资本(等于年末每股净资产减利润);
Z1高成长期净资本的年收益率;
t高成长期。
公式(1)反映的是高成长期的前t年,股份公司的净资本的增长情况。由于净资本的年收益率为Z1,且收益不分配又都转化为资本,因而净资本的年增长率为Z1,利润的年增长率也为Z1,即公司前t年的成长性J1=Z1。
正常成长期单位净资本收益折现的内在价值计算公式如下:
Pt=(1-S)(1-L)Z2/(I-LZ2) (2)
其中:Pt正常成长期单位净资本收益折现的内在价值;
S红利所得税税率(目前为20%);
L正常期的利润留成率;
Z2正常成长期的年收益率;
I市场折现率。
公式(2)是固定成长率的股票折现内在价值公式,其中:(1-L)为分红率;(1-S)(1-L)Z2是扣税后实际分得的红利;LZ2为年收益的增长率,即公司正常成长期的成长性:J2=LZ2。
高成长期和正常成长期综合在一起的股票内在价值计算公式如下:
P0=KtPt/(1+I)t (3)
其中:P0股票内在价值。(1+I)t的作用是将第t期的价值折现到期初。
上述模型是分段折现模型[3],其中前一段是由于高收益导致的资本的高增长,后一段则是无限期正常分红利折现的股票内在价值。
三、与成长性有关的因素变化对股票内在价值的影响分析
若某一公司的高成长期为5年,高成长期的收益率为40%,正常期的收益率为15%,利润留成率为20%,年初每股净资本为1元,市场折现率为6%,即K=1元,Z1=40%,I=6%,L=20%,Z2=15%,t=5年。
则高成长期的增长率J1=Z1=40%,正常期增长率J2=LZ2=20%×15%=3%,股票的内在价值为:P0=KtPt/(1+I)t=1[(1+40%)5(1-20%)(1-20%)15%/(6%-3%)]/(1+6%)5=12.86元.
这一结果说明,在前述条件下,当正常期成长性为3%时,净资本为1元的股票,内在价值为12.86元,市净率为12.86倍。
下面是在此基础上分析各因素的变化对股票内在价值的影响。
1. 高成长期收益率的变化对股票内在价值的影响
高成长期收益率的变化不影响正常期成长性的变化,但影响净资本的数量,即影响资本的增长,进而影响利润的多少和股票内在价值的大小。表1是高成长期收益率(简称高收益率)由40%增长到45%或下降至35%时对股票内在价值的影响情况。
表1 高收益率变化的影响
高成长期/年
45
40
35
股票内在价值/元
15.33
12.86
10.72
价值变化率/%
19.21
0
-16.64
从表1可以看出,高收益率由40%提高5%,股票内在价值增加19 21%;高收益率由40%下降5%,股票内在价值减少了16 64%。这说明高收益率的变化对股票内在价值有较大影响,其中上涨的影响要大于下降的影响。
2.高成长期变化对股票内在价值的影响高成长期也同高收益率一样,也是通过对资本增长的影响,进而影响利润的多少和股票内在价值的大小。表2是高成长期由5年延长至6年或缩短至4年时对股票内在价值影响的情况。
表2 高成长期变化的影响
高成长期/年
6
5
4
股票内在价值/元
16.98
12.86
9.74
价值变化率/%
32.1
0
-24.2
表2说明,高成长期多延长1年,股票内在价值可增长32 1%;缩短1年,股票内在价值将减少24 2%,高成长期的长短对股票内在价值的影响较大。
3.正常期收益率变化对股票内在价值的影响
假设其它因素不变,正常期收益率由15%增加到20%或减少到10%,分析其对股票内在价值的影响,具体结果见表3。
表3 正常期收益率变化的影响
收益率/%
20
15
10
成长性
4
3
2
股票内在价值/元
25.72
12.86
6.43
价值变化率/%
100
0
-50
从表3看出,收益率由15%提高到20%,则成长性由3%上升到4%,股票内在价值增加1倍;同样,若收益率由15%减少到10%,则成长性降到2%,股票内在价值减少一半,即由收益率变化引起的成长性变化对股票价值的波动大,风险大。
4.利润留成率变化对股票内在价值的影响
假定其它因素不变,留成率由20%提高至26 67%或降低至13 33%(为了保持成长性变化与前相同),分析其对股票内在价值的影响,具体结果见表4。
表4 利润留成率变化的影响
留成率/%
26.67
20
13.33
成长性/%
4
3
3
股票内在价值/元
17.15
12.86
8.57
价值变化率/%
33.35
0
-33.35
从表4看,利润留成率由20%增加到26 67%,成长性由3%升到4%,而使价值增长33 35%;反之,利润留成率下降至13 33%,成长性由3%降到2%,则价值也对应下降33 35%。这说明靠多投入来提高成长性也能导致股票内在价值升高,但其影响程度比单独提高收益率要小一些。另一方面,公司留利过少,不利于公司发展,也不利于提高股票内在价值。
5.市场折现率变化对股票内在价值的影响
市场折现率变化虽然不影响公司成长性,但影响其股票内在价值。它属于外部因素,计算它的影响主要是为了与上述公司内部影响因素进行比较。表5是市场折现率变化对股票内在价值的影响分析结果。
表5 市场折现率变化的影响
市场折现率/%
6.5
6
5.5
股票内在价值/元
10.77
12.86
15.80
价值变化率/%
-16.25
0
22.86
从表5看,市场折现率变化对股票内在价值影响较大,市场折现率降低0 5个百分点,价值将提高22 86%,而市场折现率提高0 5个百分点,价值将降低16 25%。从数量变化关系看市场折现率对股票内在价值较敏感,但由于市场折现率实际的变化区域很小,因而它对股票内在价值的影响与上述因素大致相同。
四、结 论
综上所述,与成长性有关的各因素的变化对股票内在价值影响的程度都较大,其中除市场折现率属外部因素外,高成长期、收益率、利润留成率都是内部因素。对这些因素变化的准确判断是很难的,因而成长股的风险很大,当然它对应的收益也很大。投资者在选择成长股时,判断好高收益率、高成长期因素和长期收益率因素很重要。第一个因素可从行业考虑,如生物制药、信息、环保等行业;第二个因素可从公司内部考虑,如领导者素质、人才状况、管理水平、市场垄断性及特殊性等
E. 试述主成分分析,因子分析和对应分析三者之间的区别与联系
一、方式不同:
1、主成分分析:
通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
2、因子分析:
通过从变量群中提取共性因子,因子分析可在许多变量中找出隐藏的具有代表性的因子。
3、对应分析:
通过分析由定性变量构成的交互汇总表来揭示变量。
二、作用体现不同:
1、主成分分析:
主成分分析作为基础的数学分析方法,其实际应用十分广泛,比如人口统计学、数量地理学、分子动力学模拟、数学建模、数理分析等学科中均有应用。
2、因子分析:
因子分析在市场调研中有着广泛的应用,主要包括消费者习惯和态度研究、品牌形象和特性研究、服务质量调查、个性测试。
3、对应分析:
能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,是一种直观、简单、方便的多元统计方法。
(5)用主成分分析研究股票内在的联系扩展阅读
主成分分析对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
对应分析是由法国人Benzenci于1970年提出的,起初在法国和日本最为流行,然后引入到美国。对应分析法是在R型和Q型因子分析的基础上发展起来的一种多元统计分析方法,因此对应分析又称为R-Q型因子分析。
在因子分析中,如果研究的对象是样品,则需采用Q型因子分析;如果研究的对象是变量,则需采用R型因子分析。但是,这两种分析方法往往是相互对立的,必须分别对样品和变量进行处理。
F. 主成分分析法
在对灾毁土地复垦效益进行分析时,会碰到众多因素,各因素间又相互关联,将这些存在相关关系的因素通过数学方法综合成少数几个最终参评因素,使这几个新的因素既包含原来因素的信息又相互独立。简化问题并抓住其本质是分析过程中的关键,主成分分析法可以解决这个难题。
(一)主成分分析的基本原理
主成分分析法(Principal Components Analysis,PCA)是把原来多个变量化为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理方法,即通过对原始指标相关矩阵内部结果关系的研究,将原来指标重新组合成一组新的相互独立的指标,并从中选取几个综合指标来反映原始指标的信息。假定有n个评价单元,每个评价单元用m个因素来描述,这样就构成一个n×m阶数据矩阵:
灾害损毁土地复垦
如果记m个因素为 x1,x2,…,xm,它们的综合因素为 z1,z2,…,zp(p≤m),则:
灾害损毁土地复垦
系数lij由下列原则来决定:
(1)zi与zj(i≠j,i,j=1,2,…,p)相互无关;
(2)z1是x1,x2,…,xm的一切线性组合中方差最大者,依此类推。
依据该原则确定的综合变量指标z1,z2,…,zp分别称为原始指标的第1、第2、…、第p个主成分,分析时可只挑选前几个方差最大的主成分。
(二)主成分分析法的步骤
(1)将原始数据进行标准化处理,以消除原始数据在数量级或量纲上的差异。
(2)计算标准化的相关数据矩阵:
灾害损毁土地复垦
(3)用雅克比法求相关系数矩阵R的特征值(λ1,λ2,…,λp)和与之相对应的特征向量 αi=(αi1,αi2,…,αip),i=1,2,…,p。
(4)选择重要的主成分,并写出其表达式。
主成分分析可以得到P个主成分,但是由于各个主成分的方差与其包含的信息量皆是递减的,所以在实际分析时,一般不选取P个主成分,而是根据各个主成分所累计的贡献率的大小来选取前K个主成分,这里的贡献率是指某个主成分的方差在全部方差中所占的比重,实际上也是某个特征值在全部特征值合计中所占的比重。即:
灾害损毁土地复垦
这说明,主成分所包含的原始变量的信息越强,贡献率也就越大。主成分的累计贡献率决定了主成分个数K的选取情况,为了保证综合变量能包括原始变量的绝大多数信息,一般要求累计贡献率达到85%以上。
另外,在实际应用过程中,选择主成分之后,还要注意主成分实际含义的解释。如何给主成分赋予新的含义,给出合理的解释是主成分分析中一个相当关键的问题。一般来说,这个解释需要根据主成分表达式的系数而定,并与定性分析来进行有效结合。主成分是原来变量的线性组合,在这个线性组合中各变量的系数有正有负、有大有小,有的又大小相当,因此不能简单地把这个主成分看作是某个原变量的属性作用。线性组合中各变量系数的绝对值越大表明该主成分主要包含了该变量;如果有几个大小相当的变量系数时,则认为这一主成分是这几个变量的综合,而这几个变量综合在一起具有什么样的实际意义,就需要结合具体的问题和专业,给出合理的解释,进而才能达到准确分析的目的。
(5)计算主成分得分。根据标准化的原始数据,将各个样品分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即为主成分得分。具体形式可如下:
灾害损毁土地复垦
(6)依据主成分得分的数据,则可以进行进一步的统计分析。其中,常见的应用有主成分回归,变量子集合的选择,综合评价等。
(三)主成分分析法的评价
通过主成分分析法来评价复垦产生的效益,可将多个指标转化成尽可能少的综合性指标,使综合指标间互不相干,既减少了原指标信息的重叠度,又不丢失原指标信息的总含量。该方法不仅将多个指标转化成综合性指标,而且也能对每个主成分的影响因素进行分析,从而判别出影响整个评价体系的关键因素,并且主成分分析法在确定权重时可以科学地赋值,以避免主观因素的影响。
需要注意的是,主成分分析法虽然可以对每个主成分的权重进行科学、定量的计算,避免人为因素及主观因素的影响,但是有时候赋权的结果可能与客观实际有一定误差。因此,利用主成分分析法确定权重后,再结合不同专家给的权重,是最好的解决办法。这样可以在定量的基础上作出定性的分析,通过一定的数理方法将两种数据结合起来考虑。
G. 如何有效利用主成分分析中的主成分
主成分分析方法是一种将多个指标化为少数几个不相关的综合指标(即主成分)的多元统计分析方法.由于其具有消除各指标不同量纲的影响,以及消除指标间相关性所带来的信息重叠等优点,近几年,该方法在社会经济、管理、自然科学等众多领域得到了广泛的应用,尤其是被用于系统综合评价.在使用主成分分析方法做综合评价的过程中,由于部分学者对主成分分析的原理及主成分的定义理解不深,出现了不少错误.本文通过分析主成分分析的原理及综合评价的特点,从理论和实际例子上证实了有关文献作者在用主成分做综合评价过程中某些做法的不合理性.给出了主成分做综合评价的充要条件,阐明了主成分所含信息量的大小与综合水平之间的差异,为充分利用形状因子(反映指标间结构性差异的主成分)提供的有效信息,提出了一种定性与定量相结合的评价体系.并通过一个实例讲解了评价过程.
望采纳,谢谢
H. 主成分分析与分析目的如何联系起来
统计学的本质,并不是去发明或者创造因果关系,而是用数据区证明理论中的因果关系是否正确。
你问的很对,给定的原始数据,计算得出的结论是一定的,你并不能从计算中知道到底评价的是适应性还是脆弱性。
这一些列数据到底评价哪个因素更合适,是根据现有理论得出的经验来确定的,你做的分析,是去验证现有理论与事实是否相符、或者相悖。
再有,因子分析、主成分分析得出的指标权重,最大的优势是排除了人的主管因素,以纯数字去验证结论,但是并不代表得出的结果就一定准确,只能说从某一方面或者某种角度验证了现有的理论是否适用。
I. 主成分分析和层次分析法的区别和联系
层次分析法:
主成分分析和层次分析两者计算权重的不同,AHP层次分析法是一种定性和定量的计算权重的研究方法,采用两两比较的方法,建立矩阵,利用了数字大小的相对性,数字越大越重要权重会越高的原理,最终计算得到每个因素的重要性。
主成分分析
(1)方法原理及适用场景
主成分分析是对数据进行浓缩,将多个指标浓缩成为几个彼此不相关的概括性指标(主成分),从而达到降维的目的。主成分分析可同时计算主成分权重及指标权重。
(2)操作步骤
使用SPSSAU【进阶方法-主成分分析】。
如果计算主成分权重,需要用到方差解释率。具体加权处理方法为:方差解释率除累积方差解释率。
比如本例中,5个指标共提取了2个主成分:
主成分1的权重:45.135%/69.390%=65.05%
主成分2的权重:24.254%/69.390%=34.95%
如果是计算指标权重,可直接查看“线性组合系数及权重结果表格”,SPSSAU自动输出了各指标权重占比结果。其计算原理分为三步:
第一:计算线性组合系数矩阵,公式为:loading矩阵/Sqrt(特征根),即载荷系数除以对应特征根的平方根;
第二:计算综合得分系数,公式为:累积(线性组合系数*方差解释率)/累积方差解释率,即上一步中得到的线性组合系数分别与方差解释率相乘后累加,并且除以累积方差解释率;
第三:计算权重,将综合得分系数进行归一化处理即得到各指标权重值。
J. 求主成分分析的算法
主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。
因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。
聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。
三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益。
二、基本思想的异同
(一) 共同点
主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。并且新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。
聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系。也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ]。聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集。对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用。
(二) 不同之处
主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量) ,使它们尽可能多地保留原始变量的信息,且彼此不相关。它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量) ,在这种变换中,保持变量的总方差(方差之和) 不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分。依次类推。若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m (m < p) 个主成分就够了,只要这m 个主成分能反映原来所有变量的绝大部分的方差。主成分分析可以作为因子分析的一种方法出现。
因子分析是寻找潜在的起支配作用的因子模型的方法。因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。通过因子分析得来的新变量是对每个原始变量进行内部剖析。因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态。因子分析只能解释部分变异,主成分分析能解释所有变异。
聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小。聚类可以理解为: 类内的相关性尽量大,类间相关性尽量小。聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律。
从三类分析的基本思想可以看出,聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量。
三、数据标准化的比较
主成分分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1 的无量纲数据。而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,并且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子变量时,仍需标准化。不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化。在构造因子变量时采用的是主成分分析方法,主要将指标值先进行标准化处理得到协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价。
聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响。不同方法进行标准化,会导致不同的聚类结果要注意变量的分布。如果是正态分布应该采用z 分数法。
四、应用中的优缺点比较
(一) 主成分分析
1、优点
首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价。
2、缺点
当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。
(二) 因子分析
1、优点
第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高。
2、缺点
在计算因子得分时,采用的是最小二乘法,此法有时可能会失效。
(三) 聚类分析
1、优点
聚类分析模型的优点就是直观,结论形式简明。
2、缺点
在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。