當前位置:首頁 » 行情解析 » 用主成分分析研究股票內在的聯系
擴展閱讀
股票交易高價低價成交 2025-08-18 18:58:59
場外股票交易市場 2025-08-18 18:15:30

用主成分分析研究股票內在的聯系

發布時間: 2022-07-21 10:50:12

A. 主成分分析與因子分析的區別與聯系

主成分分析和因子分析,不少人初次看到覺得非常相似。特別是spss中並沒有專門處理主成分分析的模塊,只是在因子分析過程中使用了主成分方法,導致有些人雲里霧里,將其混淆。其實二者不管從原理還是在使用上,均有較大差異。
原理不同
主成分分析(Principal components analysis,PCA)基本原理:利用降維(線性變換)的思想,在損失很少信息的前提下把多個指標轉化為幾個不相關的綜合指標(主成分),即每個主成分都是原始變數的線性組合,且各個主成分之間互不相關,使得主成分比原始變數具有某些更優越的性能(主成分必須保留原始變數90%以上的信息),從而達到簡化系統結構,抓住問題實質的目的。
因子分析(Factor Analysis,FA)基本原理:利用降維的思想,由研究原始變數相關矩陣內部的依賴關系出發,把一些具有錯綜復雜關系的變數表示成少數的公共因子和僅對某一個變數有作用的特殊因子線性組合而成。就是要從數據中提取對變數起解釋作用的少數公共因子(因子分析是主成分的推廣,相對於主成分分析,更傾向於描述原始變數之間的相關關系)
線性表示方向不同
主成分分析中則是把主成分表示成各變數的線性組合;
因子分析是把變數表示成各公因子的線性組合。
假設條件不同
主成分分析:不需要有假設(assumptions);
因子分析:需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子(specificfactor)之間也不相關,共同因子和特殊因子之間也不相關。

B. 主成分分析有什麼用

主成分分析最主要的用途在於「降維」.
舉個例子,你要做一項分析,選中了20個指標,你覺得都很重要,但是20個指標對於你的分析確實太過繁瑣,這時候,你就可以採用主成分分析的方法進行降維.
20個指標之間會有這樣那樣的相互關系,相互之間會有影響,通過主成分分析後,得到4個或者5個主成分指標.此時,這幾個主成分指標既涵蓋了你20個指標中的絕大部分信息,又讓你的分析得到了簡化(從20維降到4、5維),簡化了分析過程,增加了結果精度.

C. 因子分析法和主成分分析法的區別與聯系是什麼

因子分析與主成分分析的異同點:
都對原始數據進行標准化處理; 都消除了原始指標的相關性對綜合評價所造成的信息重復的影響; 構造綜合評價時所涉及的權數具有客觀性; 在信息損失不大的前提下,減少了評價工作量
公共因子比主成分更容易被解釋; 因子分析的評價結果沒有主成分分析准確; 因子分析比主成分分析的計算工作量大

主成分分析僅僅是變數變換,而因子分析需要構造因子模型。
主成分分析:原始變數的線性組合表示新的綜合變數,即主成分;
因子分析:潛在的假想變數和隨機影響變數的線性組合表示原始變數。

D. 求高手:股份公司成長性與股票內在價值分析的聯系 萬分感謝

一、影響股份公司成長性的因素

股份公司的成長性是股票投資者選擇投資對象的重要參考因素,因此,研究股份公司成長性構成要素及定量分析各要素變動對公司股票內在價值的影響,對指導投資者股票投資具有重要意義。

通常反映公司成長性的指標有總資產增長率、凈資產增長率、主營業務增長率、主營利潤增長率及凈利潤增長率等[1]。總資產與凈資產的增長主要反映的是公司再投入的情況,它是公司成長的基礎;主營業務與主營利潤的增長主要反映的是公司市場開拓和產品盈利能力情況,它更多體現的是公司的成長潛力;凈利潤的增長是公司經營成果的綜合反映,最能代表公司的成長性。因而,在研究股票內在價值時,一般是將凈利潤的增長率作為成長性的指標。

凈利潤增長率既與資產的盈利能力有關,又與公司資產的投入有關。從資產盈利方面看,資產盈利能力強,公司的成長性就高;反之,資產盈利能力弱,其成長性就可能受到影響。從公司投入增長方面看,公司的投入分內部投入和外部投入。內部投入是指公司將盈利資金不分配,全部投入到再生產中去,或將盈利分配一部分,另一部分投入到再生產中去。這樣公司的資產增加了,必將使公司未來的盈利更多,成長性更好。外部投入是指公司通過配股、增發新股等方式從公司外部籌集資金來增加公司的資產,由於這一方式籌資數量大,不具有連續性,因而本文不把這一因素考慮在內。

任何行業都有壽命周期,一個公司不可能長期盈利能力強、成長性高。當一個行業或一個產品經過了高成長期以後,就進入了穩定發展期[2]。這時公司的收益率相對較低,成長性也相對較低。為了研究方便,本文把公司成長分成兩個階段,即高成長期和正常成長期。高成長期成長性的影響因素主要是收益率和成長年限;正常成長期成長性影響因素主要是收益率和利潤留成率。因而,高成長期的收益率大小、高收益期的長短,以及正常成長期收益率大小、資產穩定增長的數量都影響著公司股票內在價值。總結上述分析可以看出,影響股份公司成長性的因素主要有:收益率的大小、高成長期的長短、利潤留成率(反映資金投入的比例或資本的增長率)的多少。

二、成長型公司的股票內在價值模型

基本假設:公司前幾年高收益,高成長,不分配紅利;以後正常收益,正常成長,分配紅利。則高成長期第t年股份公司每股凈資本計算公式如下:

Kt=K0(1+Z1)t (1)

其中: Kt第t年每股凈資本;

K0期初每股凈資本(等於年末每股凈資產減利潤);

Z1高成長期凈資本的年收益率;

t高成長期。

公式(1)反映的是高成長期的前t年,股份公司的凈資本的增長情況。由於凈資本的年收益率為Z1,且收益不分配又都轉化為資本,因而凈資本的年增長率為Z1,利潤的年增長率也為Z1,即公司前t年的成長性J1=Z1。

正常成長期單位凈資本收益折現的內在價值計算公式如下:

Pt=(1-S)(1-L)Z2/(I-LZ2) (2)

其中:Pt正常成長期單位凈資本收益折現的內在價值;

S紅利所得稅稅率(目前為20%);

L正常期的利潤留成率;

Z2正常成長期的年收益率;

I市場折現率。

公式(2)是固定成長率的股票折現內在價值公式,其中:(1-L)為分紅率;(1-S)(1-L)Z2是扣稅後實際分得的紅利;LZ2為年收益的增長率,即公司正常成長期的成長性:J2=LZ2。

高成長期和正常成長期綜合在一起的股票內在價值計算公式如下:

P0=KtPt/(1+I)t (3)

其中:P0股票內在價值。(1+I)t的作用是將第t期的價值折現到期初。

上述模型是分段折現模型[3],其中前一段是由於高收益導致的資本的高增長,後一段則是無限期正常分紅利折現的股票內在價值。

三、與成長性有關的因素變化對股票內在價值的影響分析

若某一公司的高成長期為5年,高成長期的收益率為40%,正常期的收益率為15%,利潤留成率為20%,年初每股凈資本為1元,市場折現率為6%,即K=1元,Z1=40%,I=6%,L=20%,Z2=15%,t=5年。

則高成長期的增長率J1=Z1=40%,正常期增長率J2=LZ2=20%×15%=3%,股票的內在價值為:P0=KtPt/(1+I)t=1[(1+40%)5(1-20%)(1-20%)15%/(6%-3%)]/(1+6%)5=12.86元.

這一結果說明,在前述條件下,當正常期成長性為3%時,凈資本為1元的股票,內在價值為12.86元,市凈率為12.86倍。

下面是在此基礎上分析各因素的變化對股票內在價值的影響。

1. 高成長期收益率的變化對股票內在價值的影響

高成長期收益率的變化不影響正常期成長性的變化,但影響凈資本的數量,即影響資本的增長,進而影響利潤的多少和股票內在價值的大小。表1是高成長期收益率(簡稱高收益率)由40%增長到45%或下降至35%時對股票內在價值的影響情況。

表1 高收益率變化的影響
高成長期/年

45

40

35

股票內在價值/元

15.33

12.86

10.72

價值變化率/%

19.21

0

-16.64

從表1可以看出,高收益率由40%提高5%,股票內在價值增加19 21%;高收益率由40%下降5%,股票內在價值減少了16 64%。這說明高收益率的變化對股票內在價值有較大影響,其中上漲的影響要大於下降的影響。

2.高成長期變化對股票內在價值的影響高成長期也同高收益率一樣,也是通過對資本增長的影響,進而影響利潤的多少和股票內在價值的大小。表2是高成長期由5年延長至6年或縮短至4年時對股票內在價值影響的情況。

表2 高成長期變化的影響
高成長期/年

6

5

4

股票內在價值/元

16.98

12.86

9.74

價值變化率/%

32.1

0

-24.2

表2說明,高成長期多延長1年,股票內在價值可增長32 1%;縮短1年,股票內在價值將減少24 2%,高成長期的長短對股票內在價值的影響較大。

3.正常期收益率變化對股票內在價值的影響

假設其它因素不變,正常期收益率由15%增加到20%或減少到10%,分析其對股票內在價值的影響,具體結果見表3。

表3 正常期收益率變化的影響
收益率/%

20

15

10

成長性

4

3

2

股票內在價值/元

25.72

12.86

6.43

價值變化率/%

100

0

-50

從表3看出,收益率由15%提高到20%,則成長性由3%上升到4%,股票內在價值增加1倍;同樣,若收益率由15%減少到10%,則成長性降到2%,股票內在價值減少一半,即由收益率變化引起的成長性變化對股票價值的波動大,風險大。

4.利潤留成率變化對股票內在價值的影響

假定其它因素不變,留成率由20%提高至26 67%或降低至13 33%(為了保持成長性變化與前相同),分析其對股票內在價值的影響,具體結果見表4。

表4 利潤留成率變化的影響
留成率/%

26.67

20

13.33

成長性/%

4

3

3

股票內在價值/元

17.15

12.86

8.57

價值變化率/%

33.35

0

-33.35

從表4看,利潤留成率由20%增加到26 67%,成長性由3%升到4%,而使價值增長33 35%;反之,利潤留成率下降至13 33%,成長性由3%降到2%,則價值也對應下降33 35%。這說明靠多投入來提高成長性也能導致股票內在價值升高,但其影響程度比單獨提高收益率要小一些。另一方面,公司留利過少,不利於公司發展,也不利於提高股票內在價值。

5.市場折現率變化對股票內在價值的影響

市場折現率變化雖然不影響公司成長性,但影響其股票內在價值。它屬於外部因素,計算它的影響主要是為了與上述公司內部影響因素進行比較。表5是市場折現率變化對股票內在價值的影響分析結果。

表5 市場折現率變化的影響
市場折現率/%

6.5

6

5.5

股票內在價值/元

10.77

12.86

15.80

價值變化率/%

-16.25

0

22.86

從表5看,市場折現率變化對股票內在價值影響較大,市場折現率降低0 5個百分點,價值將提高22 86%,而市場折現率提高0 5個百分點,價值將降低16 25%。從數量變化關系看市場折現率對股票內在價值較敏感,但由於市場折現率實際的變化區域很小,因而它對股票內在價值的影響與上述因素大致相同。

四、結 論

綜上所述,與成長性有關的各因素的變化對股票內在價值影響的程度都較大,其中除市場折現率屬外部因素外,高成長期、收益率、利潤留成率都是內部因素。對這些因素變化的准確判斷是很難的,因而成長股的風險很大,當然它對應的收益也很大。投資者在選擇成長股時,判斷好高收益率、高成長期因素和長期收益率因素很重要。第一個因素可從行業考慮,如生物制葯、信息、環保等行業;第二個因素可從公司內部考慮,如領導者素質、人才狀況、管理水平、市場壟斷性及特殊性等

E. 試述主成分分析,因子分析和對應分析三者之間的區別與聯系

一、方式不同:

1、主成分分析:

通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。

2、因子分析:

通過從變數群中提取共性因子,因子分析可在許多變數中找出隱藏的具有代表性的因子。

3、對應分析:

通過分析由定性變數構成的交互匯總表來揭示變數。

二、作用體現不同:

1、主成分分析:

主成分分析作為基礎的數學分析方法,其實際應用十分廣泛,比如人口統計學、數量地理學、分子動力學模擬、數學建模、數理分析等學科中均有應用。

2、因子分析:

因子分析在市場調研中有著廣泛的應用,主要包括消費者習慣和態度研究、品牌形象和特性研究、服務質量調查、個性測試。

3、對應分析:

能把眾多的樣品和眾多的變數同時作到同一張圖解上,將樣品的大類及其屬性在圖上直觀而又明了地表示出來,具有直觀性。另外,它還省去了因子選擇和因子軸旋轉等復雜的數學運算及中間過程,可以從因子載荷圖上對樣品進行直觀的分類,是一種直觀、簡單、方便的多元統計方法。

(5)用主成分分析研究股票內在的聯系擴展閱讀

主成分分析對於原先提出的所有變數,將重復的變數(關系緊密的變數)刪去多餘,建立盡可能少的新變數,使得這些新變數是兩兩不相關的,而且這些新變數在反映課題的信息方面盡可能保持原有的信息。

對應分析是由法國人Benzenci於1970年提出的,起初在法國和日本最為流行,然後引入到美國。對應分析法是在R型和Q型因子分析的基礎上發展起來的一種多元統計分析方法,因此對應分析又稱為R-Q型因子分析。

在因子分析中,如果研究的對象是樣品,則需採用Q型因子分析;如果研究的對象是變數,則需採用R型因子分析。但是,這兩種分析方法往往是相互對立的,必須分別對樣品和變數進行處理。

F. 主成分分析法

在對災毀土地復墾效益進行分析時,會碰到眾多因素,各因素間又相互關聯,將這些存在相關關系的因素通過數學方法綜合成少數幾個最終參評因素,使這幾個新的因素既包含原來因素的信息又相互獨立。簡化問題並抓住其本質是分析過程中的關鍵,主成分分析法可以解決這個難題。

(一)主成分分析的基本原理

主成分分析法(Principal Components Analysis,PCA)是把原來多個變數化為少數幾個綜合指標的一種統計分析方法。從數學角度來看,這是一種降維處理方法,即通過對原始指標相關矩陣內部結果關系的研究,將原來指標重新組合成一組新的相互獨立的指標,並從中選取幾個綜合指標來反映原始指標的信息。假定有n個評價單元,每個評價單元用m個因素來描述,這樣就構成一個n×m階數據矩陣:

災害損毀土地復墾

如果記m個因素為 x1,x2,…,xm,它們的綜合因素為 z1,z2,…,zp(p≤m),則:

災害損毀土地復墾

系數lij由下列原則來決定:

(1)zi與zj(i≠j,i,j=1,2,…,p)相互無關;

(2)z1是x1,x2,…,xm的一切線性組合中方差最大者,依此類推。

依據該原則確定的綜合變數指標z1,z2,…,zp分別稱為原始指標的第1、第2、…、第p個主成分,分析時可只挑選前幾個方差最大的主成分。

(二)主成分分析法的步驟

(1)將原始數據進行標准化處理,以消除原始數據在數量級或量綱上的差異。

(2)計算標准化的相關數據矩陣:

災害損毀土地復墾

(3)用雅克比法求相關系數矩陣R的特徵值(λ1,λ2,…,λp)和與之相對應的特徵向量 αi=(αi1,αi2,…,αip),i=1,2,…,p。

(4)選擇重要的主成分,並寫出其表達式。

主成分分析可以得到P個主成分,但是由於各個主成分的方差與其包含的信息量皆是遞減的,所以在實際分析時,一般不選取P個主成分,而是根據各個主成分所累計的貢獻率的大小來選取前K個主成分,這里的貢獻率是指某個主成分的方差在全部方差中所佔的比重,實際上也是某個特徵值在全部特徵值合計中所佔的比重。即:

災害損毀土地復墾

這說明,主成分所包含的原始變數的信息越強,貢獻率也就越大。主成分的累計貢獻率決定了主成分個數K的選取情況,為了保證綜合變數能包括原始變數的絕大多數信息,一般要求累計貢獻率達到85%以上。

另外,在實際應用過程中,選擇主成分之後,還要注意主成分實際含義的解釋。如何給主成分賦予新的含義,給出合理的解釋是主成分分析中一個相當關鍵的問題。一般來說,這個解釋需要根據主成分表達式的系數而定,並與定性分析來進行有效結合。主成分是原來變數的線性組合,在這個線性組合中各變數的系數有正有負、有大有小,有的又大小相當,因此不能簡單地把這個主成分看作是某個原變數的屬性作用。線性組合中各變數系數的絕對值越大表明該主成分主要包含了該變數;如果有幾個大小相當的變數系數時,則認為這一主成分是這幾個變數的綜合,而這幾個變數綜合在一起具有什麼樣的實際意義,就需要結合具體的問題和專業,給出合理的解釋,進而才能達到准確分析的目的。

(5)計算主成分得分。根據標准化的原始數據,將各個樣品分別代入主成分表達式,就可以得到各主成分下的各個樣品的新數據,即為主成分得分。具體形式可如下:

災害損毀土地復墾

(6)依據主成分得分的數據,則可以進行進一步的統計分析。其中,常見的應用有主成分回歸,變數子集合的選擇,綜合評價等。

(三)主成分分析法的評價

通過主成分分析法來評價復墾產生的效益,可將多個指標轉化成盡可能少的綜合性指標,使綜合指標間互不相干,既減少了原指標信息的重疊度,又不丟失原指標信息的總含量。該方法不僅將多個指標轉化成綜合性指標,而且也能對每個主成分的影響因素進行分析,從而判別出影響整個評價體系的關鍵因素,並且主成分分析法在確定權重時可以科學地賦值,以避免主觀因素的影響。

需要注意的是,主成分分析法雖然可以對每個主成分的權重進行科學、定量的計算,避免人為因素及主觀因素的影響,但是有時候賦權的結果可能與客觀實際有一定誤差。因此,利用主成分分析法確定權重後,再結合不同專家給的權重,是最好的解決辦法。這樣可以在定量的基礎上作出定性的分析,通過一定的數理方法將兩種數據結合起來考慮。

G. 如何有效利用主成分分析中的主成分

主成分分析方法是一種將多個指標化為少數幾個不相關的綜合指標(即主成分)的多元統計分析方法.由於其具有消除各指標不同量綱的影響,以及消除指標間相關性所帶來的信息重疊等優點,近幾年,該方法在社會經濟、管理、自然科學等眾多領域得到了廣泛的應用,尤其是被用於系統綜合評價.在使用主成分分析方法做綜合評價的過程中,由於部分學者對主成分分析的原理及主成分的定義理解不深,出現了不少錯誤.本文通過分析主成分分析的原理及綜合評價的特點,從理論和實際例子上證實了有關文獻作者在用主成分做綜合評價過程中某些做法的不合理性.給出了主成分做綜合評價的充要條件,闡明了主成分所含信息量的大小與綜合水平之間的差異,為充分利用形狀因子(反映指標間結構性差異的主成分)提供的有效信息,提出了一種定性與定量相結合的評價體系.並通過一個實例講解了評價過程.
望採納,謝謝

H. 主成分分析與分析目的如何聯系起來

統計學的本質,並不是去發明或者創造因果關系,而是用數據區證明理論中的因果關系是否正確。
你問的很對,給定的原始數據,計算得出的結論是一定的,你並不能從計算中知道到底評價的是適應性還是脆弱性。
這一些列數據到底評價哪個因素更合適,是根據現有理論得出的經驗來確定的,你做的分析,是去驗證現有理論與事實是否相符、或者相悖。
再有,因子分析、主成分分析得出的指標權重,最大的優勢是排除了人的主管因素,以純數字去驗證結論,但是並不代表得出的結果就一定準確,只能說從某一方面或者某種角度驗證了現有的理論是否適用。

I. 主成分分析和層次分析法的區別和聯系

層次分析法:

主成分分析和層次分析兩者計算權重的不同,AHP層次分析法是一種定性和定量的計算權重的研究方法,採用兩兩比較的方法,建立矩陣,利用了數字大小的相對性,數字越大越重要權重會越高的原理,最終計算得到每個因素的重要性。

主成分分析

(1)方法原理及適用場景

主成分分析是對數據進行濃縮,將多個指標濃縮成為幾個彼此不相關的概括性指標(主成分),從而達到降維的目的。主成分分析可同時計算主成分權重及指標權重。

(2)操作步驟

使用SPSSAU【進階方法-主成分分析】。

如果計算主成分權重,需要用到方差解釋率。具體加權處理方法為:方差解釋率除累積方差解釋率。

比如本例中,5個指標共提取了2個主成分:

主成分1的權重:45.135%/69.390%=65.05%

主成分2的權重:24.254%/69.390%=34.95%


如果是計算指標權重,可直接查看「線性組合系數及權重結果表格」,SPSSAU自動輸出了各指標權重佔比結果。其計算原理分為三步:

第一:計算線性組合系數矩陣,公式為:loading矩陣/Sqrt(特徵根),即載荷系數除以對應特徵根的平方根;

第二:計算綜合得分系數,公式為:累積(線性組合系數*方差解釋率)/累積方差解釋率,即上一步中得到的線性組合系數分別與方差解釋率相乘後累加,並且除以累積方差解釋率;

第三:計算權重,將綜合得分系數進行歸一化處理即得到各指標權重值。

J. 求主成分分析的演算法

主成分分析就是將多項指標轉化為少數幾項綜合指標,用綜合指標來解釋多變數的方差- 協方差結構。綜合指標即為主成分。所得出的少數幾個主成分,要盡可能多地保留原始變數的信息,且彼此不相關。
因子分析是研究如何以最少的信息丟失,將眾多原始變數濃縮成少數幾個因子變數,以及如何使因子變數具有較強的可解釋性的一種多元統計分析方法。
聚類分析是依據實驗數據本身所具有的定性或定量的特徵來對大量的數據進行分組歸類以了解數據集的內在結構,並且對每一個數據集進行描述的過程。其主要依據是聚到同一個數據集中的樣本應該彼此相似,而屬於不同組的樣本應該足夠不相似。
三種分析方法既有區別也有聯系,本文力圖將三者的異同進行比較,並舉例說明三者在實際應用中的聯系,以期為更好地利用這些高級統計方法為研究所用有所裨益。
二、基本思想的異同
(一) 共同點
主成分分析法和因子分析法都是用少數的幾個變數(因子) 來綜合反映原始變數(因子) 的主要信息,變數雖然較原始變數少,但所包含的信息量卻占原始信息的85 %以上,所以即使用少數的幾個新變數,可信度也很高,也可以有效地解釋問題。並且新的變數彼此間互不相關,消除了多重共線性。這兩種分析法得出的新變數,並不是原始變數篩選後剩餘的變數。在主成分分析中,最終確定的新變數是原始變數的線性組合,如原始變數為x1 ,x2 ,. . . ,x3 ,經過坐標變換,將原有的p個相關變數xi 作線性變換,每個主成分都是由原有p 個變數線性組合得到。在諸多主成分Zi 中,Z1 在方差中占的比重最大,說明它綜合原有變數的能力最強,越往後主成分在方差中的比重也小,綜合原信息的能力越弱。因子分析是要利用少數幾個公共因子去解釋較多個要觀測變數中存在的復雜關系,它不是對原始變數的重新組合,而是對原始變數進行分解,分解為公共因子與特殊因子兩部分。公共因子是由所有變數共同具有的少數幾個因子;特殊因子是每個原始變數獨自具有的因子。對新產生的主成分變數及因子變數計算其得分,就可以將主成分得分或因子得分代替原始變數進行進一步的分析,因為主成分變數及因子變數比原始變數少了許多,所以起到了降維的作用,為我們處理數據降低了難度。
聚類分析的基本思想是: 採用多變數的統計值,定量地確定相互之間的親疏關系,考慮對象多因素的聯系和主導作用,按它們親疏差異程度,歸入不同的分類中一元,使分類更具客觀實際並能反映事物的內在必然聯系。也就是說,聚類分析是把研究對象視作多維空間中的許多點,並合理地分成若干類,因此它是一種根據變數域之間的相似性而逐步歸群成類的方法,它能客觀地反映這些變數或區域之間的內在組合關系[3 ]。聚類分析是通過一個大的對稱矩陣來探索相關關系的一種數學分析方法,是多元統計分析方法,分析的結果為群集。對向量聚類後,我們對數據的處理難度也自然降低,所以從某種意義上說,聚類分析也起到了降維的作用。
(二) 不同之處
主成分分析是研究如何通過少數幾個主成分來解釋多變數的方差一協方差結構的分析方法,也就是求出少數幾個主成分(變數) ,使它們盡可能多地保留原始變數的信息,且彼此不相關。它是一種數學變換方法,即把給定的一組變數通過線性變換,轉換為一組不相關的變數(兩兩相關系數為0 ,或樣本向量彼此相互垂直的隨機變數) ,在這種變換中,保持變數的總方差(方差之和) 不變,同時具有最大方差,稱為第一主成分;具有次大方差,稱為第二主成分。依次類推。若共有p 個變數,實際應用中一般不是找p 個主成分,而是找出m (m < p) 個主成分就夠了,只要這m 個主成分能反映原來所有變數的絕大部分的方差。主成分分析可以作為因子分析的一種方法出現。
因子分析是尋找潛在的起支配作用的因子模型的方法。因子分析是根據相關性大小把變數分組,使得同組內的變數之間相關性較高,但不同的組的變數相關性較低,每組變數代表一個基本結構,這個基本結構稱為公共因子。對於所研究的問題就可試圖用最少個數的不可測的所謂公共因子的線性函數與特殊因子之和來描述原來觀測的每一分量。通過因子分析得來的新變數是對每個原始變數進行內部剖析。因子分析不是對原始變數的重新組合,而是對原始變數進行分解,分解為公共因子和特殊因子兩部分。具體地說,就是要找出某個問題中可直接測量的具有一定相關性的諸指標,如何受少數幾個在專業中有意義、又不可直接測量到、且相對獨立的因子支配的規律,從而可用各指標的測定來間接確定各因子的狀態。因子分析只能解釋部分變異,主成分分析能解釋所有變異。
聚類分析演算法是給定m 維空間R 中的n 個向量,把每個向量歸屬到k 個聚類中的某一個,使得每一個向量與其聚類中心的距離最小。聚類可以理解為: 類內的相關性盡量大,類間相關性盡量小。聚類問題作為一種無指導的學習問題,目的在於通過把原來的對象集合分成相似的組或簇,來獲得某種內在的數據規律。
從三類分析的基本思想可以看出,聚類分析中並沒於產生新變數,但是主成分分析和因子分析都產生了新變數。
三、數據標准化的比較
主成分分析中為了消除量綱和數量級,通常需要將原始數據進行標准化,將其轉化為均值為0方差為1 的無量綱數據。而因子分析在這方面要求不是太高,因為在因子分析中可以通過主因子法、加權最小二乘法、不加權最小二乘法、重心法等很多解法來求因子變數,並且因子變數是每一個變數的內部影響變數,它的求解與原始變數是否同量綱關系並不太大,當然在採用主成分法求因子變數時,仍需標准化。不過在實際應用的過程中,為了盡量避免量綱或數量級的影響,建議在使用因子分析前還是要進行數據標准化。在構造因子變數時採用的是主成分分析方法,主要將指標值先進行標准化處理得到協方差矩陣,即相關矩陣和對應的特徵值與特徵向量,然後構造綜合評價函數進行評價。
聚類分析中如果參與聚類的變數的量綱不同會導致錯誤的聚類結果。因此在聚類過程進行之前必須對變數值進行標准化,即消除量綱的影響。不同方法進行標准化,會導致不同的聚類結果要注意變數的分布。如果是正態分布應該採用z 分數法。
四、應用中的優缺點比較
(一) 主成分分析
1、優點
首先它利用降維技術用少數幾個綜合變數來代替原始多個變數,這些綜合變數集中了原始變數的大部分信息。其次它通過計算綜合主成分函數得分,對客觀經濟現象進行科學評價。再次它在應用上側重於信息貢獻影響力綜合評價。
2、缺點
當主成分的因子負荷的符號有正有負時,綜合評價函數意義就不明確。命名清晰性低。
(二) 因子分析
1、優點
第一它不是對原有變數的取捨,而是根據原始變數的信息進行重新組合,找出影響變數的共同因子,化簡數據;第二,它通過旋轉使得因子變數更具有可解釋性,命名清晰性高。
2、缺點
在計算因子得分時,採用的是最小二乘法,此法有時可能會失效。
(三) 聚類分析
1、優點
聚類分析模型的優點就是直觀,結論形式簡明。
2、缺點
在樣本量較大時,要獲得聚類結論有一定困難。由於相似系數是根據被試的反映來建立反映被試間內在聯系的指標,而實踐中有時盡管從被試反映所得出的數據中發現他們之間有緊密的關系,但事物之間卻無任何內在聯系,此時,如果根據距離或相似系數得出聚類分析的結果,顯然是不適當的,但是,聚類分析模型本身卻無法識別這類錯誤。