① spss主成分分析法合成其他指數步驟 。就是講幾個變數用主成分分析法合成其他的指數,需要什麼步驟
主成分綜合評價嗎
統計專業研究生工作室為您服務
② 主成分分析詳解
一、主成分分析
1、簡介
在用統計分析方法研究這個多變數的課題時,變數個數太多就會增加課題的復雜性。人們自然希望變數個數較少而得到的信息較多。在很多情形,變數之間是有一定的相關關系的,當兩個變數之間有一定相關關系時,可以解釋為這兩個變數反映此課題的信息有一定的重疊。主成分分析是對於原先提出的所有變數,建立盡可能少的新變數,使得這些新變數是兩兩不相關的,而且這些新變數在反映課題的信息方面盡可能保持原有的信息。
2、原理
設法將原來變數重新組合成一組新的互相無關的幾個綜合變數,同時根據實際需要從中可以取出幾個較少的綜合變數盡可能多地反映原來變數的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上處理降維的一種方法。
二、主成分分析的基本思想及步驟
1、基本思想
主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現在F2中,用數學語言表達就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。
2、步驟
Fp=a1iZX1+a2iZX2+……+apiZXp 其中a1i, a2i, ……,api(i=1,……,m)為X的協方差陣Σ的特徵值所對應的特徵向量,ZX1, ZX2, ……, ZXp是原始變數經過標准化處理的值,因為在實際應用中,往往存在指標的量綱不同,所以在計算之前須先消除量綱的影響,而將原始數據標准化,本文所採用的數據就存在量綱影響[註:本文指的數據標准化是指Z標准化]。 A=(aij)p×m=(a1,a2,…am,),Rai=λiai,R為相關系數矩陣,λi、ai是相應的特徵值和單位特徵向量,λ1≥λ2≥…≥λp≥0 。 進行主成分分析主要步驟如下: 1. 指標數據標准化(SPSS軟體自動執行); 2. 指標之間的相關性判定; 3. 確定主成分個數m; 4. 主成分Fi表達式; 5. 主成分Fi命名;
③ 主成分分析和因子分析有什麼區別
1、原理不同:
主成分分析是利用降維(線性變換)的思想,在損失很少信息的前提下把多個指標轉化為幾個不相關的綜合指標(主成分),即每個主成分都是原始變數的線性組合,使得主成分比原始變數具有某些更優越的性能,從而達到簡化系統結構,抓住問題實質的目的。
而因子分析更傾向於從數據出發,描述原始變數的相關關系,是由研究原始變數相關矩陣內部的依賴關系出發,把錯綜復雜關系的變數表示成少數的公共因子和僅對某一個變數有作用的特殊因子線性組合而成。
2、線性表示方向不同:
主成分分析中是把主成分表示成各變數的線性組合,而因子分析是把變數表示成各公因子的線性組合。
3、假設條件不同:
主成分分析不需要有假設條件;而因子分析需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子之間也不相關,共同因子和特殊因子之間也不相關。
4、主成分的數量不同
主成分分析的主成分的數量是一定的,一般有幾個變數就有幾個主成分(只是主成分所解釋的信息量不等),實際應用時會根據碎石圖提取前幾個主要的主成分。而因子分析的因子個數需要分析者指定,指定的因子數量不同而結果也不同。
5、應用范圍不同
在實際的應用過程中,主成分分析常被用作達到目的的中間手段,而非完全的一種分析方法,提取出來的主成分無法清晰的解釋其代表的含義。而因子分析就是一種完全的分析方法,可確切的得出公共因子。
④ 主成分分析的指標選擇
指標太多了,也可能是存在共線性的變數導致的。我用的stata
還是先給原始數據做一下相關性分析,刪一些高度相關的變數,避免共線性。
然後給變數標准化後做主成分分析,這一步spss自動就標准化了,如果也是stata的話要記得標准化。我自己這邊試的結果是變數多於15類就算不出KMO了,控制在10個左右KMO能算出來,不過最好才0.6,最差0.4了都。。
沒辦法我的數據太少了,我做的是關於貪官的,數據少很坑……你經濟類的應該能到0.7,加油額
⑤ 數據挖掘總結之主成分分析與因子分析
數據挖掘總結之主成分分析與因子分析
主成分分析與因子分析
1)概念:
主成分分析概念:主成分分析是把原來多個變數劃為少數幾個綜合指標的一種統計分析方法。主成分分析(PCA)是一種數據降維技巧,它能將大量相關變數轉化為一組很少的不相關變數,這些無關變數稱為主成分。
PCA的目標是用一組較少的不相關變數代替大量相關變數,同時盡可能保留初始變數的信息,這些推導所得的變數稱為主成分,它們是觀測變數的線性組合。
因子分析概念:探索性因子分析(EFA)是一系列用來發現一組變數的潛在結構的方法。通過尋找一組更小的、潛在的或隱藏的結構來解釋已觀測到的、顯式的變數間的關系。進行EFA需要大量的樣本,一般經驗認為如何估計因子的數目為N,則需要有5N到10N的樣本數目。
PCA/EFA 分析流程:
(1)數據預處理;PCA和EFA都是根據觀測變數間的相關性來推導結果。用戶可以輸入原始數據矩陣或相關系數矩陣列到principal()和fa()函數中,若輸出初始結果,相關系數矩陣將會被自動計算,在計算前請確保數據中沒有缺失值;
(2)選擇因子分析模型。判斷是PCA(數據降維)還是EFA(發現潛在結構)更符合你的分析目標。選擇EFA方法時,還需要選擇一種估計因子模型的方法(如最大似然估計)。
(3)判斷要選擇的主成分/因子數目;
(4)選擇主成分/因子;
(5)旋轉主成分/因子;
(6)解釋結果;
(7)計算主成分或因子得分。
2)、因子分析與主成分分析的區別
①原理不同
主成分分析基本原理:利用降維(線性變換)的思想,每個主成分都是原始變數的線性組合,且各個主成分之間互不相關。
因子分析基本原理:利用降維的思想,從數據中提取對變數起解釋作用的少數公共因子(因子分析是主成分的推廣,相對於主成分分析,更傾向於描述原始變數之間的相關關系)
②側重點不同
主成分分析側重「變異量」,主成分分析是原始變數的線性組合,得出來的主成分往往從業務場景的角度難以解釋
因子分析更重視相關變數的「共變異量」,因子分析需要構造因子模型:EFA中的原始變數是公共因子的線性組合,因子是影響變數的潛在變數,目的是找到在背後起作用的少量關鍵因子,因子分析的結果往往更容易用業務知識去加以解釋
③ 因子分析的評價結果沒有主成分分析准確; 因子分析比主成分分析的計算工作量大
主成分分析:原始變數的線性組合表示新的綜合變數,即主成分;
EFA和PCA的區別在於:PCA中的主成分是原始變數的線性組合,而EFA中的原始變數是公共因子的線性組合,因子是影響變數的潛在變數,變數中不能被因子所解釋的部分稱為誤差,因子和誤差均不能直接觀察到。進行EFA需要大量的樣本,一般經驗認為如何估計因子的數目為N,則需要有5N到10N的樣本數目。
⑥ 如何解釋主成分分析中主成分與原指標的數量關系
當兩個變數之間有一定相關關系時,可以解釋為這兩個變數反映此課題的信息有一定...主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的.
⑦ 主成分分析和層次分析法的區別和聯系
層次分析法:
主成分分析和層次分析兩者計算權重的不同,AHP層次分析法是一種定性和定量的計算權重的研究方法,採用兩兩比較的方法,建立矩陣,利用了數字大小的相對性,數字越大越重要權重會越高的原理,最終計算得到每個因素的重要性。
主成分分析
(1)方法原理及適用場景
主成分分析是對數據進行濃縮,將多個指標濃縮成為幾個彼此不相關的概括性指標(主成分),從而達到降維的目的。主成分分析可同時計算主成分權重及指標權重。
(2)操作步驟
使用SPSSAU【進階方法-主成分分析】。
如果計算主成分權重,需要用到方差解釋率。具體加權處理方法為:方差解釋率除累積方差解釋率。
比如本例中,5個指標共提取了2個主成分:
主成分1的權重:45.135%/69.390%=65.05%
主成分2的權重:24.254%/69.390%=34.95%
如果是計算指標權重,可直接查看「線性組合系數及權重結果表格」,SPSSAU自動輸出了各指標權重佔比結果。其計算原理分為三步:
第一:計算線性組合系數矩陣,公式為:loading矩陣/Sqrt(特徵根),即載荷系數除以對應特徵根的平方根;
第二:計算綜合得分系數,公式為:累積(線性組合系數*方差解釋率)/累積方差解釋率,即上一步中得到的線性組合系數分別與方差解釋率相乘後累加,並且除以累積方差解釋率;
第三:計算權重,將綜合得分系數進行歸一化處理即得到各指標權重值。
⑧ 單因子指數法的主成分分析方法
地理環境是多要素的復雜系統,在我們進行地理系統分析時,多變數問題是經常會遇到的。變數太多,無疑會增加分析問題的難度與復雜性,而且在許多實際問題中,多個變數之間是具有一定的相關關系的。因此,我們就會很自然地想到,能否在各個變數之間相關關系研究的基礎上,用較少的新變數代替原來較多的變數,而且使這些較少的新變數盡可能多地保留原來較多的變數所反映的信息?事實上,這種想法是可以實現的,本節擬介紹的主成分分析方法就是綜合處理這種問題的一種強有力的方法。
第一節 主成分分析方法的原理
主成分分析是把原來多個變數化為少數幾個綜合指標的一種統計分析方法,從數學角度來看,這是一種降維處理技術。假定有n個地理樣本,每個樣本共有p個變數描述,這樣就構成了一個n×p階的地理數據矩陣:
如何從這么多變數的數據中抓住地理事物的內在規律性呢?要解決這一問題,自然要在p維空間中加以考察,這是比較麻煩的。為了克服這一困難,就需要進行降維處理,即用較少的幾個綜合指標來代替原來較多的變數指標,而且使這些較少的綜合指標既能盡量多地反映原來較多指標所反映的信息,同時它們之間又是彼此獨立的。那麼,這些綜合指標(即新變數)應如何選取呢?顯然,其最簡單的形式就是取原來變數指標的線性組合,適當調整組合系數,使新的變數指標之間相互獨立且代表性最好。
如果記原來的變數指標為x1,x2,…,xp,它們的綜合指標——新變數指標為x1,x2,…,zm(m≤p)。則
在(2)式中,系數lij由下列原則來決定:
(1)zi與zj(i≠j;i,j=1,2,…,m)相互無關;
(2)z1是x1,x2,…,xp的一切線性組合中方差最大者;z2是與z1不相關的x1,x2,…,xp的所有線性組合中方差最大者;……;zm是與z1,z2,……zm-1都不相關的x1,x2,…,xp的所有線性組合中方差最大者。
這樣決定的新變數指標z1,z2,…,zm分別稱為原變數指標x1,x2,…,xp的第一,第二,…,第m主成分。其中,z1在總方差中占的比例最大,z2,z3,…,zm的方差依次遞減。在實際問題的分析中,常挑選前幾個最大的主成分,這樣既減少了變數的數目,又抓住了主要矛盾,簡化了變數之間的關系。
從以上分析可以看出,找主成分就是確定原來變數xj(j=1,2,…,p)在諸主成分zi(i=1,2,…,m)上的載荷lij(i=1,2,…,m;j=1,2,…,p),從數學上容易知道,它們分別是x1,x2,…,xp的相關矩陣的m個較大的特徵值所對應的特徵向量。
第二節 主成分分析的解法
主成分分析的計算步驟
通過上述主成分分析的基本原理的介紹,我們可以把主成分分析計算步驟歸納如下:
(1)計算相關系數矩陣
在公式(3)中,rij(i,j=1,2,…,p)為原來變數xi與xj的相關系數,其計算公式為
因為R是實對稱矩陣(即rij=rji),所以只需計算其上三角元素或下三角元素即可。
(2)計算特徵值與特徵向量
首先解特徵方程|λI-R|=0求出特徵值λi(i=1,2,…,p),並使其按大小順序排列,即λ1≥λ2≥…,≥λp≥0;然後分別求出對應於特徵值λi的特徵向量ei(i=1,2,…,p)。
(3)計算主成分貢獻率及累計貢獻率
一般取累計貢獻率達85-95%的特徵值λ1,λ2,…,λm所對應的第一,第二,……,第m(m≤p)個主成分。
(4)計算主成分載荷
由此可以進一步計算主成分得分:
第三節 主成分分析應用實例
主成分分析實例
對於某區域地貌-水文系統,其57個流域盆地的九項地理要素:x1為流域盆地總高度(m)x2為流域盆地山口的海拔高度(m),x3為流域盆地周長(m),x4為河道總長度(km),x5為河
表2-14 某57個流域盆地地理要素數據
道總數,x6為平均分叉率,x7為河谷最大坡度(度),x8為河源數及x9為流域盆地面積(km)的原始數據如表2-14所示。張超先生(1984)曾用這些地理要素的原始數據對該區域地貌-水文系統作了主成分分析。下面,我們將其作為主成分分析方法在地理學研究中的一個應用實例介紹給讀者,以供參考。
表2-15相關系數矩陣
(1)首先將表2-14中的原始數據作標准化處理,由公式(4)計算得相關系數矩陣(見表2-15)。
(2)由相關系數矩陣計算特徵值,以及各個主成分的貢獻率與累計貢獻率(見表2-16)。由表2-16可知,第一,第二,第三主成分的累計貢獻率已高達86.5%,故只需求出第一,第二,第三主成分z1,z2,z3即可。
表2-16 特徵值及主成分貢獻率
(3)對於特徵值λ1=5.043,λ2=1.746,λ3=0.997分別求出其特徵向量e1,e2,e3,並計算各變數x1,x2,……,x9在各主成分上的載荷得到主成分載荷矩陣(見表2-17)。
表2-17 主成分載荷矩陣
從表2-17可以看出,第一主成分z1與x1,x3,x4,x5,x8,x9有較大的正相關,這是由於這六個地理要素與流域盆地的規模有關,因此第一主成分可以被認為是流域盆地規模的代表:第二主成分z2與x2有較大的正相關,與x7有較大的負相關,而這兩個地理要素是與流域切割程度有關的,因此第二主成分可以被認為是流域侵蝕狀況的代表;第三主成分z3與x6有較大的正相關,而地理要素x6是流域比較獨立的特性——河系形態的表徵,因此,第三主成成可以被認為是代表河系形態的主成分。
以上分析結果表明,根據主成分載荷,該區域地貌-水文系統的九項地理要素可以被歸為三類,即流域盆地的規模,流域侵蝕狀況和流域河系形態。如果選取其中相關系數絕對值最大者作為代表,則流域面積,流域盆地出口的海拔高度和分叉率可作為這三類地理要素的代表,利用這三個要素代替原來九個要素進行區域地貌-水文系統分析,可以使問題大大地簡化。
二、內梅羅水質指數污染
表1 內梅羅水質指數污染等級劃分標准 P <1 1~2 2~3 3~5 >5 水質等級 清潔 輕污染 污染 重污染 嚴重污染 表2 地表水環境質量標准(GB3838—2002) 單位:mg/L 序 號 項 目 V類標准值 1 水溫(℃) — 2 PH值(無量綱) 6—9 3 溶解氧 ≥ 2 4 高錳酸鹽指數 ≤ 15 5 化學需氧量 ≤ 40 6 五日生化需氧量 ≤ 10 7 氨氮 ≤ 2.0 8 總磷 ≤ 0.4 9 總氮 ≤ 2.0 10 銅 ≤ 1.0 11 鋅 ≤ 2.0 12 氟化物 ≤ 1.5 13 硒 ≤ 0.02 14 砷 ≤ 0.1 15 汞 ≤ 0.001 16 鎘 ≤ 0.01 17 鉻(六價) ≤ 0.1 18 鉛 ≤ 0.1 19 氰化物 ≤ 0.2 20 揮發酚 ≤ 0.1 21 石油類 ≤ 1.0 22 硫化物 ≤ 1.0 23 糞大腸菌群(個/L) ≤ 40000 表3 水質評價計算方法 單因子污染指數 Pi = Ci/ Si Ci——第i項污染物的監測值; Si——第i項污染物評價標准值; 溶解氧指數 Cf——對應溫度T時的飽和溶解氧濃度;
Ci——溶解氧濃度監測值;
Si——溶解氧評價標准值; pH指數 pHi——pH監測值;
pHS,min——評價標准值的下限;
pHS,max ——評價標准值的上限; 污染物超標倍數 Ci ——第i項污染物的監測值;
C0 ——第i項污染物評價標准值; 內梅羅指數 Pmax ——單因子污染指數的最高值;
Pi ——第i項污染物的污染指數;
n ——參與評價污染物的項數; 常用的客觀賦權法之一:熵值法
熵是資訊理論中測度一個系統不確定性的量。信息量越大,不確定性就越小,熵也越小,反之,信息量越小,不確定性就越大,熵也越大。熵值法主要是依據各指標值所包含的信息量的大小,利用指標的熵值來確定指標權重的。熵值法的一般步驟為:
(1)、對決策矩陣作標准化處理,得到標准化矩陣,並進行歸一化處理得:
(2)、計算第個指標的熵值:。其中。
(3)、計算第個指標的差異系數。對於第個指標,指標值的差異越大,對方案評價的作用越大,熵值越小,反之,差異越小,對方案評價的作用越小,熵值就越大。因此,定義差異系數為:。
(4)、確定指標權重。第個指標的權重為:。
效益型和成本型指標的標准化方法
對於效益型(正向)指標和成本型(逆向)指標,由於這兩者是最常見並且使用最廣泛的指標,所以,對這兩種指標標准化處理的方法也最多,一般的處理方法有:
1. 極差變換法
該方法即在決策矩陣中,對於效益型指標,令
=
對於成本型指標,令
=
則得到的矩陣稱為極差變換標准化矩陣。其優點為經過極差變換後,均有,且各指標下最好結果的屬性值,最壞結果的屬性值。該方法的缺點是變換前後的各指標值不成比例。
2. 線性比例變換法
即在決策矩陣中,對於效益型指標,令
=
對成本型指標,令
=
或
=
則矩陣稱為線性比例標准化矩陣。該方法的優點是這些變換方式是線性的,且變化前後的屬性值成比例。但對任一指標來說,變換後的和不一定同時出現。
3. 向量歸一化法
即在決策矩陣中,對於效益型指標,令
對於成本型指標,令
則矩陣稱為向量歸一標准化矩陣。顯然,矩陣的列向量的模等於1,即。該方法使,且變換前後正逆方向不變,缺點是它是非線性變換,變換後各指標的最大值和最小值不相同。
4. 標准樣本變換法
在中,令
其中,樣本均值,樣本均方差,則得出矩陣,稱為標准樣本變換矩陣。經過標准樣本變換之後,標准化矩陣的樣本均值為,方差為。
5. 等效系數法
對成本型指標,令
=
該方法的優點是變換前後的指標值成比例,缺點是各指標下方案的最好與最差指標值標准化後不完全相同。
另外,關於效益型指標的標准化處理還有:
=
關於成本型指標的標准化處理還有:
=
固定型指標的標准化方法
對於固定型指標,若設為給定的固定值,則標准化處理的方法主要有以下幾種,即令
或
或
或
(4.15)式的特點是各最優屬性值標准化後的值均為1,而各最差屬性的值標准化後的值不統一,即不一定都為0。
若設和分別是人為規定的最優方案和最劣方案,在該情形下,還給出了效益型、成本型和固定型指標的新的標准化方法。
對效益型和成本型,有:
對固定型指標則有:
區間型指標的標准化方法
對區間型的指標,其指標標准化處理的方法主要有以下幾式:
設,令
或令
顯然,還可以簡化為:
或令
或令
其中,是指給定的某個固定區間,即屬性值越接近該區間越好。
偏離型指標的標准化方法
對越來越偏離某值越好的偏離性指標,一般有如下標准化公式:
或令
(對都有)
或令
偏離型指標是與固定型指標相對立的一種指標類型,它的公式使用可以用固定型指標的公式改造,但在使用時要注意其公式的適用范圍。
偏離區間型指標的標准化方法
對偏離區間型指標,有如下標准化的方法:
令
或令
或令
其中,是某個固定區間,屬性值越偏離該區間越好。偏離區間型指標是與區間型指標相對立的一種指標類型。