主成分分析在SPSS中的操作應(yīng)用
(作者未知) 2009/4/3
一、引言
主成分分析和因子分析在社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)綜合評(píng)價(jià)中是兩個(gè)常被使用的統(tǒng)計(jì)分析方法,F(xiàn)在SPSS、SAS等統(tǒng)計(jì)軟件使用越來越普遍,但SPSS并未像SAS一樣,將主成分分析與因子分析作為兩個(gè)獨(dú)立的方法并列處理[注:主成分分析與因子分析二者是又有著區(qū)別與聯(lián)系,最主要的不同在于它們的數(shù)學(xué)模型的構(gòu)建上,具體區(qū)別請(qǐng)見參考文獻(xiàn)2],而是根據(jù)二者之間的關(guān)系有機(jī)地將主成分分析嵌入到因子分析之中,這樣雖然簡化了分析程序,卻為主成分分析的計(jì)算帶來不便。且國內(nèi)許多SPSS教程并沒有詳細(xì)講解如果應(yīng)用SPSS進(jìn)行主成分分析,如何使用SPSS對(duì)主成分分析進(jìn)行計(jì)算呢?為使讀者能夠正確使用SPSS軟件進(jìn)行主成分分析,本文將通過一個(gè)實(shí)例來詳細(xì)介紹如何用SPSS做主成分分析。接下來先簡單介紹主成分分析原理與模型,以便讀者對(duì)主成分分析有個(gè)大致的了解。
二、主成分分析原理和模型[1]
(一)主分成分析原理
主成分分析是設(shè)法將原來眾多具有一定相關(guān)性(比如P個(gè)指標(biāo)),重新組合成一組新的互相無關(guān)的綜合指標(biāo)來代替原來的指標(biāo)。通常數(shù)學(xué)上的處理就是將原來P個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。最經(jīng)典的做法就是用F1(選取的第一個(gè)線性組合,即第一個(gè)綜合指標(biāo))的方差來表達(dá),即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個(gè)指標(biāo)的信息,再考慮選取F2即選第二個(gè)線性組合,為了有效地反映原來信息,F(xiàn)1已有的信息就不需要再出現(xiàn)再F2中,用數(shù)學(xué)語言表達(dá)就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構(gòu)造出第三、第四,……,第P個(gè)主成分。
(二)主成分分析數(shù)學(xué)模型
F2=a12ZX1+a22ZX2……+ap2ZXp
……
Fp=a1mZX1+a2mZX2+……+apmZXp
其中a1i, a2i, ……,api(i=1,……,m)為X的協(xié)方差陣Σ的特征值多對(duì)應(yīng)的特征向量,ZX1, ZX2, ……, ZXp是原始變量經(jīng)過標(biāo)準(zhǔn)化處理的值,因?yàn)樵趯?shí)際應(yīng)用中,往往存在指標(biāo)的量綱不同,所以在計(jì)算之前須先消除量綱的影響,而將原始數(shù)據(jù)標(biāo)準(zhǔn)化,本文所采用的數(shù)據(jù)就存在量綱影響[注:本文指的數(shù)據(jù)標(biāo)準(zhǔn)化是指Z標(biāo)準(zhǔn)化]。
A=(aij)p×m=(a1,a2,…am,),Rai=λiai,R為相關(guān)系數(shù)矩陣,λi、ai是相應(yīng)的特征值和單位特征向量,λ1≥λ2≥…≥λp≥0 。
進(jìn)行主成分分析主要步驟如下:
1. 指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化(SPSS軟件自動(dòng)執(zhí)行);
2. 指標(biāo)之間的相關(guān)性判定;
3. 確定主成分個(gè)數(shù)m;
4. 主成分Fi表達(dá)式;
5. 主成分Fi命名;
主成分與綜合主成分(評(píng)價(jià))值。
三、對(duì)沿海10個(gè)省市經(jīng)濟(jì)綜合指標(biāo)進(jìn)行主成分分析
(一)指標(biāo)選取原則
本文所選取的數(shù)據(jù)來自《中國統(tǒng)計(jì)年鑒2003》中2002年的統(tǒng)計(jì)數(shù)據(jù),在沿海10省市經(jīng)濟(jì)狀況主要指標(biāo)體系中選取了10個(gè)指標(biāo):
X1——GDP X2——人均GDP
X3——農(nóng)業(yè)增加值 X4——工業(yè)增加值
X5——第三產(chǎn)業(yè)增加值 X6——固定資產(chǎn)投資
X7——基本建設(shè)投資 X8——國內(nèi)生產(chǎn)總值占全國比重(%)
X9——海關(guān)出口總額 X10——地方財(cái)政收入
圖表 1 沿海10個(gè)省市經(jīng)濟(jì)數(shù)據(jù)
地區(qū) GDP 人均GDP 農(nóng)業(yè)增加值 工業(yè)增加值 第三產(chǎn)業(yè)增加值 固定資產(chǎn)投資 基本建設(shè)投資 社會(huì)消費(fèi)品零售總額 海關(guān)出口總額 地方財(cái)政收入
遼寧 5458.2 13000 14883.3 1376.2 2258.4 1315.9 529 2258.4 123.7 399.7
山東 10550 11643 1390 3502.5 3851 2288.7 1070.7 3181.9 211.1 610.2
河北 6076.6 9047 950.2 1406.7 2092.6 1161.6 597.1 1968.3 45.9 302.3
天津 2022.6 22068 83.9 822.8 960 703.7 361.9 941.4 115.7 171.8
江蘇 10636 14397 1122.6 3536.3 3967.2 2320 1141.3 3(未完,下一頁)
|