Metode ROBPCA (Robust Principal Component Analysis) dan Clara (Clustering Large Area) pada Data dengan Outlier
on
Jurnal Ilmu Komputer VOL. XIII, No 2
p-ISSN: 1979-5661
e-ISSN: 2622-321X
Metode ROBPCA (Robust Principal Component Analysis) dan Clara (Clustering Large Area) pada Data dengan Outlier
(Studi Kasus Data Laporan Indeks Kebahagiaan Dunia Tahun 2018)
Bekti Endar Susilowati 1), Pardomuan Robinson Sihombing 2)
1Badan Pusat Statistik Kabupaten Sleman, Jalan Purbaya, Mlati, Kabupaten Sleman, Yogyakarta 1[email protected]
2Badan Pusat Statistik, Jalan Dr. Sutomo No 6-8, Jakarta Pusat 2[email protected]
Abstract
PCA is one of multivariate analysis used for deputizing variables using less number of Principal Components without losing much information. In other words, it is used for explaining the underlying variance-covariance structure of the large data set of variables through a few linear combinations of these variables. PCA is significantly influenced by the outliers, since the covariant matrix are sensitive to outliers. Thus, the analysis for this study was conducted by using a PCA that is robust to outliers, namely ROBPCA or Hubert PCA. Then, the principal components formed were used as inputs in cluster analysis using the Clara method. Clara is one of the k-medoids methods that is robust to outliers and is appropriate for large data analysis. In the case study of the compiling variables of happiness index based on The World Happiness Report (WHR)2018 using the Clara method with Manhattan distance, the best average value of Overall Average Silhouette Width in the 5 clusters were obtained.
Keywords: robust, outlier, ROBPCA, Clara
Abstrak
PCA merupakan salah satu analisis multivariat yang digunakan untuk mengganti variable dengan Principal Component yang sedikit jumlahnya namun tidak terlalu banyak informasi yang hilang. Atau dengan kata lain, it used to explain the underlying variancecovariance structure of the large data set of variables through a few linear combination of these variables. PCA sangat dipengaruhi oleh kehadiran outlier karena didasarkan pada matriks kovarian yang sensitive terhadap outlier. Oleh karena itu, pada analisis ini akan digunakan PCA yang robust terhadap outlier yaitu ROBPCA atau PCA Hubert. Selanjutnya, dari Principal Component yang terbentuk digunakan sebagai input (masukan) untuk cluster analysis dengan metode Clara. Clara merupakan salah satu metode k-medoids yang robust terhadap outlier dan baik digunakan pada data dalam jumlah besar. Dalam studi kasus terhadap variabel penyusun indeks kebahagiaan berdasarkan The World Happiness Report 2018 dengan metode Clara yang menggunakan jarak manhattan didapatkan nilai rata-rata Overall Average Silhouette Width yang terbaik pada 5 cluster.
Kata kunci: robust, outlier, ROBPCA, Clara
Data yang dikaji dalam menyusun WHR antara lain kekuatan ekonomi (GDP per capita), social support, Healthy life expectancy at birth, Freedom to make life choices, Generosity, Perceptions of corruption, Positive Affect, Negative Affect, Confidence in National Government, GINI index (World Bank estimate) average 2000-15, and gini of household income reported in Gallup, by wp5-year. Berdasarkan hasil penelitian sebelumnya (Sobiroh, 2015), ROBPCA yang menggabungkan konsep Projection Pursuit (PP) dan Minimum Covariance Determinant (FAST-MCD dengan teorema C-step) memberikan kesimpulan lebih baik daripada Classic Principal Component Analysis (CPCA) karena mampu menghasilkan jumlah komponen utama lebih sedikit namun telah mampu mejelaskan sebesar 84,79% dari total variasi sampel.
Pada penelitian kali ini akan dilakukan analisis komponen utama (PCA) dari variabel-variabel tersebut kemudian dilanjutkan dengan analisis cluster terhadap negara-negara anggota. Untuk melakukan analisis dari kedua meotode tersebut, dipilih metode yang robust terhadap outlier sehingga diharapkan didapatkan hasil analisis yang lebih akurat. Pada metode PCA dipilih salah satu metode yang robust terhadap outlier yaitu ROBPCA(Robust PCA) sedangkan untuk analysis Cluster dipilih metode Clara yang dalam penelitian sebelumnya disebutkan bahwa metode tersebut robust terhadap outlier dan efektif digunakan dalam data yang cukup besar.
-
2. METODE PENELITIAN
Sumber Data dan Variabel Penelitian
Data diperoleh dari The World Happiness Report 2018. Data yang akan digunakan sebanyak 141 negara dengan 11 variabel. (Statistical Appendix 1 for Chapter 2 of World Happiness Report 2018). Adapun variabel yang digunakan dalam penelitian ini adalah:
-
a. GDP per capita atau pendapatan per kapita adalah besarnya pendapatan rata-rata penduduk di suatu negara. Pendapatan per kapita didapatkan dari hasil pembagian pendapatan nasional suatu negara dengan jumlah penduduk negara tersebut.
-
b. Social support (dukungan sosial) merupakan rata-rata nasional dari respon dalam bentuk biner (0 atau 1).
-
c. Healthy life expectancy at birth; Variabel Healthy life expectancy at birth (harapan hidup sehat) dihitung berdasarkan data dari World Health Organization (WHO), the World Development Indicators (WDI), and jurnal-jurnal statistik.
-
d. Freedom to make life choice; Freedom to make life choices (kebebasan untuk membuat pilihan hidup) rata-rata respons nasional terhadap pertanyaan "Apakah Anda puas atau tidak puas dengan kebebasan Anda untuk memilih apa yang Anda lakukan dengan hidup Anda?"
-
e. Generosity; Variabel Generosity (kemurahan hati) merupakan rata-rata nasional dari respon Sudahkah Anda menyumbangkan uang untuk kegiatan amal dalam sebulan terakhir?” pada PDB per kapita.
-
f. Perceptions of corruption; Perceptions of corruption (persepsi tentang korupsi) merupakan variabel yang mengukur rata-rata nasional dari respons survei terhadap dua pertanyaan: "Apakah korupsi tersebar luas di seluruh pemerintah atau tidak" dan "Apakah korupsi tersebar luas di dalam bisnis atau tidak?".
-
g. Positive Affect; Positive Affect (pengaruh positif) merupakan variabel yang didefinisikan sebagai rata-rata dari tiga ukuran efek positif: kebahagiaan, tawa dan kesenangan.
-
h. Negative Affect; Negative Affect (pengaruh negatif) merupakan variabel yang didefinisikan sebagai rata-rata dari tiga ukuran efek negative yaitu kekhawatiran, kesedihan dan kemarahan.
-
i. Confidence in National Government merupakan variabel yang merngukur kepercayaan terhadap pemerintah.
-
j. GINI index (World Bank estimate) average 2000-15; Indeks Gini merupakan indikator yang menunjukkan tingkat ketimpangan pendapatan secara menyeluruh. Nilai Koefisien Gini berkisar antara 0 hingga 1. Koefisien Gini bernilai 0 menunjukkan adanya pemerataan pendapatan yang sempurna, atau setiap orang memiliki pendapatan yang sama.
-
k. Gini of household income reported in Gallup, by wp5-year; Variabel ini merupakan indeks Gini dari pendapatan rumah tangga. Variabel pendapatan dibuat dengan mengonversi mata uang lokal ke Dolar Internasional (ID) menggunakan rasio paritas daya beli.
ROBPCA (ROBust PCA)
ROBPCA (ROBust PCA) atau disebut juga Hubert PCA ditemukan oleh Hubert dkk (2005) sebagai perkembangan dari robust PCA. Metode tersebut merupakan gabungan konsep Projection 89
Pursuit(PP) dan estimator kovarian yang robust yaitu Minimum Covariant Determinant (MCD) yang dimodifikasi bersama dengan Van Driessen menjadi Fast Minimum Covariance Determinant (FAST-MCD) pada tahun 1999. Metode tersebut digunakan untuk mendapatkan komponen utama (PCA) yang tidak terpengaruh terlalu banyak dengan kehadiran data outlier.
Untuk analisis selanjutnya, robust principal komponen yang telah diperoleh dengan metode ROBPCA digunakan sebagai input (masukan) untuk cluster analysis. Berdasarkan penelitian sebelumnya (Muslim, 2018), cluster analysis dengan Clara method menyimpulkan bahwa Clara
method dengan jarak manhattan lebih robust dibandingkan dengan K-means dengan jarak Manhattan dan Pam. Oleh karena itu pada penelitian kali akan mengaplikasikan Clara method dengan jarak
manhattan untuk studi kasus data dengan variabel-variabel
Happiness Report (WHR) 2018.
yang
bersumber dari The World
Matriks kovariansi didefinisikan sebagai berikut:
^ = C0v(1X) =
.ftι ft: •■■
ftp ftp
ftp
Matriks korelasi didefinisikan sebagai berikut:
' 1
i**12
'l≡i2''¾2
√⅜p>'¾2
CrIp 'lffl 1 ⅛'σlp
'l¾!v'¾p
1 Pu - Plp
PlZ 1 •■■ ftp
Plp Pip - 1
(1)
(2)
(3)
Mahalanobis Distance
Jarak mahalanobis pada data multivariate digunakan untuk mendeteksi outlier, yang diperoleh dengan menghitung jarak tiap observasi terhadap pusat datanya.
^MD = (Xi ~ ^y^ 1(*i “M) > Zpi(I-C) (4)
Deteksi outlier dengan jarak mahalanobis kurang maksimal ketika datanya mengandung lebih dari satu outlier, sehingga dikembangkan jarak mahalanobis robust (robust distance/RD) didasarkan pada
penaksir robust apabila jika: |
untuk vector rata-rata dan matriks kovariansi. Pengamatan xi dikatakan outlier 1'rD - (xi - ^MCDy^MCD^i ~ PmCd) ^ ^pι(L-a) (5) |
Dengan klMcn dan ∑MlD merupakan vector rata-rata dan matriks kovariansi dari sebagiam data X yang mempunyai determinan matriks kovariansi terkecil.
Terdapat tiga macam jenis outlier sebagai berikut (Sobiroh, 2015):
-
a. Good Leverage, merupakan pengamatan yang berada di ruang distribusi tetapi sudah tidak berada di daerah mayoritas data
-
b. Bad Leverage, merupakan pengamatan yang tidak berada baik dalam ruang distribusi maupun daerah mayoritas data
-
c. Orthogonal Leverage, merupakan pengamatan yang memiliki jarak pengamatan sangat besar dari daerah mayoritas data sehingga pengamatan tersebut sudah tidak dapat dilihat dalam ruang distribusinya.
Minimum Covariance Determinant (MCD) dan Projection Pursuit
Misal X = [x1,x2, ...,Xtl] adalah himpunan data sejumlah n pengamatan yang terdiri dari p variabel dimana n ≥ p+1.
C = (xi ^^ ^l)(xi - ^l)
r = 1 (7)
t dan C merupakan matriks definit positif simetri berdimensi pxp dari suatu sub sampel berukuran h n+p+1
pengamatan dimana 2 ≤ h ≤ n yang meminimumkan det (C). Metode MCD mencari himpunan
bagian dari X sejumlah h elemen dimana h adalah integer terkecil dari (n+p+1)/2. Dimisalkan bahwa himpunan bagian itu adalah ^h1 Untuk mendapatkan penaksir MCD perlu dicari Cft kombinasi. Jika n kecil maka penaksir MCD cukup mudah ditemukan. Akan tetapi masalh muncul ketika n cukup besar karena terdapat banyak kombinasi sub sampel yang harus ditemukan untuk memperoleh penaksir MCD. Projection Pursuit (PP) bertujuan untuk mendapatkan struktur pada data peubah ganda dengan memproyeksikannya pada subruang berdimensi lebih rendah (Hubert, 1985). Seperti CPCA, metode tersebut mencari suatu arah dengan penyebaran maksimal data diproyeksikan di dalamnya.
PCA yang diperkenalkan pertama kali oleh Pearson pada tahun 1901, merupakan suatu analisis multivariate yang mentransformasi variabel-variabel asal yang saling berkorelasi menjadi variabel-variabel baru yang tidak saling berkorelasi dengan mereduksi sejumlah variabel tersebut. Hal ini bertujuan agar dihasilkan dimensi yang lebih kecil namun dapat menerangkan sebagian besar keragaman variabel aslinya. Dalam perkembangannya, dipengaruhi adanya kebutuhan suatu model PCA yang robust terhadap data outlier. PCA yang juga dikenal dengan Clasisical Principal Component Analysis (CPCA) sangat dipengaruhi oleh kehadiran outlier karena didasarkan pada matriks kovarian yang peka terhadap outlier. Untuk mengatasi hal tersebut beberapa ahli menggantikan matriks kovarian klasik dengan estimator kovarian robust.
Sebagai perkembangan dari robust PCA, Hubert dkk (2005) menemukan ROBPCA atau disebut juga Hubert PCA. Metode tersebut merupakan gabungan konsep Projection Pursuit(PP) dan estimator kovarian yang robust yaitu Minimum Covariant Determinant (MCD) yang dimodifikasi bersama dengan Van Driessen menjadi Fast Minimum Covariance Determinant (FAST-MCD) pada tahun 1999. Metode tersebut digunakan untuk mendapatkan komponen utama (PCA) yang tidak terpengaruh terlalu banyak dengan kehadiran data outlier.
Algoritma ROBPCA:
2.
Menghitung outlyingness setiap data xt dengan rumus Stanhel-Donoho
c(χi)
mαxvefi
(9)
-
3. Matriks covarian ^o dikomposisi sehingga diperoleh komponen utamanya.
-
4. Pada n, k dari algoritma ke-3 dihitung kembali penduga nilai tengah (/'2) dan matriks kovarian MCD (■$i) menggunakan FAST-MCD yang diadaptasi. Komponen utama akhir adalah vector eigen dari matriks kovarian tersebut (^J
Berdasarkan studi-studi sebelumnya, ROBPCA merupakan suatu pendekatan PCA yang lebih efektif dalam untuk data yang mengandung outlier.
Jarak Euclidean dan Manhattan
Jarak Euclidean merupakan jarak terpendek antar 2 titik, digunakan untuk menghitung jarak Euclidean antara suatu objek dengan pusat klaster.
(10)
Jarak Manhattan (city block distance) diibaratkan sebagai jarak blok antara 2 titik suatu kota.
^man (xtj'cκj) = lxy - ¾∣
∕=1 i= 1 (11)
^euc (xij>ckj) : jarak Euclidean antara pengamatan ke-i variabel ke-j ke pusat klaster ke-k pada variabel ke-j
^man(xii>cki): jarak Manhattan antara pengamatan ke-i variabel ke-j ke pusat klaster ke-k pada variabel ke-j
-
xi i: objek pada pengamatan ke-i variabel ke-j
cki: pusat klaster ke-k pada variabel ke-j
p :banyak variabel
n : banyak pengamatan
CLARA
Clara (Kaufman dan Rousseew, 1990) merupakan salah satu macam pengelompokan data dengan medoid sebagai pusat klasternya. Medoid merupakan objek yang letaknya terpusat pada suatu klaster, atau dengan kata lain merupakan suatu objek yang merepresentasikan anggota pada suatu data dan memiliki rata-rata perbedaan (dissimailarity) yang paling kecil dengan anggota-anggota lain.
Berbeda dengan metode medoid lainnya, yaitu Pam, metode Clara memiliki sifat robust terhadap outlier dan dapat digunakan untuk data dalam jumlah besar. Metode ini lebih efisien dalam hal waktu komputasi dan dalam penyimpanan data set yang besar.
Clara menggunakan pendekatan sampling, kemudian menerapkan algoritma Pam untuk mendapatkan medoid yang optimal untuk sampel. Kualitas medoid yang dihasilkan diukur dengan rata-rata perbedaan jarak antara setiap objek di data set dan medoid pada sampel. Dengan mengambil sampel cesara acak, medoid dari sampel diharapkan akan mendekati nilai medoid dari data set.
Algoritma Clara (Muslim, 2018):
-
1. Menentukan banyaknya klaster (k),
-
2. Membagi data set secara acak dalam beberapa sub set dengan ukuran tetap, dimana ukuran sampel setiap sub set minimal 40+2*k,
-
3. Menentukan medoid awal ,
-
4. Menghitung jarak non-medoid dengan medoid setiap klaster,
-
5. Menempatkan objek berdasarkan jarak terdekat dengan medoid,
-
6. Menghitung total jarak yang diperoleh,
-
7. Memilih secara acak objek non-medoid pada masing-masing klaster sebagai kandidat medoid baru,
-
8. Menghitung jarak setiap objek non medoid dengan kandidat medoid baru dan menempatkan objek berdasarkan jarak terdekat dengan medoid baru tersebut.
-
9. Menghitung selisih total jarak kandidat medoid baru dengan total jarak pada medoid lama. Jika total jarak setiap objek dengan kandidat medoid baru kurang dari total jarak setiap objek dengan medoid lama, maka kandidat medoid baru menjadi medoid baru,
-
10 . Mengulangi kembali langkah 7-9,
-
11 . Menghitung jarak antara semua non medoid dengan objek yang menjadi medoid, hingga diperoleh sub set dengan jumlah terkecil adalah yang dipilih.
-
3. HASIL DAN PEMBAHASAN
Analisis Deskriptif
Dari summary data pada Tabel 1, terlihat bahwa terdapat beberapa missing values (NA). Untuk melanjutkan analisis berikutnya, perlu dilakukan penanganan terhadap missing values, yaitu dengan mengestimasi nilai-nilai tersebut dengan menggunakan EM-Algorithm. Metode EM-Alghorithm merupakan suatu metode dengan Expectation-Step dilanjutkan Maximation-Step dengan iteratif maximum likelihood. Metode ini mengasumsikan sebuah distribusi dari data hilang secara parsial dan berdasarkan fungsi likelihood dari distribusi tersebut. Dari pengujian dapat disimpulkan bahwa mekanisme missing values yaitu dengan MCAR dan data tersebut berdistribusi normal, sehingga
untuk menaksir missing values dapat dilakukan dengan EM Alghoritma. Selanjutnya dilakukan uji normalitas multivariat, didapatkan asumsi normalitas multivariat terpenuhi.
Tabel 1. Analis Deskriptif
Variable |
x1 |
x2 |
x3 |
x4 |
Median |
9.544 |
0.829 |
65.13 |
0.812 |
Max. |
11.465 |
0.967 |
76.54 |
0.985 |
NA's |
7 |
1 |
0 |
1 |
Variable |
x5 |
x6 |
x7 |
x8 |
Median |
-0.035 |
0.781 |
0.712 |
0.281 |
Mean |
-0.011 |
0.735 |
0.707 |
0.292 |
NA's |
8 |
12 |
1 |
1 |
Variable |
x9 |
x10 |
x11 | |
Median |
0.476 |
0.368 |
0.439 | |
Mean |
0.496 |
0.384 |
0.459 | |
NA's : |
13 |
16 |
0 |
Deteksi Outlier
Fungsi aq.plot pada R (packages mvoutlier) menggambarkan jarak Mahalanobis kuadrat robust dari pengamatan terhadap fungsi distribusi empiris dari jarak Mahalanobis. Perhitungan jarak didasarkan pada Estimator MCD. Dari plot terlihat cukup banyak observasi yang merupakan outlier.
Gambar 1 Plot Uji Outlier
Hasil ROBPCA
Dari ROBPCA didapatkan Principal Component 1 (PC1) menjelaskan 51,01%, kemudian ditambahkan PC2 sudah mampu menjelaskan sebesar 77,20 % dan ditambahkan PC3 menjadi sebesar 92,6 %. Nilai eigen >1 yang diperoleh yang diperoleh dari matriks korelasi dibandingkan dengan nilai 1 dengan alasan karena ketika komponen utama diperoleh dari matriks korelasi (standardized data) variansi dari masing-masing variabelnya sama dengan 1. Jika suatu komponen utama tidak dapat menerangkan variansi melebihi dirinya sendiri, maka komponen utama tersebut tidak signifikan atau dengan kata lain, komponen utama yang memiliki nilai eigen <1 dapat diabaikan.
Tabel 2. Proporsi Kumulatif dan Nilai Eigen ROBPCA
ROBPCA |
PC1 |
PC2 |
PC3 |
Cumulative Proportion |
0.5101 |
0.7720 |
0.926 |
4.7325703 |
2.4298 481 |
1.4285 390 |
0.6862 558 |
Dari output tersebut didapatkan ^ρΛ2; ^ 3 yang memiliki nilai eigen >1 sehingga untuk selanjutnya didapatkan 3 principal komponen. Hasil dari ROBPCA lebih baik, jika dibandingkan dengan hasil yang didapatkan dari Classic Principal Component Analysis sebagai berikut:
Tabel 3. Proporsi Kumulatif PCA Classic
CPCA |
PC1 |
PC2 |
PC3 |
PC4 |
PC5 |
Cumulative Proportion |
0.393 5 |
0.6030 |
0.7309 |
0.7991 |
0.85879 |
Dari PCA didapatkan Principal Component yang lebih banyak, Principal Componen ke 3 hanya dapat dapat menjelaskan sebesar 73% sedangkan 85,89% dijelaskan oleh Principal Componen ke 5.
Robust PCA
0 12 3
Score distance
Gambar 2. Output RobPCA
Dari plot di atas terlihat bahwa nomor observasi 56, 57 dan 68 dan lain-lain merupakan observasi yang outlier orthogonal karena mempunyai OD (Orthogonal Distance) besar (>cut-off point), dan SD (Score Distance) kecil (< cut-off point). Nomor 22, 49, dan 96 merupakan bad leverage point karena OD bernilai kecil namun SD besar. Nilai Loading ROBPCA merupakan bentuk standardisasi, maka persamaan Principal Component sebagai berikut:
Fi = βiZ = -0.42752694Z1- 0.41890063 Z2 - 0.41660572Z3 - 0.278C2083Z4 - 0.10265343Z5
+ 0.21175268Z6 - 0.25418623Z7 + 0.38125181Z8 + 0.C1212936Z9 + 0.133810 94Zi0
+ 0.30267638 Z11
F2 = β2Z = 0.13711767 Z1 - 0.057 9 634SZ2 + 0.18385556Z3 - 0.46310641Z4 - 0.3243S379Zs
+ O 23825719Z6 - 0.40141868 Z7 - C.00568559Z8 - 0.4 78 0 52C9Z9- 0∙27 843 6 09Z10
- 0.31680164Z11
F3 = e3Z = 0.12414565 Z1 + 0.17582854Z2 + 0.08799225Z3 + 0.13112D34Z4 - 0.42608314Z5
+ O 27371537Z6 + O 33210065Z7 + 0.02486175Zs - 0.38743172Z9 + 0.60 1 64699Zlo
+ 0 22198799Z11
Nilai j dapat diterangkan paling baik oleh variabel (log GDP per capita), , ^H(social support), Zg(Healthy life expectancy at birth) dengan korelasi antara Fl dengan ketiga variabel tersebut adalah negatif. Hal ini berarti apabila ketiga variabel tersebut besar maka Fl bernilai kecil. Demikian pula
dengan variabel-variabel lain, jika bertanda negatif berarti korelasi antara ^i dengan variabel tersebut negatif, yang berarti jika variabel tersebut bernilai besar maka maka Ki akan bernilai kecil meskipun dengan rentang yang tidak begitu besar.
Tabel 4. Korelasi antara variabel and principal component
Kn |
K3 | ||
Z1 |
-0.930 |
0.214 |
0.148 |
zs |
-0.911 |
0.090 |
0.210 |
Za |
-0.906 |
0.287 |
0.105 |
Z. |
-0.605 |
-0.722 |
0.157 |
Zs |
-0.223 |
-0.506 |
-0.509 |
Zs |
0.461 |
0.371 |
0.327 |
Z, |
-0.553 |
-0.626 |
0.397 |
Za |
0.829 |
-0.009 |
0.030 |
Za |
0.026 |
-0.745 |
-0.463 |
Zu |
0.400 |
-0.434 |
0.719 |
Zi. |
0.658 |
-0.494 |
0.265 |
Nilai ⅞ dapat diterangkan paling baik oleh variabel Zj (Freedom to make life choices), Z?(Positive affect), l" Γ(Confidence in national government), koefisien ketiganya bernilai negative yang berarti korelasi antara ^™dengan ketiga variabel tersebut adalah negative. Hal ini berarti apabila K's kecil maka ketiga variabel tersebut besar. Demikian pula dengan variabel-variabel lain, jika bertanda positif berarti korelasi antara ^Hdengan variabel tersebut positif, yang berarti jika K≡ besar berarti maka variabel tersebut bernilai besar meskipun dengan rentang yang tidak begitu besar.
Nilai ^s dapat diterangkan paling baik oleh variabel 2w (gini of household income reported in Gallup), yang bernilai positif yang berarti korelasi dengan Zg adalah positif, jika variabel gini of household income reported in Gallup besar maka 's juga besar. Variabel ¾(Generosity) dan ¾(Confidence in national government) memiliki koefisien bernilai negative yang berarti korelasi antara 'sdengan ketdua variabel tersebut adalah negative. Hal ini berarti apabila ⅛3 kecil maka kedua variabel tersebut besar. Demikian pula dengan variabel-variabel lain, jika bertanda positif berarti korelasi antara 573dengan variabel tersebut positif, yang berarti jika ^3 besar berarti maka variabel tersebut bernilai besar meskipun dengan rentang yang tidak begitu besar.
Skor komponen utama diperoleh dari mensubtitusikan setiap observasi yang telah distandardisasi ke il,ir2∕^3. Dari skor komponen utama tersebut, selanjutnya akan dilakukan cluster analysis dengan Clara Method.
CLARA
Dari analisis cluster dengan Clara Method dengan k dari 1 sampai dengan 10 dengan jarak Manhattan diperoleh nilai rata-rata Overall Average Silhouette Width paling tinggi untuk cluster 5 yaitu sebesar 0,40082. Hal ini menunjukkan bahwa terdapat ikatan yang cukup baik antara objek dan klaster yang terbentuk.
Selanjutnya dilakukan profiliasasi pada hasil kuster. Profilisasi dilakukan pada metode Clara dengan jarak Manhattan dengan jumlah klaster sebanyak 5. Pada tahap profilisasi akan dilihat karakteristik dari tiap klaster yang terbentuk, sehingga dapat dilihat kecenderungan tiap klaster.
Pada metode Clara, karakteristik dari klaster yang terbentuk, direpresentasikan dengan medoid tiap klaster. Selanjutnya, untuk menentukan karakteristik tiap klaster dilakukan perbandingan medoid antar klaster dengan memberikan skor setiap klaster untuk masing-masing variabel.
Tabel 5. Output Metode Clara dengan Jarak Manhattan
Medoid 1 |
Medoid 2 |
Medoid3 |
Medoid4 |
Medoid5 | |
PC1 |
0.6597170 |
-0.2559214 |
-3.4573324 |
-1.2281044 |
1.3392786 |
PC2 |
2.3116726 |
-0.3103989 |
-1.2828750 |
1.5429096 |
-1.1803006 |
PC3 |
-0.4269951 |
2.0638235 |
-1.0097316 |
0.3678118 |
-0.4829762 |
Skor disesuaikan dengan korelasi (positif atau negatif) antara variabel asal dengan variabel Principal Component dan berdasarkan literatur dari makna setiap variabel, didapatkan:
Tabel 6.Skor dari Medoid
Score |
Medoid 1 |
Medoid 2 |
Medoid 3 |
Medoid 4 |
Medoid 5 |
PC1 |
2 |
3 |
5 |
4 |
1 |
PC2 |
1 |
3 |
5 |
2 |
4 |
PC3 |
3 |
1 |
5 |
2 |
4 |
Total |
6 |
7 |
15 |
8 |
9 |
Intrepetasi Setiap Medoid
Medoid 1 merupakan cluster dengan skor 6
Medoid 1 merupakan cluster dengan karakteristik yang tersusun sebagai berikut:
S PC1 diterangkan dengan korelasi yang tinggi untuk variabel ■ ∣(log GDP per capita), C (social support), (healthy life expectancy at birth) yang berarti variabel dalam medoid
tersebut memiliki nilai rendah dan (negative affect) yang memiliki korelasi positif dengan nilai yang tinggi.
S PC2 diterangkan dengan korelasi negative yang tinggi oleh variabel ■'■ -, (Freedom to make life choices), (Positive affect), (Confidence in national government) yang berarti variabel
dalam medoid tersebut memiliki nilai kecil.
S PC3 diterangkan dengan korelasi positif yang tinggi oleh variabel ■'.: (gini of household income reported in Gallup) yang berarti dalam medoid tersebut memiliki nilai yang rendah. Koefisien gini yang rendah berarti ketimpangan kecil, dalam hal ini diberikan skor yang tinggi terkait kontribusinya terhadapat indeks kebahagiaan. Jumlah anggota pada cluster ini sebanyak 26 negara, yaitu Afghanistan, Albania, Algeria, Armenia, Belarus, Bosnia Herzegovina, Kroasia, Agypt, Gabon, Georgia, Greece, Iraq, Jordan, Lebanon, Macedonia, Mauritania, Moldova, Montenegro, Palestina, Terrotories, Serbia, Korea Selatan, Tunisia, Turki, Ukraina, Vietnam, Yaman
Medoid 2 merupakan klaster dengan skor 7
Medoid 2 merupakan cluster dengan karakteristik yang tersusun sebagai berikut:
S PC1 diterangkan dengan korelasi yang tinggi untuk variabel ■ ∣(log GDP per capita), C (social support), (healthy life expectancy at birth) yang berarti variabel dalam medoid
tersebut memiliki nilai tinggi dan (negative affect) yang memiliki korelasi positif dengan nilai yang tinggi.
S PC2 diterangkan dengan korelasi negatif yang tinggi oleh variabel ■'■-. (Freedom to make life choices), (Positive affect), (Confidence in national government) yang berarti variabel
dalam medoid tersebut memiliki nilai besar (skor tinggi).
S PC3 diterangkan dengan korelasi positif yang tinggi oleh variabel ■'■_: (gini of household income reported in Gallup) yang berarti dalam medoid tersebut memiliki nilai yang besar. Koefisien gini yang besar berarti ketimpangan tinggi, dalam hal ini diberikan skor yang rendah terkait kontribusinya terhadapat indeks kebahagiaan. Jumlah anggota pada cluster ini sebanyak 24 negara, yaitu Argentina, Bolivia, Brazil, Chile, Colombia, Costa Rica, Dominica,
Ekuador, El Savador, Guatemala, Honduras, Jamaica, Libya, Mexico, Namibia, Nicaragua, Panama, Peru, Sri Lanka, Trinidad dan Tobago, Afrika Selatan, Amerika Serikat, Uruguay.
Medoid 3 merupakan klaster dengan skor 15
Medoid 3 merupakan cluster dengan karakteristik yang tersusun sebagai berikut:
S PC1 diterangkan dengan korelasi yang tinggi untuk variabel ■ ∣(log GDP per capita), C (social support), (healthy life expectancy at birth) yang berarti variabel dalam medoid
tersebut memiliki nilai tinggi dan (negative affect) yang memiliki korelasi positif dengan nilai yang rendah.
S PC2 diterangkan dengan korelasi negative yang tinggi oleh variabel ■'■ -, (Freedom to make life choices), (Positive affect), (Confidence in national government) yang berarti variabel
dalam medoid tersebut memiliki nilai besar.
S PC3 diterangkan dengan korelasi positif yang tinggi oleh variabel ■'■_: (gini of household income reported in Gallup) yang berarti dalam medoid tersebut memiliki nilai yang rendah. Koefisien gini yang rendah berarti ketimpangan kecil, dalam hal ini diberikan skor yang tinggi terkait kontribusinya terhadapat indeks kebahagiaan. Jumlah anggota pada cluster ini sebanyak 22 negara, yaitu Australia, Austria, Belgium, Denmark, Finlandia, Jerman, Hong Kong, Islandia, Irlandia, Kyrgystan, Luxemburg, Malta, Mauritius, Belanda, Selandia Baru, Norway, Singapura, Arab Saudi, Switzerland, Swedia, United Kingdom, dan Uzbekistan.
Medoid 4 merupakan klaster dengan skor 8
Medoid 4 merupakan cluster dengan karakteristik yang tersusun sebagai berikut:
S PC1 diterangkan dengan korelasi yang tinggi untuk variabel ■'■-(log GDP per capita), ■'■; (social support), (healthy life expectancy at birth) yang berarti variabel dalam medoid
tersebut memiliki nilai tinggi dan (negative affect) yang memiliki korelasi positif dengan nilai yang tinggi.
S PC2 diterangkan dengan korelasi negatif yang tinggi oleh variabel ■'■-. (Freedom to make life choices), (Positive affect), (Confidence in national government) yang berarti variabel
dalam medoid tersebut memiliki nilai rendah.
S PC3 diterangkan dengan korelasi positif yang tinggi oleh variabel ■'■_: (gini of household income reported in Gallup) yang berarti dalam medoid tersebut memiliki nilai yang tinggi. Koefisien gini yang tinggi berarti ketimpangan besar, dalam hal ini diberikan skor yang rendah terkait kontribusinya terhadapat indeks kebahagiaan. Anggota dari Klaster 4 antara lain, Azerbaijan, Bahrain, Bulgaria, Cyprus, Republik Ceko, Estonia, Perancis, Hongaria, Israel, Italia, Jepang, Kazakhstan, Kosovo, Kuwait, Latvia, Lituania, Mongolia, Polandia, Turkmenistan, Romania, Russia, Arab Saudi, Slovakia, Slovenia, Spanyol, Portugal, Thailand, Taiwan.
Medoid 5 merupakan klaster dengan skor 9
Medoid 5 merupakan cluster dengan karakteristik yang tersusun sebagai berikut:
S PC1 diterangkan dengan korelasi yang tinggi untuk variabel ■'■-(log GDP per capita), ■'■; (social support), (healthy life expectancy at birth) yang berarti variabel dalam medoid
tersebut memiliki nilai rendah dan (negative affect) yang memiliki korelasi positif dengan
nilai yang besar.
S PC2 diterangkan dengan korelasi negative yang tinggi oleh variabel ■'■ - (Freedom to make life choices), (Positive affect), (Confidence in national government) yang berarti variabel
dalam medoid tersebut memiliki nilai tinggi.
S PC3 diterangkan dengan korelasi positif yang tinggi oleh variabel ■'■_. (gini of household income reported in Gallup) yang berarti dalam medoid tersebut memiliki nilai yang rendah. Koefisien gini yang rendah berarti ketimpangan rendah, dalam hal ini diberikan skor yang tinggi terkait kontribusinya terhadapat indeks kebahagiaan. Jumlah anggota pada cluster ini sebanyak 41 negara, yaitu Bangladesh, Benin, Botswana, Burkina Faso, Cambodia, Cameroon, Zimbabwe, Chad, Congo (Brazzaville), Congo (Kinshasa), Ethiopia, Ghana,
Guinea, Haiti, India, Indonesia, Iran, Pantai Gading, Kenya, Laos, Liberia, Madagaskar, Malawi, Mali, Morocco, Mozambik, Myanmar, Nepal, Niger, Nigeria, Pakistan, Filipina, Senegal, Sierra Leone, Sudan Selatan, Tajikistan, Tanzania, Togo, Uganda, Zambia, Republik Afrika Tengah.
-
4. KESIMPULAN DAN SARAN
Kesimpulan
Metode ROBPCA merupakan suatu model PCA yang robust terhadap outlier, dan lebih efisien (mampu menghasilkan lebih sedikit jumlah Principal Component) daripada Classic PCA. Dengan metode ROBPCA yang diterapkan untuk studi kasus variable-variabel penyusun indeks kebahagiaan dari data The World Happiness Report 2018, didapatkan 3 (tiga) Principal Component yang dapat menjelaskan sebesar 92,6 % dari total varians data. Hal ini terbukti ROBPCA lebih efisien daripada metode PCA dengan sebanyak 5 Principal Componen yang dapat menjelaskan sebesar 85,89% dari total varians. Metode Clara merupakan Analysis Cluster dengan pusat cluster medoid yang robust untuk mengelompokkan data dengan outlier dan data dalam jumlah besar. Analysis Cluster dengan Clara method dari Principal Component yang terbentuk menggunakan jarak manhattan didapatkan nilai rata-rata Overall Average Silhouette Width yang terbaik pada 5 cluster. Berdasarkan profiling cluster dengan score antar medoid, didapatkan score paling tinggi pada cluster 3. Berdasrkan literature dari setiap variabel berarti bahwa cluster 3 terdiri dari negara-negara dengan indeks kebahagiaan yang baik. Sedangkan score medoid terendah adalah cluster 1..
Saran
Penerapan metode ROBPCA dan Metode Clara (Clustering Large Area) pada studi kasus yang lain khususnya untuk high dimensional data.
UCAPAN TERIMA KASIH
Terima kasih kepada Bpk Dr. Irlandia Ginanjar,S.Si., M.Si atas masukan dan bimbingannya untuk penelitian ini.
REFERENSI
Hubert, M,,Rousseeuw, P,J,, and Branden, K,,V, 2005, ROBPCA: a New Approach to Robust Principal Component Analysis, American Statistical and the American Society for Quality, Technometric, Vol,47, No,1, Belgium.
Johnson, R.A. dan Winchern, D.W.2007, Applied Multivariate Statistical Analysis. 6th edition, Pearson Education,Inc., USA.
Kassambra, Alboukadel, 2017, Practical Guide to Cluster Analysis in R.STHDA.
Kaufman, L. dan Rousseeuw, P.J., 1990, FindingGroups in Data : An Introduction to Cluster Analysis, John Wiley and Sons, Inc, New Jersey.
Muslim,A,B, 2018, Cluster Analysis using Clara Method for Data with Outlier, FMIPA UGM, Yogyakarta.
Rencher, A.C., 2002, Methods of Multivariate Analysis, Second Edition, John Wiley and Sons, Inc., New York.
Sobiroh,T,R, 2015, Robust Principal Component Analysis (ROBPCA) for High Dimensional Data with Outlier, FMIPA UGM, Yogyakarta.
Statistical Appendix 1 for Chapter 2 of World Happiness Report.2018.
98
Discussion and feedback