PENERAPAN METODE GENERALIZED RIDGE REGRESSION DALAM MENGATASI MASALAH MULTIKOLINEARITAS
on
e-Jurnal Matematika Vol. 2, No. 1, Januari 2013, 54-59
PENERAPAN METODE GENERALIZED RIDGE REGRESSION DALAM MENGATASI MASALAH MULTIKOLINEARITAS
Ni Ketut Tri Utami1, I Komang Gde Sukarsa2, I Putu Eka Nila Kencana3
1, 2, 3Jurusan Matematika FMIPA Universitas Udayana, Bukit Jimbaran-Bali, e-mail: 1[email protected], 2[email protected], 3[email protected]
Abstract
Ordinary least square is parameter estimation method for linier regression analysis by minimizing residual sum of square. In the presence of multicollinearity, estimators which are unbiased and have a minimum variance can not be generated. Multicollinearity refers to a situation where regressor variables are highly correlated. Generalized Ridge Regression is an alternative method to deal with multicollinearity problem. In Generalized Ridge Regression, different biasing parameters for each regressor variables (k — k1, k2,-..,kp^ were added to the least square equation after transform the data to the space of orthogonal regressors. The analysis showed that Generalized Ridge Regression was satisfactory to overcome multicollinearity.
Keywords: Linear regression, parameter estimation, multicollinearity, Generalized Ridge Regression
Analisis regresi merupakan sebuah alat statistik yang memberi penjelasan tentang pola hubungan (model) antara dua peubah atau lebih [1]. Dalam pembentukan model regresi dilakukan pendugaan terhadap parameter atau koefisien regresi (β) dengan menggunakan metode kuadrat terkecil dengan jalan meminimumkan jumlah kuadrat galatnya. Penduga yang memiliki sifat tak bias dan mempunyai ragam minimum tidak dapat dihasilkan apabila terjadi multikolinearitas.
Multikolinearitas merupakan situasi dimana terjadi korelasi yang tinggi antar peubah-peubah bebas yang mengakibatkan determinan dari matriks X’X akan mendekati 0 sehingga akan menyebabkan matriks tersebut hampir singular yang mengakibatkan nilai dari penduga paremeternya tidak stabil. Suatu metode formal untuk mendeteksi multikolinearitas adalah Variance Inflation Factors (VIF) yang menyatakan seberapa besar ragam koefisien regresi dugaan membesar di atas nilai idealnya. Nilai VIF > 5 menunjukan bahwa peubah-peubah bebas
-
1 Alumni Mahasiswa Jurusan Matematika FMIPA Universitas Udayana
-
2 ,3 Staf Pengajar Jurusan Matematika FMIPA Universitas Udayana
yang terlibat dalam masalah multikolinearitas.
Pada penelitian ini, penulis akan menerapkan metode Generalized Ridge Regression (GRR) dalam menganalisis data yang mengalami multikolinearitas dimana ditambahkan konstanta bias yang berbeda untuk setiap peubah bebas (k = k1,k2,-,kp)pada metode kuadrat terkecil setelah sebelumnya dilakukan
proses ortogonalisasi terhadap peubah bebas.
Generalized Ridge Regression merupakan Generalized Ridge Regression merupakan pengembangan dari prosedur Ordinary Ridge Regression yang memungkinkan terdapat parameter bias (k) berbeda untuk setiap peubah bebas [2,3]. Pembahasan mengenai Generalized Ridge Regression akan lebih sederhana apabila dilakukan transformasi terhadap data sehingga peubah bebas menjadi peubah bebas yang orthogonal [4]. Pertama-tama, asumsikan bahwa A merupakan
matriks P×P dimana anggota dari diagonal utamanya merupakan nilai eigen (λ1,λ1, ...,λp) dari matriks X’X dan jika Tp×p merupakan matriks orthogonal dari vektor eigen yang bersesuaian dengan -' , maka T1X1XT = Λ.
Misalkan Z = XT dan a = T1 β, maka model linear persamaan regresi menjadi
y =Xβ + ε = (ZT1)(Ta) + ε = Za+ ε (1)
Penduga kuadrat terkecil dari a merupakan solusi dari (Z,Z)a = Z,y yang setara dengan Aa = Z,y. Maka penduga kuadrat terkecil menjadi a = Λ^1Z'y. Vektor penduga parameter awal dapat dihitung dengan menggunakan persamaanβ =Ta.
Mengacu kepada persamaan (1) sebagai bentuk kanonik dari model, penduga generalized ridge merupakan solusi dari(A + K)aGR=Z'ydimana K merupakan matriks diagonal dengan anggota (⅛V ^2' —’kp). Koefisien generalized ridge pada model awal yaitu Pgr T & gr .
Selanjutnya, pertimbangan untuk pemilihan parameter bias pada K berdasarkan pada nilai MSE. MSE diminimumkan dengan memilih
kj=Ξ5' j=l,2,..∙,p (2)
Untuk menentukan nilai ^i digunakan pendekatan iteratif [3]. Ketika kuadrat panjang vektor parameter (^GR^GR) yang diduga tidak mengalami perubahan yang signifikan dari iterasii- 1 ke iterasi i, maka proses iterasi dihentikan.
Setelah mendapatkan penduga koefisien regresi dari metode Generalized Ridge Regression, dipastikan masalah multikolinearitas telah diatasi dengan melihat nilai Variance Inflation Factors (VIF). VIFj(K) sebagai fungsi dari K merupakan unsur
diagonal ke j dalam matriks
(x,x + κ)~1x,x(x,x + κ)^1
(3)
Data yang digunakan yaitu data mengenai kebutuhan akan tenaga kerja pada 17 Rumah Sakit Angkatan Laut U.S dari tabel 13.3 dalam buku Bowerman dan O’Connell (1997). Tahapan penelitian diawali dengan melakukan analisis
regresi linear berganda pada data. Langkah selanjutnya adalah mendeteksi adanya multikolinearitas dengan melihat nilai korelasi antar peubah bebas dan nilai VIF. Apabila ditemukan adanya multikolinearitas pada data, maka dilakukan pendugaan parameter dengan Generalized Ridge Regression. Langkah pertama yang dilakukan adalah mentransformasi data melalui proses centering dan scaling data. Tahapan selanjutnya adalah proses ortogonalisasi pada pebah-peubah bebas. Setelah itu, ditentukan nilai K yang merupakan matriks diagonal dengan anggota (k1,⅛2' ■"' k5) dan penduga parameter regresi generalized ridge dari peubah bebas ortogonal dengan menggunakan metode iteratif. Penduga awal untuk kj yaitu k10⅛,j = U.....5 dengan σ merupakan MSE dimana t^f n-μ-i j-^ ^^ dan “j adalah penduga parameter regresi dari peubah
bebas ortogonal yang merupakan solusi dari y = Za + ε. Pendugaan awal dari kj
digunakan untuk menghitung pendugaan awal generalized ridge untuk peubah bebas ortogonal ⅛j- = (Λ+κ0)⅛y, dimana K0 =⅛(k°,k2,-Λ5). Pendugaan awal aGR,i kemudian digunakan untuk menghitung pendugaan ⅛ . Nilai ^1 ini dapat digunakan untuk menghitung pendugaan dari sUj dan seterusnya. Proses iterasi dihentikan ketika I(a7GRttGR)1 (tt,GRαGR)1 11 ≤ θ>θl.
Setelah iterasi terhenti akan diperoleh nilai penduga koefisien generalized ridge dari peubah bebas ortogonal (0tGR). Langkah selanjutnya yaitu menentukan penduga koefisien Generalized Ridge Regression, dimana Pgr TaGR . Langkah terakhir adalah memastikan bahwa sudah tidak terjadi multikolinearitas dengan melihat nilai VIF yang kemudian dilanjutkan dengan melakukan uji terhadap model secara simultan dengan uji F dan uji individu untuk koefisien regresi dengan uji t.
Analisis regresi linear berganda dengan menggunakan metode kuadrat terkecil terhadap data kebutuhan akan tenaga kerja pada 17 Rumah Sakit Angkatan Laut U.S menghasilkan model regresi linear berganda yaitu Y = 1.963 -15,85X1 + 0,0559X2 + 1,59X3 - 4,219X4 - 394,3X5dengan nilai koefisien determinasi (R2) sebesar 0,987.
Untuk mendeteksi adanya multikolinearitas pada peubah bebas akan dilihat nilai korelasi antar peubah bebas dan nilai VIF dari masing-masing peubah bebas.
Tabel 1. Nilai Koefisien Korelasi
X1 |
X2 |
X3 |
X4 |
X5 | |
X1 |
1 |
0,907 |
1 |
0,936 |
0,671 |
X2 |
1 |
0,907 |
0,910 |
0,447 | |
X3 |
1 |
0,933 |
0,671 | ||
X4 |
1 |
0,463 | |||
X5 |
1 |
Tabel 2. Nilai VIF Peubah Bebas
Predictor |
VIF |
X1 |
9.597,6 |
X2 |
7,9 |
X3 |
8.933,1 |
X4 |
23,3 |
X5 |
4,3 |
Dari tabel 1 terlihat bahwa korelasi antar peubah bebas cukup besar yaitu mendekati satu yang menunjukkan bahwa terjadi kolinearitas sangat kuat antar peubah bebas. Nilai VIF dari peubah bebas pada tabel 2 menunjukkan bahwa peubah bebas X1, X2, X3, dan X4 terlibat dalam masalah multikolinearitas karena memiliki nilai VIF yang lebih besar dari 5. Berdasarkan uraian-uraian tersebut, maka dapat dipastikan terjadi pelanggaran terhadap asumsi multikolinearitas. Oleh karena itu, diperlukan metode alternatif dalam mengatasi masalah multikolinearitas yaitu dengan Generalized Ridge Regression.
Penyelesaian Masalah Multikolinearitas dengan Generalized Ridge Regression
Pada Generalized Ridge Regression, nilai konstanta bias k1,k2,...,k5 diperoleh melalui proses iterasi sampai ditemukan penduga koefisien regresi yang stabil. Iterasi berhenti pada iterasi kedua, karena pada iterasi ketiga nilai (Λ+K) menjadi singular karena nilai kι, k2,-,ks yang ditambahkan cukup besar. Nilai konstanta bias k±l k2> ∙∙∙,k- yang diperoleh dari proses iterasi kedua yaitu 17,7499, 4,2348x108, 4,5454x1018, 8,3003x107, 5,6253x1019. Setelah itu dilakukan pendugaan koefisien regresi untuk Generalized Ridge Regression. Penduga koefisien regresi pada data terstandarisasi dan pada peubah awal beserta nilai VIF dari masing-masing peubah bebas dapat dilihat pada tabel 3.
Tabel 3. Penduga Koefisien Regresi untuk Generalized Ridge Regression
Independent Variable |
Regression Coefficient |
Standard Error |
Standardized Regression Coefficient |
VIF |
t0 |
⅜lO25,ll |
Intercept |
-1.420,48 | |||||
6,4929 |
2,9190 |
0,188 |
3,4812x10-3 |
2,3329 |
2,201 | |
0,0459 |
0,0221 |
0,1755 |
2,3258x10-9 |
2,1777 |
2,201 | |
0,213 |
0,0958 |
0,1879 |
5,5987x10-17 |
2,3315 |
2,201 | |
9,1916 |
4,3544 |
0,1784 |
2,2988x10-7 |
2,2139 |
2,201 | |
453,3054 |
296,7532 |
0,1291 |
3,5448x10-14 |
1,6021 |
2,201 |
Tabel 4. Analisis Ragam (ANOVA) Generalized Ridge Regression
Source |
DF |
SS |
MS |
F0 |
^0.05,5,111 |
Regression |
5 |
69.657.543 |
13.931.509 |
4,3344 |
3,20 |
Residual Error |
11 |
35.355.826 |
3.214.166 | ||
Total |
16 |
494.712.541 |
Model regresi untuk metode Generalized Ridge Regression adalah Y = -1.420,48 + 6,4929¾ + 0.0459¾ + 0,213¾ + 9,1916¾ + 453,3054⅞ . Nilai koefisien determinasi (B2D dari model tersebut adalah 0,9913 dengan MSE sebesar 3.214.166. Metode Generalized Ridge Regression dapat mengatasi masalah multikolinearitas dengan baik, dapat dilihat pada tabel 3 dimana nilai VIF dari masing-masing peubah bebas lebih kecil dari 5 yang berarti peubah-peubah bebas yang terlibat dalam model sudah tidak terlibat masalah multikolinearitas.
Pengujian model secara simultan dengan menggunakan uji F menghasilkan nilai F0 yang lebih besar daripada ^"(0.05,5,11] (4,3344>3,20) sehingga mengakibatkan H0 ditolak, maka dapat disimpulkan bahwa peubah bebas *1 - ⅞ secara simultan mempunyai kontribusi yang signifikan pada model. Untuk mengetahui signifikan tidaknya pengaruh masing-masing peubah bebas secara individu terhadap peubah tak bebas maka dilakukan uji t. Nilai t0 dari masing-masing peubah bebas dapat dilihat pada tabel 3. Sesuai dengan kaidah keputusan, jika∣⅛∣ > fC.C25 11maka tolak /f Q, maka dari lima peubah bebas, terdapat dua peubah bebas yang tidak signifikan yaitu ¾ dan ⅞ .
Pada data yang mengalami masalah multikolinearitas, metode kuadrat terkecil (Ordinary Least Square) tidak dapat melakukan pendugaan koefisien regresi dengan tepat. Metode Generalized Ridge Regression merupakan salah satu metode alternatif yang dapat mengatasi masalah multikolinearitas dengan sangat baik, dibuktikan dari nilai VIF dari masing-masing peubah bebas yang lebih kecil dari 5.
Metode Generalized Ridge Regression pada penelitian ini menggunakan pendekatan iteratif yang diusulkan oleh Hoerl dan Kennard (1970a) untuk menentukan nilai K dan penduga koefisien regresinya. Pada penelitian selanjutnya pendugaan koefisien regresi dapat menggunakan pendekatan non-iteratif, yaitu
solusi eksplisit dari Generalized Ridge Regression yang diusulkan oleh Hemmerle (1975). Selain metode Generalized Ridge Regression yang mengatasi masalah multikolinearitas dengan lebih menekankan pada pengurangan ragam sampel, dapat pula dilakukan penelitian dengan menggunakan metode Jacknife Ridge Regression yang pertama kali diusulkan oleh Hinkley (1977) dimana metode ini mengatasi masalah multikolinearitas dengan lebih menekankan pada pengurangan bias pada penduga ridge.
Daftar Pustaka
-
[1] Draper, N.R and H. Smith. 1998. Applied Regression Analysis, Third
Edition. New York: John Wiley and Sons, Inc.
-
[2] Hoerl, A.E. and R.W. Kennard. 1970. “Ridge Regression: Biased
Estimation for Nonorthogonal Problems”. Technometrics, 12 (1970a), 5567. (Republished in Technometrics. 42 (2000), 80-86).
http://scholar.google.co.id/scholar_url?hl=id&q=http://citeseerx.ist.psu.edu/ viewdoc/download%3Fdoi%3D10.1.1.157.3796%26rep%3Drep1%26type %3Dpdf&sa=X&scisig=AAGBfm2FYmMwataOUaFGiDv2ODGgB6z69g &oi=scholarrOJS20110100005_36910681. Diakses tanggal 9 Desember 2011.
-
[3] Hoerl, A.E. and R.W. Kennard. 1970. “Ridge Regression: Applications to Nonorthogonal Problems”. Technometrics, Vol. 12, No. 1. (Feb., 1970b), pp. 69-82. http://statgen.ucr.edu/download/course/STAT288/hoerl70b.pdf. Diakses tanggal 14 Juni 2012.
-
[4] Montgomery, D.C. and E.A. Peck. 1991. Introduction to Linear Regression Analysis, Second Edition. New York: John Wiley and Sons, Inc.
59
Discussion and feedback