PENERAPAN BOOTSTRAP DALAM METODE MINIMUM COVARIANCE DETERMINANT (MCD) DAN LEAST MEDIAN OF SQUARES (LMS) PADA ANALISIS REGRESI LINIER BERGANDA
on
E-Jurnal Matematika Vol. 5 (1), Januari 2016, pp. 22-26
ISSN: 2303-1751
PENERAPAN BOOTSTRAP DALAM METODE MINIMUM COVARIANCE DETERMINANT (MCD) DAN LEAST MEDIAN OF SQUARES (LMS) PADA ANALISIS REGRESI LINIER BERGANDA
Ni Putu Iin Vinny Dayanti§1, Ni Luh Putu Suciptawati2, Made Susilawati3
1Jurusan Matematika Fakultas MIPA - Universitas Udayana [Email: vinnyiindayanti@gmail.com] 2Jurusan Matematika Fakultas MIPA - Universitas Udayana [Email: putusuciptawati@yahoo.co.id] 3Jurusan Matematika Fakultas MIPA - Universitas Udayana [Email: mdsusilawati@unud.ac.id] §Corresponding Author
ABSTRACT
Ordinary Least Squares (OLS) Method is a good method to estimate regression parameters when there is no violation in classical assumptions, such as the existence of outlier. Outliers can lead to biased parameters estimator, therefore we need a method that can may not affected by the existence of outlier such as Minimum Covariance Determinant (MCD) and Least Median of Squares (LMS). However, the application of this method is less accurate when it is used for small data. To overcome this problem, it was aplicated bootstrap method in MCD and LMS to determine the comparison of bias in parameters which were produced by both methods in dealing outlier in small data. The used bootstrap method in this study was the residual bootstrap that works by resampling the residuals. By using 95% and 99% confidence level and 5%, 10% and 15% outlier percentage, MCD-bootstrap and LMS-bootstrap give value of parameter estimators which were unbias for all percentage of outlier. We also found that the widht of range which produced by MCD-bootstrap method was shorter than LMS-bootstrap method produced. This indicates that MCD-bootstrap method was a better method than LMS-bootstrap method.
Keywords: outliers, bias, robust, Minimum Covariance Determinant, Least Median of Squares, bootstrap residual
Analisis regresi linier berganda merupakan analisis yang digunakan untuk menyelidiki hubungan linier antara dua atau lebih peubah prediktor terhadap peubah respon yang berskala minimal interval (Neter, et al [1]).
Metode kuadrat terkecil (MKT) merupakan metode penduga parameter regresi yang baik bila tidak terjadi pelanggaran asumsi klasik, seperti adanya pencilan. Pencilan merupakan data yang pengamatannya berada jauh dari sekelompok data amatan lainnya yang menyebabkan penduga parameter bersifat bias (Neter, et al [1]). Metode yang bisa mengatasi pencilan yaitu Minimum Covariance Determinant (MCD) dan Least Median of Squares (LMS). Namun penggunaan metode MCD dan LMS kurang tepat apabila berhadapan
dengan data berukuran kecil. Penelitian ini dilakukan dengan menerapkan bootstrap pada kedua metode (MCD-bootstrap) dan (LMS-bootstrap) untuk mengetahui perbandingan bias pada parameter yang dihasilkan dalam mengatasi pencilan pada data berukuran kecil.
Metode bootstrap yang digunakan adalah bootstrap residual yang bekerja dengan meresampling sisaannya (residual) (Efron & Tibshirani [2]).
Metode Minimum Covariance Determinant (MCD) memiliki prinsip kerja menggunakan vektor rataan dan matriks kovarians dengan membentuk subsampel H yang berukuran ℎ dari sampel berukuran n amatan yang matriks kovariansnya memiliki determinan terkecil (Hubert & Debruyne [3]). Nilai ℎ diperoleh dari: ℎ=⌊ 2 ⌋,ℎ≤n (1)
Selanjutnya dicari vektor rataan Vmcd dan matriks kovarians Smcd serta jarak mahalanobis kekar RD dengan menggunakan rumus (Hubert & Debruyne [3]):
Vmcd = ∑i∈H Xi (2)
^MCD = ∑i∈H[Xi - Vmcd][Xi - Vmcd]t (3)
RD =√(Xi - Vmcd )t⅛mcd (Xi - Vmcd ) (4)
Selanjutnya ditentukan Fast MCD (Rousseeuw [4]) yaitu terlebih dahulu dengan menentukan subsampel Hy yang berukuran ℎ kemudian dapat dihitung nilai Vmcd dan Smcd dengan misalkan sebagai Vi dan Sy serta menghitung determinan dari 1^l atau det ( 1^l). Jika det ( 1^l)≠0 maka dilanjutkan dengan menghitung nilai RD yang diurutkan dari terkecil hingga terbesar. Pada iterasi berikutnya yaitu H 2 akan diambil sebanyak ℎ pengamatan dengan jarak RD terkecil. Demikian seterusnya hingga mencapai konvergen det (Si+ι)=det ( 1^l). Kemudian pilih himpunan H yang memiliki determinan Smcd terkecil serta menghitung nilai Vmcd dan Smcd . Maka selanjutnya data dapat diboboti dengan
w 1, jika ( xi - ^MCD)tSmcd (Xt - ^MCD)≤ Xp ;
-
l ={0, lainnya
Sehingga dapat dibentuk matriks
|
W11 |
W12 ■ |
.. Wln | |
|
= |
W2I |
W22 |
• w2n ⋮⋮ |
|
Wnl |
Wn2 • |
Wnn |
Dan diperoleh penduga MCD
̂ MCD=(XtWmcdX)^1(XtWmcdY) (5)
Least Median of Squares (LMS) merupakan metode yang bekerja dengan meminimalkan median (nilai tengah) dari kuadrat residual ( ei ) (Rousseeuw [5] yaitu:
Mj = min{median e^} (6)
dilakukan pada urutan nilai residual kuadrat.
Langkah awal metode LMS adalah menentukan kuadrat nilai error dari MKT sehingga diperoleh nilai My . Selanjutnya dihitung nilai ℎ ι dengan rumus:
(8)
(9)
(10)
ℎi=⌈ 2 ⌉ (7)
Kemudian pada iterasi ke-2 (M2 ) diambil pengamatan sejumlah ℎ 1 dari My dengan jarak nilai ( ei ) yang minimum. Demikian seterusnya sampai iterasi berakhir pada iterasi ke-i yaitu saat ℎi =ℎi+ι Selanjutnya dapat dihitung bobot wU dengan rumus:
-
1, jika | ei/ ̂|≤a
Wii ={0, lainnya
dengan
̂ = 1,4826 [1+n-p]√Mj maka dapat dibentuk matriks :
dengan entri matriks Wij =0, dengan i≠j. Penduga parameter regresi LMS dapat dihitung dengan menggunakan rumus:
Langkah-langkah bootstrap residual (Efron &Tibshirani [2]) adalah menentukan nilai ̂ yang dihasilkan oleh model analisis regresi, selanjutnya dapat diperoleh nilai residual yaitu, e= - ̂. Selanjutnya mengambil sampel
bootstrap berukuran n dari eι , e2 , 63,… en secara acak dengan pengembalian, sehingga diperoleh sampel bootstrap pertama e∗= (e ∗, e∗,… e∗). Kemudian hitung nilai bootstrap untuk Y ∗ dengan cara:
X̂+e∗=Y∗ (12)
Lebih lanjut lagi dihitung koefisien regresi untuk sampel bootstrap Y∗ sehingga diperoleh ∗. Iterasi terus dilakukan sampai pada batas replikasi yang diinginkan.
Penelitian ini menggunakan data simulasi melalui pembangkitan data berdistribusi normal dengan bantuan software R i386 3.1.3. Data ini terdiri dari sisaan dan dua peubah prediktor yang akan digunakan untuk menentukan peubah responnya. Persentase pencilan yang diberikan
sebesar 5%, 10% dan 15%. Serta dengan
menggunakan alpha (α) sebesar 0,05.
Langkah pembangkitkan data yaitu dengan membangkitkan nilai sisaan (e) berdistribusi N (0,1). Kemudian membangkitkan peubah X1 ~N(50,3) dan X2~N(80,5) sebanyak 40 amatan, dengan memisalkan β0 = 2, dan β1 = β2 = 1, akan diperoleh nilai Y dengan membentuk persamaan
Y = βo + β1x1 + β2 X2 + £.
Pencilan yang dibangkitkan pada data sisaan dengan μ = 5 dan σ = 0,1 pada tiap persentase pencilan. Selanjutnya menghitung nilai Y yang sudah terkontaminasi pencilan. Kemudian dilakukan uji kenormalan, pendeteksian multikolinearitas, pemeriksaan pencilan dan dilanjutkan menganalisis dengan MKT.
Langkah berikutnya menganalisis dengan metode MCD-Bootstrap yaitu menduga nilai βo ,β1 dan β2 dari matriks kovarian robust yang telah diperoleh dari penduga MCD. Resampling sisaan dengan bootstrap residual sebanyak 500 dan 1.000 kali dilakukan dengan menggunakan selang kepercayaan 95% dan 99%. Selanjutnya menganalisis dengan metode LMS-Bootstrap. Resampling sisaan yang diperoleh dari metode LMS dengan bootstrap residual sebanyak 500 dan 1.000 kali dan dilakukan dengan menggunakan selang kepercayaan 95% dan 99%. Kemudian membandingkan hasil yang diperoleh dengan MCD-bootstrap dan LMS-bootstrap.
Berdasarkan hasil pengujian asumsi kenormalan dapat dilihat pada tabel 1 berikut:
Tabel 1. Uji Kenormalan Data
|
Persentase pencilan |
p-value |
Keterangan |
|
Data awal (tanpa pencilan) |
0,780 |
Normal |
|
5% |
0,03635 |
Tidak normal |
|
10% |
<0,005 |
Tidak normal |
|
15% |
<0,005 |
Tidak normal |
Hasil uji kenormalan pada Tabel 1, data dengan pencilan sebesar 5%, 10% serta 15%
memiliki nilai p-value < α, hal ini menunjukkan data dengan pencilan memiliki sebaran data yang tidak normal.
Untuk melihat masalah multikolinearitas maka dilakukan dengan melihat nilai korelasi yang dihasilkan antara peubah prediktor.
Tabel 2. Korelasi Antarvariabel
|
Variabel |
Y | |
|
0,309 | ||
|
0,052 | ||
|
^2 |
0,873 |
— 0,161 |
|
0,000 |
0.321 |
Dari Tabel 2 dapat dilihat bahwa nilai korelasi yang dihasilkan pada dan sebesar -0,161 yang menunjukkan peubah X1 dan X2 memiliki hubungan yang berlawanan arah namun tidak terjadi masalah multikolinearitas.
Pemeriksaan pencilan dilakukan dengan menggunakan Robust Distance (RD) lalu membandingkannya dengan nilai chi-square. Dalam pemeriksaan menggunakan RD diperoleh hasil seperti pada Tabel 3:
Tabel 3. Pemeriksaan Pencilan dengan Robust
Distance (RD)
|
Data |
Persentase pencilan |
Data pengamatan ke- |
Banyak pencilan | |
|
outlier orthogonal |
bad leverage | |||
|
40 |
5% |
1, 2, 3, 4, 5, 6 |
31 |
7 |
|
10% |
1, 2, 4, 7, 18, 23, 25 |
3, 31 |
9 | |
|
15% |
3, 7, 18, 23 |
1, 2, 31 |
7 | |
Tabel 3 menunjukkan hasil pemeriksaan pencilan yaitu dengan persentase pencilan 5% terdeteksi 7 pengamatan sebagai pencilan dan 9 pengamatan yang merupakan pencilan pada persentase 10% dan pada peresentase 15% terdeteksi 7 pengamatan sebagai pencilan. Pencilan yang terdeteksi merupakan jenis outlier orthogonal maupun bad leverage.
Analisis data dengan MKT akan menggunakan selang kepercayaan 95% dan 99%.
Tabel 4. Penduga Parameter dengan MKT
|
Jumlah Pencilan |
Parameter |
Estimasi |
Selang Kepercayaan 95% |
Selang Kepercayaan 99% | ||
|
Selang Kepercayaan |
Ket |
Selang Kepercayaan |
Ket | |||
|
Data tanpa pencilan |
0.9752 |
0.8514-1.0991 |
Tidak bias |
0.8092-1.1412 |
Tidak bias | |
|
h |
1.0608 |
0.9952-1.1265 |
Tidak bias |
0.9729-1.1488 |
Tidak bias | |
|
5% |
h |
1.3865 |
0.9669-1.1462 |
Bias |
0.9059-1.3255 |
Bias |
|
h |
1.0591 |
0.9641-1.1541 |
Tidak bias |
0.9317-1.1864 |
Tidak bias | |
|
10% |
h |
1.4079 |
0.9021-1.1182 |
Bias |
0.8286-1.3344 |
Bias |
|
h |
1.1412 |
0.8732-0.9877 |
Bias |
0.8343-1.0229 |
Bias | |
|
15% |
A |
1.4283 |
0.8549-1.0999 |
Bias |
0.7715-1.3449 |
Bias |
|
h |
1.1854 |
0.8816-1.0114 |
Bias |
0.8375-1.1413 |
Bias | |
Karena nilai penduga penduga parameter βl dan β2 yang dihasilkan oleh MKT bersifat tidak bias hanya saat pencilan 5% untuk β2 , hal ini berarti MKT mengalami bias saat adanya pencilan. Maka akan dilanjutkan dengan menganalisis dengan metode Minimum Covariance Determinant (MCD)-Bootstrap dan Least Median of Squares (LMS)-Bootstrap.
-
E. Analisis Data dengan Metode Minimum Covariance Determinant (MCD)-Bootstrap
Berdasarkan hasil analisis dengan metode MCD-bootstrap dengan resampling 500 dan 1000 kali dapat dilihat pada Tabel 5 dan 6 adalah berikut:
Tabel 5. Pendugaan parameter dengan metode MCD-bootstrap dengan B=500 kali resampling
|
Jumlah Pencilan |
Parameter |
Estimasi |
Selang Kepercayaan 95% |
Estimasi |
Selang Kepercayaan 99% | ||
|
Selang Kepercayaan |
Ket |
Selang Kepercayaan |
Ket | ||||
|
5% |
A |
1.0929 |
0.9871-1.1938 |
Tidak bias |
1.0908 |
0.9592-1.2217 |
Tidak bias |
|
½ |
0.9676 |
0.9031-1.0368 |
Tidak bias |
0.9693 |
0.8841-1.0558 |
Tidak bias | |
|
10% |
1.1929 |
1.0706-1.3156 |
Tidak bias |
1.1958 |
1.0243-1.3620 |
Tidak bias | |
|
ft |
0.9065 |
0.8275-0.9874 |
Tidak bias |
0.905 |
0.7970-1.0179 |
Tidak bias | |
|
15% |
1.1406 |
1.0014-1.2722 |
Tidak bias |
1.1366 |
0.9587-1.3149 |
Tidak bias | |
|
ft |
0.9436 |
0.8593-1.0355 |
Tidak bias |
0.9466 |
0.8325-1.0623 |
Tidak bias | |
Tabel 6. Pendugaan parameter dengan metode MCD-bootstrap dengan B=1000 kali resampling
|
Jumlah Pencilan |
Parameter |
Estimasi |
Selang Kepercayaan 95% |
Estimasi |
Selang Kepercayaan 99% | ||
|
Selang Kepercayaan |
Ket |
Selang Kepercayaan |
Ket | ||||
|
5% |
ft |
1.0897 |
0.9879-1.1930 |
Tidak bias |
1.091 |
0.9582-1.2227 |
Tidak bias |
|
ft. |
0.9698 |
0.9031-1.0369 |
Tidak bias |
0.9689 |
0.8840-1.0559 |
Tidak bias | |
|
10% |
ft |
1.1919 |
1.0723-1.3139 |
Tidak bias |
1.1937 |
1.0392-1.3471 |
Tidak bias |
|
0.9074 |
0.8287-0.9862 |
Tidak bias |
0.9063 |
0.8070-1.0079 |
Tidak bias | ||
|
15% |
ft |
1.1354 |
1.0050-1.2686 |
Tidak bias |
1.1396 |
0.9574-1.3162 |
Tidak bias |
|
ft |
0.9471 |
0.8618-1.0330 |
Tidak bias |
0.9443 |
0.8307-1.0541 |
Tidak bias | |
MCD-bootstrap bersifat tidak bias dengan resampling 500 maupun 1000 kali. Hal ini berarti bahwa penduga parameter βl dan β2 yang dihasilkan oleh metode bootstrap residual berada di dalam selang kepercayaan 95% dan 99%.
Berdasarkan hasil analisis dengan metode LMS-bootstrap dengan resampling 500 dan 1000 kali dapat dilihat pada Tabel 7 dan 8 adalah berikut:
Tabel 7. Pendugaan parameter dengan metode Least Median of Squares (LMS)-Bootstrap dengan 500 kali resampling
|
Jumlah Pencilan |
Parameter |
Estimasi |
Selang Kepercayaan 95% |
Estimasi |
Selang Kepercayaan 99% | ||
|
Selang Kepercayaan |
Ket |
Selang Kepercayaan |
Ket | ||||
|
5% |
⅛ |
0.9122 |
0.8474-1.0577 |
Tidak bias |
0.9079 |
0.8078-1.0973 |
Tidak bias |
|
ft |
1.0854 |
1.0397-1.1764 |
Tidak bias |
1.088 |
1.0142-1.2019 |
Tidak bias | |
|
10% |
ft |
0.908 |
0.8355-1.0868 |
Tidak bias |
0.9086 |
0.7926-1.1297 |
Tidak bias |
|
1.0924 |
1.0350-1.1979 |
Tidak bias |
1.0915 |
1.0072-1.2257 |
Tidak bias | ||
|
15% |
ft |
0.9264 |
0.6754-0.9689 |
Tidak bias |
0.9334 |
0.6353-1.0090 |
Tidak bias |
|
1.0827 |
0.9379-1.1294 |
Tidak bias |
1.0781 |
0.9127-1.1546 |
Tidak bias | ||
Tabel 8. Pendugaan parameter dengan metode Least Median of Squares (LMS)-Bootstrap dengan 1000 kali resampling
|
Jumlah Pencilan |
Parameter |
Estimasi |
Selang Kepercayaan 95% |
Estimasi |
Selang Kepercayaan 99% | ||
|
Selang Kepercayaan |
Ket |
Selang Kepercayaan |
Ket | ||||
|
5% |
ft |
0.9102 |
0.8456-1.0595 |
Tidak bias |
0.9062 |
0.8174-1.0877 |
Tidak bias |
|
ft |
1.0866 |
1.0386-1.1775 |
Tidak bias |
1.0891 |
1.0201-1.1960 |
Tidak bias | |
|
10% |
ft1 |
0.9073 |
0.8282-1.0941 |
Tidak bias |
0.9132 |
0.7947-1.1276 |
Tidak bias |
|
1.0927 |
1.0302-1.2027 |
Tidak bias |
1.0889 |
1.0086-1.2243 |
Tidak bias | ||
|
15% |
ft |
0.9314 |
0.6832-0.9611 |
Tidak bias |
0.9316 |
0.6341-1.0102 |
Tidak bias |
|
ft |
1.0796 |
0.9436-1.1237 |
Tidak bias |
1.0792 |
0.9122-1.1551 |
Tidak bias | |
Dari Tabel 7 dan 8 diperoleh bahwa dengan menganalisis menggunakan metode LMS-bootstrap, selang kepercayaan 95% dan 99% dapat mencakup nilai parameternya. Hal ini berarti hasil yang diperoleh dengan metode LMS-bootstrap, nilai penduga parameter βl dan β2 bersifat tidak bias.
Dari Tabel 5 dan 6 diperoleh bahwa penduga parameter yang dihasilkan oleh metode
-
G. Perbandingan hasil MCD-Bootstrap dan
LMS-Bootstrap
Perbandingan hasil analisis dengan metode MCD-bootstrap dan LMS-bootstrap dapat dilihat pada Tabel 9 dan 10 adalah berikut:
Tabel 9. Lebar selang pada selang kepercayaan 95% untuk βγ dan β2 pada metode MCD-bootstrap dan LMS-bootstrap
|
Parameter |
Persentase Pencilan |
Metode | |||
|
MCD-bootstrap |
LMS-bootstrap | ||||
|
B=500 |
B=1000 |
B=500 |
B= 1000 | ||
|
ft |
5% |
0.2067 |
0.205 |
0.2102 |
0.2138 |
|
10% |
0.2449 |
0.2415 |
0.2512 |
0.2658 | |
|
15% |
0.2707 |
0.2635 |
0.2935 |
0.2778 | |
|
ft |
5% |
0.1337 |
0.1338 |
0.1367 |
0.1389 |
|
10% |
0.1598 |
0.1574 |
0.1629 |
0.1725 | |
|
15% |
0.1762 |
0.1712 |
0.1914 |
0.18 | |
Tabel 10. Lebar selang pada selang kepercayaan 99% untuk βγ dan β2 pada metode MCD-bootstrap dan LMS-bootstrap
|
Parameter |
Persentase Pencilan |
Metode | |||
|
MCD-bootstrap |
LMS-bootstrap | ||||
|
B=500 |
B=1000 |
B=500 |
B= 1000 | ||
|
ft |
5% |
0.2625 |
0.2644 |
0.2895 |
0.2703 |
|
10% |
0.3376 |
0.3078 |
0.3371 |
0.3329 | |
|
15% |
0.3562 |
0.3588 |
0.3737 |
0.3761 | |
|
ft |
5% |
0.1716 |
0.1718 |
0.1877 |
0.1759 |
|
10% |
0.2208 |
0.2008 |
0.2185 |
0.2157 | |
|
15% |
0.2297 |
0.2333 |
0.2419 |
0.2428 | |
DAFTAR PUSTAKA
-
[1] Neter, J., Wasserman, W., & Kutner, M. 1997. Model Linier Terapan Buku II: Analisis Regresi Linier Sederhana. (Terjemahan Bambang Sumantri).
Bandung: Jurusan FMIPA-IPB.
-
[2] Efron, B., & Tibshirani, R.J. 1993. An Introduction to the Bootstrap. New York London: Chapman & Hall.
-
[3] Hubert, M., & Debruyne, M. 2009.
Minimum Covariance Determinant. WIREs Computational Statistics 2010, pp 36-43.
-
[4] Rousseeuw, P.J. 1999. Fast Algorithm for
the Minimum Covariance Determinant Estimator. Technometrics, august 1999. Vol. 41, No. 3 American Statistical Association and the American Society for Quality, pp.212-223.
-
[5] _____________,1984. Least Median of
Squares Regression. Journal of the American Statistical Association, pp. 871880.
Dari Tabel 9 dan 10 menunjukkan bahwa dengan selang kepercayaan 95% dan 99%, metode MCD-bootstrap menghasilkan nilai lebar selang yang lebih kecil dibandingkan metode LMS-bootstrap untuk semua persentase pencilan pada βx dan β2 .
Metode MCD-bootstrap maupun LMS-bootstrap merupakan metode yang baik dalam menduga nilai parameter saat data mengandung pencilan. Pada selang kepercayaan 95% dan 99%, metode MCD-bootstrap dan LMS-bootstrap menghasilkan nilai penduga parameter yang bersifat tidak bias untuk seluruh persentase pencilan. Karena lebar selang kepercayaan yang dihasilkan metode MCD-bootstrap lebih pendek dibanding metode LMS-bootstrap, maka dapat dikatakan metode MCD-bootstrap lebih akurat.
26
Discussion and feedback