ESTIMATOR KERNEL DALAM MODEL REGRESI NONPARAMETRIK
on
Jurnal Matematika Vol. 2 No. 1, Juni 2012. ISSN : 1693-1394
ESTIMATOR KERNEL DALAM MODEL
REGRESI NONPARAMETRIK
I Komang Gede Sukarsa e-mail: [email protected]
I Gusti Ayu Made Srinadi e-mail: [email protected]
Jurusan Matematika FMIPA, Universitas Udayana Kampus Bukit Jimbaran, Badung, Bali
Abstract: Analisis regresi nonparametrik merupakan metode pendugaan kurva regresi yang digunakan jika tidak ada informasi sebelumnya te,ntang benttrk kurva regresi atau tidak terikat pada asumsi bentuk fungsi tertentu. Estimasi fungsi regresi nonparametrik dilakukan berdasarkan daA pengamatan dengan menggunakan teknik pemulusan (smoothing). Penelitian ini bertujuan untuk memperlihatkan pendekatan estimator kernel dalam regresi nonparametik padadata sekunder, yaitu data motorcycle. Hasil penelitian ini menunjukkan batrwa penggunaan fungsi kernel yang berbda yaitu fungsi kernel Triangle dan kernel Gaussian dengan bandwidth optimal menghasilkan estimasi kurva regresi yang hanrpir saura, sehingga dapat dituojukkan bahwa pemilihan bandwidth lebih penting dibandingkan dengan pernilihan fungsi kernel.
Keywords: Regresi Nonparametrik Estimator Kernel, Bandwidth.
-
1. Pendahuluan
Analisis regresi merupakan metode analisis data yang menggambarkan hubungan antara variabel respon dengan satu atau beberapa variabel prediktor [5]. Misalkan X adalah variabel prediktor dan Y adalah vaiabel respon untuk n pengamatan berpasangan {(Xi,yi)}"=1, maka hubungan linear antara variabel prediktor dan variabel respon tersebut dapat dinyatakan sebagai berikut:
yi = m (Xi) + εi, i = 1, 2, ••• ,n (1)
dengan εi adalah sisaan yang diasumsikan independen dingan mean nol dan variansi σ2, serta m(Xi) adalah fungsi regresi atau kurva regresi [2].
Pendekatan yang digunakan untuk mengestimasi fungsi regresi ada dua jenis, yaitu pendekatan parametrik dan nonparametrik. Dalam pendekatan parametrik, bentuk hubungan antara variabel respon dengan variabel prediktor diketahui atau diperkirakan dari bentuk kurva regresi, misalnya diasumsikan membentuk pola linear, kuadratik, eksponensial, dan polinomial. Dalam regresi parametrik yaitu dalam model regresi linear, harus memenuhi asumsi yang ketat yaitu sisaan berdistribusi normal dan memiliki variansi yang konstan. Untuk mengatasi penyimpangan asumsi dalam model regresi linear dapat dilakukan transformasi terhadap data sehingga diperoleh model regresi yang sesuai bagi data yang telah ditransformasi. Transformasi dipilih melalui teknik trial 19
dan error sehingga penggunaan transformasi yang tepat akan membawa pada metode pendugaan yang relatif mudah, tetapi kesalahan penggunaan transformasi bisa juga membawa pada metode pendugaan dengan model yang lebih rumit [7]. Pendekatan kedua yaitu pendekatan nonparametik. Estimasi fungsi regresi nonparametrik dilakukan berdasarkan data pengamatan dengan menggunakan teknik (smoothing) [2]. Terdapat beberapa teknik smoothing dalam model regresi nonparametrik antara lain histogram, estimator kernel, deret orthogonal, estimator spline, k-NN, deret fourier, dan wavelet.
Ada beberapa jenis fungsi kernel, antara lain kemel uniform, Triangle, Epanechnikov, Gaussian, kuartik dan cosinus [3]. Dalam regresi kemel pemilihan parameter pemulus (bandwidth ) jauh lebih penting dibandingkan dengan memilih fungsi kernel. Sehingga yang menjadi masalah dalam regresi kernel adalah pemilihan bandwidth, bukan pada pemilihan fungsi kernel. Fungsi kernel yang umum digunakan adalah kernel Gaussian dan kernel Epanechnicov [4]. Kernel Triangle sering digunakan karena lebih mudah dan cepat dalam perhitungan [6].
Tujuan yang ingin dicapai dalam penelitian ini adalah untuk mengestimasi model regresi nonparametrik menggunakan estimator kernel Triangle dan kernel Gaussian.
-
2. Tinjauan Teori
-
2.1. Regresi Nonparametrik
-
Dalun regresi nonparametrik bentuk kurva regresi tidak diketahui, data diharapkan mencari sendiri bentuk estimasinya sehingga memiliki fleksibelitas yang tinggi. Kurva regresi hanya diasumsikan termuat dalam suatu ruang fungsi yang berdimensi tak hingga dan merupakan fungsi mulus (smooth). Estimasi frrngsi z(xi) dilakukan berdasarkan data pengamatan dengan menggunakan teknik smoothing tertentu. Ada beberapa teknik smoothing yang dapat digurnakan anttra lain estimator histogram, kernel, deret orthogonal, spline, k-NN, deret fourier, dan wavelet [2].
-
2.2. Estimator Densitas Kernel
Estimator kernel merupakan pengembangan dari estimator histogram. Estimator kernel diperkenalkan oleh Rosenblatt (1956) dan Parzen (1962) sehingga disebut estimator densitas kernel Rosenblatt-Parzen [3].
Secara umum kernel K dengan bandwidth h [8] didefinisikan sebagai:
serta memenuhi:
Kh(x)=h1K xh
untuk - ∞ < x < ∞, h > 0
(2)
(i) K (x) ≥ 0, untuk semua x
∞
∞
K (x)dx = 1
∞
∞
x2K(x)dx = σ2 > 0
∞
∞
xK (x)dx = 0
maka estimator densitas kernel untuk fungsi densitas f (x) adalah:
fh = n Σ Kh(x i)) = nh Σ K ( h i) (3)
i=1 i=1
dari persamaan (3) terlihat bahwa fh (x) tergantung pada fungsi kernel K dan parameter h. Bentuk bobot kernel ditentukan oleh fungsi kernel K , sedangkan ukuran bobotnya ditentukan oleh parameter pemulus h yang disebut bandwidth. Peran bandwidth seperti lebar interval pada histogram.
Beberapa jenis fungsi kernel [3] antara lain:
Kernel Uniform : K(x) = 2 I (|x| ≤ 1)
Kernel Triangle : K(x) = (1 - |x|)I(|x| ≤ 1)
1.
2.
3.
4.
-
5.
-
6.
-
7.
Kernel Epanechnikov : K(x) = 34 (1 - x2)I (|x| ≤ 1)
Kernel Kuartik : K(x) = 1156 (1 - x2)2I(|x| ≤ 1)
Kernel Triweight : K(x) = 3352 (1 - x2)3I(|x| ≤ 1)
Kernel Cosinus : K(x) = ∏ cos (∏x) I(∣x∣ ≤ 1)
Kernel Gaussian : K(x) = √12π 12 (-x2) - ∞ < x < ∞
dengan I adalah indikator
-
2.3. Regresi Kernel
Regresi kernel adalah teknik statistika nonparametrik untuk mengestimasi fungsi regresi m(x) pada model regresi nonparametrik y1 = m(xi) + εi . Nadaraya dan Watson pada tahun 1964 mendefinisikan estimator regresi kernel sehingga disebut estimator Nadaraya-Watson [3]
dengan
mˆ (x)
mˆ (x)
whi(x) =
1n
Kh(x - xi)yi n i=1 =n
Kh(x-xi) n i=1
n
= whi (x)yi
i=1
h K (x-i) K
(4)
(5)
h ∑K(^ ∑
i=1 i=1
-
2.4. Pemilihan Bandwidth Optimal
Bandwidth (h) adalah parameter pemulus (smoothing) yang berfungsi untuk mengontrol kemulusan dari kurva yang diestimasi. Bandwidth yang terlalu kecil akan menghasilkan kurva yang under-smoothing yaitu sangat kasar dan sangat fluktuatif, dan sebaliknya bandwidth yang terlalu lebar akan menghasilkan kurva yang over-smoothing yaitu sangat mulus, tetapi tidak sesuai dengan pola data (Hardle, 1994). Oleh karena itu perlu dipilih bandwidth yang optimal. Salah satu metode untuk mendapatkan h optimal adalah dengan menggunakan kriteria Generalized Cross Validation (GCV), yang didefinisikan sebagai berikut:
GCV =
MSE
(ntr(I - H(h)))2
(6)
n
dengan MSE = n
^ (y — m h (xi ))2. kebaikan suatu estimator dapat dilihat dari tingkat
i=1
kesalahannya. Semakin kecil tingkat kesalahannya semakin baik estimasinya. Menurut
[1], kriteria untuk menentukan estimator terbaik dalam model regresi nonparametrik, antara lain:
-
1. Mean Square Error (MSE)
nn
MSE=1 ∑ e 2 = 1 ∑( y — yi )2 nn
i=1 i=1
-
2. Root Mean Square Error (RMSE)
RMSE = √MSE
-
3. Mean Absolute Deviation (MAD)
n
∑ Ietl ∑ lyi- yi\
MAD = =- = =----
nn
-
3. Metode Penelitian
-
3.1. Sumber Data
-
Data yang digunakan dalam penelitian ini adalah data sekunder yang diambil dari buku Applied Nonparametric Regression. Data ini merupakan hasil penelitian yang dilakukan oleh Schmidt, Mattern, dan Schuler pada tahun 1981 yaitu data simulasi tabrakan sepeda motor pada suatu Post Mortem Human Test Object (PTMO) [3].
-
3.2. Identifikasi Variabel
Identifikasi variabel dalam penelitian ini adalah variabel prediktor (X) yaitu waktu (dalam milidetik) setelah simulasi tabrakan dan variabel respon (Y ) yaitu percepatan (dalam g, 1 g = 9, 81m/s2) setelah tabrakan yang disimulasikan.
-
3.3. Metode Analisis Data
Dalam penelitian ini model regresi nonparametrik diestimasi menggunakan estimator kernel, dengan fungsi kernel Triangle dan kernel Gaussian, dengan macro program menggunakan software S-plus. Adapun langkah-langkah yang dilakukan adalatt sebagai berikut:
-
1. Mengestimasi kurva regresi nonparametrik dengan estimator kernel Triangle.
-
2. Mengestimasi kurva regresi nonparametrik dengan estimator kernel Gaussian.
-
3. Membandingkan hasil estimasi antara estimator kernel Triangle dan kernel Gaussian menggunakan bandwidth yang optimal pada data sekunder, dengan membandingkan plot estimasi kurva regresi bersama-sama dengan plot data serta melihat nilai MSE, RMSE, dan MAD.
-
4. Hasil dan Pembahasan
Gambaran umum data yang diolah menggunakan software S-Plus secara rinci dapat dilihat pada Tabel l.
Tabel 1. Statistika Deskriptif dan Motorcycle
Variabel |
N |
Min |
Maks |
Mean |
Q 2 |
Standar deviasi |
Waktu (x) |
133 |
2,4 |
57,6 |
25,18 |
23,4 |
13,132 |
Percepatan |
133 |
—134,0 |
25,0 |
—25,55 |
—13, 3 |
48,322 |
Banyak data pengamatan adalah 133, dengan waktu minimum sebesar 2,4 milidetik waktu maksimum sebesar 57,6 milidetik dan percepatan minimum sebesar —134, 0 g, percepatan maksimum 25,0 g. Rata-rata waktu sebesar 25,18 milidetik, dan percepatan sebesar —25, 55 g, dengan nilai tengah (median) waktu sebesar 23,4 milidetik dan percepatan sebesar —13, 3 g, serta standar deviasi waktu sebesar 13,132 milidetik dan percepatan 48,332 g.
Bentuk hubungan antara variabel prediktor (waktu) dengan variabel respon (percepatan) dilihat dari plot antara kedua variabel tersebut (Gambar 1).
Motorcyde
10 20 30 40 50
Watau (OTfcMfc)
Gambar 1. Diagram Pencar Data Motorcycle
Gambar 1 menunjukkan bentuk kurva yang menggambarkan hubungan antara waktu (milidetik) dengan percepatan (g), yang sangat sulit diestimasi bila digunakan pendekatan regresi parametrik, karena kurva tidak membentuk pola linear, kuadratik, eksponensial, atau kubik. Kurva regresi akan diestimasi menggunakan pendekatan regresi nonparametrik dengan estimator kernel.
-
4.1. Estimasi Data Motorcycle dengan Estimator Kernel
Langkah-langkah yang dilakukan dalam mengestimasi kurva regresi nonparametrik menggunakan estimator kernel adalah menentukan fungsi bobot atau fungsi kernel dan ukuran bobot yaitu nilai bandwidth (h) yang optimal. Sebelum menentukan nilai bandwidth (A), terlebih dahulu dipilih fungsi kernel yang akan digunakan. Dalam penelitian ini digunakan fungsi kernel Triangle dan kernel Gaussian.
-
4.2. Estimasi Data Motorcycle dengan Estimator Kernel Triangle
Pemilihan bandwidth (h) merupakan langkah terpenting dalam kernel smoothing, apabila nilai h yang dipilih terlalu kecil akan diperoleh kurva regresi yang sangat kasar (under-smoothing), sebaliknya apabila nilai h terlalu besar akan menghasilkan kurva yang sangat mulus (over-smoothing).
Gambar 2. Plot Estimasi Kernel Triangle dengan Bandwidth = 0,1
Nilai bandwidth yang terlalu kecil, misalkan h = 0, 1 menghasilkan kurva regresi yang sangat kasar, seperti terlihat pada Gambar 2, sedangkan nilai bandwidth yang terlalu besar, misalkan h = 10 menghasilkan kurva regresi yang sangat mulus dan tidak sesuai dengan pola data, seperti terlihat pada Gambar 3.
Gambar 3. Plot Estimasi Kernel Triangle dengan Bandwidth = 10
Untuk memperoleh estimasi kurva regresi yang optimal, yaitu kurva yang mulus dan sesuai dengan pola data, perlu dipilih nilai bandwidth (h) yang optimal. Nilai bandwidth (h) berdasarkan kriteria GCV minimum dengan macro program software S-Plus pada selang kenaikan nilai h yang cukup kecil, misallran diambil kenaikan nilai h sebesar 0,005 sehingga diperoleh nilai bandwidth (h) dan GCV yang ditunjukkan pada Tabel 2.
Tabel 2. Nilai Bandwidth dan GCV dengan Kernel Triangle
Bandwidth |
GCV |
Bandwidth |
GCV |
2,295 |
655,6136 |
2,375 |
655,4753 |
2,300 |
655,5928 |
2,380 |
655,4785 |
2,305 |
655,5738 |
2,385 |
655,4830 |
2,310 |
655,5565 |
2,390 |
655,4886 |
2,315 |
655,5411 |
2,395 |
655,4953 |
2,320 |
655,5273 |
2,400 |
655,5031 |
2,325 |
655,5152 |
2,405 |
655,5222 |
2,330 |
655,5047 |
2,410 |
655,5428 |
2,335 |
655,4957 |
2,415 |
655,5649 |
2,340 |
655,4883 |
2,420 |
655,5883 |
2,345 |
655,4823 |
2,425 |
655,6131 |
2,350 |
655,4778 |
2,430 |
655,6392 |
2,355 |
655,4746 |
2,435 |
655,6666 |
2,360 |
655,4729 |
2,440 |
655,6952 |
2,365 |
655,4724 |
2,445 |
655,7250 |
2,370 |
655,4732 |
2,450 |
655,7560 |
Tabel 2 memperlihatkan GCV minimum bernilai 655,4724 yaitu pada nilat bandwidth (h) sebesar 2,365, maka nilai bandwidth (h) optimal untuk fungsi kernel Triangle adalah 2,365.
Setelah diperoleh nilai bandwidth yang optimal berdasarkan kriteria GCV minimum, kemudian dilakukan estimasi model regresi nonparametrik dengan estimator kernel Triangle pada bandwidth yang optimal, yaitu menghitung nilai mˆ (x) dengan macro progam software S-plus, sehingga diperoleh nilai dugaan mˆ (x) untuk kernel Triangle dan estimasi kurva regresi yang ditunjukkan pada Gambar 4.
Gambar 4. Plot Estimasi Kernel Triangle dengan Bandwidth Optimal = 2,365
-
4.3. Estimasi Data Motorcycle dengan Estimator Kernel Geussian
Nilat bandwidth yang terlalu kecil, misalkan h = 0, 1 menghasilkan kurva regresi yang sangat kasar, seperti terlihat pada Gambar 5. Sebaliknya nilai bandwidth yang terlalu besar, misalkan h = 10 menghasilkan kurva regresi yang sangat mulus dan tidak sesuai dengan pola data seperti yang ditunjukkan pada Gambar 6.
Gambar 5. Plot Estimasi Kernel Gaussian dengan Bandwidth = 0,1
Gambar 6. Plot Estimasi Kernel Gaussian dengan Bandwidth = 10
Nilai bandwidth (h) berdasarkan kriteria GCV minimum dengan macro program software SPlus, untuk memperoleh nilai bandwidth (h) yang lebih akurat, selang kenaikan nilai h dibuat kecil, misalkan sebesar 0,005, sehingga diperoleh nrlar bandwidth (h) dan GCV seperti pada Tabel 3.
Tabel 3. Nilai Bandwidth dan GCV dengan Kernel Gaussian
Bandwidth |
GCV |
Bandwidth |
GCV |
1,040 |
650,1474 |
1,125 |
649,9816 |
1,045 |
650,0821 |
1,130 |
650,0300 |
1,050 |
650,0241 |
1,135 |
650,0843 |
1,055 |
649,9736 |
1,140 |
650,1446 |
1,060 |
649,9302 |
1,145 |
650,2107 |
1,065 |
649,8940 |
1,150 |
650,2826 |
1,070 |
649,8648 |
1,155 |
650,3603 |
1,075 |
649,8425 |
1,160 |
650,4436 |
1,080 |
649,8271 |
1,165 |
650,5326 |
1,085 |
649,8184 |
1,170 |
650,6271 |
1,090 |
649,8163 |
1,175 |
650,7271 |
1,095 |
649,8208 |
1,180 |
650,8326 |
1,100 |
649,8319 |
1,185 |
650,9435 |
1,105 |
649,8493 |
1,190 |
651,0598 |
1,110 |
649,8730 |
1,192 |
651,1814 |
1,115 |
649,9031 |
1,200 |
651,3083 |
1,120 |
649,9393 |
1,205 |
651,4404 |
Tabel 3. menunjukkan GCV minimum bernilai 649.8163 pada nilai bandwidth (h) sebesar 1,090. Sehingga nilai bandwidth (h) optimal untuk fungsi kernel Gaussian adalah 1,090. Setelah diperoleh nilai bandwidth yang optimal berdasarkan kriteria GCV, kemudian dilakukan estimasi model regresi nonparametrik dengan estimator kernel Gaussian menggunakan bandwidth yang optimal, yaitu menghitung nilai mˆ (x) dengan macro progam software S-plus, sehingga diperoleh nilai dugaan mˆ (x) tmtuk kernel Gaussian dan estimasi kurva regresi yang ditunjukkan padra Gambar 7.
Gambar 7. Plot Estimasi Kernel Gaussian dengan Bandwidth = 1,090
-
4.4. Perbandingan Estimator Kernel Triangle dan Kernel Gaussian
Pendekatan estimator kernel Triangle dan Gaussian dalam mengestimasi kurva regresi terlihat dalam Gambar 8 berikut.
Gambar 8. Plot Perbandingan Estimasi Kernel Triangle dan Gaussian
Hasil estimasi kurva regresi antara fungsi kernel Triangle dan kernel Gaussian sangat berimpit dimana menghasilkan bentuk kurva regresi yang sangat mirip. Selanjutnya dilihat dari perbandingan nilai MSE, RMSE, dan MAD yang dihasilkan kedua fungsi kernel tersebut yang tercantum pada Tabel 4.
Tabel 4. Perbandingan Estimator Kernel Triangle dan Gaussian
Fungsi Kernel |
Bandwidth (h) Optimal |
MSE |
RMSE |
MAD |
Triangle |
2,365 |
452,1965 |
21,26491 |
15,75821 |
Gaussian |
1,090 |
469,5878 |
21,66997 |
16,20430 |
Tabel 4. menunjukkan nilai MSE, RMSE, dan MAD yang dihasilkan fungsi kernel Triangle dan kernel Gaussian dengan menggunakan bandwidth optimal. Secara statistik nilai MSE, RMSE, dan MAD yang dihasilkan kernel Triangle hampir mendekati nilai-nilai pada kernel Gaussian, sehingga dapat dikatakan nilai MSE, RMSE dan MAD yang dihasilkan kedua fungsi kernel tersebut hampir sama.
Berdasarkan plot hasil estimasi untuk fungsi kernel Triangle dan kernel Gaussian dengan menggunakan bandwidth optimal, sangat berimpit, serta perbandingan nilai MSE, RMSE, dan MAD yang menunjukkan hasil yang hampir sama sehingga dapat dikatakan bahwa penggunaan fungsi kernel yang berbeda dengan bandwidth yang optimal untuk masing-masing fungsi kernel tersebut akan menghasilkan estimasi kurva regresi yang sama. Hasil penelitian ini mendukung pendapat yang dikemukakan oleh Hastie dan Tibshirani [4], yang menyatakan bahwa dalam regresi kernel pemilihan parameter pemulus (bandwidth)jauh lebih penting dibandingkan dengan memilih fungsi kernel.
-
5. Kesimpulan
Berdasarkan hasil dan pembahasan dapat diambil simpulan bahwa untuk data motorcycle diperoleh bandwidth optimal untuk estimator kernel Triangle sebesar 2,365 dan kemel Gaussian sebesar 1,090. Dalam regresi kernel yang terpenting adalah pemilihan nilai bandwidth optimal, bukan pemilihan fungsi kernel, karena penggunaan fungsi kernel yang berbeda dengan nilai bandwidth optimal menghasilkan estimasi kurva regresi yang hampir sama Hal ini sesuai dengan pendapat yang dikemukakan oleh Hastie dan Tibshirani [4], yaitu dalam regresi kernel pemilihan parameter pemulus (bandwidth) jauh lebih penting dibandingkan dengan memilih fungsi kernel.
Daftar Pustaka
-
[1] Aydin, Dursun. 2007. A Comparison of the Nonparametric Regression Models using Smoothing Spline and Kernel Regression. World
Academy of Science, Engineering and Technology, 36, 253-257, Turkey. http://www.waset.org/journals/waset/v36/v36-46.pdf. Diakses tanggal 9 Februari 2010.
-
[2] Eubank, R. 1998. Spline Smoothing and Nonparametric Regression. Marcel Dekker. New York.
-
[3] Hardle, W. 1994. Applied Nonparametric Regression. Cambridge University Press. New York.
-
[4] Hastie, T.J. and R.J. Tibshirani. 1990. Generalized Additive Models. Chapman and Hall. New York. London
-
[5] Hosmer, D.W. and S.Lemeshow. 2000. Applied Logistic Regression, 2nd.John Wiley and Sons, Inc.New York.
-
[6] MathSoft. 1993. S-Plus Guide to Statistical and Mathematical Analysis. Version 3.2. A Division of Math Soft, lnc. Seattle, Washington.
-
[7] Neter,J., W. Wasserrman dan M. H. Kutner. 1997.Model Linier Terapan Analisis Regresi Linier Sederhana. Diterjemahkan oleh Bambang Sumantri. Jurusan Statistika FMIPA IPB. Bogor.
-
[8] Wand M.P. and M.C.Jones. 1995. Kernel Smoothing. Chapman and Hall. New York.
Discussion and feedback