ESTIMASI SINTASAN PENDERITA DIABETES MELITUS: KOMPARASI KINERJA REGRESI PLS DAN LASSO
on
E-Jurnal Matematika Vol. 7(4), November 2018, pp. 339-345
DOI: https://doi.org/10.24843/MTK.2018.v07.i04.p223
ISSN: 2303-1751
ESTIMASI SINTASAN PENDERITA DIABETES MELITUS: KOMPARASI KINERJA REGRESI PLS DAN LASSO
Gede Ary Prabha Yogesswara1, Eka N. Kencana2§, I Komang Gde Sukarsa3
1Program Studi Matematika, Fakultas MIPA – Universitas Udayana [Email: aryprabha28@gmail.com] 2Program Studi Matematika, Fakultas MIPA – Universitas Udayana [Email: i.putu.enk@unud.ac.id] 3Program Studi Matematika, Fakultas MIPA – Universitas Udayana [Email:sukarsakomang@yahoo.com] §Corresponding Author
ABSTRACT
Partial least squares (PLS) regression and least absolute shrinkage and selection operator (LASSO) are the regression analysis techniques used to overcome the problems that can not be solved by ordinary least squares (OLS). The purpose of this research is to model and compare the performance of both PLS regression and LASSO to the diabetes mellitus study data which is divided into 30 groups of data redundancy as an example of microarray data. The survival time of diabetes mellitus patients as dependent variable while age, sex, body mass index, blood pressure, and six blood serum measurements as independent variables. By using paired sample t-test of adj R2 value, the result of this research concluded that the mean of adj R2 value of PLS regression is smaller than the mean of adj R2 value of LASSO. In other words, the performance of LASSO is better than PLS regression.
Keywords: Adj R2, Diabetes Mellitus, LASSO, PLS Regression.
Analisis regresi merupakan suatu alat yang digunakan dalam statistika untuk memprediksi salah satu variabel maupun variabel lainnya dengan memanfaatkan hubungan antar variabel tersebut (Neter et al., 1997). Pada dasarnya terdapat dua jenis analisis regresi linear yaitu analisis regresi linear sederhana dan analisis regresi linear berganda. Perbedaan dari kedua analisis regresi tersebut terdapat pada jumlah variabel yang terdapat pada model persamaannya. Jika analisis regresi linear sederhana hanya memanfaatkan hubungan antara satu variabel terikat dengan satu variabel bebas, maka analisis regresi linear berganda memanfaatkan hubungan lebih dari satu variabel bebas terhadap variabel terikat.
Dalam statistika, suatu model regresi linear dikatakan sesuai atau cocok apabila telah memenuhi asumsi dalam regresi. Asumsi dalam regresi adalah persyaratan yang ada saat menggunakan prosedur regresi linear. Terdapat sepuluh asumsi berdasarkan kerangka model regresi linear klasik, salah satunya adalah jum-
lah pengamatan dalam suatu penelitian lebih besar dari jumlah parameter yang akan diesti-masi (Gujarati dan Porter, 2009). Namun, asumsi tersebut tidak dipenuhi oleh data microarray, karena pada data tersebut jumlah kovariat sangat banyak dalam jumlah sampel yang sedikit (Datta et al., 2007).
Regresi partial least squares (PLS) dan least absolute shrinkage and selection operator (LASSO) dapat digunakan untuk menyelesaikan permasalahan data microarray. Regresi PLS adalah suatu teknik yang dikembangkan oleh Herman Wold pada tahun 1960an untuk membangun model yang bersifat prediksi saat variabel penjelas banyak dan sangat kolinear. Prediksi ini didapatkan dengan mengekstraksi himpunan faktor-faktor ortogonal yang disebut variabel laten yang mempunyai kekuatan prediksi terbaik (Abdi, 2007). Sedangkan LASSO adalah teknik yang diusulkan oleh Robert Tibshirani pada tahun 1996 untuk pemilihan model dan estimasi pada model regresi linear. Teknik ini meminimalkan jumlah kuadrat sisaan yang bergantung pada jumlah nilai mutlak
koefisien sehingga menyebabkan beberapa koefisien bernilai nol dan memberikan model yang dapat diinterpretasikan (Tibshirani, 1996).
Dalam perkembangannya, kedua teknik tersebut dapat menyelesaikan permasalahan yang hampir sama, namun belum diketahui secara pasti teknik mana yang memiliki kinerja lebih baik. Adapun penelitian sebelumnya untuk mengetahui kinerja regresi PLS dan LASSO dilakukan oleh Farmani dkk. (2012) pada data microarray diperoleh simpulan bahwa nilai root mean square error prediction (RMSEP) dari LASSO lebih kecil dibandingkan dengan regresi PLS. Dengan kata lain, kinerja LASSO lebih baik dari regresi PLS. Sedangkan penelitian yang dilakukan oleh Chong dan Jun (2005) saat terdapat multikolinearitas diperoleh simpulan bahwa regresi PLS memiliki kinerja yang lebih baik jika dibandingkan dengan LASSO.
Penelitian ini bertujuan untuk mengetahui model persamaan regresi PLS dan LASSO serta membandingkan kinerja kedua teknik tersebut menggunakan data penelitian diabetes melitus yang terbagi menjadi 30 kelompok pengulangan data dengan delapan pengamatan di setiap kelompok pengulangan.
-
2. METODE PENELITIAN
Sumber Data
Penelitian ini menggunakan data sekunder yang diperoleh dari data penelitian diabetes sejumlah 442 pengamatan oleh Efron et al. (2004) dari Stanford University melalui: http://www4. stat.ncsu.edu/~boos/var.select/diabetes.tab.txt.
Variabel Penelitian
Terdapat dua jenis variabel yang digunakan dalam penelitian ini, yaitu satu variabel terikat dengan sepuluh variabel bebas. Penjelasan tentang variabel yang digunakan disajikan pada Tabel 1.
Metode Analisis Data
Adapun langkah-langkah analisis data dalam penelitian ini adalah:
-
1. Mengambil delapan dari 442 pengamatan secara acak dengan menggunakan teknik pengambilan sampel dengan pengembalian,
sampai diperoleh 30 kelompok pengulangan data.
-
2. Membentuk matriks variabel bebas X8x 10 dan vektor variabel terikat V8x 1 pada setiap kelompok pengulangan data yang sudah diperoleh.
-
3. Analisis data dengan regresi PLS dan LASSO.
Langkah-langkah analisis data dengan regresi PLS:
-
1. Melakukan pembagian data dalam satu kelompok menjadi dua, yaitu bagian pertama yang berisi enam pengamatan untuk menduga parameter model dan bagian kedua yang berisi dua pengamatan untuk validasi.
Tabel 1 Penjelasan Variabel Penelitian
Simbol |
Keterangan |
Definisi |
Skala |
Waktu sintas- | |||
y |
Variabel Terikat |
an penderita diabetes meli- |
Rasio |
tus | |||
Xl |
Variabel bebas |
Umur penderita diabetes melitus |
Rasio |
Variabel bebas |
Jenis kelamin | ||
*2 |
penderita diabetes melitus |
Nominal | |
Variabel |
Indeks masa |
Rasio | |
χ≡ |
bebas |
tubuh | |
Variabel |
Tekanan |
Rasio | |
%4 |
bebas |
darah | |
Variabel |
Total |
Rasio | |
χ≡ |
bebas |
kolesterol | |
X6 |
Variabel bebas |
Low density lipoprotein (ldl) |
Rasio |
X7 |
Variabel bebas |
High density lipoprotein (hdl) |
Rasio |
Salah satu | |||
X8 |
Variabel bebas |
pengukuran serum darah (tch) |
Rasio |
Variabel bebas |
Low tension | ||
X9 |
glaucoma (ltg) |
Rasio | |
Xio |
Variabel bebas |
Kadar glukosa darah |
Rasio |
Sumber: Data diolah, 2018
-
2. Pada bagian untuk menduga parameter dilakukan beberapa langkah, sebagai berikut:
-
a. Mencari vektor pembobot untuk matriks X dan Y melalui pembentukan dekomposisi nilai tunggal (SVD) dari crossproduct matriks S= .
-
b. Mencari vektor kolom t= =
untuk pembobot X, dan vektor kolom u= = untuk pembobot Y.
-
c. Normalisasikan vektor kolom dari pem-bobot X menjadi t∗= = t.
√
-
d. Mencari loadings P= ∗ matriks X
dan loadings cI = ∗ matriks Y.
-
e. Pendugaan komponen pertama terbentuk menggunakan: ^n+1 = -t∗pτ dan
ni+i = -t∗qτ.
-
f. Pendugaan komponen berikutnya dapat dimulai dengan SVD dari matriks crossproduct hasil langkah e.
-
g. Menentukan koefisien untuk setiap variabel bebas untuk a komponen pertama dengan: B=(TtT) -itty = .
-
h. Menentukan komponen optimal dengan mencari nilai RMSEP yang terkecil
√∑ (yi- ̂ i )2
- .
-
i. Membentuk model persamaan regresi PLS dengan meregresikan komponen yang terbentuk terhadap Y.
-
3. Mencari nilai estimasi waktu sintasan ( ̂) menggunakan model yang diperoleh baik pada bagian pertama maupun bagian kedua.
-
4. Mencari nilai R2 menggunakan persamaan
-
1- dan nilai adj R2 menggunakan persa-JKT
maan 1-J-KG⁄( -P - -), dengan JKG adalah JKT⁄(n-1), g
jumlah kuadrat galat dan JKT adalah jumlah kuadrat total untuk mengetahui seberapa besar kecocokan model.
Sedangkan langkah-langkah analisis data dengan LASSO adalah sebagai berikut:
-
1. Mencari koefisien regresi menggunakan teknik OLS secara bertahap.
-
2. Mencari nilai parameter:
-
̂=∑s=i ∑( yi,X1)∈Ls (Yi - ̂i)2.
-
3. Memilih nilai parameter ̂ minimum berdasarkan hasil yang diperoleh pada langkah 2, selanjutnya disebut parameter tuning t.
-
4. Menentukan nilai estimasi koefisien LASSO menggunakan:
R( ̂O, ̂l)=∑^1( yl - β0 -∑ ‰χllβl)2 dengan syarat ∑ | βj|≤t.
-
5. Membentuk model persamaan LASSO dari beberapa variabel bebas yang memiliki nilai koefisien tak nol.
-
6. Mencari nilai estimasi waktu sintasan ( ̂) menggunakan model persamaan LASSO yang diperoleh dari langkah 5.
-
7. Mencari nilai R2 menggunakan persamaan
-
1- dan nilai adj R2 menggunakan persa-JKT
maan 1-JKG⁄( V ’ -), dengan JKG adalah JKT⁄(n-1), g
jumlah kuadrat galat dan JKT adalah jumlah kuadrat total untuk mengetahui seberapa besar kecocokan model.
Setelah melakukan analisis data dengan teknik regresi PLS dan LASSO, gunakan uji t terhadap nilai R2 yang diperoleh untuk mengetahui perbedaan kinerja regresi PLS dan LASSO.
-
3. HASIL DAN PEMBAHASAN
Model Persamaan Regresi PLS dan LASSO
Model persamaan yang diperoleh dari teknik regresi PLS dan LASSO masing-masing merupakan model regresi dan berbentuk linear.
Regresi Partial Least Squares (PLS)
Regresi PLS merupakan suatu teknik yang menggabungkan analisis komponen utama dan regresi berganda yang bertujuan untuk memprediksi suatu variabel terikat dari beberapa variabel bebas (Abdi, 2007). Model persamaan regresi PLS untuk waktu sintasan penderita diabetes melitus adalah:
̂ PLSi = ̂ io + ̂HwH + ̂i2wi2 +⋯+ ̂ip^ip dengan ̂ PLSi adalah pendugaan waktu sintasan penderita diabetes melitus; ̂ io , ̂ ii , ̂ i2,…, ̂ip adalah koefisien regresi; wU , wi2,…,wip adalah komponen utama yang merupakan kombinasi linear variabel bebas xL , X2,…,xP . Model persamaan regresi PLS untuk semua kelompok pengulangan data disajikan pada Tabel 2.
Least Absolute Shrinkage and Selection Operator (LASSO)
LASSO merupakan teknik penyusutan koefisien sehingga menyebabkan beberapa koefisien bernilai nol dengan meminimalkan jumlah kuadrat sisaan yang bergantung pada ∑ | βj|≤t (Tibshirani, 1996). Model persa
maan LASSO untuk waktu sintasan penderita diabetes melitus adalah:
̂LASSOi = ̂ io + ̂iιxι + ̂i2x2 +⋯+ ̂ip %p dengan ̂LASSOi adalah pendugaan waktu sin-tasan penderita diabetes melitus;
-
̂ io , ̂ il , ̂ i2,…, ̂ip adalah koefisien regresi tak nol dan xp merupakan variabel bebas yang
memiliki koefisien regresi tak nol. Model persamaan LASSO untuk semua kelompok pengulangan data disajikan secara terperinci pada Tabel 3.
Kinerja Regresi PLS dan LASSO
Kinerja dari regresi PLS dan LASSO dapat diketahui dari nilai koefisien determinasi (R2). Nilai R2 menjelaskan bagaimana kedekatan nilai estimasi variabel terikat ̂ terhadap nilai variabel terikat yang sebenarnya Y (Gujarati dan Porter, 2009). Model dianggap baik apabila nilai R2 mendekati satu.
Tabel 2 Model Persamaan Regresi PLS
Ulangan |
Model Persamaan |
Ulangan |
Model Persamaan | ||
1 |
^ _ ̂ = |
-35․6 + W11 + W12 I |
16 |
y = |
-208 + Wl6I + Wi62 |
2 |
y = |
1136 + W2I + W22 + W23 +W24 |
17 |
Ci — y = |
-76+W171 |
3 |
y = |
-87+w3ι + w32 I |
18 |
y = |
-442․7 + Wi8I + Wi82 + Wi83 |
4 |
̂ = |
-73․6 + w4ι |
19 |
y = |
576․4 + Wi9I + W192 + W193 +W194 |
5 |
̂ = |
5+w5ι I |
20 |
Ci -- y = |
41․2 + w2oι |
6 |
̂ = |
457+w6ι |
21 |
Ci — y = |
-191 + w2ιι + w2ι2 |
7 |
̂ = |
-76+W71 I |
22 |
Ci — y = |
164․6 + w22ι |
8 |
•Ci — y = |
-311 + w8ι |
23 |
Ci — y = |
-70․6 + w23ι + W232 -0․54mz233 + 1․371w234 |
9 |
Ci — y = |
-179 + w91 |
24 |
Ci — y = |
-604․7 + w24ι + W242 + W243 + mz244 |
10 |
̂ PLSlO = |
61+Wioi |
25 |
Ci -- y = |
370․7 + 1․09mz251 + 1․33mz252 +0․86mz253 + 10․92mz254 |
11 |
̂PLSll = |
-45+W111 I |
26 |
Ci -- y = |
245+w26ι + W262 |
12 |
̂ PLS12 = |
-16+Wι2ι I |
27 |
Ci — y = |
164․8 + W271 |
13 |
̂PLS13 = |
-65․18 + Wι3ι + Wi32 + Wi33 +vizI34 |
28 |
Ci -- y = |
-268 + w28ι |
14 |
̂PLS14 = |
634+W141 + Wi42 + W443 +W144 |
29 |
Ci — y = |
236․7 + W291 |
15 |
̂PLSlS = |
569+W45I + Wi52 |
30 |
Ci -- y = |
-468․4 + w3oι + w3o2 + w3o3 + ⅝04 |
Sumber: Data diolah, 2018
Terdapat dua jenis nilai R2, yaitu R2 dan adj R2. Nilai R2 merupakan nilai R2 biasa dan nilai adj R2 merupakan nilai R2 terkoreksi yang memperhatikan jumlah komponen maupun variabel bebas dalam model. Nilai R2 dan adj R2 semua kelompok pengulangan disajikan secara terperinci pada Tabel 4. Untuk melakukan pengujian kinerja digunakan nilai adj R2 karena setiap
kelompok pengulangan mempunyai jumlah komponen dan variabel bebas yang berbeda-beda.
Pada tabel 4 dapat diketahui bahwa rerata nilai adj R2 regresi PLS dan LASSO masing-masing adalah 0.8455 dan 0.8873. Berdasarkan rerata tersebut diketahui bahwa rerata nilai adj R2 regresi PLS lebih kecil dari LASSO.
Berdasarkan Tabel 2 dan Tabel 4 diperoleh model terbaik regresi PLS dengan nilai adj R2 sebesar 0.9930 pada kelompok pengulangan ke-23 yang dinyatakan sebagai:
̂PLS23=-70․6+W23I + W232
-0․54W233 + 1․371mz234 ․
Pada model persamaan tersebut, semua variabel bebas membentuk suatu kombinasi linear yang disebut komponen. Oleh karena itu, terdapat kesulitan dalam hal interpretasi komponen sehingga tidak dapat menentukan variabel bebas yang signifikan. Sedangkan berdasarkan Tabel 3 dan Tabel 4 diperoleh model terbaik LASSO dengan nilai adj R2 sebesar 0.9946 pada kelompok pengulangan ke-4 yang dinyatakan sebagai:
̂LASSOS = -307․066 + 0․375*1
-75․306x2 + 4․239x3 + 1․81X4 +0․251x≡ + 0․529x7 - 2․096X9 +2․924Xio ․
Model persamaan tersebut diperoleh setelah terjadi proses penyusutan variabel bebas sehing-
ga tersisa delapan variabel bebas yang memiliki koefisien regresi tak nol yaitu
λ1, λ2, λ3, Jl ^ , λ5,
X7 , X9 , dan Xio . Delapan variabel bebas yang tersisa tersebut merupakan variabel bebas yang secara signifikan memengaruhi variabel terikat yLASS04 .
Pengujian Kinerja Regresi PLS dan LASSO
Untuk mengetahui bagaimana kinerja regresi PLS dan LASSO, perlu dilakukan pengujian menggunakan uji t sampel berpasangan. Sebelum melakukan pengujian, dilakukan uji kenormalan pada data karena syarat dalam uji t adalah data harus menyebar normal.
Hipotesis nol uji kenormalan ini adalah data menyebar normal. Berdasarkan perhitungan, diperoleh bahwa nilai-P = 0.3325 lebih dari 0.05 yang artinya tidak cukup bukti untuk menolak hipotesis nol. Dengan kata lain, data menyebar normal.
Tabel 3 Model Persamaan LASSO
Ulangan |
Model Persamaan |
Ulangan |
Model Persamaan |
1 |
̂LASSOl = -113․016 + 55․865X9 |
16 |
̂LASSO16 = -239․621 + 0․599Xi +2․977χ3 + 2․597X4 |
2 |
̂LASSO2 = 165․375 |
17 |
̂LASSO17 = 76․959 + 0․212Xi +23․645χ8 |
3 |
̂ LASSO3 = 186․125 |
18 |
̂LASSO18 = -325․65 + 3․373X4 +1․026Xfi + 0․337Xio |
4 |
̂ LASSO4 = -307․066 + 0․375Xi -75․306χ2 + 4․239χ3 + 1․81χ4 +0․251X5 + 0․529X7 - 2․096X9 +2․924Xio |
19 |
̂LASSO19=-539․142+42․938X2 +4․324X3 - 0․752X5 - 0․814X7 +135․712X9 + 1․182Xio |
5 |
̂ LASSO5 = 109․375 |
20 |
̂LASSO20 = 92․25 |
6 |
̂ LASSO6 = -252․83 + 30․427X2 ∖ +6․129X3 - 0․792X5 - 1․425X7 +91․884X9 I |
21 |
̂LASS021 = -22․1 + 2․354Xi + 8․169X9 |
7 |
̂LASSO7 = 25․878 + 3․948χ3 |
22 |
̂ LASSO22 = 155․75 |
8 |
̂ LASSO8 = -153․584 + 2․222 +0․922Xio |
23 |
̂ LASSO23 = -354․612 + 2․484χ3 +3․738X4 - 1․201χ≡ + 37․872X9 +1․7Xio |
9 |
̂ LASSO9 = -411․716 + 7․104X3 ∖ -0․885X5 + 15․958X8 + 78․06X9 +1․374Xw |
24 |
̂ LASSO24 = -206․439 - 43․453X2 +9․669X3 - 0․188X7 + 0․073X8 +2․029Xio |
10 |
̂LASS010 = 199․375 |
25 |
̂ LASSO25 = -499․847 + 0․363Xi +15․943X + 1․418X + 23․459X9 |
11 |
̂LASSO11 = -149․873 + 0․385Xi +10․709χ3 + 0․94X4 - 0․482Xs |
26 |
̂ LASSO26 = 153․875 |
12 |
̂LASSO12 = -253․671 + 1․781χ3 +75․552X9 |
27 |
̂LASSO27 = 132․25 |
13 |
̂LASSO13 = -37․883 + 0․858χ≡ +1․433X7 |
28 |
̂LASSO28 = -378․02 - 40․834X2 +5․659X4 - 0․515X7 + 18․186X8 |
14 |
̂ LASSO14 = 84․119 + 20․768^8 |
29 |
̂LASSO29 = 20․142 + 3․682χ3 |
15 |
̂LASSO15 = 191․875 |
30 |
̂LASS030 = -222․419 + 7․609χ3 +0․73X5 |
Sumber: Data diolah, 2018
Hipotesis yang digunakan dalam pengujian ini adalah:
2
-
1. H0: Ij-PLS ≥ IjLASSO (rerata nilai adj R2 regresi PLS lebih besar atau sama dengan LASSO).
-
2. H1: IjPLS < IjLASSO (rerata nilai adj R2 regresi PLS lebih kecil dari LASSO).
Dasar pengambilan keputusan yang digunakan adalah sebagai berikut:
-
1. Jika nilai-P > 0.05, maka tidak ada cukup bukti menolak hipotesis nol.
-
2. Jika nilai-P < 0.05, maka hipotesis nol ditolak.
Berdasarkan perhitungan, diperoleh nilai-P sebesar 0.004525 lebih kecil dari 0.05. Menurut dasar pengambilan keputusan 2, berarti hipotesis nol ditolak. Dengan kata lain rerata nilai adj R2 regresi PLS lebih kecil dari rerata nilai adj R2 LASSO. Oleh karena itu, kinerja LASSO lebih baik dibandingkan dengan kinerja regresi PLS.
Tabel 4 Nilai Adj R2 Model Persamaan Regresi PLS dan LASSO.
Ulangan |
R2 |
adj R2 |
Beda (selisih) adj R2 | ||
Regresi PLS |
LASSO |
Regresi PLS |
LASSO | ||
1 |
0.8248 |
0.8826 |
0.7547 |
0.8631 |
-0.1084 |
2 |
0.9461 |
0.8896 |
0.8742 |
0.8896 |
-0.0154 |
3 |
0.9767 |
0.8560 |
0.9674 |
0.8560 |
0.1114 |
4 |
0.9050 |
0.9992 |
0.8892 |
0.9946 |
-0.1054 |
5 |
0.7808 |
0.7385 |
0.7442 |
0.7385 |
0.0057 |
6 |
0.8825 |
0.9844 |
0.8630 |
0.9453 |
-0.0823 |
7 |
0.7830 |
0.8307 |
0.7468 |
0.8024 |
-0.0556 |
8 |
0.8398 |
0.9219 |
0.8130 |
0.8906 |
-0.0776 |
9 |
0.8661 |
0.9673 |
0.8438 |
0.8857 |
-0.0419 |
10 |
0.9123 |
0.9048 |
0.8977 |
0.9048 |
-0.0071 |
11 |
0.8467 |
0.9855 |
0.8212 |
0.9662 |
-0.1450 |
12 |
0.8523 |
0.9478 |
0.8277 |
0.9269 |
-0.0992 |
13 |
0.9470 |
0.9709 |
0.8764 |
0.9593 |
-0.0829 |
14 |
0.9575 |
0.8599 |
0.9009 |
0.8365 |
0.0644 |
15 |
0.9427 |
0.8614 |
0.9197 |
0.8614 |
0.0583 |
16 |
0.9617 |
0.9632 |
0.9464 |
0.9355 |
0.0109 |
17 |
0.8620 |
0.9249 |
0.8390 |
0.8948 |
-0.0558 |
18 |
0.9755 |
0.9929 |
0.9571 |
0.9876 |
-0.0305 |
19 |
0.8519 |
0.9406 |
0.6545 |
0.5840 |
0.0705 |
20 |
0.9321 |
0.9155 |
0.9208 |
0.9155 |
0.0053 |
21 |
0.9666 |
0.9412 |
0.9532 |
0.9177 |
0.0355 |
22 |
0.8693 |
0.8743 |
0.8476 |
0.8743 |
-0.0267 |
23 |
0.9970 |
0.9955 |
0.9930 |
0.9843 |
0.0087 |
24 |
0.9430 |
0.9976 |
0.8669 |
0.9917 |
-0.1248 |
25 |
0.8778 |
0.9968 |
0.7150 |
0.9925 |
-0.2775 |
26 |
0.8502 |
0.7912 |
0.7902 |
0.7912 |
-0.0010 |
27 |
0.7945 |
0.7850 |
0.7603 |
0.7850 |
-0.0247 |
28 |
0.9295 |
0.9840 |
0.9178 |
0.9626 |
-0.0448 |
29 |
0.7640 |
0.7763 |
0.7246 |
0.7390 |
-0.0144 |
30 |
0.8881 |
0.9593 |
0.7388 |
0.9430 |
-0.2042 |
Rerata |
0.8909 |
0.9146 |
0.8455 |
0.8873 |
-0.0418 |
Simpangan baku |
0.0647 |
0.0750 |
0.0866 |
0.0929 |
0.0819 |
Berdasarkan hasil yang diperoleh, terdapat beberapa kesimpulan, yaitu:
-
1. Model terbaik regresi PLS dengan nilai adj R2 sebesar 0.9930 pada kelompok pengulangan ke-23 dinyatakan sebagai:
̂PLS23=-70․6+w231 + w232
-0․54 ^233 + 1․371w234 ․
Sedangkan model terbaik LASSO dengan dengan nilai adj R2 sebesar 0.9946 pada kelompok pengulangan ke-4 dinyatakan sebagai:
̂ LASS04 = -307․066 + 0․375¾
-75․306X2 + 4․239X3 + 1․81X4 +0․251x≡ + 0․529X7 - 2․096%9 +2․924Xio ․
-
2. Melalui pengujian kinerja regresi PLS dan LASSO menggunakan uji t sampel berpasangan, diketahui bahwa rerata nilai adj R2 regresi PLS lebih kecil dari LASSO. Sehingga kinerja LASSO lebih baik dibandingkan dengan kinerja regresi PLS.
Bagi peneliti lainnya, diharapkan melakukan penelitian tentang regresi PLS atau LASSO menggunakan data yang sangat besar, baik dari jumlah pengamatan maupun informasi lain yang mendukung kejelasan data. Sebagai perbandingan, dapat juga menggunakan teknik lainnya pada data yang tidak dapat diselesaikan dengan teknik OLS.
DAFTAR PUSTAKA
Abdi, H. (2007). Partial Least Squares Regression. Encyclopedia of Measurements and Statistics. Thousand Oaks (CA): Sage.
Chong, I., dan Jun, C. (2005). Performance of Some Variable Selection Methods when Multicollinearity is Present. Chemometrics and Intelligent Laboratory Systems, 78, 103112.
Datta, S., Le-Rademacher, J., dan Datta, S. (2007). Predicting Patient Survival from Microarray Data by Accelerated Failure Time Modeling Using Partial Least Squares and LASSO. Biometrics, 63, 259-271.
Efron, B., Hastie, T., Johnstone, I., dan Tibshirani, R. 2004. Least Angle Regression. http://www4.stat.ncsu.edu/~boos/ var.select/diabetes.tab.txt. Diakses: 9 Februari 2018.
Farmani, K. D., Kencana, P. E. N., dan Sukarsa, K. G. 2012. Perbandingan Analisis Least Absolute Shrinkage and Selection Operator (LASSO) dan Partial Least Squares (PLS) (Studi Kasus: Data Microarray). e-Jurnal Matematika, 1(1), pp. 75-80.
Gujarati, D. N., dan Porter, D. C. 2009. Basic Econometrics Fifth Edition. New York: The McGraw-Hill Companies, Inc.
Neter, J., Wasserman, W., dan Kutner, M. H. 1997. Model Linier Terapan Buku I: Analisis Regresi Linear Sederhana. Penerjemah: Bambang Sumantri. Bogor: Jurusan Statistika FMIPA-IPB.
Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society. Series B (Methodological), 58(1), 267-288.
345
Discussion and feedback