E-Jurnal Matematika Vol. 7(3), Agustus 2018, pp. 259-263

DOI: https://doi.org/10.24843/MTK.2018.v07.i03.p212

ISSN: 2303-1751

PENDEKATAN REGRESI SPLINE UNTUK MEMODELKAN POLA PERTUMBUHAN BERAT BADAN BALITA

Ni Luh Sukerni1, I Komang Gde Sukarsa2, Ni Luh Putu Suciptawati3

1Program Studi Matematika, FMIPA – Universitas Udayana [Email: sukeerni@gmail.com] 2Program Studi Matematika, FMIPA – Universitas Udayana [Email:gedesukarsa@unud.ac.id] 3Program Studi Matematika, FMIPA – Universitas Udayana [Email:suciptawati@unud.ac.id]

ABSTRACT

The study is aimed to estimate the best spline regression model for toddler’s weight growth patterns. Spline is one of the nonparametric regression estimation method which has a high flexibility and is able to handle data that change in particular subintervals so thus resulting in model which fitted the data. This study uses data of toddler’s weight growth at Posyandu Mekar Sari, Desa Suwug, Kabupaten Buleleng. The best spline regression model is chosen based on the minimum Generalized Cross Validation (GCV) value. The study shows that the best spline regression model for the data is quadratic spline regression model with six optimal knot points. The minimum GCV value is 0,900683471925 with the determination coefficient (R2) equals to 0,954609.

Keywords: GCV, Knot points, Nonparametric Regression, Spline, Toddler’s Weight

  • 1.    PENDAHULUAN

Pendekatan nonparametrik digunakan untuk mengetahui pola hubungan antara variabel respon dengan variabel prediktor yang bentuk fungsinya tidak diketahui. Pendekatan nonparametrik tidak terikat oleh asumsi-asumsi tertentu seperti sisaan berdistribusi normal dan memiliki variansi yang konstan. Bentuk kurva hanya diasumsikan bersifat mulus (smoothness) di mana data akan mencari sendiri bentuk estimasinya. Terdapat beberapa pendekatan dalam regresi nonparametrik (Hardle, 1994) di antaranya histogram, penduga kernel, penduga spline, deret Fourier, dan lain-lain.

Regresi spline mempunyai fleksibilitas yang tinggi dan mampu menangani data yang perilakunya berubah–ubah pada sub–sub interval tertentu (Eubank, 1999). Spline merupakan potongan polinomial (piecewise polynomial) dengan sifat tersegmen yang terbentuk pada titik-titik knot. Titik knot merupakan titik perpaduan bersama yang terjadi karena terdapat perubahan pola perilaku data. Terdapat beberapa metode untuk memilih titik knot yang optimal dalam regresi nonparametrik

spline antara lain metode cross validation (CV), unbiassed risk (UR), generalized cross validation (GCV), dan generalized maximum likelihood (GML).

Metode yang digunakan untuk menentukan titik knot optimal pada penelitian ini adalah generalized cross validation (GCV) dengan kriteria GCV minimum (Wahba, 1990). Penggunaan titik knot pada penelitian ini dibatasi sebanyak sepuluh titik knot.

Salah satu kasus yang menggunakan penduga spline dalam menduga model regresi adalah kasus pertumbuhan balita. Pemantauan pertumbuhan pada balita dapat dilakukan dengan cara mengukur berat badan pada balita. Pola pertumbuhan pada balita cenderung memiliki perubahan perilaku pada umur-umur tertentu, sehingga penduga spline merupakan metode yang sesuai untuk melihat dan memantau pertumbuhan berat badan pada balita. Penelitian ini bertujuan untuk mengestimasi model regresi spline terbaik pada pola pertumbuhan berat badan balita di Posyandu Mekar Sari, Desa Suwug, Kabupaten Buleleng.

Secara umum, model regresi nonparametrik dapat dituliskan sebagai berikut:

yi = f (Xi)+ εii i = 1,2,...,n        (1)

dengan yi menyatakan variabel respon dari data ke-i , xt menyatakan variabel prediktor dari data ke-i, f(x= menyatakan fungsi regresi yang tidak diketahui bentuknya, dan menyatakan error ke-i yang diasumsikan menyebar N ~(0,σ2 ).

Fungsi spline berorde p adalah sebarang fungsi yang dapat ditulis dalam bentuk:

Vi βo + βι× t + " + βpX f

K

+β++k(x - K k++ + ε i k=i

Σ β jxi + Σ [βp+k-

j=0k=l

(Xi Kk)+] + ii(2)

dengan fungsi sepenggal (truncated) sebagai berikut:

( (Xi - Kk)p>

(x —k k)+=  Iun tuk x i ≥ k k

\  0, Xt < κk

dengan  j j adalah konstanta real dan

k 1 ,κ2, ...,κk adalah titik-titik knot.

Fungsi spline dapat disajikan dalam bentuk matriks yang dituliskan sebagai berikut:

Y = Xβ + ε


dengan


yi y2


yn.


r β° i

βι

βp βr .β(p+ky


(3)

ε1

ε2

£ =   ⋮   ,

ε∏.

(X1 - K) )+ (X2 - K) )+

(   -   )

Untuk mencari nilai penduga β digunakan metode least square. Metode ini dilakukan dengan meminimumkan       terhadap

(Draper & Smith, 1992).

ετε — (Y -Xβ) (Y -Xβ)

=    YτY - 2βτXtY -     (4)

Xτβτ.

Kemudian meminimumkan persamaan (4) dengan menurunkan terhadap β sama dengan 0.

XτXβ —XtXY

Sehingga diperoleh nilai β sebagai berikut: β = (XτX)- 1XtY          (5)

Bentuk penduga dari fungsi Y dapat dituliskan sebagai berikut:

Y — X(XtX) ~ 1Xt         (6)

Titik knot optimal dipilih berdasarkan kriteria generalized cross validation (GCV) yang minimum. Rumus untuk menghitung GCV adalah sebagai berikut:

MSE (k)

GCV (k) — r 1       /,λ1λ7          (7)

(n~ttr[I - A(k])22

dengan    MSE)=- n~ 1∑ "^(yi-^)2, n

adalah jumlah data, I adalah matriks identitas, k

adalah titik knot ( , , ,., ) dan A (k) — X(XτX) Xt (Eubank, 1999).

Setelah diperoleh model regresi spline terbaik, selanjutnya dilakukan pengujian parameter model. Pengujian parameter model terdiri dari dua tahapan, yaitu pengujian secara serentak kemudian dilanjutkan dengan pengujian secara individu. Uji serentak dilakukan untuk mengetahui signifikansi parameter model regresi secara bersama-sama (Neter et al., 1997a). Hipotesis yang digunakan pada uji serentak adalah sebagai berikut:

Hq: βl — β2 — "' — P++k - 0,

m i n i ma I ad a s a tu βj0,j :

— 1,2, ..,p + k

dengan nilai p+k adalah jumlah parameter dalam model regresi spline, p adalah derajat pada spline dan k adalah jumlah knot. Statistik uji yang digunakan adalah uji F:

phitmg   ssrdb

—         SSE/db

Tolak         H0         jika

Fh i tung > F a((++k'), n-(k+k') - 1 ).

Pengujian parameter secara

(8)

nilai

individu


bertujuan untuk mengetahui mana variabel yang berpengaruh secara signifikan terhadap model

(Neter et al., 1997a). Hipotesis yang digunakan dalam uji individu adalah sebagai berikut:

Ho:          βj = 0

H1:         βj≠O ; y = 1,2.....p + k

Statistik uji yang digunakan adalah uji t:

β

^h i tung =  ^^~)                 (9)

dengan daerah kritis tolak Hj jika ∖t hitung∖ > i(Ξn^p+k-)-^ dengan n merupakan jumlah pengamatan dan (p+k) merupakan jumlah parameter dalam model regresi spline.

  • 2.    METODE PENELITIAN

Jenis dan Sumber Data

Data yang digunakan adalah data rekam berat badan balita yang diambil di Posyandu Mekar Sari, Desa Suwug, Kabupaten Buleleng. Variabel respon (Y) pada penelitian ini adalah berat badan balita saat ditimbang dalam satuan kg. Variabel prediktor dalam penelitian ini adalah berat badan balita saat lahir dalam satuan kilogram (X1) dan umur balita saat ditimbang dalam satuan bulan (X2).

Metode Analisis Data

Langkah analisis dalam penelitian ini adalah sebagai berikut:

  • 1.    Mengidentifikasi pola hubungan antara variabel respon (Y) dengan variabel prediktor (X1) serta (X2) menggunakan scatter plot.

  • 2.    Memodelkan hubungan variabel prediktor (X1) dan (X2) terhadap variabel respon (Y) dengan regresi spline satu knot sampai sepuluh knot untuk masing-masing orde linearr, kuadratik, kubik.

  • 3.    Menentukan titik knot optimal dengan kriteria Generalized Cross Validation (GCV) minimum.

  • 4.   Menetapkan model regresi spline terbaik.

  • 5.   Melakukan uji signifikansi parameter

secara serentak dan individu.

  • 6.    Menginterpretasikan model regresi spline terbaik dan menarik kesimpulan dari model.

  • 3.    HASIL DAN PEMBAHASAN

Scatterplot untuk Variabel Respon dengan Variabel Prediktor

Scatterplot of Berat Saat Ini (kg) vs Berat Lahir (kg)

£ S n n (n

n £

14

12

10

8

6

2.00     2.25     2.50     2.75     3.00     3.25     3.50     3.75

Berat Lahir (kg)


Gambar 1. Scatterplot antara Berat Badan Balita saat

Lahir (X1) dengan Berat Badan Balita saat Ditimbang ( k)

Scatterplot of Berat Saat Ini (kg) vs Umur (bulan)

Gambar 2. Scatterplot antara Umur Balita saat Ditimbang (X2) dengan Berat Badan Balita saat Ditimbang ( k)

Pola hubungan antara setiap variabel prediktor dengan variabel respon memiliki pola yang tidak mengikuti pola tertentu sehingga sulit didekati dengan pendekatan regresi parametrik.

Estimasi Model Regresi Spline Terbaik

Pemilihan model regresi spline terbaik dipengaruhi oleh lokasi dan banyaknya titik knot. Lokasi titik knot yang berbeda akan menghasilkan model yang berbeda. Pemilihan titik knot optimal berdasarkan kriteria GCV minimum. Berikut ini merupakan tabel yang menunjukkan titik-titik knot yang optimal, nilai GCV minimum serta orde yang optimal untuk setiap variabel.

Tabel 1. Nilai GCV Minimum untuk Masing-masing Titik Knot

Titik knot

Nilai GCV minimum

Orde

X1

X2

1 titik knot

1,455221

kubik

kubik

2 titik knot

1,328506

kuadratik

kuadratik

3 titik knot

0,9947627

kubik

kubik

4 titik knot

0,9910701

kuadratik

kuadratik

5 titik knot

0,9173034

kuadratik

kuadratik

6 titik knot

0,9006834

kuadratik

kuadratik

7 titik knot

1,0140267

kuadratik

kuadratik

8 titik knot

1,1362618

linear

linear

9 titik knot

1,2691636

linear

linear

10 titik knot

1,5345317

linear

linear

Tabel 1 menunjukkan bahwa nilai GCV minimum diperoleh untuk model dengan enam titik knot pada orde kuadratik. Titik knot pada X1 adalah K1 = 1,8878; K2 = 2,081622; K3 = 2,275444; κ4 = 2,6630889 ;

K5 = 2,85691111 ;K6 = 3,05073333. Titik knot pada X2 adalah κ4 = 1,35; κ2 = 5,16111; κ3 = 8,9722222; K4 = 16,594444; = 20,4055556; κ6 = 24,2166667.

Nilai estimasi parameter ̂ yang diperoleh untuk regresi spline orde kuadratik dengan 6 titik knot adalah sebagai berikut:

-0,156245062553979

0,100550364394037 ⎤ ⎢-1,108564002538701

1,52722226563398

-0,577515588303437 0,100833839676168

⎢-0,045746458863910⎥ ⎢0,0016664516812001⎥

⎢-0,086243375517550⎥ ⎢ 0,032517164203101⎥

⎢-0,032660375867682⎥ ⎢ 0,000082183735415⎥

⎢ 0,000079441422929⎥

⎢ 0,000090794244481⎥

⎢-0,000346005761766⎥

⎣ 0,000291060190130⎦

Selanjutnya dilakukan uji signifikansi parameter regresi nonparametrik spline secara serentak dengan hipotesis sebagai berikut:

K0 :   =  =⋯==0

:


minimal ada satu βj≠0,j =1,2,…,16

Tabel 2. Analisis Varians Regresi Nonparametrik Spline

Sumber

db

SS

MS

hitung

Regresi

15

280,90

18,72

37,45

Error

26

13,12

0,5

Total

41

294,02

Dengan menggunakan α = 0,05, maka diperoleh nilai F tabel sebesar 2,07 sehingga Tabel 2 menunjukkan bahwa nilai KhitungKtabel . Hal ini mengindikasikan bahwa H0 ditolak, yang artinya terdapat pengaruh yang signifikan secara bersama-sama antara variabel bebas terhadap variabel respon pada model regresi nonparametrik spline. Kemudian dilakukan uji parameter secara individu dengan menggunakan uji t. Hasil pengujian signifikansi parameter model secara individu yang disajikan pada Tabel 3.

Tabel 3. Hasil Uji Individu Parameter Model Regresi Nonparametrik Spline

Variabel

Parameter

t-hitung

t-tabel

Keputusan

X1

Pl

-5,18

2,05954

Tolak

P2

6,48

Tolak

Pl

-7,02

Tolak

P4

6,84

Tolak

Ps

-5,96

Tolak

P6

2,14

Tolak

P7

-0,94

Gagal Tolak

Ps

0,07

Gagal Tolak

X2

P9

-3,17

Tolak

PlO

3,19

Tolak

Pll

-3,18

Tolak

Pl2

0,65

Gagal Tolak

Pi2

1,22

Gagal Tolak

P14

0,82

Gagal Tolak

PlS

-2,15

Tolak

P16

3,02

Tolak

Dengan menggunakan tingkat signifikansi α = 5% didapatkan parameter-parameter yang signifikan yaitu βl , β2 , β3 , β4 , β5 , β6 , βg , βlθ , βll , βl5 , βl6 ․ Meskipun terdapat beberapa parameter yang tidak signifikan pada model, namun semua variabel bebas berpengaruh terhadap pola pertumbuhan berat badan balita.

Berikut merupakan estimasi model regresi nonparametrik spline pada orde kuadratik dengan 6 titik knot optimal yaitu:

̂= -0,1562450625539 xl

+ 0,100550364394037 Xi

-1,108564002538701 (Xi - 1,8878) i

+1,52722226563398 (Xi - 2,0816222) i

-0,577515588303437 (Xi

- 2,2754444) i

+0,100833839676168 (Xi - 2,66308889)i

-0,04574645886391 (Xi - 2,85691111) i

+0,0016664516812001 (Xi - 3,05073333)i

-0,08624337551755 X2

+ 0,0325171642031 χ22

-0,032660375867682 (X2 - 1,35) i

+0,000082183735415 (χ2 - 5,161111) i

+0,000079441422929 (χ2 - 8,9722222) i

+0,000090794244481 (χ2 - 16,5944444)i

-0,000346005761766 (χ2 - 20,4055556)i

+0,00029106019013 (χ2 - 24,2166667)i

  • 4.    KESIMPULAN DAN SARAN

Estimasi model regresi nonparametrik spline yang terbaik pada kasus pertumbuhan berat badan balita adalah model regresi spline dengan orde optimal kuadratik dengan 6 titik knot pada masing-masing variabel prediktor. Nilai GCV minimum yang dihasilkan adalah 0,900683471925 serta koefisien determinasi (R2) sebesar 0,954609. Hal ini menunjukkan bahwa regresi nonparametrik spline dapat memodelkan hubungan antara berat badan balita saat lahir (X1) dan umur balita saat ditimbang (X2) terhadap berat badan balita saat ditimbang (Y) dengan baik.

Untuk penelitian selanjutnya saran yang dapat penulis sampaikan untuk penelitian lebih lanjut dengan pendekatan regresi nonparametrik yang lain regresi kernel. Penentuan orde pada setiap variabel dalam regresi spline tidak harus sama melainkan bisa berbeda-beda untuk setiap variabel.

DAFTAR PUSTAKA

Draper, N. R., & Smith, H. (1992). Analisis Regresi Terapan, diterjemahkan oleh Bambang Sumantri. Jakarta: PT. Gramedia Pustaka Utama.

Eubank, R. (1999). Spline Smoothing and Nonparametric Regression. New York: Marcell Dekker.

Hardle,W. (1994). Applied Nonparametric Regression.New     York:     Cambridge

University Press.

Neter, J., Wasserman, W., & Kutner, M. H. (1997a). Model Linier Terapan I : Analisis Regresi Linier Sederhana. Terjemahan Bambang Sumantri. Bogor:   Jurusan

Statistika FMIPA IPB.

Wahba, G. (1990). Spline Models for Observational Data. CBMS-NSF Regional Conference Series in Applied Mathematics, 59.

263