Model Regresi Zero Inflated Poisson Pada Data Overdispersion
on
Jurnal Matematika Vol. 3 No. 2, Desember 2013. ISSN: 1693-1394
Model Regresi Zero Inflated Poisson Pada Data Overdispersion
Wirajaya Kusuma
Fakultas MIPA, Universitas Mataram e-mail: Kusuma_Wirajaya@yahoo.co.id
Desy Komalasari
Fakultas MIPA, Universitas Mataram e-mail: Desi_its@yahoo.com
Mustika Hadijati
Fakultas MIPA, Universitas Mataram e-mail: Ika_wikan@yahoo.co.id
Abstract: Overdispersion is a phenomenon of the data variance greater than the average. One of the causes of overdispersion is too many zero value (excess zero) on the response variable. Zero inflated Poisson regression model (ZIP) is one of the method that can be used to overcome problems due to excess zeros. The purpose of this research is to estimate the regression parameters model Zero -inflated Poisson (ZIP) and applying to the data of unsuccessful students in national examinations in senior high school and vocational school in the city of Mataram. Parameter estimation Zero inflated Poisson regression model using the maximum likelihood and maximization expectation algorithm with Newton Rhapson approach. Zero inflated Poisson regression model obtained on the data is:
ln(μ i ) = -0,3954 + 0,1153x2i dan logit (ω) = -4,2963 + 0,1280X3i
With ^2 is school accreditation; and ^3 is the proportion of teachers who are already certified
Keywords: Zero Inflated Poisson, Overdispersion, Maximization Expectation, Newton Rhapson, unsuccessful students SMA/SMK
-
1. Pendahuluan
Analisis regresi adalah suatu metode yang digunakan untuk menganalisis hubungan antara variabel dependent (Y) dan variabel independent (X). Salah satu model regresi yang dapat digunakan untuk menganalisis hubungan antara variabel dependent Y yang berupa data diskrit dan variabel independent X berupa data kontinyu, diskrit, atau campuran adalah model regresi Poisson. Dalam model regresi Poisson terdapat beberapa asumsi, salah satu asumsi yang harus terpenuhi adalah variansi dari variabel dependent sama dengan rataannya (equidispersion).
Namun, dalam analisis data sering dijumpai data yang variansinya lebih kecil atau lebih besar dari rataannya. Keadaan ini lebih dikenal dengan underdispersion atau overdispersion. Salah satu penyebab terjadinya overdispersion adalah terlalu banyak nilai nol (excess zero) pada variabel respon. Model regresi Zero Inflated Poisson (ZIP) merupakan salah satu metode yang dapat digunakan untuk mengatasi masalah overdispersion akibat excess zeros pada data respon bertipe diskrit. Pada regresi ZIP terdapat dua parameter yang akan diestimasi yaitu parameter μ yang mewakili variabel yang mempengaruhi zero state dan parameter ω yang mewakili variabel yang mempengaruhi Poisson state.
Permasalahan yang diangkat dalam penelitian ini yaitu bagaimana menaksir parameter model regresi Zero Inflated Poisson (ZIP) dalam mengatasi overdispersion; dan bagaimana menerapkannya pada data. Sehingga yang menjadi tujuan pada penelitian ini yaitu menaksir parameter model regresi Zero Inflated Poisson (ZIP); dan menerapkan pada data ketidaklulusan siswa SMA/SMK di Kota Mataram.
-
2. Tinjauan Pustaka
-
2.1 Regresi Poisson
-
Regresi Poisson termasuk kedalam Generalized linier model (GLM) dan merupakan salah satu bentuk regresi yang digunakan untuk model data cacah. Variabel dependent dalam persamaan tersebut menyatakan data cacah (Hilbe [4]).
GLM didefinisikan ke dalam tiga komponen yaitu komponen acak, komponen sistematis dan fungsi penghubung. Komponen acak adalah suatu komponen yang mengidentifikasikan distribusi peluang dari variabel respon Y = (yi,y2,∙,yn) diasumsikan saling bebas dan memiliki distribusi yang termasuk dalam keluarga eksponensial dengan fungsi kepadatan peluang sebagai berikut:
f (y; θ i, Φ ) = e xp [^^ - c(yi∙, φ )] (2.1)
Parameter Θl disebut parameter natural dan parameter φ disebut dengan parameter dispersi. Komponen sistematis dari komponen model linier umum yang menghubungkan vektor η = [2i 22 ••• 2n]τ kepada sekumpulan variabel prediktor melalui model linier η = Xτβ dimana Xt adalah matriks rancangan yang berisi nilai-nilai variabel prediktor untuk n buah pengamatan, β adalah vektor dari parameter dalam model dan vektor η disebut prediktor linier. Komponen ketiga dari GLM yaitu fungsi link yang menghubungkan komponen acak dengan komponen sistematis.
Suatu fungsi disebut fungsi link kanonik jika:
gμμ ) = ^ = ILjPjXji (2.2)
dengan Θi merupakan parameter kanonik (Agresti [1]).
Jika y t merupakan variabel acak untuk data cacah dengan i = 1,2,..., n, dimana n menyatakan banyaknya data dan yi berdistribusi Poisson maka fungsi kepadatan peluangnya adalah:
μ i
f (yt,μl) = — (2.3)
Untuk μi >0, dengan μi merupakan rataan dari variabel dependen Y.
Fungsi peluang Poisson termasuk keluarga eksponensial sehingga dapat ditulis:
f (yt,μi) = eχp(yin(μi) -μi -in(ytD) (2.4)
Dengan menggunakan fungsi link diperoleh model regresi Poisson berikut:
(2.5)
V i = ln(μ i) =xI P
Asumsi yang harus dipenuhi pada model regresi Poisson yaitu:
Var(Y1) = E(Ki) = μi = exp( XT |i)
Dengan Xt matriks yang berukuran 1 × p yang menjelaskan variabel independen dan β adalah vektor berukuran p × 1 yang merupakan parameter regresi. Sehingga fungsi kepadatan peluang pada regresi Poisson adalah sebagai berikut:
f (yt, μ i) =
≈p[6'iXi'β-^
yi!
(2.6)
Nilai harapan y t bergantung pada variabel independen adalah μi. Taksiran parameter koefisien regresi Poisson dapat dilakukan dengan menggunakan Maximum Likelihood Estimation (MLE) (Hilbe [4]).
-
2.2 Overdispersion
Fenomena overdispersion dapat ditulis:
Var(Y) > E(Y)
(2.7)
Taksiran dispersi dapat diukur dengan nilai deviance dan pearson chi-square. Data dikatakan overdispersion jika taksiran dispersi lebih besar dari 1 dan underdispersion jika taksiran dispersi kurang dari 1 (Khoshgoftaar, et al. [8]).
Terdapat dua cara yang dapat digunakan untuk mendeteksi overdispersion, yaitu:
-
1. Deviance
Φ1 = ⅛^=2∑>φn( l)}
(2.8)
dimana db = - dengan merupakan banyak parameter termasuk konstanta,
n merupakan banyaknya pengamatan dan D2 adalah nilai deviance (Hilbe [4]).
-
2. Pearson chi-square
untuk menguji asumsi equidispersion pada regresi Poisson dilakukan dengan melihat nilai statistik Pearson chi-square yang dibagi dengan derajat bebasnya.
φ= ; V2 =∑ Γ ( yi- µi)
(2.9)
2= ; ^ i 1 var(yt)
dimana db = -P dengan P merupakan banyak parameter termasuk konstanta, n merupakan banyaknya pengamatan dan X2 adalah nilai pearson chi-square .
Jika nilai Φ^ dan ^2 bernilai lebih dari satu maka terjadi overdispersion pada data.
-
2.3 Regresi Zero-Inflated Poisson (ZIP)
Salah satu penyebab terjadinya overdispersion adalah lebih banyak observasi bernilai nol daripada yang ditaksir. Salah satu metode yang diusulkan untuk menaksir yaitu model regresi Zero Inflated Poisson (ZIP) (Jansakul & Hinde [7]).
Jika yt adalah variabel random yang mempunyai distribusi ZIP, nilai nol pada observasi diduga muncul dalam dua cara yang sesuai untuk keadaan (state) yang terpisah. Keadaan pertama disebut zero state terjadi dengan probabilitas ^i dan menghasilkan hanya observasi bernilai nol, sementara keadaan kedua disebut Poisson state terjadi dengan probabilitas (1-^i ) dan berdistribusi Poisson dengan mean µ (Jansakul & Hinde [7]).
Proses dua keadaan ini memberikan distribusi campuran dua komponen dengan fungsi probabilitas sebagai berikut:
ωi+(1-ωi)eµi, untuk yi =0
(1-ωi)eµiµ.yi
, untuk yt>0,0≤ωi≤1
Lambert [9] menyarankan model gabungan untuk µ dan ω, yakni:
ln(µ) = x?p dan logit (ω)=ln( ⅛ )=x?Y
(2.10)
(2.11)
dengan Xi adalah matriks variabel prediktor, β dan γ adalah vektor parameter yang akan ditaksir, dan ω adalah probabilitas observasi bernilai nol (Ismail & Zamani [6]).
-
2.4 Metode Maksimum Likelihood
Pandang suatu sampel random ^l , ^2 ,…,Xn dari suatu distribusi yang memiliki p.d.f f(X;θ): θeΩ, dimana θ merupakan suatu parameter yang tidak diketahui dan Ω adalah ruang parameter. Karena X^ , ^2 ,…,Xn sampel random, maka p.d.f bersama dari X^ , X'2,…,Xn adalah:
f U1 ,X2.....Xn-' θ) = f Ui' Θ)∕U2; Q) ...f(xn; θ) (2.12)
Fungsi likelihood didefinisikan sebagai fungsi peluang bersama dari X1,X2, ...,Xn yang dapat dianggap sebagai fungsi dari 0. Misalkan fungsi likelihood:
L(θ)=f(Xι,X2.....Xn'0 ) =f(Xι'θ) f(X2'θ)... f(Xn'θ ) ' 0 eO
= ∏= 1fXxr,θ ) (2.13)
Penaksiran maksimum likelihood yang memaksimumkan fungsi likelihood θ disebut taksiran maksimum likelihood dari θ. Nilai θ yang memaksimumkan I0θ) dapat diperoleh dengan mencari solusi dari persamaan ^(^ = 0 (Hoog & Craig [5]).
∂θ
-
2.5 Algoritma EM
Algoritma EM diperkenalkan oleh Dempster, Laird dan Rubin [2], merupakan salah satu metode optimasi yang digunakan sebagai alternatif dalam memaksimumkan fungsi likelihood yang mengandung data missing. Dua tahap dilakukan dalam Algoritma EM, yaitu tahap Ekspektasi dan Maksimalisasi. Misal diasumsikan terdapat data observasi x berdistribusi tertentu yang mengandung data missing y. Untuk mengatasinya dibentuk distribusi gabungan antara x dan y, yaitu:
f (z∖^) = f(X,y∖θ} = f(χ∖y) f (y) (2.14)
Langkah “E” pada algoritma EM adalah menghitung complete data likelihood. L(θ | x, y) , yaitu menghitung ekspektasi dari missing data dengan diketahui data yang ada (tidak missing). Berikut langkah-langkah algoritma EM diantaranya Menentukan inisialisasi parameter θk ;k = 0; Langkah ekspektasi yaitu Menghitung complate data likelihood dengan cara substitusi θ k pada fungsi Q(0k) = E[L^θk∖x, y)∖x∖ ; Langkah
(U)
maksimalisasi dilakukan dengan mengacu pada kondisi = 0 untuk mendapatkan
inisialisasi yang baru; Langkah E dan M dilakukan secara iteratif sampai didapatkan perbedaan antara (θk+1 - θk) lebih kecil dari kriteria l tertentu yang bernilai kecil (θ)
sehingga diperoleh θ yang konvergen dan memenuhi ^2 < 0. Optimasi secara
numerik dapat dilakukan pada langkah M.
-
3. Metode Penelitian
Berikut tahapan penelitian meliputi:
-
1. Menaksir Parameter Model Regresi Zero Inflated Poisson
Untuk menaksir parameter model regresi Zero Inflated Poisson digunakan maximum likelihood estimation (MLE) dengan langkah-langkahnya sebagai berikut:
Menentukan fungsi probabilitas variabel respon dari model regresi zero-inflated Poisson; Membentuk fungsi likelihood; Menentukan fungsi ln-likelihood; Membentuk distribusi dari variabel zi ; Membentuk distribusi gabungan antara yi dan zi ; Menentukan turunan parsial pertama dan kedua dari fungsi ln-likelihood distribusi gabungan yi dan zi ; Tahap ekspektasi; dan Tahap maksimalisasi dengan iterasi Newton-rhapson.
-
2. Penerapannya Pada Data
Pada penelitian ini, diterapkan pada data ketidaklulusan Siswa SMA/SMK dalam Ujian Nasional di Kota Mataram Tahun 2012. Data diambil dari DIKPORA Kota Mataram yang memuat 42 data sekolah dimana variabel yang digunakan dalam penelitian ini berupa Variabel Respon (Y) yaitu Jumlah siswa SMA/SMK yang tidak lulus UN di Kota Mataram tahun 2012; dan Variabel prediktor (X) meliputi X 1 (jumlah peserta UN pada tiap SMA/SMK di Kota Mataram); X2 (akreditasi sekolah SMA/SMK di kota Mataram) yang dibagi sebagai berikut:
X2 ={
-
1, jika SMA atau SMK terakreditasi A
0, jika SMA atau SMK terakreditasi selain A
dan X 3 (presentasi proporsi guru yang sudah sertifikasi pada tiap SMA/SMK di kota Mataram).
-
4. Hasil dan Pembahasan
-
4.1 Menaksir Parameter Model Regresi Zero-inflated Poison (ZIP)
-
Jika yt adalah variabel random yang mempunyai distribusi ZIP, nilai nol pada observasi diduga muncul dalam dua cara yang sesuai untuk keadaan (state) yang terpisah. Keadaan pertama disebut zero state terjadi dengan probabilitas ^i dan menghasilkan observasi bernilai nol, sementara keadaan kedua disebut poisson state terjadi dengan probabilitas (1-^i) dan berdistribusi Poisson dengan mean μi.
Proses dua keadaan ini memberikan distribusi campuran dua komponen dengan fungsi probabilitas sebagai berikut:
{ +(1-ωi)exp(-μi), untuk yi =0
(1-^i)exp(-μi)μiyi (4.1)
, untuk yi>0,0≤ ≤1
Lambert [9] menyarankan model gabungan untuk µ dan ω, yakni:
ln(µi)= ⅛βdan logit (ω)=ln(≡)=x?Y
(4.2)
Dengan X? adalah matriks variabel prediktor, β dan γ adalah vektor parameter yang akan ditaksir, dan ω adalah probabilitas observasi bernilai nol.
Maka dapat ditentukan nilai μi, ωι dan (1 - COl) sebagai berikut:
µi = exp(X⅛β)
exp (Xh)
ωt =(1+exp (χh ))
(1-ωi)=
exp ( χh )
nilai μi, ωι dan (1 - COi) disubstitusikan yaitu:
⎧ exp( * ^ + — exp(- exp(x⅛)), yi =0
⎪(1 + exp(χh)) (1 + exp(xh )) ,
P(Yi = ⎪ (1 + exp(χh exp(-exp(χ⅛))(exp( ^ )) .
⎩ yt!,yl>0,
(4.3)
Jika n buah pengamatan diasumsikan saling bebas, maka fungsi likelihood diperoleh dengan mengalikan semua fungsi probabilitas dari Y i yaitu:
Untuk Vi =0
j ( , v )=∏[exp(xh) +exp(-exp(⅜ ))
, (1 + exp(χh )p) ]
(4.4)
(4.5)
Untuk Vi>0
l ( l exp(-exp(x⅞))(exp(x⅞ )) >r
1 (β,γ| yi)= ∏ [ p (1p+exp( )p) !
Dibentuk fungsi ln-likelihood sebagai berikut:
Untuk Vi =0
I(β,Y| yi)=InL (β,Y| yi )
=∑In(exp(xh) +exp(-exp(χh)))- ∑ In(1 + exp(xh)) yι=o yι=o
Untuk Vi>0
I(β,Y| yi ) = InL (β,Y| yi )
=
{ exp(-exp(χh))(exp(χh))
]}
(1 +exp(xh )) yi !
=∑(y& - exp(x⅛))-∑In (1 + exp(χ⅛))- ∑ ln(yi !) yt>o yt>o yi>o
(4.6)
Total ln-likelihood dapat diberikan oleh ^T =(β,γ| yt ) y^=o +I(β,γ| yt ) yt>o yaitu:
lτ =∑yi=0ln (exp(*iV) + exp(- exp(Xi β)))-∑yi=θln(1 + exp(Xil))+
∑ yi>o( yix⅛ - exp(x⅛))-∑yi>0 ln (1 + exp(Xh))-∑yi>o ln( yt !) (4.7)
Pada persamaan (4.7) tidak diketahui mana nilai nol yang berasal dari zero state dan mana yang berasal dari poisson state sehingga menyulitkan perhitungan dan fungsi ln-likelihood ini tidak dapat diselesaikan dengan metode numerik biasa.
Untuk memaksimalkan fungsi ln-likelihood digunakan algoritma expectation maximization (EM) yang merupakan salah satu metode optimasi yang banyak digunakan sebagai alternatif dalam memaksimumkan fungsi likelihood yang mengandung data hilang (missing)).
Misalkan untuk setiap Y i berkaitan dengan variabel indikator zi yaitu:
1, jika yi berasal dari zero state
(4.8)
{0, jika yi berasal dari poisson state
Dapat dibentuk distribusi dari indikator zi yaitu:
P( zi=1)=ωi dan P( zi =0) = 1-ωi
Sehingga zi ~ binomial (1, COl).
Jika nilai variabel respon Vi = 1,2,3,...., maka nilai zi = 0. Sedangkan jika nilai
variabel respon Vi = 0, maka nilai zi mungkin 0 atau 1. Jadi untuk variabel respon Vi = 0, maka nilai zi belum bisa ditentukan. Oleh karena itu dibentuk distribusi gabungan antara Y i dan zi sebagai berikut:
(zi ) Ui+(1-zi)(1-Ui)exp(-μi), untuk yi =0
P( yi , zi | ωi,μi)= - (1-Ui)exp(-μi)μiyi ■ S ∩ ∩ < 1
(1-),untuk y i>0,0≤ ≤1
!
Jika n buah pengamatan diasumsikan saling bebas, maka fungsi
(4.9) likelihood
diperoleh dengan mengalikan semua fungsi probabilitas dari Yi sebagai berikut: Untuk Vi=0
Untuk yi > 0
1—exp(-exp(X? β))(exp(X? β)) y'l
L(β,γ∣ ⅛y) = Il -< l ; t ' i j I (4.11)
(1 + exp(X ? γ)) y! J
Digunakan fungsi ln-likelihood untuk mempermudah perhitungan sebagai berikut:
Untuk yi = 0
I( β ,Y∣ Z, y) = l^L(β,γ∣ zi, yi)
= Σ (ZtX]γ) - ∑(1 - zi) exp(X? β ) - ∑ ln(1 + exp(X^γ)) Vi=O yi=0 yi=0
Untuk > 0
( , ∣ , ) = ( , ∣ , )
= ∑y i > 0(1 - Zi)( yX? β) - ∑y i>o(1 - Zi) exp(χτ β )
-∑yi> o ∕∏(1 + exp(xΓγ)) - ∑y i> o^ y! (4.12)
Sehingga total In-Iikelihood nya dapat diberikan oleh I τ = l(β ,γ∣ z i, yi) y i=0 + I( β ,γ∣ Zi,y)y i>o yaitu:
n n
lτ = ∑[ziX^γ - /n(1 + exp(χTγ))] + ∑(1 - Z)(( yX? β - exp(X? β )) i=ι i=i
n
-∑(n)ln y!
i=i
Persamaan ini disebut complate data likelihood. Persamaan ini dimaksimumkan menggunakan algoritma EM, dimana parameter β dan γ dapat diestimasi secara terpisah. Sehingga dapat ditulis sebagai berikut:
l( β,γ,Zi,y) = l(γ,Zi,y) + l( β,⅞y) - ∑i= 1(n)ln y! (4.13)
dengan :
l(γ,Zi,y) = ∑∙= ι[ZiXlγ - ln(1 + exp(χlγ))]
(4.14)
dan
l (β,Zi,yi) =∑!,=1(1-Zi)(( yXTβ-exp(XTβ)) (4.15)
Taksiran maksimum likelihood βo,βi,... βp dan y0, y1,... fp, sebagai berikut:
Untuk Z( β ,zyyi)
Misalkan exp(X? β ) = exp(βo + βi Pi i+... + βp Xp i) dan Uj ( β ) turunan pertama dari (ββ, zi, yi) terhadap β j (j = 0,1,2, ..,p) maka:
l (β,zl.yl) =∑F=1(1-Zi)( yiχTβ-exp(χTβ)) (4.16)
Up( β) = d-^β^ = ∑t1(1 - zi)Xpi( yi - exp(β0 + βi Pii+... + βp Ppi)) = 0
Untuk ( , , )
Misalkan exp( ) = exp( + +. . . + ) dan ( ) turunan pertama
dari Z(γ,z i, yi) terhadap /j (j = 0,1,2, .,p ) maka : n
l(γ,zi,yi) = ∑[ziX-γ - Zn(1 + exp(X^γ))] i=i
= ∑"=ι[zi(Ko + /1 Pi i+... + /p Pp i) - ^(1 + exp(∕o + /i Pi i+... + /p Pp i))]
(4.17)
Selanjutnya turunan pasial kedua dari ( , , ) terhadap , ,. dan ( , ,)
terhadap , ,. yaitu:
Misalkan ( ) adalah turunan parsial kedua dari ( , , ) terhadap ,,.
dimana j,k = 0,1,2, ...,p maka: n (B1 -d2 1 (β,zi,yi) Hpp(p) =
0Pp
=⅛[∑α-ziM λ
-
exp(βo + βι Pii + ■■■ + βp Ppi))]
Misalkan ( ) adalah turunan parsial kedua dari ( , , ) terhadap , ,.
dimana j,k = 0,1,2, ...,p maka:
Hp p (Y) =
∂2l (γ,zi,yi)
-∑
i=i
∂Yp2 n
X;
■Pi2 exp(/o + /1 Pi i+... + /p Xpi)
2
(1 + exp(/o + /1 Pi i+... + /p Pp i))
Atau dapat ditulis dalam bentuk matriks:
H (γ) =
ΓH o (Y)
Ho (Y)
Tahap ekspektasi:
Mengganti variabel Zi dengan zβm^ (m = 0,1,2,...) yang merupakan ekspektasi dari Zi
√"∙'= K(⅛,γl'">,βl'">)
= Pfe∣Λ.γ,"".β,"")
Untuk yi = 0
_ i
i+exp(-X^γtm) -exp(χTβ(m)))
Untuk yi > 0
zi(m) = P(zi = 0∣yi,γ(m),β(m))
=0
Tahap maksimalisasi untuk parameter β dan γ
(4.18)
(4.19)
Untuk mencari taksiran maksimum likelihood (β0,β1 ,.βp digunakan metode newton-rhapson dengan prosedur sebagai berikut:
dan Yo, Yi,-Yp)
1. Pilih taksiran awal dari β = Hi yaitu β(0) =
Kol .. f
dan γ = : yaitu y(0 ) = .
AJo β i
-βp -
-
2. Tentukan taksiran dari β dan γ pada iterasi ke- m + 1 (m = 0,1,2,...) yaitu β (m+i ) dan ( ) , secara iteratif menggunakan formula:
β(m+1) = β(m) - [H(β(m))] iU(β(m)) (4.20)
dan
^(rn+1) = ^m) _ [H(y(m))]^ iU(γ(m)) (4.21)
dengan :
β(m), y(m) adalah masing-masing taksiran dari β dan γ pada iterasi ke - m.
U ( ̂( m)), U( ̂( m )) adalah masing-masing vektor turunan parsial pertama dari I(β, zi , yi ) dan i(Y, zi , yi ) dengan elemen U i (β)=-( , ? , Zi ) dan U i (Y)=dI ( ,, Zi ) (dengan j=0,1,2,...,P) dihitung pada β = ̂( m ) dan γ = ̂( m.
H ( ̂( m )), H( ̂( m )) adalah masing-masing matriks turunan parsial kedua
dari I(β, zi , yi )
dengan elemen Hjk (β)=
∂21(β) ∂βk∂βj
dan Hjk (Y)=
d^(γ,d, ~ ) (dengan j,k=0,1,2,...,P ) dihitung pada β = ̂( m ) dan γ = ̂( m.
-
3. Ganti β(m ) dan γ(m ) dengan β( m+1 ) dan γ( m+1 ) pada iterasi selanjutnya kemudian kembali lakukan tahap ekspektasi.
-
4. Tahap ke- 2 dan ke- 3 dilakukan secara berulang-ulang. Hentikan proses iterasi jika ‖ ̂( m+1)- ̂(m)‖<10 5 dan ‖ ̂( m+l)- ̂(m)‖<10-5, lalu ambil ̂( m+1 ) sebagai taksiran ̂ dan ̂( m+1 ) sebagai taksiran ̂.
Dengan menggunakan taksiran maksimum likelihood ̂Q, ̂I,… ̂P dan
̂Q, ̂1,…̂P dapat dibentuk model ZIP nya yaitu:
ln(μ̂i)= ̂O+ ̂IxIi+⋯+ ̂pxpi =1,2,…,n (4.22)
dan
logit ( ̂)=̂o+ ̂ιxιi+⋯+ ̂p^pi (4.23)
Untuk menyelesaikan persamaan iterasi pada umumnya digunakan software.
-
4. 1.2 Taksiran Matriks Variansi-Kovariansi
Taksiran matriks variansi-kovariansi ̂ dan ̂ dinyatakan dengan V( ̂) dan V( ̂):
V( ̂) ≈-[H( ̂)] dan V( ̂) ≈-[Н( ̂)]-1 (4.24)
Elemen diagonal utama ke- j masing-masing matriks V( ̂) dan V( ̂) menunjukkan taksiran variansi dari ̂j dan ̂j yang dinyatakan dengan Var( ̂j) dan Var( ̂j), elemen non diagonalnya menunjukkan taksiran kovariansi dari
( j dan β ji ) dan ( ̂I dan ̂ ji) yang dinyatakan dengan Cov( j, ji) dan Cov( ̂I, ̂ ji); j,k = 0,1,2,...,P . Dari matriks V( ̂) dan V( ̂) diperoleh taksiran standar error dari βj dan ̂j yaitu:
SE ( ̂i) =√Var( ̂i ) dan SE ( ̂ j ) =√Var( ̂ i ) j = 0,1,2,...,P (4.25)
Nilai SE ( ̂j ) dan SE ( ̂j) akan digunakan dalam pengujian signifikansi dari tiap parameter dalam model.
-
4.2 Penerapan Pada Data
-
4.2.1 Model Zero-Inflated Poisson (ZIP)
-
Data mengalami overdispersion maka untuk menganalisisnya digunakan ZIP. Dengan menggunakan software diperoleh estimasi parameter model regresi ZIP sebagai berikut:
ln(µi) = -0,3954 - 0,1584Xii + 0,1153x2i + 7,8536X31 i = 1,2,..,42
logit (ω) = -4,2963 - 0,0056Xii + 1,2618x2i + 0,1280X3i i = 1,2,..,42
Selanjutnya diuji signifikansi model apakah model tersebut dapat digunakan untuk menggambarkan hubungan antara jumlah siswa yang tidak lulus UN dengan jumlah peserta UN, akreditasi sekolah dan proporsi guru yang sudah sertifikasi. Menggunakan nilai fits statistics regresi ZIP diperoleh -2 Log Likelihood sebesar 35,20; nilai AIC sebesar 51,2; nilai AICC sebesar 55,6; dan nilai BIC sebesar 65,1. Sehingga diperoleh nilai G = 35,2 > , ; = 12,592 НQ ditolak yang artinya model regresi
Poisson signifikan dan model ZIP dapat digunakan untuk menggambarkan hubungan antara jumlah siswa yang tidak lulus UN dengan jumlah peserta UN, akreditasi sekolah dan proporsi guru yang sudah sertifikasi.
Selanjutnya akan diuji signifikansi dari tiap parameter model regresi Poisson menggunakan uji Wald untuk model ln(μi)=xτβ . Diperoleh hanya parameter β2 yang signifikan pada a = 0,05 sedangkan parameter yang lain tidak signifikan. Berdasarkan kesimpulan tersebut didapat model sebagai berikut:
ln(Vi) = -0,3954 + 0,1153x2i i = 1,2,…,42
Dengan %2 i adalah akreditasi sekolah SMA/SMK.
Untuk model logit(ω)=^iY; Pengujian signifikansi parameter secara individu digunakan uji Wald. Diperoleh hanya parameter β3 yang signifikan pada a = 0,05 sehingga dapat dibentuk model logitnya sebagai berikut:
logit (ω) = -4,2963 + 0,1280X3i i = 1,2,..,n
dengan ■^3 adalah proporsi guru tiap SMA/SMK yang sudah sertifikasi.
-
4.2.2 . Interpretasi Hasil
Berdasarkan uji signifikansi parameter regresi ZIP diperoleh model
ln(µi) = -0,3954 + 0,1153X2 i dan logit (ω) = -4,2963 + 0,1280X3i
i = 1,2,…,42
Artinya bahwa setiap sekolah yang terakreditasi A menyebabkan penurunan nilai harapan siswa yang tidak lulus sebesar exp(0,1153) = 1,12 kali sekolah yang
terakreditasi selain A dan penambahan proporsi guru SMA/SMK yang sudah sertifikasi sebesar 1% akan menurunkan jumlah siswa yang tidak lulus UN sebesar
= 100(e0, 1280) -1) =13,66%.
-
5. Kesimpulan dan Saran
Kesimpulan
Berdasarkan hasil penelitian dapat disimpulkan bahwa:
-
1. Hasil estimasi parameter pada model regresi ZIP berbentuk implisit. Metode yang digunakan yaitu Algoritma Expectation Maximization (EM). Pada tahapan maksimalisasi digunakan pendekatan Newton Rhapson untuk memaksimalkan fungsi Likelihood yang diperoleh dari tahapan Ekspektasi.
-
2. Model regresi Zero Inflated Poisson yang diperoleh pada data ketidaklulusan siswa SMA/SMK di Kota Mataram tahun 2012 sebagai berikut:
ln(µi) = -0,3954 + 0,1153x2i dan logit (ω) = -4,2963 + 0,1280x3i dengan
-
^2 adalah akreditasi sekolah SMA/SMK
-
^3 adalah proporsi guru SMA/SMK yang sudah sertifikasi
Saran
Penelitian lanjutan dapat menggunakan model regresi Zero Inflated Negative Binomial (ZINB) dan model regresi Zero Inflated Generalized Poisson (ZIGP) untuk mengatasi masalah overdispersion pada regresi Poisson.
Daftar Pustaka
-
[1] Agresti, A. 1990. Categorical Data Analysis. New York: John Wiley & Sons, Inc.
-
[2] Dempster, A. P, Laird, N. M, Rubin, D. B. Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society. Series B (Methodological). 1977. Vol. 39. No. 1: 1-38.
-
[3] Hall, D, B and Shen, J. Robust Estimation for Zero-Inflated Poisson Regression. Scandinavian Journal of Statistics, Blackwell Publishing Ltd. 2009: 1-16.
-
[4] Hilbe, J, M. 2011. Negatif Binomial Regression 2nd Edition. Cambridge: Cambridge University Press.
-
[5] Hoog, R, V and Craig, A, T. 1995. Introduction to Mathematical Statistics. New Jersey: Prentice-Hall Inc.
-
[6] Ismail, N and Zamani, H. 2013. Estimation of Claim Count Data using Negative Binomial, Generalized Poisson, Zero-Inflated Negative Binomial and Zero-Inflated generalized Poisson Regression Models. Casualty Actuarial Society E-Forum. 41(20): 1-28.
-
[7] Jansakul, N and Hinde, J, P. Score Tests for Zero-Inflated Models. Computational Statistics and Data Analysis. 2002. Vol. 40: 75-96.
-
[8] Khoshgoftaar TM, Gao K, Szabo RM. 2004. Comparing Software Fault Predictions of Pure and Zero-Inflated Poisson Regression Models. International Journal of System Science 36(11): 705-715.
-
[9] Lambert, D. Zero-Inflated Poison Regression with an Application to Defects in Manufacturing. Technometrics. 1992. Vol.34: 1-14.
85
Discussion and feedback