p-ISSN: 2301-5373

e-ISSN: 2654-5101

Jurnal Elektronik Ilmu Komputer Udayana

Volume 11, No 3. February 2023

Prediksi Hasil Panen Padi Di Kabupaten Jembrana Dengan Metode Linear Regression

Abstract

Prediction of agricultural yields is very much needed in terms of planning and decision making as well as in national food security policies. One of the strategic commodities that requires special attention is rice. This study aims to predict rice yields, especially in Jembrana Regency by using Linear Regression. Prediction is an important tool in effective and efficient planning. These results indicate that the rice yield prediction model can be used for forecasting purposes in the future. It is hoped that with this rice yield prediction system, it can help predict rice yields in the coming year and overcome the soaring increase in rice prices.

Keywords : Yields, Prediction, Linear Regression

  • 1.    Pendahuluan

Jembrana merupakan salah satu kabupaten penyangga pangan di provinsi Bali. Ada berbagai macam tanaman pangan yang dihasilkan di Kabupaten Jembrana setiap tahunnya salah satunya adalah padi. Padi merupakan salah satu tanaman pangan terpenting, karena padi menjadi sumber karbohidrat yang utama [1]. Kebutuhan bahan pangan terutama beras akan terus meningkat sejalan dengan pertambahan jumlah penduduk dan peningkatan konsumsi perkapita akibat peningkatan pendapatan. Hasil panen padi di kabupaten Jembrana mengalami naik turun. Sebagai upaya untuk mengatasi kenaikan harga beras yang melambung tinggi perlu adanya ramalan yang tepat tentang hasil panen padi di Kabupaten Jembrana yaitu sistem prediksi.

Prediksi merupakan proses memperkirakan sesuatu yang akan terjadi di masa depan secara sistematis berdasarkan informasi yang dimiliki di masa lalu dan sekarang [2]. Dalam penelitian ini akan digunakan metode Linear Regression untuk mendapatkan prediksi dari hasil panen padi di Kabupaten Jembrana. Algoritma linear regression adalah metode statistik yang digunakan untuk mengetahui pengaruh antara satu atau beberapa variabel terhadap satu buah variabel. Variabel merupakan besaran yang berubah-ubah nilainya. Variabel yang memengaruhi disebut dengan variabel bebas, variabel independen, atau variabel penjelas. Variabel yang dipengaruhi disebut dengan variabel terikat atau variabel dependen [3].

Gambar 1. Tahapan penelitian

Tahapan-tahapan yang dilakukan dalam penelitian adalah pengumpulan data, kemudian membagi data training dan data testing, kemudian mencari prediksi dengan regresi linier dan terakhir melakukan pengujian atau evaluasi.

  • 2.    Metode Penelitian

Dalam penelitian ini, tahap-tahap yang akan dilakukan adalah pengumpulan data, membagi data training dan data testing, penerapan algoritma linear regression, dan validasi hasil.

  • 2.1.    Pengumpulan Data

Dalam penelitian ini data yang digunakan adalah data yang berasal website Jembrana Satu Data Dari Desa atau disingkat JSDDD yang mana websitenya bernama https://survey.jembranakab.go.id/. Terdapat lima atribut yang digunakan dalam data yaitu nama kecamatan, luas tanam, luas panen, hasil produksi padi dan rata-rata hasil produksi padi.

  • 2.2.    Pre-Processing

Pre-processing merupakan langkah awal yang dilakukan dalam pengolahan data untuk membantu metode yang digunakan agar dapat berjalan dengan baik dan nantinya menghasilkan faktor kesalahan Root Mean Squared Error (RMSE) yang rendah. Pada tahap pre-processing, dilakukan proses cleaning data yang digunakan untuk menghilangkan informasi yang tidak diperlukan dalam proses preprocessing, yaitu menghilangkan atribut Kecamatan

  • 2.3.    Linear Regression

Metode Prediksi yang akan digunakan pada penelitian ini adalah Linear Regression. Linear Regression digunakan untuk membangun model untuk memprediksi hubungan antara dua variabel dengan menerapkan persamaan linier pada data yang diamati.

Metode utama untuk melakukan prediksi yakni membangun model regresi dengan mencari hubungan antara satu atau lebih variabel independen atau prediktor (X) dengan variabel dependen atau respons (Y). Linear regression memodelkan hubungan antara variabel skalar dan satu atau lebih variabel penjelas.

Metode linear regression tersusun atas dasar pola hubungan data yang relevan di masa lalu [4]. Algoritma linear regression dibagi menjadi dua jenis, yaitu simple linear regression dan multiple linear

regression. Simple linear regression merupakan hubungan antara satu variabel dependen dengan satu variabel independen, sedangkan multiple linear regression merupakan hubungan antara satu variabel dependen dengan dua atau lebih variabel independen.

Dalam penelitian ini digunakan multiple linear regression karena terdapat lebih dari satu variabel independen. Dataset penelitian terdiri dari satu variabel dependen (Y) dan tiga variabel independen (X). Variabel dependen tersebut adalah atribut Hasil Produksi Padi, sedangkan variabel independen adalah atribut Luas Tanam, Luas Panen, dan Rata-Rata Produksi Padi.

Perhitungan yang digunakan untuk multiple linear regression dinyatakan dalam persamaan 1

Y = a + a1X1 + b2X2 + .... + bnXn                              (1)

dimana

Y = variabel dependen (nilai yang akan diprediksi)

  • X1, X2,....Xn = variabel independen atau variabel bebas

a      = konstanta

b1, b2...bn = koefisien regresi.

Dengan mengacu pada persamaan 1, untuk menghitung hasil panen tanaman padi dengan algoritme linear regression, digunakan persamaan 2

Y = a + b1X1 + b2X2 + b3X3                                (2)

dimana

Y = hasil produksi

a = konstanta

b1 = koefisien variabel Luas Tanam

  • X1 = Luas Tanam

b2 = koefisien variabel Luas Panen

X2 = Luas Panen

Langkah awal yang dilakukan adalah pembentukan model, dengan mencari nilai a, b1, b2,…, bn menggunakan kuadrat terkecil dengan persamaan umum metode kuadrat terkecil

an + bl∑Xl + b2∑X2 = ∑ Y

aXl + bl∑(Xl)2 + b2∑(XlX2) = ∑X1Y                      (3)

aX2 + bl∑(XlX2) + b2∑(X2)2 = ∑X2Y

Setelah hasil inversi diketahui, selanjutnya dilakukan perkalian matriks determinan dengan ∑Y, ∑X1Y, ∑X2Y. Untuk menghitung determinan matriks A, Ao, Ai, dan A2, digunakan persamaan 4

N    ∑X1    ∑X2

a

∑γ

∑X1  ∑X1X1  ∑X1X2

x

bi

=

∑X1Y

(4)

∑X2  ∑X2X1  ∑X2X2J

. b2.

∑X2Y∖

Selanjutnya, mencari nilai a, b1, dan b2 dengan persamaan 5

Det AO

Det A


b1=


Det A1

Det A


b2=


Det A2

Det A


(5)


Selanjutnya, dilakukan perhitungan uji korelasi parsial untuk mengetahui tingkat keterkaitan masing-masing variabel independen terhadap variabel dependen. Perhitungan korelasi didapatkan dengan persamaan 6

∑X1Y = ∑X1Y - (∑^∑-)

∑X2Y = ∑X2Y - (∑x2)n(∑γ) ∑X1X2 = ∑X1X2 - (∑x1)t(∑x2)

Selanjutnya, dilakukan perhitungan uji koefisien determinasi untuk mengetahui besar pengaruh antara variabel independen terhadap variabel dependen, sehingga diketahui kecocokan model linear regression. Koefisien determinasi berkisar antara 0 sampai 1. Jika R2 = 0, maka tidak ada pengaruh antara variabel independen dengan variabel dependen, dan jika R2 semakin mendekati nilai 1, maka semakin kuat pengaruh variabel independen terhadap variabel dependen. Perhitungan untuk mencari R2 dapat dilihat pada persamaan 7

^2 _ -j _ SSerror sstotal


= 1 _yi-yi yt-y


(7)


dimana

yi = observasi respons ke-i

y = rata-rata

yi = ramalan respons ke-i

Koefisien determinasi dapat dihitung dengan persamaan 8

R =


b1∑X1Y + b2∑X2Y ∑Y2


(8)


dimana

R = jumlah koefisien determinasi

  • 2.4.    Evaluasi

Evaluasi dilakukan untuk menguji dan melihat tingkat akurasi algoritme linear regression terhadap pemrosesan data. Dalam pengujian metode digunakan cross validation untuk memvalidasi keakuratan sebuah model yang dibangun berdasarkan dataset tertentu. Cross validation adalah cara untuk menemukan parameter terbaik dari suatu model dengan menguji besarnya error pada data uji [5].

K-Fold Cross Validation adalah metode yang digunakan untuk mengetahui rata-rata keberhasilan dari suatu sistem dengan melakukan perulangan dengan mengacak atribut masukan untuk menguji atribut input yang dimasukkan. K-Fold cross validation dilakukan dengan membagi data sejumlah n-fold.

Percobaan 1

Test

Train

Train

Train

Train

Percobaan 2

Train

Test

Train

Train

Train

Percobaan 3

Train

Train

Test

Train

Train

Percobaan 4

Train

Train

Train

Test

Train

Percobaan 5

Train

Train

Train

Train

Test

Gambar 2. K-Fold Cross Validation

Pada penelitian ini akan dilakukan perhitungan K-Fold hingga 5-fold. Pada gambar 2 diperlihatkan 5fold cross validation dengan data testing ditampilkan berawarna kuning dan data latih ditampilkan berwarna putih.

Pengujian akurasi dilakukan dengan melihat perkembangan nilai RMSE. RMSE merupakan metode untuk mengevaluasi hasil teknik peramalan yang digunakan dengan mengukur tingkat akurasi dari hasil prakiraan suatu model [6].

RMSE


=  Γ(yi2

   n


(9)


dimana

yi = data awal

yi = data akhir n = jumlah data

RMSE merupakan nilai rata-rata dari jumlah kuadrat kesalahan yang dapat menyatakan ukuran besarnya kesalahan yang dihasilkan oleh suatu model prakiraan. Nilai RMSE yang rendah menunjukkan bahwa variasi nilai yang dihasilkan oleh suatu model prakiraan mendekati variasi nilai aslinya [7]. Sedangkan apabila nilai RMSE semakin besar, maka keakuratan suatu nilai yang dihasilkan semakin sedikit atau tidak akurat.

  • 3.    Hasil dan Pembahasan

Terdapat 5 kecamatan di kabupaten jembrana. Tabel II menunjukan data hasil panen padi yang berisi atribut Kecamatan, Luas Tanam, Luas Panen, Hasil Produksi Padi dan Rata-Rata Hasil Produksi Padi. Pada tahap Pre-Processing dilakukan proses data cleaning. Proses data cleaning digunakan untuk menghilangkan atribut data yang tidak dibutuhkan dalam proses pre-processing, yaitu dengan menghilangkan atau membuang informasi atribut Kecamatan yang tidak diperlukan dalam pengolahan data

Tabel I

Dataset Padi

Kecamatan

Luas Tanam

Luas Panen

Hasil Produksi Padi

Pekutatan

7

6

3

Mendoyo

40

40

19

Jembrana

11

12

7

Negara

40

32

17

Melaya

20

18

9

Tabel II

Data Cleaning

Luas Tanam

Luas Panen

Hasil Produksi Padi

7

6

3

40

40

19

11

12

7

40

32

17

20

18

9

Hasil perhitungan algoritma linear regression me nyatakan hubungan antara Luas Tanam, Luas Panen dan Hasil Produksi Padi.

Y = a + b1(Luas Tanam) + b2(Luas Panen)                    (10)

Untuk mendapatkan persamaan linear regression berganda dilakukan model multiple linear regression.

  • 3.1.    Multiple Linear Regression

Nilai a, b1, dan b2 merupakan nilai konstanta dan koefisien regresi yang dapat diperoleh dengan

menggunakan perhitungan matriks determinan. Pada penelitian ini, terdapat persamaan variabel yang tidak diketahui nilainya, yaitu a, b1, dan b2. Persamaannya adalah

N

∑X1

∑X2

A =

∑X1

∑X1X1

∑X1X2

(11)

∑X2

∑X2X1

∑X2X2J

A merupakan persamaan matriks yang digunakan untuk mencari nilai Det(A), dengan N adalah

banyaknya data, ∑X1 Luas Panen.

adalah jumlah dari variabel Luas Tanam dan ∑X2 adalah jumlah dari variabel

r ∑Y    ∑X1    ∑X2 1

Ao = l∑X1Y  ∑X1X1  ∑X1X2I                               (12)

I ∑X2Y  ∑X2X1  ∑X2X2-

A0 merupakan persamaan matriks yang digunakan untuk mencari nilai Det(A0), dengan ∑Y adalah jumlah dari variabel Hasil Produksi, ∑X1 adalah jumlah dari variabel Luas Tanam, ∑X2 adalah jumlah dari variabel Luas Panen

A1 =


■ N

∑X1

∑X2


∑γ   ∑X2

∑X1Y  ∑X1X2

∑X2Y  ∑X2X2-I


(13)


A1 merupakan persamaan matriks yang


digunakan untuk mencari nilai Det(A1), dengan N adalah

banyaknya data, ∑Y adalah jumlah dari variabel Hasil Produksi, ∑X2 adalah jumlah dari variabel Luas Panen.

A2 =


■ N

∑X1


∑X1 ∑X1X1


∑Y ∑X1Y


(14)


∑X2 ∑X2X1  ∑X2YJ

A2 merupakan persamaan matriks yang digunakan untuk mencari nilai Det(A2), dengan N adalah banyaknya data, ∑X1 adalah jumlah dari variabel Luas Tanam, ∑Y adalah jumlah dari variabel Hasil Produksi. Langkah selanjutnya adalah menentukan determinasi matriks A, A0, A1, A2

Det (A) = {N. ∑X1X1. ∑X2X2} + {∑X1. ∑X1X2. ∑X2} +

{∑X2. ∑X1. ∑X2X1} — {∑X2. ∑X1X1. ∑X2} —

{N. ∑X1X2. ∑X2X1} — {∑X1∑X1. ∑X2X2}

Det (Ao) = {∑Y . ∑X1X1. ∑X2X2} + {∑X1. ∑X1X2. ∑X2Y} +

{∑X2. ∑X1Y . ∑X2X1} — {∑X2. ∑X1X1. ∑X2Y } —

{∑Y . ∑X1X2. ∑X2X1} — {∑X1. ∑X1Y∙ ∑X2X2}

Det (Al) = {N. ∑X1Y∙ ∑X2X2} + {∑Y. ∑X1X2. ∑X2} +

{∑X2. ∑X1. ∑X2Y} — {∑X2∙∑X1Y∙ ∑X2} —

{N. ∑X1X2. ∑X2Y} - {∑Y. ∑X1. ∑X2X2}

Det (A2) = {N. ∑X1X1. ∑X2Y} + {∑X1. ∑X1Y∙∑X2} +

{∑Y. ∑X1∙ ∑X2X1} — {∑Y∙ ∑X1X1. ∑X2} -

{N. ∑X1Y. ∑X2X1} - {∑X1∙ ∑X1. ∑X2Y}

Berdasarkan perhitungan determinasi matriks, didapatlah hasil nilai a, b1, dan b2, seperti ditunjukkan pada Tabel III.

Tabel III.

Hasil Perhitungan Konstanta dan Koefisien

a

b1

b2

-0,79822

0,14939

0,31532

Berdasarkan hasil yang diperoleh untuk koefisien a, b1, dan b2 tersebut, hasil model multiple linear regression menjadi sebagai berikut.

∑Y = -0,79822 + 0,14939∑X1 + 0,31532∑X2

Tabel IV

Data aktual dan hasil prediksi

Data Aktual

Hasil Prediksi

3

2,1

19

18

7

5

17

16

9

8

bergantung pada variabel independen yang diukur, yaitu Luas Tanam dan Luas Panen Sedangkan sisanya, yaitu sebesar 4,96%, dipengaruhi oleh variabel lain yang tidak diukur pada penelitian ini.

  • 4.    Kesimpulan

Berdasarkan analisis data dan pembahasan yang telah dipaparkan, dapat ditarik kesimpulan bahwa algoritma linear regression dapat diterapkan untuk prediksi hasil panen padi dengan beberapa variabel yang memengaruhi yaitu Luas Tanam, Luas Panen, dan Hasil Produksi Padi

Dari jumlah data sebanyak 5 Kecamatan, dihasilkan tingkat kecocokan model multiple linear regression sebesar 95,04%. Artinya sebanyak 95,04% variasi nilai hasil panen bergantung pada variabel independen yang diukur, yaitu Luas Tanam dan Luas Panen. Sedangkan sisanya sebesar 4,96%, dipengaruhi oleh variabel lain yang tidak diukur pada penelitian ini.

Referensi

  • [1]    C.V. Donggulo, I.M. Lapanjang, dan U. Made, "Pertumbuhan dan Hasil Tanaman Padi (Oryza sativa L) pada Berbagai Pola Jajar Legowo dan Jarak Tanam," J. Agrol, vol. Vol. 24, p. hal. 27– 35, 2017.

  • [2]    Z.A. Matondang, "Sistem Pendukung Keputusan Forecasting Harga Emas Lelang pada Pegadaian dengan Metode Single Moving Average," J. Tek. Inform. Unika St. Thomas, Vols. Vol. 3, No. 1, p. hal. 72–77, 2018.

  • [3]    F. Anis dan Suprayogi, "Estimasi Luas Panen Padi di Kabupaten Rembang Menggunakan Algoritma Linear Regression," Skripsi, Universitas Dian Nuswantoro, Semarang, Indonesia, 2015.

  • [4]    M.F. Saputri dan S. Slamet, "Analisa Data Penjualan Menggunakan Metode Regresi Linier untuk Prediksi Persediaan Barang pada TB.Kawankita," Skripsi, Universitas Dian Nuswantoro, Semarang, Indonesia, 2016.

  • [5]    A. Fikri, "Penerapan Data Mining untuk Mengetahui Tingkat Kekuatan Beton yang Dihasilkan dengan Metode Estimasi Menggunakan Linear Regression," Skripsi, Universitas Dian Nuswantoro, Semarang, Indonesia, 2009.

  • [6]    T. Chai dan R.R. Draxler, "Root Mean Square Error (RMSE) or Mean Absolute Error (MAE)? -Arguments Against Avoiding RMSE in the Literature," Geosci. Model Dev, Vols. Vol. 7, No. 3, p. hal. 1247–1250, 2014.

  • [7]    P. Choirunisa dan Kariyam, "Perbandingan Metode Triple Exponential Smoothing dan Metode Seasonal ARIMA untuk Peramalan Inflasi di Kota Tamjung Pandan," Prosiding Sendika, Vols. Vol. 5, No. 2, p. hal. 76–83, 2019.

    RMSE = =


    1 ∑Γ⅛i- 5¾2 n


    0,92+ 12+ 22+ 12+ 12


    5


    = 1,249


    • 3.2.    Uji Korelasi


    Perhitungan uji korelasi parsial digunakan untuk mengetahui besar keterkaitan masing-masing variabel independen terhadap variabel dependen.


    Perhitungan rX1Y: ∑X1Y = ∑X1Y –

    = 1718 -

    = 420

    Perhitungan rX2Y: ∑X2Y = ∑X2Y –

    = 1568 -


    (∑*ιχ∑n n (118).( 55)

    5


    (∑⅛H∑T) n (108).( 55)


    5

    = 380

    Perhitungan rX1X2:

    ∑X1X2 = ∑X1X2 - (∑M^

    = 34i4 _ (118).( io8)

    5

    = 865,2


    Tabel V

    Hasil Uji Korelasi

    Keterkaitan Variabel

    Nilai Korelasi

    rX1Y

    420

    rX2Y

    380

    rX1X2

    865,2


    • 3.3.    Uji Koefisien Determinasi

    Perhitungan uji koefisien determinasi digunakan untuk mengetahui besar pengaruh antara variabel bebas terhadap variabel tak bebas, sehingga dapat diketahui kecocokan model Linear Regression.


    R =


    61∑f1Y + ½∑X2Y ∑K2


    0,149 .1718+0,315 .1568

    789


    = 0,950446


    Hasil koefisien determinasi sebesar 0,950446. Artinya tingkat kecocokan model multiple linear regression memiliki tingkat keandalan sebesar 95,04%. Sebanyak 95,04% variasi nilai Hasil Produksi


678