Prediksi Hasil Panen Padi Di Kabupaten Jembrana Dengan Metode Linear Regression
on
p-ISSN: 2301-5373
e-ISSN: 2654-5101
Jurnal Elektronik Ilmu Komputer Udayana
Volume 11, No 3. February 2023
Prediksi Hasil Panen Padi Di Kabupaten Jembrana Dengan Metode Linear Regression
-
I. B. M. Swarbawaa1, I. G. Arta Wibawaa2, I. K. G. Suhartanaa3 aInformatics Engineering, Faculty of Math and Science, University of Udayana South Kuta, Badung, Bali, Indonesia 1[email protected] 2[email protected] 3[email protected]
Abstract
Prediction of agricultural yields is very much needed in terms of planning and decision making as well as in national food security policies. One of the strategic commodities that requires special attention is rice. This study aims to predict rice yields, especially in Jembrana Regency by using Linear Regression. Prediction is an important tool in effective and efficient planning. These results indicate that the rice yield prediction model can be used for forecasting purposes in the future. It is hoped that with this rice yield prediction system, it can help predict rice yields in the coming year and overcome the soaring increase in rice prices.
Keywords : Yields, Prediction, Linear Regression
Jembrana merupakan salah satu kabupaten penyangga pangan di provinsi Bali. Ada berbagai macam tanaman pangan yang dihasilkan di Kabupaten Jembrana setiap tahunnya salah satunya adalah padi. Padi merupakan salah satu tanaman pangan terpenting, karena padi menjadi sumber karbohidrat yang utama [1]. Kebutuhan bahan pangan terutama beras akan terus meningkat sejalan dengan pertambahan jumlah penduduk dan peningkatan konsumsi perkapita akibat peningkatan pendapatan. Hasil panen padi di kabupaten Jembrana mengalami naik turun. Sebagai upaya untuk mengatasi kenaikan harga beras yang melambung tinggi perlu adanya ramalan yang tepat tentang hasil panen padi di Kabupaten Jembrana yaitu sistem prediksi.
Prediksi merupakan proses memperkirakan sesuatu yang akan terjadi di masa depan secara sistematis berdasarkan informasi yang dimiliki di masa lalu dan sekarang [2]. Dalam penelitian ini akan digunakan metode Linear Regression untuk mendapatkan prediksi dari hasil panen padi di Kabupaten Jembrana. Algoritma linear regression adalah metode statistik yang digunakan untuk mengetahui pengaruh antara satu atau beberapa variabel terhadap satu buah variabel. Variabel merupakan besaran yang berubah-ubah nilainya. Variabel yang memengaruhi disebut dengan variabel bebas, variabel independen, atau variabel penjelas. Variabel yang dipengaruhi disebut dengan variabel terikat atau variabel dependen [3].
Gambar 1. Tahapan penelitian
Tahapan-tahapan yang dilakukan dalam penelitian adalah pengumpulan data, kemudian membagi data training dan data testing, kemudian mencari prediksi dengan regresi linier dan terakhir melakukan pengujian atau evaluasi.
Dalam penelitian ini, tahap-tahap yang akan dilakukan adalah pengumpulan data, membagi data training dan data testing, penerapan algoritma linear regression, dan validasi hasil.
Dalam penelitian ini data yang digunakan adalah data yang berasal website Jembrana Satu Data Dari Desa atau disingkat JSDDD yang mana websitenya bernama https://survey.jembranakab.go.id/. Terdapat lima atribut yang digunakan dalam data yaitu nama kecamatan, luas tanam, luas panen, hasil produksi padi dan rata-rata hasil produksi padi.
Pre-processing merupakan langkah awal yang dilakukan dalam pengolahan data untuk membantu metode yang digunakan agar dapat berjalan dengan baik dan nantinya menghasilkan faktor kesalahan Root Mean Squared Error (RMSE) yang rendah. Pada tahap pre-processing, dilakukan proses cleaning data yang digunakan untuk menghilangkan informasi yang tidak diperlukan dalam proses preprocessing, yaitu menghilangkan atribut Kecamatan
Metode Prediksi yang akan digunakan pada penelitian ini adalah Linear Regression. Linear Regression digunakan untuk membangun model untuk memprediksi hubungan antara dua variabel dengan menerapkan persamaan linier pada data yang diamati.
Metode utama untuk melakukan prediksi yakni membangun model regresi dengan mencari hubungan antara satu atau lebih variabel independen atau prediktor (X) dengan variabel dependen atau respons (Y). Linear regression memodelkan hubungan antara variabel skalar dan satu atau lebih variabel penjelas.
Metode linear regression tersusun atas dasar pola hubungan data yang relevan di masa lalu [4]. Algoritma linear regression dibagi menjadi dua jenis, yaitu simple linear regression dan multiple linear
regression. Simple linear regression merupakan hubungan antara satu variabel dependen dengan satu variabel independen, sedangkan multiple linear regression merupakan hubungan antara satu variabel dependen dengan dua atau lebih variabel independen.
Dalam penelitian ini digunakan multiple linear regression karena terdapat lebih dari satu variabel independen. Dataset penelitian terdiri dari satu variabel dependen (Y) dan tiga variabel independen (X). Variabel dependen tersebut adalah atribut Hasil Produksi Padi, sedangkan variabel independen adalah atribut Luas Tanam, Luas Panen, dan Rata-Rata Produksi Padi.
Perhitungan yang digunakan untuk multiple linear regression dinyatakan dalam persamaan 1
Y = a + a1X1 + b2X2 + .... + bnXn (1)
dimana
Y = variabel dependen (nilai yang akan diprediksi)
-
X1, X2,....Xn = variabel independen atau variabel bebas
a = konstanta
b1, b2...bn = koefisien regresi.
Dengan mengacu pada persamaan 1, untuk menghitung hasil panen tanaman padi dengan algoritme linear regression, digunakan persamaan 2
Y = a + b1X1 + b2X2 + b3X3 (2)
dimana
Y = hasil produksi
a = konstanta
b1 = koefisien variabel Luas Tanam
-
X1 = Luas Tanam
b2 = koefisien variabel Luas Panen
X2 = Luas Panen
Langkah awal yang dilakukan adalah pembentukan model, dengan mencari nilai a, b1, b2,…, bn menggunakan kuadrat terkecil dengan persamaan umum metode kuadrat terkecil
an + bl∑Xl + b2∑X2 = ∑ Y
a∑Xl + bl∑(Xl)2 + b2∑(XlX2) = ∑X1Y (3)
a∑X2 + bl∑(XlX2) + b2∑(X2)2 = ∑X2Y
Setelah hasil inversi diketahui, selanjutnya dilakukan perkalian matriks determinan dengan ∑Y, ∑X1Y, ∑X2Y. Untuk menghitung determinan matriks A, Ao, Ai, dan A2, digunakan persamaan 4
N ∑X1 ∑X2 |
a |
∑γ | |||
∑X1 ∑X1X1 ∑X1X2 |
x |
bi |
= |
∑X1Y |
(4) |
∑X2 ∑X2X1 ∑X2X2J |
. b2. |
∑X2Y∖ |
Selanjutnya, mencari nilai a, b1, dan b2 dengan persamaan 5
Det AO
Det A
b1=
Det A1
Det A
b2=
Det A2
Det A
(5)
Selanjutnya, dilakukan perhitungan uji korelasi parsial untuk mengetahui tingkat keterkaitan masing-masing variabel independen terhadap variabel dependen. Perhitungan korelasi didapatkan dengan persamaan 6
∑X1Y = ∑X1Y - (∑^∑-)
∑X2Y = ∑X2Y - (∑x2)n(∑γ) ∑X1X2 = ∑X1X2 - (∑x1)t(∑x2)
Selanjutnya, dilakukan perhitungan uji koefisien determinasi untuk mengetahui besar pengaruh antara variabel independen terhadap variabel dependen, sehingga diketahui kecocokan model linear regression. Koefisien determinasi berkisar antara 0 sampai 1. Jika R2 = 0, maka tidak ada pengaruh antara variabel independen dengan variabel dependen, dan jika R2 semakin mendekati nilai 1, maka semakin kuat pengaruh variabel independen terhadap variabel dependen. Perhitungan untuk mencari R2 dapat dilihat pada persamaan 7
^2 _ -j _ SSerror sstotal
= 1 _yi-yi yt-y
(7)
dimana
yi = observasi respons ke-i
y = rata-rata
yi = ramalan respons ke-i
Koefisien determinasi dapat dihitung dengan persamaan 8
R =
b1∑X1Y + b2∑X2Y ∑Y2
(8)
dimana
R = jumlah koefisien determinasi
Evaluasi dilakukan untuk menguji dan melihat tingkat akurasi algoritme linear regression terhadap pemrosesan data. Dalam pengujian metode digunakan cross validation untuk memvalidasi keakuratan sebuah model yang dibangun berdasarkan dataset tertentu. Cross validation adalah cara untuk menemukan parameter terbaik dari suatu model dengan menguji besarnya error pada data uji [5].
K-Fold Cross Validation adalah metode yang digunakan untuk mengetahui rata-rata keberhasilan dari suatu sistem dengan melakukan perulangan dengan mengacak atribut masukan untuk menguji atribut input yang dimasukkan. K-Fold cross validation dilakukan dengan membagi data sejumlah n-fold.
Percobaan 1 |
Test |
Train |
Train |
Train |
Train |
Percobaan 2 |
Train |
Test |
Train |
Train |
Train |
Percobaan 3 |
Train |
Train |
Test |
Train |
Train |
Percobaan 4 |
Train |
Train |
Train |
Test |
Train |
Percobaan 5 |
Train |
Train |
Train |
Train |
Test |
Gambar 2. K-Fold Cross Validation
Pada penelitian ini akan dilakukan perhitungan K-Fold hingga 5-fold. Pada gambar 2 diperlihatkan 5fold cross validation dengan data testing ditampilkan berawarna kuning dan data latih ditampilkan berwarna putih.
Pengujian akurasi dilakukan dengan melihat perkembangan nilai RMSE. RMSE merupakan metode untuk mengevaluasi hasil teknik peramalan yang digunakan dengan mengukur tingkat akurasi dari hasil prakiraan suatu model [6].
RMSE
= ∖∑Γ(yi-¾2
∖ n
(9)
dimana
yi = data awal
yi = data akhir n = jumlah data
RMSE merupakan nilai rata-rata dari jumlah kuadrat kesalahan yang dapat menyatakan ukuran besarnya kesalahan yang dihasilkan oleh suatu model prakiraan. Nilai RMSE yang rendah menunjukkan bahwa variasi nilai yang dihasilkan oleh suatu model prakiraan mendekati variasi nilai aslinya [7]. Sedangkan apabila nilai RMSE semakin besar, maka keakuratan suatu nilai yang dihasilkan semakin sedikit atau tidak akurat.
Terdapat 5 kecamatan di kabupaten jembrana. Tabel II menunjukan data hasil panen padi yang berisi atribut Kecamatan, Luas Tanam, Luas Panen, Hasil Produksi Padi dan Rata-Rata Hasil Produksi Padi. Pada tahap Pre-Processing dilakukan proses data cleaning. Proses data cleaning digunakan untuk menghilangkan atribut data yang tidak dibutuhkan dalam proses pre-processing, yaitu dengan menghilangkan atau membuang informasi atribut Kecamatan yang tidak diperlukan dalam pengolahan data
Tabel I
Dataset Padi
Kecamatan |
Luas Tanam |
Luas Panen |
Hasil Produksi Padi |
Pekutatan |
7 |
6 |
3 |
Mendoyo |
40 |
40 |
19 |
Jembrana |
11 |
12 |
7 |
Negara |
40 |
32 |
17 |
Melaya |
20 |
18 |
9 |
Tabel II
Data Cleaning
Luas Tanam |
Luas Panen |
Hasil Produksi Padi |
7 |
6 |
3 |
40 |
40 |
19 |
11 |
12 |
7 |
40 |
32 |
17 |
20 |
18 |
9 |
Hasil perhitungan algoritma linear regression me nyatakan hubungan antara Luas Tanam, Luas Panen dan Hasil Produksi Padi.
Y = a + b1(Luas Tanam) + b2(Luas Panen) (10)
Untuk mendapatkan persamaan linear regression berganda dilakukan model multiple linear regression.
Nilai a, b1, dan b2 merupakan nilai konstanta dan koefisien regresi yang dapat diperoleh dengan
menggunakan perhitungan matriks determinan. Pada penelitian ini, terdapat persamaan variabel yang tidak diketahui nilainya, yaitu a, b1, dan b2. Persamaannya adalah
N |
∑X1 |
∑X2 | ||
A = |
∑X1 |
∑X1X1 |
∑X1X2 |
(11) |
∑X2 |
∑X2X1 |
∑X2X2J |
A merupakan persamaan matriks yang digunakan untuk mencari nilai Det(A), dengan N adalah
banyaknya data, ∑X1 Luas Panen. |
adalah jumlah dari variabel Luas Tanam dan ∑X2 adalah jumlah dari variabel r ∑Y ∑X1 ∑X2 1 Ao = l∑X1Y ∑X1X1 ∑X1X2I (12) I ∑X2Y ∑X2X1 ∑X2X2-∣ |
A0 merupakan persamaan matriks yang digunakan untuk mencari nilai Det(A0), dengan ∑Y adalah jumlah dari variabel Hasil Produksi, ∑X1 adalah jumlah dari variabel Luas Tanam, ∑X2 adalah jumlah dari variabel Luas Panen
A1 =
■ N
∑X1
∑X2
∑γ ∑X2
∑X1Y ∑X1X2
∑X2Y ∑X2X2-I
(13)
A1 merupakan persamaan matriks yang
digunakan untuk mencari nilai Det(A1), dengan N adalah
banyaknya data, ∑Y adalah jumlah dari variabel Hasil Produksi, ∑X2 adalah jumlah dari variabel Luas Panen.
A2 =
■ N
∑X1
∑X1 ∑X1X1
∑Y ∑X1Y
(14)
∑X2 ∑X2X1 ∑X2YJ
A2 merupakan persamaan matriks yang digunakan untuk mencari nilai Det(A2), dengan N adalah banyaknya data, ∑X1 adalah jumlah dari variabel Luas Tanam, ∑Y adalah jumlah dari variabel Hasil Produksi. Langkah selanjutnya adalah menentukan determinasi matriks A, A0, A1, A2
Det (A) = {N. ∑X1X1. ∑X2X2} + {∑X1. ∑X1X2. ∑X2} +
{∑X2. ∑X1. ∑X2X1} — {∑X2. ∑X1X1. ∑X2} —
{N. ∑X1X2. ∑X2X1} — {∑X1∙ ∑X1. ∑X2X2}
Det (Ao) = {∑Y . ∑X1X1. ∑X2X2} + {∑X1. ∑X1X2. ∑X2Y} +
{∑X2. ∑X1Y . ∑X2X1} — {∑X2. ∑X1X1. ∑X2Y } —
{∑Y . ∑X1X2. ∑X2X1} — {∑X1. ∑X1Y∙ ∑X2X2}
Det (Al) = {N. ∑X1Y∙ ∑X2X2} + {∑Y. ∑X1X2. ∑X2} +
{∑X2. ∑X1. ∑X2Y} — {∑X2∙∑X1Y∙ ∑X2} —
{N. ∑X1X2. ∑X2Y} - {∑Y. ∑X1. ∑X2X2}
Det (A2) = {N. ∑X1X1. ∑X2Y} + {∑X1. ∑X1Y∙∑X2} +
{∑Y. ∑X1∙ ∑X2X1} — {∑Y∙ ∑X1X1. ∑X2} -
{N. ∑X1Y. ∑X2X1} - {∑X1∙ ∑X1. ∑X2Y}
Berdasarkan perhitungan determinasi matriks, didapatlah hasil nilai a, b1, dan b2, seperti ditunjukkan pada Tabel III.
Tabel III.
Hasil Perhitungan Konstanta dan Koefisien
a |
b1 |
b2 |
-0,79822 |
0,14939 |
0,31532 |
Berdasarkan hasil yang diperoleh untuk koefisien a, b1, dan b2 tersebut, hasil model multiple linear regression menjadi sebagai berikut.
∑Y = -0,79822 + 0,14939∑X1 + 0,31532∑X2
Tabel IV
Data aktual dan hasil prediksi
Data Aktual |
Hasil Prediksi |
3 |
2,1 |
19 |
18 |
7 |
5 |
17 |
16 |
9 |
8 |
bergantung pada variabel independen yang diukur, yaitu Luas Tanam dan Luas Panen Sedangkan sisanya, yaitu sebesar 4,96%, dipengaruhi oleh variabel lain yang tidak diukur pada penelitian ini.
Berdasarkan analisis data dan pembahasan yang telah dipaparkan, dapat ditarik kesimpulan bahwa algoritma linear regression dapat diterapkan untuk prediksi hasil panen padi dengan beberapa variabel yang memengaruhi yaitu Luas Tanam, Luas Panen, dan Hasil Produksi Padi
Dari jumlah data sebanyak 5 Kecamatan, dihasilkan tingkat kecocokan model multiple linear regression sebesar 95,04%. Artinya sebanyak 95,04% variasi nilai hasil panen bergantung pada variabel independen yang diukur, yaitu Luas Tanam dan Luas Panen. Sedangkan sisanya sebesar 4,96%, dipengaruhi oleh variabel lain yang tidak diukur pada penelitian ini.
Referensi
-
[1] C.V. Donggulo, I.M. Lapanjang, dan U. Made, "Pertumbuhan dan Hasil Tanaman Padi (Oryza sativa L) pada Berbagai Pola Jajar Legowo dan Jarak Tanam," J. Agrol, vol. Vol. 24, p. hal. 27– 35, 2017.
-
[2] Z.A. Matondang, "Sistem Pendukung Keputusan Forecasting Harga Emas Lelang pada Pegadaian dengan Metode Single Moving Average," J. Tek. Inform. Unika St. Thomas, Vols. Vol. 3, No. 1, p. hal. 72–77, 2018.
-
[3] F. Anis dan Suprayogi, "Estimasi Luas Panen Padi di Kabupaten Rembang Menggunakan Algoritma Linear Regression," Skripsi, Universitas Dian Nuswantoro, Semarang, Indonesia, 2015.
-
[4] M.F. Saputri dan S. Slamet, "Analisa Data Penjualan Menggunakan Metode Regresi Linier untuk Prediksi Persediaan Barang pada TB.Kawankita," Skripsi, Universitas Dian Nuswantoro, Semarang, Indonesia, 2016.
-
[5] A. Fikri, "Penerapan Data Mining untuk Mengetahui Tingkat Kekuatan Beton yang Dihasilkan dengan Metode Estimasi Menggunakan Linear Regression," Skripsi, Universitas Dian Nuswantoro, Semarang, Indonesia, 2009.
-
[6] T. Chai dan R.R. Draxler, "Root Mean Square Error (RMSE) or Mean Absolute Error (MAE)? -Arguments Against Avoiding RMSE in the Literature," Geosci. Model Dev, Vols. Vol. 7, No. 3, p. hal. 1247–1250, 2014.
-
[7] P. Choirunisa dan Kariyam, "Perbandingan Metode Triple Exponential Smoothing dan Metode Seasonal ARIMA untuk Peramalan Inflasi di Kota Tamjung Pandan," Prosiding Sendika, Vols. Vol. 5, No. 2, p. hal. 76–83, 2019.
RMSE = √ =√
1 ∑Γ⅛i- 5¾2 n
0,92+ 12+ 22+ 12+ 12
5
= 1,249
Perhitungan uji korelasi parsial digunakan untuk mengetahui besar keterkaitan masing-masing variabel independen terhadap variabel dependen.
Perhitungan rX1Y: ∑X1Y = ∑X1Y –
= 1718 -
= 420
Perhitungan rX2Y: ∑X2Y = ∑X2Y –
= 1568 -
(∑*ιχ∑n n (118).( 55)
5
(∑⅛H∑T) n (108).( 55)
5
= 380
Perhitungan rX1X2:
∑X1X2 = ∑X1X2 - (∑M^
= 34i4 _ (118).( io8)
5
= 865,2
Tabel V
Hasil Uji Korelasi
Keterkaitan Variabel
Nilai Korelasi
rX1Y
420
rX2Y
380
rX1X2
865,2
Perhitungan uji koefisien determinasi digunakan untuk mengetahui besar pengaruh antara variabel bebas terhadap variabel tak bebas, sehingga dapat diketahui kecocokan model Linear Regression.
R =
61∑f1Y + ½∑X2Y ∑K2
0,149 .1718+0,315 .1568
789
= 0,950446
Hasil koefisien determinasi sebesar 0,950446. Artinya tingkat kecocokan model multiple linear regression memiliki tingkat keandalan sebesar 95,04%. Sebanyak 95,04% variasi nilai Hasil Produksi
678
Discussion and feedback