Majalah Ilmiah Teknologi Elektro, Vol. 19, No. 1, Januari - Juni 2020 DOI: https://doi.org/10.24843/MITE.2020.v19i01.P05

33


Clustering Data Remunerasi PNS Menggunakan Metode K-Means Clustering Dan Local Outlier Factor

Made Pasek Agus Ariawan1, Nyoman Putra Sastra2, I Made Sudarma3

Submission:23-11-2019, Accepted: 25-12-2019

Abstract— Remuneration is a reward for services performed by employees. Remuneration is given to employees who have good performance. Remuneration can be given by an agency if it has implemented the Financial Management of Public Service Bodies (PK-BLU). The problem with remuneration is that the validation carried out by the direct supervisor of the employee concerned is still doubtful. Based on this, we need a system that can detect outlier data from the remuneration data of Civil Servants and classify the data using data mining techniques. The algorithm for finding outlier data is the Local Outlier Factor (LOF) algorithm and the algorithm that can be used to do clustering is a k-means clustering algorithm. The K-means algorithm has problems in determining the optimal number of clusters. Problems with the K-means method can be solved using the elbow method. Determination of this method is seen from the Sum Square Error (SSE) graph of several cluster numbers. This study aims to classify the remuneration data of civil servants by using the k-means clustering method with improvisation at the pre-processing stage and determining the optimal number of clusters. Local Outlier Factor method with a MinPts value of 150 can detect the most outlier data with 162 data outliers detected or 22.98%. The optimal number of clusters with the elbow method is 4 clusters with a Silhoutte value of 0.542, Dunn of 0.040 and Purity of 0.89.

Kata KunciClustering, K-Means, LOF, Outlier

Intisari— Remunerasi adalah imbalan atas jasa yang dilakukan oleh pegawai. Pemberian remunerasi diberikan kepada pegawai yang memiliki kinerja yang baik. Remunerasi dapat diberikan oleh suatu instansi apabila sudah menerapkan Pengelolaan Keuangan Badan layanan Umum (PK-BLU). Permasalahan dari pemberian remunerasi adalah validasi yang dilakukan oleh atasan langsung pegawai yang bersangkutan masih diragukan validitasnya. Berdasarkan hal tersebut, diperlukan suatu sistem yang dapat mendeteksi data bersifat outlier dari data remunerasi Pegawai Negeri Sipil dan mengelompokkan data tersebut menggunakan teknik data mining. Algoritma untuk mencari data outlier adalah algoritma Local Outlier Factor (LOF) dan algoritma yang dapat digunakan untuk melakukan clustering (pengelompokan) adalah algoritma k-means clustering. Algoritma K-means memiliki permasalahan dalam penentuan jumlah cluster yang terbaik. Permasalahan metode K-means ini dapat diselesaikkan dengan menggunakan metode elbow. Penentuan metode ini dilihat dari grafik Sum Square Error (SSE) dari beberapa jumlah cluster. Penelitian ini bertujuan untuk mengelompokkan data remunerasi pegawai

negeri sipil dengan menggunakan metode k-means clustering dengan improvisasi pada tahap pre-processing dan penentuan jumlah cluster optimal. Metode Local Outlier Factor dengan nilai MinPts 150 dapat mendeteksi data outlier paling banyak dengan jumlah data terdeteksi outlier sebanyak 162 data atau sebesar 22,98%. Jumlah cluster optimal dengan metode elbow berjumlah 4 cluster dengan nilai Silhoutte sebesar 0,542, Dunn sebesar 0,040 dan Purity sebesar 0,89.

Kata KunciClustering, K-Means, LOF, Outlier

  • I.    pendahuluan

Remunerasi adalah imbalan kerja berupa gaji, honor, tunjangan tetap, insentif, bonus atas prestasi, pesangon, dan/dana pensiun. Remunerasi merupakan penghasilan yang bisa diperoleh dan dibelanjakan oleh pegawai atau karyawan (take home pay) atas hasil pekerjaan yang telah dilakukan. Adanya remunerasi akan menghilangkan anggapan bahwa tidak ada korelasi positif antara kinerja dengan penghasilan. Ini berarti pegawai/karyawan yang berkinerja baik akan memiliki penghasilan yang tidak sama. Pemerintah telah berupaya mengubah sistem penggajian agar menjadi lebih baik melalui sistem remunerasi, Remunerasi terdiri dari gaji pokok yang ditambah tunjangan – tunjangan yang bersumber dari rupiah murni dan tunjangan lain yang bersumber dari Pendapatan Negara Bukan Pajak.

Berdasarkan Peraturan Menteri Keuangan Republik Indonesia Nomor 176 /PMK.05/2017 Remunerasi dapat diberikan oleh suatu instansi apabila sudah menerapkan Pengelolaan Keuangan Badan layanan Umum (PK-BLU). BLU adalah instansi di lingkungan Pemerintah yang dibentuk untuk memberikan pelayanan kepada masyarakat berupa penyediaan barang dan/atau jasa yang dijual tanpa mengutamakan mencari keuntungan dan dalam melakukan kegiatannya didasarkan pada prinsip efisiensi dan produktivitas. Instansi–instansi ini meliputi pendidikan, kesehatan, pengelola kawasan, pengelola dana dan barang jasa lainnya.

Jumlah penyelenggara pendidikan tinggi di Indonesia telah mengalami peningkatan dalam kurun beberapa tahun terakhir. Tercatat terdapat sebanyak 4.622 perguruan tinggi di Indonesia baik perguruan tinggi negeri maupun swasta [1] dengan jumlah perguruan tinggi negeri sebanyak 418 perguruan tinggi dan yang telah menerapkan BLU sebanyak 63 perguruan tinggi. Selain itu berdasarkan data dari kementrian keuangan terdapat 203 instansi yang telah menerapkan BLU.

Pada tahun 2012 Universitas Udayana telah ditetapkan sebagi Instansi Pemerintah yang menerapkan Pengelolaan Keuangan Badan layanan Umum (PK-BLU) sesuai Keputusan Menteri Keuangan Republik Indonesia Nomor 441/KMK.05/2011, Tertanggal 27 Desember 2011. Sebagai …) p-ISSN:1693 – 2951; e-ISSN: 2503-2372

Perguruan Tinggi yang sudah berbentuk BLU, Universitas Udayana bisa melakukan Reformasi Birokrasi, sebagai prasyarat untuk mengajukan Tunjangan Remunerasi Universitas Udayana.

Di Universitas Udayana terdapat dua tahapan dalam pemberian remunerasi pegawai negeri sipil, yakni remunerasi yang dibayarkan setiap bulan dan remunerasi yang dibayarkan setiap semesternya. Remunerasi tiap bulan yang diterima oleh PNS sebesar 30% dari keseluruhan remunerasi yang didapat dan sisanya sebesar 70% dibayarkan setiap semester. Terdapat tiga parameter dalam pemberian remunerasi yaitu kehadiran, sikap dan prilaku, dan capain kinerja dari pegawai selama enam bulan. Dengan adanya pemberian remunerasi bagi PNS tentunya perlu dilakukan evaluasi terkait pemberian remunerasi ini dengan cara mengelompokkan data pegawai dan melakukan analisis outlier pada data tersebut.

Permasalahan yang muncul dari pemberian remunerasi adalah validasi yang dilakukan oleh atasan langsung pegawai yang bersangkutan masih diragukan validitasnya. Berdasarkan hal tersebut, diperlukan suatu sistem yang dapat mendeteksi data bersifat outlier dari data remunerasi Pegawai Negeri Sipil dan mengelompokkan data tersebut menggunakan teknik data mining. Clustering merupakan teknik pengelompokan data yang sering digunakan. Salah satu algoritma yang digunakan dalam metode clustering adalah algoritma K-Means [2]. Algoritma K-Means adalah metode clustering non hierarki yang memiliki kelebihan pada waktu komputasi yang relatif cepat [3].

Prinsip kerja dari algoritma k-means adalah membagi data kedalam kelompok data yang memiliki kemiripan sifat data. Tetapi, algoritma k-means memiliki kekurangan yaitu sangat sensitive dalam menentukan jumlah partisi awal cluster [4]. Selain itu, dalam implemetasinya algoritma k-means memiliki beberapa kelemahan seperti terdapat outlier, nilai sum square error besar dan nilai akurasi yang relative kecil [5]. Outlier adalah data yang memiliki karakteristik menyimpang dari data lainnya. Deteksi outlier penting karena dapat memberikan informasi berharga. Deteksi data - data menyimpang ini disebut Outlier Mining [6].

Merliana, Ernawati dan Santoso [7] menentukan jumlah cluster optimal pada algoritma k-means dengan menggunakan metode elbow, penentuan jumlah cluster pada metode ini dilihat dari grafik penurunan nilai sum of square error dari beberapa jumlah cluster.

Bhatt, Dhakar dan Chaurasia [8] menggunakan metode LOF mendeteksi outlier untuk meningkatkan hasil evaluasi k-means clustering. Selain itu, Penelitian yang dilakukan oleh Nugraha [9] juga mengggunakan motede LOF untuk mendekteksi outlier pada clustering data siswa.

Bedasarkan penelitian yang telah dilakukan maka penelitian ini bertujuan untuk mengelompokkan data remunerasi pegawai negeri sipil dengan menggunakan metode k-means clustering dengan improvisasi pada tahap preprocessing dan penentuan jumlah cluster optimal.

  • II.    Metodologi Penelitian

Clustering merupakan pengelompokan data kedalam data tertentu, clustering digunakan untuk mengelompokan data dengan data lainnya berdasarkan kemiripan pada objek data

  • [10] . Dalam perancangan penilitian ini akan dilakukan dalam beberapa tahapan antara lain:

  • A.    Pengumpulan data

Sumber data dalam penelitian ini adalah data sekunder, sedangkan proses pengumpulan data dilakukan di Universitas Udayana dengan memanfaatkan data remunerasi tenaga kependidikan di Universitas Udayana tahun 2017. Data terbagi menjadi dua data yaitu data remunerasi 70% untuk data sasaran kerja tenaga kependidikan dan data remunerasi 30% untuk data kehadiran dan sikap & prilaku.

  • B.    Seleksi data

Data yang diperoleh kemudian diseleksi dan dipilih data yang sesuai untuk dilakukan perhitungan. Data yang dibuang adalah data–data yang kurang relevan dengan penelitian. Dari data spreadsheet yang diperoleh, variabel yang digunakan untuk proses perhitungan adalah poin hitung kinerja, nilai kehadiran, dan nilai perilaku.

  • C.    Deteksi Outlier

Outlier adalah nilai-nilai yang tidak normal jauh dari sebagian besar nilai lain didalam dataset. outlier dapat memberikan wawasan yang berharga, outlier juga mempengaruhi pengujian. Penghapusan outlier adalah topik kontroversial, tetapi sebagian besar analisis sangat sensitif terhadap outlier karena dapat mempengaruhi hasil. [11].

a.


b.


c.

d.


e.


Alur metode local outlier factor adalah sebagai berikut: Menghitung jarak antara pengamatan dan tetangga terdekat k.

Menghitung tetangga terdekat yang tidak lebih dari nilai k — distance.

Menghitung Reachability Distance.

Menghitung local reachability density (kepadatan local) dari setiap objek. Dengan persamaan berikut :

ITd-MinPts(P) =


oN MinPtsreachdistMinPts(PlO)

(1)


I ^MinPts(P)I


Keterangan :

IrdMtnPts (p) : local reachability density dari objek p.

reachdist(p) : reachbility distance dari objek p ke objek o

^MtnPts (p) : jumlah tetangga p dalam suatu minPts

Menghitung LOF untuk setiap objek data dengan persamaan berikut :

LOFMinPts(P)


v         IrdMinPts(O)

0N MinPtslrdMinPts (p)

(2)


i NMinPts(p)I


Keterangan :

LOFMtnPts (p) : derajat outlier dari objek p

IrdMinPts(o) : local reachability distance dari objek p.

reachdist(p) : reachbility distance dari objek p ke objek o

^MtnPts (p) : jumlah tetangga p dalam suatu minPts

  • D.    Normalisasi data

Dalam teknik normalisasi data ini, transformasi linear dilakukan pada data asli. Nilai minimum dan maksimum dari data diambil dan setiap nilai diganti sesuai dengan rumus 3[12]. Data dirubah sesuai dengan kebutuhan penilitan. Pada penelitian ini data akan diubah kedalam rentang nilai 0-1.

Majalah Ilmiah Teknologi Elektro, Vol. 19, No. 1, Januari - Juni DOI: https://doi.org/10.24843/MITE.2020.v19i01.P05

v' =     -^                            (3)

max^-min^

  • E.    Proses Clustering

Tahapan pengelompokan data remunerasi tenaga kependidikan dengan menggunakan metode K-means. Hasil yang diharapkan adalah cluster data remunerasi tenaga kependidikan dengan penetuan cluster sebanyak K menggunakan metode elbow, setalah menentukan jumlah cluster tentukan asumsi titik pusat cluster penentuan titik pusat cluster dapat dilakukan secara acak kemudian dilanjutkan menghitung jarak objek ke centroid pada penelitian ini proses yang digunakan akan menggunakan perhitungan jarak dengan metode Euclidian distance, data yang telah dihitung dengan dengan metode Euclidian distance akan dikelompokan berdasarkan jarak minimum.

Alur Clustering data dengan algoritma k-means adalah sebagai [13]:

  • 1)    Pilih titik k secara acak sebagai pusat cluster.

  • 2)    Tetapkan objek ke pusat kluster terdekat menurut fungsi jarak Euclidean.

  • 3)    Hitung centroid atau rata-rata dari semua objek di setiap cluster.

  • 4)    Ulangi langkah 2, 3 dan 4 hingga poin yang sama ditetapkan untuk setiap cluster secara berurutan.

  • F.    Evaluasi

Tahapan evaluasi hasil clustering akan dilakukan uji performa dilakukan dengan menggunakan perhitungan Dunn Index, Silhoutte Index pengukuran akurasi dengan purity measure.

Silhouette index (SI) digunakan untuk validasi cluster karena teknik ini adalah salah satu teknik yang terkenal. Indeks ini menjadi salah satu pengukuran kinerja terbaik yang mampu menunjukkan objek mana yang ditempatkan dengan baik di dalam cluster mereka[14].

Dunn Index digunakan untuk menentukan seberapa berbeda antara satu cluster dan cluster lainnya. Dunn Index dihitung dengan mengukur rasio jarak terbesar antar cluster dengan jarak terkecil di dalam cluster. Semakin tinggi nilai Dunn Index maka semakin baik cluster yang terbentuk [15].

Untuk mengukur hasil clustering dapat digunakan nilai purity dari suatu cluster. Purity (kemurnian) suatu cluster dipresentasikan sebagai anggota cluster yang paling banyak sesuai (cocok) di suatu kelas. Suatu cluster dinilai baik apabila nilai purity mendekati 1 dan buruk bila purity mendekati 0[16].

  • III.    Hasil dan Evaluasi

  • A.    Data Cluster.

Data pada penelitian ini berupa spreadsheet data remunerasi 70% dan 30% dalam bentuk xls. Data input termasuk kategori data terstruktur. Data terstruktur direpresentasikan dalam skema yang jelas sehingga mudah untuk dianalisa maupun diintegrasikan dengan data terstruktur lainnya. Data

2020

35 terstruktur biasanya disimpan dengan skema yang terdefinisi sehingga mudah untuk dilakukan query, dianalisa, dan diintegrasikan dengan data terstruktur lainnya. Berbeda dengan data tidak terstruktur, yang secara alami susah untuk dilakukan query, dianalisa, maupun diintegrasikan dengan sumber data lain. Tabel I dan Tabel II merupakan contoh input data pada penelitian ini. Komponen yang ada pada data input yang digunakan adalah Poin total kinerja, nilai kehadiran dan nilai prilaku.

TABEL I

data remunerasi 70%

Poin Hitung Kinerja

Poin

Hitung Penunjang

Poin Pakai Penunjang

Jumlah SK Penunjang

Poin Total Kinerja

372,9

9

1,375

1,375

3 / 3

374,3

6

126,2

3

9,025

7,375

18 / 24

133,6 0

130,2

8

15,166

12,141

18 / 29

142,4

2

168,9

7

12,100

9,075

18 / 29

178,0 5

73,26 0

3,733

3,733

7 / 7

76,99

3

134,0 9

1,650

1,650

6 / 6

135,7

4

84,64

6

5,383

5,383

13 / 13

90,02 9

75,75

1

2,475

2,475

9 / 9

78,22

6

110,3

5

13,791

11,316

18 / 27

121,6

6

TABEL II data remunerasi 70%

Nilai Kehadiran

Poin Kehadiran

Nilai Perilaku

Poin Perilaku

Total Poin

100,00

6,00

100,00

6,00

12,00

100,00

6,00

88,14

6,00

12,00

11,11

0,67

99,44

6,00

6,67

100,00

6,00

85,56

6,00

12,00

94,44

5,67

86,64

6,00

11,67

100,00

6,00

90,88

6,00

12,00

100,00

6,00

100,00

6,00

12,00

94,42

5,67

86,81

6,00

11,67

91,67

5,50

86,04

6,00

11,50

83,33

5,00

88,02

6,00

11,00

94,67

5,68

90,44

6,00

11,68

37,73

2,26

88,92

6,00

8,26


  • B.    Seleksi Data

Proses seleksi data bertujuan untuk memilih variabel yang digunakan dalam proses clustering. Data yang tidak digunakan/dibuang adalah data tenaga kependidikan yang sudah berstatus pensiun. Pemilihan variabel dilakukan dengan

Made Pasek Agus Ariaawan: Clustering Data Remunerasi PNS (…)


p-ISSN:1693 – 2951; e-ISSN: 2503-2372



memilih variabel yang digunakan sebagai dasar pembayaran remunerasi. Dari variabel data yang ada pada Tabel I, variabel yang digunakan adalah nip, poin pakai kinerja. Sementara variabel yang digunakan pada tabel remun 30% adalah nip, nilai kehadiran dan nilai prilaku. Tabel III adalah tabel setelah melakukan pemilihan variabel dan integrasi kedua tabel tersebut.

TABEL III

Tabel Pemilahan Variabel.

NIP

Perilaku

Kehadiran

Kinerja

'195403071980031004'

93,67

100

155,372

'195612311982111001'

81,6936

74,4136

125,395

'195710131980031003'

95,094

74,232

94,036

'195712311979011005'

89,8282

87,0991

152,6205

'195809051981031003'

87,895

90,9625

168

'195812311983032009'

86,8811

95,8778

156,09

'195907271984031001'

67,365

64,2213

84

'195909241986032003'

87,855

75,335

168

'195910051981031004'

90,895

62,1825

115,354

'195911251982112001'

78,99

82,625

141,6575

  • C.    Deteksi Outlier

Pada Gambar 1 ditampilkan grafik hasil pengujian deteksi outlier pada data remunersasi tenaga kependidikan tahun 2017. Pengujian terhadap deteksi outlier dengan menggunakan metode local outlier factor dilakukan dengan mengubah masukan parameter MinPts dengan nilai masukan adalah 100, 150, 200, 250, 300, 350, 400, 450, 500 dan berdasarkan pengujian, didapatkan bahwa parameter MinPts 150 merupakan parameter MinPts yang paling banyak mendeteksi data outlier sebanyak 162 data.

Gambar 1: Grafik hasil pengujian deteksi outlier

Tabel IV Menampilkan jumlah data yang terdeteksi sebagai outlier dengan nilai parameter MinPts yang berubah–ubah dan nilai batas outlier sebesar 1.4. Hasil deteksi tertinggi pada nilai MinPts 150 dengan presentase data terdeteksi outlier sebesar 22.98%. Dari hasil pengujian perubahan nilai MinPts, didapatkan bahwa semakin bertambahnya nilai MinPts maka data outlier yang ditemukan akan semakin berkurang. Hal ini menandakan bahwa semakin tinggi nilai MinPts sangat mempengaruhi nilai LOF dari suatu objek. Semakin tinggi

nilai MinPts bararti semakin luas pula kepadatan objek tersebut.

TABEL IV

Tabel Pemilahan Variabel.

Minpts

Data Terdeteksi

Persentase

Outlier

Normal

Outlier

Normal

100

159

546

22,55%

77,45%

150

162

543

22,98%

77,02%

200

161

544

22,84%

77,16%

250

157

548

22,27%

77,73%

300

152

553

21,56%

78,44%

350

151

554

21,42%

78,58%

400

146

559

20,71%

79,29%

450

134

571

19,01%

80,99%

500

121

584

17,16%

82,84%

  • D.    Normalisasi Data

Pada tahapan normalisasi data, data diubah menjadi rentang 0-1 dengan menggunkan metode min-max. Tabel V adalah potongan tabel data sebelum dinormalisasi. Tabel VI adalah potongan tabel hasil normalisasi menggunakan metode normalisasi pada variabel perilaku, kehadiran, dan kinerja.

TABEL V

Tabel data sebelum dinormalisasi

No

NIP

Perilaku

Kehadiran

Kinerja

1

'195403071980031004'

93,67

100

155,372

2

'195612311982111001'

81,6936

74,4136

125,395

3

'195710131980031003'

95,094

74,232

94,036

4

'195712311979011005'

89,8282

87,0991

152,6205

5

'195809051981031003'

87,895

90,9625

168

6

'195812311983032009'

86,8811

95,8778

156,09

7

'195907271984031001'

67,365

64,2213

84

8

'195909241986032003'

87,855

75,335

168

9

'195910051981031004'

90,895

62,1825

115,354

10

'195911251982112001'

78,99

82,625

141,6575

TABEL VI

Tabel data setelah dinormalisasi

No

NIP

Perilaku

Kehadiran

Kinerja

1

'195403071980031004'

0,9398

1

0,9185

2

'195612311982111001'

0,7572

0,708

0,725

3

'195710131980031003'

0,9615

0,7059

0,5226

4

'195712311979011005'

0,8812

0,8528

0,9007

5

'195809051981031003'

0,8517

0,8969

1

6

'195812311983032009'

0,8363

0,953

0,9231

7

'195907271984031001'

0,5387

0,5917

0,4579

DOI: https://doi.org/10.24843/MITE.2020.v19i01.P05

8

'195909241986032003'

0,8511

0,7185

1

9

'195910051981031004'

0,8975

0,5684

0,6602

10

'195911251982112001'

0,7159

0,8017

0,83

  • E.    Penetuan Jumlah Cluster Optimum.

Penentuan jumlah cluster optimal dengan menggunakan metode elbow. Gambar 2 adalah hasil dari proses metode elbow. Penurunan terjadi secara drastis dan diikuti grafik yang stabil pada titik 4.

Tabel VII. Menunjukan penurunan nilai SSE yang besar dari 2-3 dan 3-4, tetapi dari titik 4 dan selanjutnya terjadi penurunan yang stabil dan membentuk sudut siku pada titik 4 seperti yang ditunjukkan pada Gambar 2, sehingga nilai K yang digunakan adalah titik 4.

37

0,8812

0,8528

0,9007

0,0814

4

0,8517

0,8969

1

0,0442

3

0,8363

0,9530

0,9231

0,0306

1

0,9460

0,7746

0,9548

0,1027

4

0,8550

0,9334

0,8762

0,0356

1

0,8908

0,9588

0,9272

0,0430

1

0,8618

0,7614

0,9409

0,0654

4

0,9618

0,9248

0,9351

0,0363

2

0,8563

0,9694

0,9350

0,0414

1

0,8595

0,9483

0,9586

0,0360

3

0,9354

0,8791

1

0,0682

2

0,9082

0,9150

1

0,0586

2

0,8753

0,9368

1

0,0219

3

Setelah itu data dipisahkan berdasarkan jumlah tiap-tiap clusternya. Cluster 1 memiliki jumlah anggota 90, cluster 2 memiliki jumlah anggota 105, cluster 3 memiliki jumlah anggota 134 dan cluster 4 memiliki jumlah anggota 214.

G. Uji Performa Cluster

Metode silhoutte dan duun index mencari nilai tertinggi. Nilai silhoutte tinggi menunjukan data ditempatkan pada cluster yang tepat. Nilai dunn tinggi menunjukan bahwa cluster berbeda dari cluster lainnya. Hasil metode ini ditunjukkan pada Tabel IX.

TABEL VII

HASIL UJI METODE ELBOW.

K

SSE

Selisih

2

2,502471

0

3

1,824653

0,677818

4

1,328894

0,495759

5

1,214211

0,114683

6

1,055075

0,159136

7

0,93957

0,115505

8

0,868629

0,070942

9

0,785851

0,082777

10

0,663806

0,122045

TABEL IX

HASIL UJI DUNN DAN SILHOUTTE .

k

Silhoutte

Dunn

2

0,512103

0,003121

3

0,528518

0,024445

4

0,542554

0,040361

5

0,489245

0,02124

6

0,457715

0,015977

7

0,449444

0,029326

8

0,435976

0,026804

9

0,448652

0,014316

10

0,480519

0,025445

  • F.    Clustering Menggunakan metode K-Means

Proses hasil clustering menghasilkan tabel yang disimpan dalam database Hasil cluster dalam bentuk tabel yang dapat dilihat pada Tabel VIII.

Made Pasek Agus Ariaawan: Clustering Data Remunerasi PNS (…)


TABEL VIII HASIL CLUSTERING.

Perilaku

Kehadiran

Kinerja

Jarak

Cluster

0,9398

1

0,9185

0,0811

2

Dilihat dari hasil pada Tabel IX, Nilai k=4 memiliki nilai Silhoutte dan Dunn index tinggi. Hal ini sesuai dengan metode elbow yang digunakan untuk menentukan nilai k=4 merupakan nilai k yang optimal.

Sedangkan untuk Evaluasi cluster menggunakan Purity adalah sebagai berikut :


TABEL X HASIL UJI PURITY

Cluster

Jumlah

Baik

Sangat Baik

Purity

Purity (%)

p-ISSN:1693 – 2951; e-ISSN: 2503-2372

Cluster 1

134

37

97

0.72

72%

Cluster 2

90

3

87

0.97

97%

Cluster 3

214

0

214

1

100%

Cluster 4

105

13

92

0.88

88%

Total

543

Purity

0.89

89%

Tabel X menunjukkan hasil perhitungan yang diperoleh dengan nilai purity sebesar 0,89 atau 89%. Hasil yang diperoleh ini menunjukan nilai akurasi dengan uji purity cukup bagus karena nilai purity mendekati 1.

  • H.    Pelabelan Cluster

Setelah dilakukan proses clustering, data dikembalikan ke bentuk sebelum dinormalisasi agar lebih memudahkan dalam proses analisa hasil cluster tersebut.

Kriteria yang digunakan pada Metode SAW ini berjumlah 3 yaitu perilaku, kehadiran, dan kinerja, dalam Metode SAW kriteria tersebut diberikan bobot sesuai tingkat kepentingan kriteria tersebut.

Penentuan bobot kriteria prilaku dan kehadiran berdasarkan insentif kinerja minimal (gaji) diberikan sebesar 30% dari total nilai remunerasi per jabatan. Bobot kriteria kinerja ditentukan berdasarkan Insentif Kinerja Lebih diberikan sebesar 70% dari total nilai remunerasi per jabatan.

Terdapat 4 alternatif yang akan dilakukan proses perhitungan dengan Metode SAW. Penentuan alternatif berdasarkan jumlah cluster optimal yang telah ditentukan pada proses clustering. Nilai dari kriteria merupakan rata–rata dari nilai prilaku, kehadiran, dan kinerja pada tiap-tiap cluster. Alternatif dan nilai kriteria ditunjukkan pada Tabel XI.

TABEL XI

Alternatif dan nilai kriteria.

Alternatif

Kriteria

Avg(Perilaku)

Avg(Kehadiran)

Avg(Kinerja)

Cluster1

88,3334

94,3280

154,3033

Cluster2

94,4764

94,4718

163,0378

Cluster3

88,0889

94,7874

166,9786

Cluster4

88,1004

84,1811

163,3812

Tabel XII. Merupakan hasil dari perankingan cluster. Dari hasil yang ditampilkan pada Tabel XII. Cluster 3 merupakan cluster terbaik dengan nilai 0.9899, diikuti dengan cluster 2 dengan nilai 0.9830, cluster 4 dengan nilai 0.9580 dan cluster terburuk adalah cluster 1 dengan nilai 0.9364.

TABEL XII

hasil dari perankingan.

Cluster 1 merupakan cluster terburuk diantara cluster lainnya. Hal ini dikarenakan pada cluster 1 nilai rata-rata kinerja pada cluster ini terendah di antara cluster lain. Rentang nilai kinerja dari anggota cluster ini juga terendah diantara cluster lain.

Cluster 2 merupakan cluster terbaik kedua dengan rata-rata nilai kinerja terbesar kedua dari cluster lain, meskipun rata-rata nilai perilaku lebih besar dari cluster 4. Hal ini dikarenakan pembobotan kriteria kinerja lebih tinggi dari pada kriteria lainnya sehingga kriteria kinerja lebih menentukan perangkingan dari pada kriteria lainnya.

Cluster 3 merupakan cluster terbaik dengan rata-rata nilai kinerja dan kehadiran yang tertinggi diantara cluster lain.

Cluster 4 merupakan cluster peringkat ketiga, dilihat dari rata-rata nilai kinerja pada cluster 4 lebih baik dari cluster 2, tetapi rata-rata nilai prilaku dan kehadiran jauh lebik kecil dibandingkan cluster 2 sehingga hasil setelah dilakukan perangkingan cluster 4 lebih buruk dari cluster 2.

  • I.    Visualisasi cluster dengan Box and whisker.

Grafik Box and whisker digunakan untuk menunjukkan rentang nilai variabel pada setiap clusternya. Grafik Box and whisker untuk variabel prilaku ditampilkan pada Gambar 3 Tabel XIII menampilkan nilai Min, Q1, median, Q3 dan nilai Max dari variabel prilaku pada setiap clusternya.

TABEL XIII

Visualisasi CLUSTER variabel prilaku

cluster 1

cluster 2

cluster 3

cluster 4

Min

84,545

91,595

85,598

85,312

Q1

87,079

93,670

87,180

87,044

Median

87,873

94,474

87,818

87,761

Q3

89,426

95,298

88,935

88,785

Max

94,085

97,618

91,620

94,465

Berdasarkan Gambar 3 analisis untuk variabel prilaku adalah sebagai berikut.

  • 1)    Box Cluster 2 berada lebih tinggi dari box lainnya menandakan nilai prilaku dari cluster 2 lebih tinggi dari cluster lainnya.

  • 2)    Bagian atas box cluster 1, cluster 3 dan cluster 4 lebih panjang daripada bagian bawahnya yang mengartikan nilai dibawah median lebih seragam dan nilai diatas median lebih beragam.

  • 3)    Cluster 1 memiliki box dan whisker yang lebih panjang dari cluster lainnya yang mengartikan bahwa nilai pada cluster 1 lebih beragam dari cluster lainnya

    Cluster

    Saw

    Rank

    1

    0,9364

    4

    2

    0,9830

    2

    3

    0,9899

    1

    4

    0,9580

    3

    DOI: https://doi.org/10.24843/MITE.2020.v19i01.P05

    Gambar 3: Box and whisker prilaku


39 median, Q3 dan nilai Max dari variabel kinerja pada setiap clusternya.

TABEL XV

Visualisasi CLUSTER variabel kinerja.

Cluster 1

Cluster 2

Cluster 3

Cluster 4

Min

140,975

145,444

160,709

146,552

Q1

152,392

158,684

167,924

159,463

Median

155,584

165,490

168,000

165,178

Q3

157,979

168,000

168,000

168,000

Max

160,671

168,000

168,000

168,000


Grafik Box and whisker untuk variabel kehadiran ditampilkan pada Gambar 4. Tabel XIV menampilkan nilai Min, Q1, median, Q3 dan nilai Max dari variabel kehadiran pada setiap clusternya.

TABEL XIV

Visualisasi CLUSTER variabel kehadiran.

cluster 1

cluster 2

cluster 3

cluster 4

Min

86,651

85,618

89,227

75,239

Q1

92,331

92,545

92,725

82,141

Median

94,394

94,711

94,896

84,709

Q3

96,626

96,780

97,036

86,819

Max

100,000

100,000

100,000

89,223

Berdasarkan Gambar 4, analisis untuk variabel kehadiran adalah sebagai berikut.

  • 1.    Box cluster 4 lebih dibawah dari cluster lainnya yang menandakan bahwa nilai kehadiran pada cluster 4 lebih rendah dari cluster lainnya

  • 2.    Cluster 1 dan cluster 2 memiliki box dan whisker yang hampir sama hal ini menandakan persebaran dari data pada cluster 1 dan cluster 2 hampir sama.

  • 3.    Cluster 3 memiliki box dan whisker yang paling pendek dari cluster lain hal ini menandakan cluster 3 memiliki nilai yang lebih seragam dari cluster lainnya.

Gambar 4: box and whisker kehadiran

Grafik Box and whisker untuk variabel kinerja ditampilkan pada Gambar 5. Tabel XV. menampilkan nilai Min, Q1,

Berdasarkan Gambar 5. analisis untuk variabel kinerja adalah sebagai berikut.

  • 1.    Cluster 3 memiliki box terpendek yang menandakan nilai pada cluster 3 paling seragam diantara cluster lainnya. Cluster 3 memiliki nilai seragam dari nilai median, quartile tiga sampai nilai maximum

  • 2.    Cluster 1 dibawah dari cluster lainnya yang mengartikan nilai dari kinerja pada cluster 1 lebih rendah dari cluster lainnya.

  • 3.    Cluster 2 dan cluster 4 memiliki box yang lebih panjang pada bagian bawah yang mengartikan bahwa karakteristik data kinerja pada cluster 2 dan cluster 4 sama yaitu nilai dibawah median lebih beragam dan nilai diatas median lebih seragam.

Gambar 5: box and whisker kinerja

  • IV. Kesimpulan

Kesimpulan yang dapat ditarik dari penelitian ini adalah Faktor yang cukup berpengaruh terhadap hasil deteksi outlier pada penelitian ini adalah penentuan MinPts. Berdasarkan beberapa percobaan yang dilakukan, Metode Local Outlier Factor dengan nilai MinPts 150 dapat mendeteksi data outlier paling banyak dengan jumlah data terdeteksi outlier sebanyak 162 data atau sebesar 22,98% dari total data. Metode Elbow, jumlah cluster yang digunakan pada pada penelitian ini berjumlah 4 cluster dengan nilai Silhoutte sebesar 0,542, Dunn sebesar 0,040 dan purity sebesar 89%.

Referensi

Made Pasek Agus Ariaawan: Clustering Data Remunerasi PNS (…)


p-ISSN:1693 – 2951; e-ISSN: 2503-2372



  • [1]    Kemenristekdikti, “forlap.ristekdikti.go.id,” diakses pada tanggal 3 april     2018,     2018. [Daring]. Tersedia pada:

https://forlap.ristekdikti.go.id/perguruantinggi/homegraphpt pada tanggal 3 april 2018.

  • [2]    N. G. Yudiarta, M. Sudarma, dan W. G. Ariastina, “Pengelompokan Berita Pada Unstructured Textual Data,” Maj. Ilm. Teknol. Elektro, vol. 17, no. 3, hal. 339–344, 2018.

  • [3]    M. R. Ridlo, S. Defiyanti, dan A. Primajaya, “Implementasi Algoritme K-Means Untuk Pemetaan Produktivitas Panen Padi Di Kabupaten Karawang,” in CITEE 2017, 2017, hal. 426–433.

  • [4]    widiarina, “Algoritma Cluster Dinamik Untuk Optimasi Cluster Pada Algoritma K-Means Dalam Pemetaan Nasabah Potensial Algoritma Cluster Dinamik Untuk Optimasi Cluster Pada Algoritma K-Means Dalam,” Tesis Magister Ilmu Komputer, Nusa Mandiri, vol. 1, no. 1, hal. 33–36, 2013.

  • [5]    M. Nishom dan M. Y. Fathoni, “Implementasi Pendekatan Rule-Of-Thumb untuk Optimasi Algoritma K-Means Clustering,” J. Inform. J. Pengemb. IT, vol. 3, no. 2, hal. 237–241, 2018.

  • [6]    K. G. Sharma, Y. Singh, dan A. K. Srivastava, “Variance on Factor,” in IMPACT, 2017, hal. 101–103.

  • [7]    N. P. E. Merliana, E. Ernawati, dan A. J. Santoso, “ANALISA Penentuan Jumlah Cluster Terbaik Pada Metode K-Means Clustering,” in Prosiding seminar nasional multi disiplin ilmu, 2015, hal. 978–979.

  • [8]    V. Bhatt, M. Dhakar, dan B. K. Chaurasia, “Filtered Clustering Based on Local Outlier Factor in Data Mining,” vol. 9, no. 5, hal. 275–282, 2016.

  • [9]    N. Idham, “Penerapan Outlier Analysis Sebagai Salah Satu

Rekomendasi Kelompok Belajar Terhadap Siswa Kelas 6 Di Sdn Pagelaran II Program Studi Teknik Informatika,” Universitas Komputer Indonesia, 2017.

  • [10]    Z. Li et al., “File yang so pernah download,” Jutei, vol. 2, no. 2, hal. 23–32, 2018.

  • [11]    N. B. Hartono, “Analisis Outlier Dan Heteroskedastisitas Dengan Menggunakan Regresi Robust Weight Least Square,” Universitas Negeri Semarang, 2016.

  • [12]    B. Santoso, I. Cholissodin, dan B. D. Setiawan, “Optimasi K-Means untuk Clustering Kinerja Akademik Dosen Menggunakan Algoritme Genetika,” J. Pengemb. Teknol. Inf. dan Ilmu Komput., vol. 1, no. 12, hal. 1652–1659, 2017.

  • [13]    G. Ngurah, W. Paramartha, D. E. Ratnawati, dan A. W. Widodo, “Analisis Perbandingan Metode K-Means Dengan Improved SemiSupervised K-Means Pada Data Indeks Pembangunan Manusia ( IPM ),” vol. 1, no. 9, hal. 813–824, 2017.

  • [14]    A. R. Mamat, F. S. Mohamed, dan M. A. Mohamed, “Silhouette index for determining optimal k-means clustering on images in different color models,” 106 Int. J. Eng. Technol., vol. 7, no. 2, hal. 105–109, 2018.

  • [15]    A. D. Savitri, F. A. Bachtiar, dan N. Y. Setiawan, “Segmentasi Pelanggan Menggunakan Metode K-Means Clustering Berdasarkan Model RFM Pada Klinik Kecantikan ( Studi Kasus: Belle Crown Malang ),” J. Pengemb. Teknol. Inf. dan Ilmu Komput., vol. 2, no. 9, hal. 2957–2966, 2018.

  • [16]    Z. Arifin, S. Santosa, dan M. A. Soeleman, “Klasterisasi Genre Cerpen Kompas Menggunakan Agglomerative Hierarchical Clustering- Single Linkage,” J. Teknol. Inf., vol. 13, no. 2, hal. 92– 100, 2017.

ISSN 1693 – 2951

Made Pasek Agus Ariaawan: Clustering Data Remunerasi PNS (…)