Analisis Sentimen Twitter Pengaruh Tokoh Politik dengan Menggunakan Metode K-Nearest Neighbor
on
JNATIA Volume 2, Nomor 2, Februari 2024
Jurnal Nasional Teknologi Informasi dan Aplikasinya
p-ISSN: 2986-3929
Analisis Sentimen Twitter Pengaruh Tokoh Politik dengan Menggunakan Metode K-Nearest Neighbor
I Made Surya Adi Palgunaa1, Ngurah Agus Sanjaya ERa2
aProgram Studi Informatika, Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Udayana, Bali
Jln. Raya Kampus UNUD, Bukit Jimbaran, Kuta Selatan, Badung, 80361, Bali, Indonesia 1surya.adi.palguna067@student.unud.ac.id 2agus_sanjaya@unud.ac.id (Corresponding Author)
Abstract
Public opinion towards political figures can consist of positive and negative sentiments. Besides that, social media has developed which can be used as a forum for public opinion, one of which is Twitter. From this public opinion, sentiment analysis is formed which uses a classification algorithm. This work leverages the K-Nearest Neighbor (KNN) algorithm, which classifies data based on its similarity to existing data points. Tweets undergo preprocessing, followed by TF-IDF weighting for keyword importance and confusion matrix calculations for calculate the evaluation of algorithm. By analyzing the nearest neighbors, sentiment values are assigned. The KNN model achieved an accuracy of 84,06% for k = 5, precision of 86,70% for k = 5, recall of 95,89% for k = 7, and F1-score of 90,93% for k = 5, demonstrating its effectiveness in assessing sentiment and influence through Twitter data. This research contributes to the field of political communication by offering a robust method for analyzing public opinion and gauging the influence of political figures on social media platforms.
Keywords: Sentiment Analysis, K-Nearest Neighbor, TF-IDF, Confusion Matrix
Pemilihan umum adalah proses demokratis di mana warga negara suatu negara secara langsung memilih wakil rakyat atau pejabat pemerintahan dalam menentukan pemimpin dan kebijakan negara. Adapun selama berlangsungnya pemilihan umum ini akan membawa dampak yang beragam antar tokoh politik di Indonesia terutama pengaruhnya. Sehingga diperlukannya opini masyarakat terhadap pengaruh tokoh politik. Opini masyarakat terhadap tokoh politik dapat berupa sentimen positif dan negatif. Disamping itu sudah berkembangnya media sosial yang bisa dijadikan wadah opini publik, salah satunya adalah Twitter. Dari opini publik tersebut, terbentuknya analisis sentimen yang dimana menggunakan suatu algoritma klasifikasi.
Terdapat beberapa algoitma yang bisa digunakan dalam klasifikasi data salah satunya K-Nearest Neighbor. K-Nearest Neighbors (KNN) merupakan pengembangan dari Nearest Neighbor (NN), di mana suatu pertanyaan diberi label kelas berdasarkan mayoritas suara dari k tetangga terdekatnya dalam himpunan pelatihan, menjadikannya salah satu metode klasifikasi sederhana dalam pengenalan pola [1]. Beberapa penelitian sebelumnya sudah menggunakan algoritma tersebut dengan Akurasi sebesar 67.2% sampai 89.4% pada nilai k = 3, k = 5, k = 7, k = 8, dan k = 13, Rasio Error sebesar 10.6% pada nilai k = 3, Recall sebesar 61.56% sampai 78.24% pada nilai k = 7 dan k = 15, Presisi sebesar 56.94% sampai 92.38% pada nilai k = 5 dan k = 7, serta AUC sebesar 0.894 sampai 0.916 pada nilai k = 7 dan k = 8 [2] [3] [4] [5] [6].
Dalam melakukan proses analisis sentimen ini akan dilakukan tahapan penelitian sebagai berikut.

Gambar 1. Alur Metode Penelitian Analisis Sentimen
Pada penelitian analisis sentimen ini menggunakan data sebanyak 2000 tweet dari API Twitter dengan kata kunci “anies”, “prabowo”, “ganjar”, “muhaimin”, “gibran”, dan “mahfud” menggunakan library Python yang bernama tweet-harvest. Setelah didapat data tersebut akan dibagi menjadi data latih dan data validasi dengan perbandingan 80:20 sehingga data latih yang digunakan sebanyak 1600 data dan data validasi sebanyak 400 data.
Tahapan preprocessing data bertujuan untuk mempersiapkan dataset agar dapat diolah oleh algoritma analisis data. Proses ini dapat dibagi menjadi beberapa tahap, yaitu (1) Case Folding, (2) Tokenizing, (3) Stopword Removal, dan (4) Stemming.
-
a. Case Folding
Case folding adalah proses mengubah semua huruf dalam teks menjadi huruf kecil (lowercase) atau huruf besar (uppercase). Selain itu adapun proses lainnya seperti membersihkan data duplicate, data missing value, dan cleaning data tweet.
-
b. Tokenizing
Tokenisasi adalah proses memecah teks menjadi bagian-bagian kecil yang disebut token. Pada proses ini akan menggunakan function yang ada di bahasa pemrograman Python.
-
c. Stopword Removal
Stopwords adalah kata-kata umum yang sering muncul dalam suatu bahasa tetapi kurang memberikan makna signifikan dalam analisis teks. Pada proses ini akan menghilangkan stopword dengan menggunakan library Python yang bernama Sastrawi.
-
d. Stemming
Stemming adalah proses menghilangkan afiks dari kata untuk menghasilkan bentuk dasarnya, yang disebut stem. Pada proses stemming akan menggunakan library Python yang bernama Sastrawi.
Tahapan pelabelan data bertujuan untuk menetapkan label atau kategori pada setiap instan data. Pelabelan data dalam analisis sentimen Twitter dengan metode K-Nearest Neighbor berfungsi untuk mengkategorikan tweet ke dalam kelas sentimen yang tepat, memungkinkan model memahami pola sentimen dan meningkatkan akurasi prediksi.
Tahapan implementasi algoritma KNN bertujuan untuk mengimplementasikan algoritma klasifikasi KNN (K-Nearest Neighbors) pada dataset. Pada pengimplementasian menggunakan kedua algoritma tersebut akan menggunakan parameter berupa matriks tokenisasi semua data
latih, label semua data latih, matriks tokenisasi yang akan dihasilkan labelnya, dan nilai k. Adapun nilai k yang digunakan dalam penelitian ini sebesar 3, 5, dan 7. Sehingga keluaran yang dihasilkan berupa label dari matriks tokenisasi tersebut. Adapun menggunakan TF-IDF (Term Frequency-Inverse Document Frequency) yang berfungsi untuk mengevaluasi seberapa penting suatu kata dalam sebuah dokumen dengan memperhitungkan frekuensinya dalam dokumen tersebut dan invers proporsional dengan frekuensi kemunculannya di seluruh koleksi dokumen.
Tahapan evaluasi bertujuan untuk menguji dan mengukur kinerja algoritma klasifikasi yang telah diimplementasikan. Pada penelitian ini akan menggunakan data validasi sebesar 400 data dan evaluasi yang diukur dalam penelitian ini meliputi Akurasi, Presisi, Recall, dan F1 -Score dengan menggunakan confusion matrix.
Pada penelitian ini menggunakan Google Colab dengan beberapa library Python. Adapun proses dari metode dalam penelitian ini dimulai dari pengumpulan data sebanyak 2000 data yang dapat digambarkan hasilnya sebagai berikut.
createdat
O Mon Jan 08 02:10:09 +0000 2024
1 Mon Jan 08 02:10:09 +0000 2024
fulltext username
hilih dulu partai Mercedes pas dukung Anies pa... arthrw-
©Zulkifli Lubi s69 ©prabowo Y Allah jadikan Anie... Rawing1274
2 Mon Jan 08 02:10:08 +0000 2024 @Malika6027 Anies alumni UGM Ganjar alumni UGM... penjag ah atii009
3 Mon Jan 08 02:10:03 +0000 2024
Masyarakat bisa diang hap memneri amal Jariyah ... WigRahman
4 Mon Jan 08 02:10:01 +0000 2024 ©mihrabku ©aniesbaswedan ©prabowo ©ganjarprano... PietSoIyatuddin
|
2250 |
Mon Jan 08 03:15:14 +0000 2024 |
Pake AGanjarMahfiidRebound itu seru banget, tern... |
bawerman68390 |
|
2251 |
Mon Jan 08 03:15:14 +0000 2024 |
Pake AJNKBersamaGanjarMahfud itu seru banget,... |
mitcħellJ70489 |
|
2252 |
Mon Jan 08 03:15:14 +0000 2024 |
Pake AGanjarMahfudRebound itu seru banget, tern... |
MitchellCh36585 |
|
2253 |
Mon Jan 08 03:15:14 +0000 2024 |
Dalam era AGanjarMahfudRebound, Ganjar Pranowo... |
AnthonyFisI 8905 |
|
2254 |
Mon Jan 08 03:15:13 +0000 2024 |
Yudhalmamf Twillight-Loid Ke Mana Aje Tw... |
NataIieGraceS |
2255 rows χ 3 columns
-
Gambar 2. Pengumpulan Data
Kemudian adapun preprocessing data yang terbagi menjadi Case Folding, Tokenizing, Stopword Removal, dan Stemming yang dapat digambarkan hasilnya sebagai berikut.
o
1
2
3
case-folding
hilih dulu partai mercedes pas dukung anies pa... y allah jadikan anies baswedan sbg presiden ri... anies alumni ugm ganjar alumni ugm prabowo alu... masyarakat bisa dianghap memneri amal Jariyah ... saya pikir tadi malam mereka memang berbagi tu
stopwo rd_remova1
[hilih, dulu, partai, mercedes. pas. dukung, p...
[y, allah, jadikan, baswedan. sbg, presiden, r.
[alumni, ugm, alumni, ugm. alumni, capres, 2014] [masyarakat, dianghap, memneri, amal, Jariyah,... [pikir, tadi, malam, memang, berbagi, tugas, m...
stemming
hilih dulu partai mercedes pas dukung pake pin... y allah jadi baswedan sbg presiden ribiar urus...
alumni ugm alumni ugm alumni capres 2014 masyarakat dianghap memneri amal Jariyah rp 45... pikirtadi malam memang bagi tugas mantik kubu...
2242 pasangan capres cawapres ganjar pranowo mahfud...
[pasangan, capres. cawapres, pranowo, md. calo...
pasang capres cawapres pranowo md calon pimpin...
2243 ganjar pranowo dan mahfud md mendukung dengan ... [pranowo, mahfud, md, mendukung, tegas, upaya,... pranowo mahfud md dukung tegas upaya cipta leg...
2245 pasangan capres dan cawapres ri nomor 03 ganja... [pasangan, capres, cawapres, ri, nomor, 03, pr... pasang capres cawapres ri nomor 03 pranowo md ...
2246 dalam era ganjar pranowo dan mahfud md memimpi... [era, pranowo, mahfud, md, memimpin, teladan,... era pranowo mahfud md pimpin teladan ajak masy...
2254 yudhaimamf Iwillightloid ke mana aje twillight... [yudhaimamf, twillightloid, mana, aje, twillig... yudhaimamf Iwillightloid mana aje Iwillightloi...
2040 rows x 3 columns
-
Gambar 3. Preprocessing Data
Setelah itu akan dilakukan pelabelan data setelah melakukan preprocessing data sehingga dapat digambarkan hasilnya sebagai berikut.
|
preprocessing |
tweet_english |
sentimen | |
|
0 |
hilih dulu partai mercedes pas dukung pake pin... |
i first chose the mercedes party when supporti... |
Positif |
|
1 |
y allah jadi baswedan sbg presiden ribiar urus... |
o god, so baswedan as president of the republi... |
Negatif |
|
2 |
alumni ugm alumni ugm alumni capres 2014 |
ugm alumni alumni ugm alumni candidate 2014 |
Positif |
|
3 |
masyarakat dianghap memneri amal Jariyah rp 45... |
the people are arrested by Charityjariyah rp.... |
Positif |
|
4 |
pikirtadi malam memang bagi tugas mantik kubu... |
thinking last night indeed for the task of the... |
Positif |
|
2035 |
pasang capres cawapres pranowo md calon pimpin... |
install the vice presidential candidate pranow |
Positif |
|
2036 |
pranowo mahfud md dukung tegas upaya cipta leg... |
pranowo mahfud md firmly supports efforts to c... |
Negatif |
|
2037 |
pasang capres cawapres ri nomor 03 pranowo md ... |
install the Indonesian vice presidential candi... |
Positif |
|
2038 |
era pranowo mahfud md pimpin teladan ajak masy... |
era pranowo mahfud md lead an example inviting... |
Negatif |
|
2039 |
YUdhaimamftwiIIightIoid mana aje twillightloi... |
YUdhaimamftwiIIightIoid where ajetwillightlo... |
Positif |
2040 rows χ 3 columns
Gambar 4. Pelabelan Data
Setelah itu akan dilakukan implementasi algoritma KNN dan pembobotan TF-IDF yang dimana data tersebut akan dibagi menjadi data latih dan data validasi dengan perbandingan 80:20 sehingga data latih yang digunakan sebanyak 1600 data dan data validasi sebanyak 400 data. Sehingga dapat digambaran hasilnya sebagai berikut.
tweet data label
matrix
0 hiliħ du I u partai mercedes pas du Ku ng pate pin...
1 [0 0. 0.0. 0.0, 0.0. 0.0. 0.0. 0.0. 0.0. 0.0. ...
0 [0 0. 0.0, 0.0, 0 0. 0.0, 0.0, 0.0. 0.0, 0.0....
1 [0 0. 0.0. 0.0. 0.0. 0.0, 0.0. 0.0, 0.0. 0.0....
1 [0 0, 0.0, 0.0, 0 0. 0.0, 0.0, 0.0. 0.0, 0.0,...
0 [0 0, 0.0, 0.0, 0 0. 0.0, 0.0, 0.0, 0.0, 0.0,...
1 [0 0, 0.0, 0.0, 0 0. 0.0, 0.0, 0.0, 0.0, 0.0,...
-
1 y allaħ Jadi baswedan sbg presiden ribiar urus...
-
2 alumni ugm alumni ugm alumni capres 2014
-
3 masyarakat dianghap memneri amal Jariyan rp 45...
-
4 pikir tadi malam memang bagi tugas mantik kubu...
2035 pasang capres cawapres pranowo md calon pimpin...
2036 pranowo mahfud md dukung tegas upaya cipta leg...
2037 pasang capres cawapres ri nomor 03 pranowo md ...
2038 era pranowo mahfud md pimpin teladan ajak masy. ..
2039 YUdhaimamftwiIIightIoid mana aje twillightloi...
2040 rows * 3 columns
-
Gambar 5. Implementasi Algoritma KNN
Hingga setelah proses tersebut akan dilakukan proses pengujian dan evaluasi menggunakan perhitungan confusion matrix baik untuk Akurasi, Presisi, Recall, dan F1-Score yang dimana memberikan gambaran jelas tentang kinerja dengan menyajikan informasi detil tentang hasil klasifikasi, termasuk jumlah prediksi benar dan salah untuk setiap kelas.
-
3.2 Hasil
Berikut adalah hasil analisis sentimen Twitter terhadap pengaruh tokoh politik dengan menggunakan metode K-Nearest Neighbor:
Tabel 1. Hasil Analisis Sentimen
|
Nilai k |
Akurasi |
Presisi |
Recall |
F1-Score |
|
3 |
83,08% |
85,78% |
95,60% |
90,43% |
|
5 |
84,06% |
86,70% |
95,60% |
90,93% |
|
7 |
82,59% |
85,15% |
95,89% |
90,20% |
Dari tabel di atas, dapat dilihat bahwa nilai akurasi, presisi, dan F1-score tertinggi diperoleh pada nilai k = 5. Hal ini menunjukkan bahwa metode K-Nearest Neighbor dengan nilai k = 5 dapat memberikan hasil analisis sentimen yang paling akurat.
Berdasarkan penelitian yang telah dilakukan, diperoleh kesimpulan bahwa penelitian tentang analisis sentimen pengguna Twitter terhadap pengaruh tokoh politik dengan menggunakan metode K-Nearest Neighbor telah berhasil dilakukan. Dengan menggunakan confusion matrix, hasil akurasi yang terbesar 84,06% pada k = 5, nilai presisi terbesar 86,70% pada k = 5, recall terbesar 95,89% pada k = 7, dan F1-score terbesar 90,93% pada k = 5. Hasil penelitian ini menunjukkan bahwa metode K-Nearest Neighbor dapat digunakan untuk menganalisis sentimen Twitter terhadap pengaruh tokoh politik dengan akurasi yang cukup tinggi. Hal ini menunjukkan bahwa analisis sentimen Twitter dapat menjadi alat yang berguna untuk mengukur pengaruh tokoh politik terhadap masyarakat.
Daftar Pustaka
-
[1] J. Gou, L. Du, Y. Zhang and T. Xiong, "A New Distance-Weighted K-Nearest Neighbor Classifier," Journal of Information & Computational Science, pp. 1429-1436, 2012.
-
[2] M. S. Alrajak, I. Ernawati e I. Nurlaili, “Analisis Sentimen Terhadap Pelayanan PT PLN di Jakarta pada Twitter dengan Algoritma K-Nearest Neighbor (K-NN),” Seminar Nasional Mahasiswa Ilmu Komputer dan Aplikasinya (SENAMIKA), pp. 110-122, 2020.
-
[3] A. Asro’i e H. Februariyanti, “Analisis Sentimen Pengguna Twitter terhadap Perpanjangan PPKM Menggunakan Metode K-Nearest Neighbor,” Jurnal Khatulistiwa Informatika, vol. X, nº 1, pp. 17-24, 2022.
-
[4] A. Deviyanto e M. D. R. Wahyudi, “Penerapan Analisis Sentimen pada Pengguna Twitter Menggunakan Metode K-Nearest Neighbor,” JISKa (Jurnal Informatika Sunan Kalijaga), vol. III, nº 1, pp. 1-13, 2018.
-
[5] S. Ernawati e R. Wati, “Penerapan Algoritma K-Nearest Neighbors pada Analisis Sentimen Review Agen Travel,” Jurnal Khatulistiwa Informatika, vol. VI, nº 1, pp. 64-69, 2018.
-
[6] R. Sari, “Analisis Sentimen pada Review Objek Wisata Dunia Fantasi Menggunakan Algoritma K-Nearest Neighbor (K-NN),” Jurnal Sains dan Manajemen, vol. VIII, nº 1, pp. 1017, 2020.
Halaman ini sengaja dibiarkan kosong
448
Discussion and feedback