Pengaruh Kombinasi dan Urutan Pre-Processing pada Tweets Bahasa Indonesia

Written by Sheila Shevira, I Made Agus Dwi Suarjaya, Putu Wira Buana
on July 12, 2022

Authors:

Sheila Shevira, I Made Agus Dwi Suarjaya, Putu Wira Buana

Abstract:

“Twitter merupakan jaringan microblog online yang dijadikan gaya hidup baru di kalangan masyarakat sebagai wadah pengganti untuk mencari dan menyebarkan informasi, sebagai tempat mencurahkan perasaan, ataupun menjalankan bisnis, dengan cara menuliskan tweet. Permasalahannya adalah tweet yang dituliskan mayoritas oleh remaja berumur 18-24 tahun, sehingga kata-kata yang dituliskan masih banyak mengandung karakter pengganggu, ejaan, kata gaul, atau kata yang bersifat non-baku. Data yang tidak bersih dan akurat akan berdampak buruk bagi hasil analisis. Pre-processing data dalam hal ini berperan penting untuk memperbaiki data agar menjadi lebih bersih dan akurat sebelum diproses. Penelitian ini fokus membahas mengenai beberapa skenario kombinasi pre-processing, serta dengan mengubah urutan proses cleaning, normalisasi, stemming, dan stop-word, untuk mendapatkan akurasi paling baik dan meningkatkan performa dalam klasifikasi. Hasil testing pada tweet menunjukkan akurasi tertinggi ada pada data yang melewati tahapan penuh pre-processing data dengan urutan kombinasi pre-processing adalah menaruh proses normalisasi sebelum melakukan proses stemming, yaitu sebesar 89.2%.”

Keywords

Keyword Not Available

Downloads:

Download data is not yet available.

References

[1] S. Bhatt, “Apa itu Twitter?,” 2022. https://www.experthoot.com/id/cara-dm-di-twitter/.
[2] L. N. Azizah, “Pengertian Data: Fungsi, Manfaat, Jenis, dan Contohnya,” Gramedia Blog, 2022. https://www.gramedia.com/literasi/pengertian-data/#:~:text=a.,-Sebagai Suatu Acuan&text=Manfaat dan juga fungsi data,kegiatan tertentu yang kita inginkan.
[3] Adam, “Demografi Pengguna Twitter di Indonesia Paling Banyak Pria daripada Perempuan,” itworks.id, 2019. https://www.itworks.id/19408/demografi-pengguna-twitter-di-indonesia-paling-banyak-pria-daripada-perempuan.html.
[4] D. Sebastian, “Implementasi Algoritma K-Nearest Neighbor untuk Melakukan Klasifikasi Produk dari beberapa E-marketplace,” J. Tek. Inform. dan Sist. Inf., vol. 5, no. 1, pp. 51–61, 2019, doi: 10.28932/jutisi.v5i1.1581.
[5] P. A. Sumitro, Rasiban, D. I. Mulyana, and W. Saputro, “Analisis Sentimen Terhadap Vaksin Covid-19 di Indonesia pada Twitter Menggunakan Metode Lexicon Based,” J-ICOM - J. Inform. dan Teknol. Komput., vol. 2, no. 2, pp. 50–56, 2021, doi: 10.33059/j-icom.v2i2.4009.
[6] D. Darwis, E. S. Pratiwi, and A. F. O. Pasaribu, “Penerapan Algoritma Svm Untuk Analisis Sentimen Pada Data Twitter Komisi Pemberantasan Korupsi Republik Indonesia,” Edutic - Sci. J. Informatics Educ., vol. 7, no. 1, pp. 1–11, 2020, doi: 10.21107/edutic.v7i1.8779.
[7] R. Riyaddulloh and A. Romadhony, “Normalisasi Teks Bahasa Indonesia Berbasis Kamus Slang Studi Kasus: Tweet Produk Gadget Pada Twitter,” eProceedings Eng., vol. 8, no. 4, pp. 4216–4228, 2021, [Online]. Available: https://openlibrarypublications.telkomuniversity.ac.id/index.php/engineering/article/view/15246/14969.
[8] Arifin Kurniawan, Indriati Indriati, and Sigit Adinugroho, “Analisis Sentimen Opini Film Menggunakan Metode Naïve Bayes dan Lexicon Based Features,” J. Pengemb. Teknol. Inf. dan Ilmu Komput., vol. 3, no. 9, pp. 8335–8342, 2019.
[9] S. Almouzini, M. Khemakhem, and A. Alageel, “Detecting Arabic Depressed Users from Twitter Data,” Procedia Comput. Sci., vol. 163, pp. 257–265, 2019, doi: 10.1016/j.procs.2019.12.107.
[10] B. Nurfadhila, “Analisis Sentimen Untuk Mengukur Tingkat Indikasi Depresi Pada Twitter Menggunakan Text Mining,” no. 1, 2018.
[11] D. Sebastian and K. A. Nugraha, “Text normalization for Indonesian abbreviated word using crowdsourcing method,” 2019 Int. Conf. Inf. Commun. Technol. ICOIACT 2019, pp. 529–532, 2019, doi: 10.1109/ICOIACT46704.2019.8938463.
[12] D. Wahyudi, T. Susyanto, and D. Nugroho, “Implementasi Dan Analisis Algoritma Stemming Nazief & Adriani Dan Porter Pada Dokumen Berbahasa Indonesia,” J. Ilm. SINUS, vol. 15, no. 2, pp. 49–56, 2017, doi: 10.30646/sinus.v15i2.305.
[13] S. Khomsah and Agus Sasmito Aribowo, “Model Text-Preprocessing Komentar Youtube Dalam Bahasa Indonesia,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 4, no. 4, pp. 648–654, 2020, doi: 10.13140/RG.2.2.32319.74403.

[14] R. D. Arifin, “Pengertian Twitter

Sejarah, Fitur, Manfaat,” dianisa.com, 2020. https://dianisa.com/pengertian-twitter/ (accessed Nov. 23, 2021).

[15] F. Z. Tala, “A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia,” M.Sc. Thesis, Append. D, vol. pp, pp. 39–46, 2003.

PDF:

https://jurnal.harianregional.com/jitter/full-88613

Published

2022-07-12

How To Cite

SHEVIRA, Sheila; SUARJAYA, I Made Agus Dwi; BUANA, Putu Wira. Pengaruh Kombinasi dan Urutan Pre-Processing pada Tweets Bahasa Indonesia.JITTER : Jurnal Ilmiah Teknologi dan Komputer, [S.l.], v. 3, n. 2, p. 1074-1081, july 2022. ISSN 2747-1233. Available at: https://jurnal.harianregional.com/jitter/id-88613. Date accessed: 28 Aug. 2025. doi:https://doi.org/10.24843/JTRTI.2022.v03.i02.p06.

Citation Format

ABNT, APA, BibTeX, CBE, EndNote - EndNote format (Macintosh & Windows), MLA, ProCite - RIS format (Macintosh & Windows), RefWorks, Reference Manager - RIS format (Windows only), Turabian

Issue

Vol 3 No 2 (2022): JITTER, Vol.3, No.2, August 2022

Section

Articles

Copyright

This work is licensed under a Creative Commons Attribution 4.0 International License