JURNAL ILMIAH MERPATI VOL. 8, NO. 2 AUGUST 2020

p-ISSN: 2252-3006

e-ISSN: 2685-2411

Teknik Data Cleaning Menggunakan Snowflake untuk Studi Kasus Objek Pariwisata di Bali

Ni Putu Ayu Widiari, I Made Agus Dwi Suarjaya, Dwi Putra Githa Program Studi Teknologi Informasi, Fakultas Teknik, Universitas Udayana Bukit Jimbaran, Bali, Indonesia, Telp. (0361) 701806 e-mail: [email protected], [email protected], [email protected]

Abstrak

Sejumlah besar data memiliki beberapa masalah yang sering ditemui seperti duplikasi data, ketidakkonsistenan data, dan ketidaklengkapan data. Variasi data yang dikumpulkan dari berbagai sumber akan mempengaruhi keakuratan hasil prediksi. Semakin banyak jumlah data yang dikumpulkan, pembersihan data manual hampir tidak mungkin karena memakan waktu dan rentan terhadap kesalahan. Untuk mempersingkat waktu dan mengurangi rentan kesalahan, diperlukan sebuah sistem yang dapat melakukan proses data cleaning secara otomatis. Tujuan dari proses data cleaning adalah menawarkan kualitas data yang lebih baik yang sangat membantu untuk memastikan data siap untuk tahap analisis. Salah satu tools pengolahan data yang dapat digunakan adalah Snowflake. Snowflake adalah tools pengolahan dengan basis query SQL yang dirancang untuk cloud. Data yang digunakan adalah tweet objek wisata di Bali melalui proses crawling data menggunakan Twitter API. Data yang dikumpulkan akan dibersihkan melalui dua tahap yaitu pembersihan Retweet dan kata noise, yang dilanjutkan dengan pembersihan untuk mencari tweet spesifik yang mengarah ke pariwisata Bali. Hasil proses cleaning objek wisata Bali pada 4 objek wisata yaitu Uluwatu, Sanur, Nusa Penida, dan Garuda Wisnu Kencana menunjukkan bahwa Nusa Penida merupakan objek wisata dengan jumlah penurunan yang signifikan dengan jumlah raw data yaitu 8087, cleaning tahap pertama yaitu 4770 data, dan cleaning tahap kedua adalah 2608 data.

Kata Kunci: Data cleaning, Snowflake, Twitter, Bali

Abstract

Massive amounts of data have several problems that are often encountered such as data duplication, data inconsistency, and incomplete data. Data collected from the various sources will affect the accuracy of the prediction results. As more amount of data is collected, manual data cleaning is almost impossible because it is time consuming and prone to errors. To shorten time and reduce error prone, we need a system that can perform data cleaning processes automatically. The purpose of the data cleaning process is to offer better data quality which is very helpful to ensure the data is ready for the analysis phase. Cleaning data offers a better data quality which will be very helpful to ensure the data is ready for analysis. One of the data processing tools that can be used is Snowflake. Snowflake is a basis of SQL query tool that are designed for the cloud. The data used is tourist attractions tweets in Bali through data crawling process using the Twitter API. Data collected will be processed through two steps namely Retweet and noise word cleaning, and continued with specific tweets cleaning addressed to Bali. The result for 4 attractions in Bali namely Uluwatu, Sanur, Nusa Penida, and Garuda Wisnu Kencana shows that Nusa Penida is a tourist attraction with a significant amount decreased with the number of raw data that is 8087, first cleaning is 4770 data, and second cleaning is 2608 data.

Keywords: Data cleaning, Snowflake, Twitter, Bali

  • 1.     Pendahuluan

Data banyak digunakan untuk aktivitas organisasi dan mendorong keputusan bisnis. Data berkualitas buruk dapat berdampak negatif terhadap efektivitas dan efisiensi organisasi. Masalah kualitas data adalah salah satu kendala untuk menggunakan data secara efektif

karena data yang kotor dapat menyebabkan kesalahan keputusan [1]. Berbagai penelitian telah dilakukan selama bertahun-tahun untuk menemukan teknik pembersihan data terbaik untuk memecahkan masalah kualitas data.

Variasi data mungkin menjadi hambatan terbesar dalam penggunaan data untuk kepentingan analisis [2]. Jenis kesalahan yang berbeda seperti ketidaklengkapan, ketidakkonsistenan, duplikasi, dan nilai yang saling bertentangan terdapat dalam data yang akan mempengaruhi hasil analisis. Sejumlah penulis telah mengusulkan solusi untuk mengatasi masalah pembersihan data. Pembersihan data adalah operasi yang dilakukan pada data yang ada untuk menghilangkan anomali dan mendapatkan koleksi data[3]. Pembersihan data meliputi menghilangkan eror/kesalahan, menyelesaikan ketidakkonsistenan dan mentransformasikan data menjadi format yang seragam [4].

Proses pembersihan data adalah proses kompleks dan terdiri dari beberapa tahap yang meliputi penentuan aturan kualitas data, mendeteksi eror/kesalahan data, dan memperbaiki kesalahan. Pembersihan data dibagi menjadi pembersihan data tradisional dan pembersihan untuk data skala besar [5]. Metode pembersihan data tradisional disebut tradisional karena tidak cocok untuk menangani sejumlah data dengan volume dan skala besar. Potter’s Wheel and Intelliclean adalah beberapa contoh pembersihan data secara tradisional [5]. Implementasi proses data cleaning banyak digunakan pada Sentimen Analisis, text processing, Machine Learning, dan Natural Language Processing.

Semakin banyak jumlah data yang dikumpulkan, pembersihan data manual hampir tidak mungkin karena memakan waktu dan rentan terhadap kesalahan. Untuk mempersingkat waktu dan mengurangi rentan kesalahan, diperlukan sebuah sistem yang dapat melakukan proses data cleaning secara otomatis. Salah satu tools yang digunakan untuk mengolah data dengan skala besar dan digunakan untuk proses data cleaning secara otomatis adalah Snowflake. Snowflake adalah data warehouse menggunakan mesin database SQL baru dengan arsitektur yang dirancang untuk cloud.

Penelitian terkait yang menggunakan proses data cleaning di dalamnya menggunakan proses stopword removal [6][7][8] dimana menghapus kata yang tidak memiliki makna yang termasuk pada stopwords. Penelitian lainnya [9] yang berjudul “Text Based Approach For Similar Traffic Incident Detection from Twitter” menggunakan kata kunci untuk proses filtering. Kata kunci ini diperoleh dengan mengamati tweet konten informasi lalu lintas. Sejumlah katakata penting yang sering muncul pada informasi trafik di korpus lalu dipilih sebagai kata kunci.

Penelitian ini mengusulkan tools data cleaning (Big Data) objek wisata di Bali menggunakan Snowflake. Proses cleaning meliputi proses menghilangkan kata noise yang dapat menganggu dalam proses analisis selanjutnya. Kata yang dihilangkan adalah kata kunci, username, hastags(#), email, Retweet, ikon emosi, dan url.

  • 2.    Metodologi Penelitian

Penelitian terkait proses data cleaning menggunakan Snowflake dilakukan dalam empat Langkah yang dijabarkan melalui diagram alir dari tahapan penelitian seperti yang ditunjukkan pada Gambar 1 berikut.

Pendefinisian Masalah dan Studi Literatur





Pengumpulan data (input)


Pengolahan data dengan tools Snowflake



Hasil pengolahan data (output)


Gambar 1. Diagram alir tahapan penelitian

Penelitian ini dimulai dari mendefinisikan masalah yaitu bagaimana proses data cleaning menggunakan tools Snowflake, dilanjutkan dengan proses studi literatur mengenai Snowflake. Tahapan berikutnya adalah mengumpulkan data, data yang dikumpulkan berupa data hasil crawling tweet. Crawling merupakan tahapan pengumpulan data dengan melakukan pencarian melalui suatu kata kunci (keywords) tertentu dari media sosial. Data dikumpulkan dari Twitter menggunakan kata kunci terkait dan hastags(#) dengan objek wisata tiap kabupaten/kota di Bali secara berkala dari Oktober-Desember 2019 dengan mengakses Twitter API. Data tweet yang telah dikumpulkan diolah dengan tools Snowflake yang meliputi proses menghilangkan kata noise yang dapat menganggu dalam proses analisis selanjutnya. Kata yang dihilangkan adalah kata kunci, hastags(#),ikon emosi, simbol HTML, username, email, Retweet, dan url. Penelitian menghasilkan outcome berupa data tweet objek wisata bersih yang telah melalui proses cleaning menggunakan Snowflake.

  • 3.    Kajian Pustaka

    • 3.1    Data cleaning

Data cleaning atau pembersihan data merupakan proses yang digunakan untuk mendeteksi, memperbaiki ataupun menghapus dataset, tabel, dan database yang korup atau tidak akurat. Istilah ini mengacu pada dirty data yang akan diganti, dimodifikasi atau dihapus setelah tahap identifikasi data yang tidak lengkap, tidak benar, tidak tepat, dan tidak relevan [10]. Proses data cleaning ini penting untuk mencegah data duplikat, membuat data lebih terstruktur, dan kompatibel [11]. Proses data cleaning terdiri dari 5 tahap yaitu; (1) Analisis Data, (2) Definisi alur kerja transformasi dan aturan pemetaan, (3) verifikasi, (4) Transformasi, (5) Arus balik data yang telah dibersihkan.

Gambar 2. Tahapan Proses Data cleaning

Langkah pertama dalam proses Data cleaning adalah menganalisis data untuk mengidentifikasi kesalahan dan ketidakkonsistenan yang terjadi di database. Dengan kata lain, fase ini disebut audit data di mana fase ini akan menemukan semua jenis anomali dalam database. Hasil dari langkah pertama adalah indikasi untuk setiap kemungkinan anomali apakah itu terjadi di dalam database. Selanjutnya, mendefinisikan alur kerja transformasi dan penghapusan anomali yang dilakukan mengikuti urutan operasi pada data. Hal ini ditentukan setelah analisis data untuk mendapatkan informasi tentang anomali yang ada. Jumlah langkah transformasi yang diperlukan tergantung pada jumlah sumber data, tingkat heterogenitas dan 'kekotoran' dari data. Untuk mengaktifkan pembuatan otomatis kode transformasi, transformasi terkait skema, dan langkah-langkah pembersihan harus ditentukan oleh kueri deklaratif dan bahasa pemetaan. Salah satu tantangan utama dalam hal ini fase adalah spesifikasi alur kerja dan aturan pemetaan yang akan diterapkan pada data kotor.

Langkah ketiga adalah tahap verifikasi. Dalam fase ini, kebenaran dan keefektifan transformasi alur kerja dievaluasi. Fase ini terdiri dari beberapa iterasi untuk memverifikasi semua kesalahan, Setelah data diverifikasi dan divalidasi, langkah-langkah transformasi akan dieksekusi. Proses transformasi membutuhkan sejumlah besar metadata seperti skema dan karakteristik data, pemetaan transformasi dan definisi alur kerja. Informasi terperinci tentang transformasi proses harus direkam untuk mendukung kualitas data. Setelah semua data kotor dibersihkan, maka data kotor seharusnya terganti dengan data bersih.

  • 3.2    Snowflake

Snowflake adalah gudang data analitik yang disediakan sebagai Software-as-a-Service (SaaS). Snowflake menyediakan data warehouse yang lebih cepat dan lebih mudah digunakan, serta lebih fleksibel daripada penawaran data warehouse tradisional. Gudang data analitik Snowflake tidak dibangun di atas basis data yang ada atau platform perangkat lunak big data seperti Hadoop. Gudang data Snowflake menggunakan mesin database SQL baru dengan arsitektur unik yang dirancang untuk cloud. Untuk pengguna, Snowflake memiliki banyak kesamaan dengan gudang data perusahaan lainnya, tetapi juga memiliki fungsionalitas tambahan dan kemampuan unik.

  • 4.    Hasil dan Pembahasan

Berikut merupakan proses tahapan cleaning objek wisata di Bali. Proses awal adalah crawling data tweet dengan data hasil berupa data JSON. Proses dilanjutkan dengan proses cleaning menggunakan query tools Snowflake. Berikut merupakan hasil crawling data tweet objek wisata di Bali.

_id: Objectid("5d65ic bbS3 daθ529f08fIb76 ”) created_at: "Sun Aug 25 2 5:46:53 +eeee 2ei9" id: 1165772567510233089 id_str: "1165772567510233089"

full_text:"Everything you need for a trip to Sanur, Bali. Transportation, what ap..." truncated:false

  • >    display_text_range: Array

  • >    entities: Object

  • >    metadata: object

source: ',<a href=”http://pinterest.com” rel="nofollow">Pinterest<∕a>" in_reply_to_status_id: null in_reply_to_status_id_str: null in_reply_to_user_id: null in_reply_to_user_id_str: null in_reply_to_screen_name: null

v user: Object id: 3909262397 id_str:"3909262397” name: "Hinimizeandtravel " screen_name: ''Biininizetravel" location:"U.K.”

description:"we think life is about more experiences and kindness and less stuff. B..." url:"https:/∕t.co∕7uRp8Yjh62"

  • > entities:Object protected: false followers_count: 3468 friends_count: 4199 listed_count: 42 created_at: "Fri Oct 09 13:29:48 +8000 2015" favourites_count: 477

Gambar 3.Tweet JSON

Gambar 3 merupakan contoh tweet JSON hasil crawling data. Data tweet hasil crawling data merupakan data yang semi-struktur yang tidak terdiri dari field atau kolom dan tidak memiliki relasi seperti data pada database pada umumnya. Raw tweet data memiliki beberapa atribut seperti nama, ID, lokasi, deskripsi tweet, jumlah follower, jumlah teman, dan sebagainya.

CREATE TABLE table_name (id int, tanggal date, text varchar(1000), retweet int, favorite int, matches string)

Kode Program 1. Sintaks Create Table

Kode program 1 merupakan sintaks membuat tabel dengan kolom id, tanggal, text, retweet, favorite, dan matches. Proses cleaning tweet objek wisata dengan Snowflake memerlukan tiga tabel (tb_cleaning, tb_filtering, tb_filter2) untuk menampung setiap data hasil cleaning. tb_cleaning merupakan tabel untuk menampung hasil penyamaan atribut kolom tweet. tb_filtering merupakan tabel untuk menyimpan hasil cleaning I yang merupakan penghapusan tweet yang mengandung kata sale, jual, dan tweet promosi. tb_filter2 merupakan tabel untuk menampung tweet bersih hasil cleaning II (penghapusan retweet, mencari tweet yang spesifik mengarah ke objek wisata).

INSERT INTO tb_cleaning

select      c1:id::int      id,      :c1:created_at::date      tanggal,

c1:full_text::string   text,   c1:retweet_count::int   retweet_count,

c1:favorite_count::int favorite_count from tb_json

Kode Program 2. Sintaks insert tb_cleaning

Kode program 2 merupakan sintaks untuk menyisipkan data dari tabel sebelumnya ke tb_cleaning dengan hanya menyisipkan atribut yang diperlukan seperti id, tanggal, text, retweet_count, dan favorite_count.

INSERT INTO tb_filtering

SELECT DISTINCT id, date, text, retweet_count, favorite_count, lower(text) regexp

'\\b.*tanah\\b.*|^rt\\b.*|\\b.*jual\\b.*|\\b.*sale\\b.*|^available\\b

.*|\\b.*vacancy\\b.*|\\b.*Lowongan\\b.*|\\b.*sell\\b.*

|\\b.*lazada\\b.*|\\b.*voucher\\b.*|\\b.*villas\\b.*|\\b.*dog\\b.*|\\ b.*availabe\\b.*'

as matches from tb_cleaning where matches=false order by text

Kode Program 3. Sintaks insert tb_filtering

Kode program 3 merupakan sintaks untuk menyisipkan data dari tb_cleaning ke tb_filtering dimana data yang disisipkan adalah data yang tidak mengandung kata noise. Query SELECT DISTINCT merupakan query untuk tidak menampilkan data duplikat. Query lower(text) merupakan query untuk membuat seluruh karakter pada kolom text menjadi huruf kecil. Query REGEXP merupakan query untuk mencocokkan pola dalam data menggunakan karakter placeholder, yang disebut operator (\, . ,*). Karakter placeholder pada query diatas adalah tanah, jual, sale, lowongan, dan lain-lain yang merupakan kata noise yang harus dihilangkan untuk proses analisis selanjutnya.

ID

DATE

TEXT

RETWEET-COUNT

FAVORITE-COUN

MATCHES

1201537015529033...

2019-12-02

"Another great working view from I...

0

1

FALSE

1195627897731657...

2019-11-16

“Bali, Uluwatu [OC] [3945×5917]" h...

0

0

FALSE

119616168715562 5...

2019-11-17

“Bali, Uluwatu. From u∕flip14 on Red...

0

0

FALSE

1199648373617418...

2019-11-27

"Don't ask what the world needs, a...

0

0

FALSE

1182771608831905...

2019-10-11

"I was introduced to the dream of I...

1

0

FALSE

1181947500380459...

2019-10-09

"I was introduced to the dream of I...

2

1

FALSE

11812 37825305501...

2019-10-07

"I was introduced to the dream of I...

0

0

FALSE

Gambar 4. Detail hasil tb_filtering

Gambar 4 merupakan detail hasil tb_filtering yang terdiri dari 6 kolom yaitu kolom id, date, text, retweet_count, favorite_count, dan matches. Hasil filtering adalah mencari kumpulan tweet yang tidak mengandung kata noise seperti pada kode program 3.

INSERT INTO tb_filter2

SELECT * FROM tb_filtering where text not LIKE 'RT%'

Kode Program 4. Sintaks insert tb_filter2

Kode Program 4 merupakan sintaks untuk menyisipkan data dari tb_filtering ke tb_filter2 dimana data tidak mengandung kata ‘RT’ pada kolom text. Query SELECT * FROM merupakan query untuk menampilkan seluruh data dari tb_filtering. Query LIKE merupakan query untuk mencari pola tertentu dalam kolom pada suatu tabel.

ID

DATE

TEXT

RETWEET

FAVORITE

MATCHES

12031808198142402...

2019-12-07

7 Des Dibutuhkan: 1 (satu) Cook 1 (satu...

0

0

false

11922293881605242...

2019-11-06

7 November Triangle English Centre me...

0

0

false

11891938133544345...

2019-10-29

7 Tips Menyaksikan Kecak Fire Dance UI...

O

O

false

1192563139713228801

2019-11-07

8 Nov Dibutuhkan segera karyawan di b...

0

0

false

11868947636491673...

2019-10-23

8,5 years ago when you were witnessed ...

0

0

false

1185184985017307137

2019-10-18

@515SunLight ιaιιSιa∏HM Iiiianι2uLuaj...

0

1

false

12110548688505282...

2019-12-28

@56Hz I have a soft spot for Uluwatu.

O

O

false

1203492414154887170

2019-12-08

@ADNInfoDrive Uluwatu Beach, Bali ADN...

2

0

false

12076073597170032...

2019-12-19

@A_DeyJKT48 Udeh Io kaga cocok ρake...

0

0

false

12057204275001917...

2019-12-14

(Q)AdjieSanPutro @arievrahman @whatra...

0

0

false

Gambar 5. Detail hasil tb_filter2

Gambar 5 merupakan detail hasil tb_filter2 yang terdiri dari 6 kolom yaitu kolom id, date, text, retweet_count, favorite_count, dan matches. Hasil filtering adalah mencari kumpulan tweet yang tidak mengandung kata RT atau Retweet seperti pada kode program 4.

SELECT * FROM tb_filter2 where text LIKE '%pura%' OR text LIKE '%uluwatu%' OR text LIKE '%pantai%' OR text LIKE '%beach%'

OR text LIKE '%bali%' OR text LIKE '%#uluwatu%' OR text LIKE

'%travel%' OR text LIKE '%holiday%'

Kode Program 5. Sintaks select tb_filter2

Kode program 5 merupakan sintaks untuk menampilkan data dari tb_filter2 dimana data yang ditampilkan adalah data yang memiliki pola kata (pura, uluwatu, pantai, beach, bali, uluwatu, travel, holiday) pada kolom text.

ID

DATE

TEXT

RETWEET

FAVORITE

MATCHES

1196161687155625988

2019-11-17

“Bali, Uluwatu. From u∕flip14 on Reddit Su...

0

0

false

1199648373617418240

2019-11-27

"Don't ask what the world needs, ask wh...

0

0

false

1192743279172829191

2019-11-08

"Pura Luhur Uluwatu adalah salah satu d...

3

1

false

1207930218410725377

2019-12-20

"maaf ya sayang kacamatanya potek lagi...

0

0

false

1195068139224076290

2019-11-14

SBaIi Slndonesia is one of the most amaz...

0

2

false

1181805762344964096

2019-10-09

SBaIi is an Slndonesian Sisland known for...

0

1

false

1195639542574960640

2019-11-16

SBaIi1 Uluwatu [OC] [3945×5917] Stravel...

0

0

false

Gambar 6. Hasil filtering tweet spesifik

Gambar 6 merupakan detail hasil tb_filter2 yang terdiri dari 6 kolom yaitu kolom id, date, text, retweet_count, favorite_count, dan matches. Hasil filtering adalah mencari kumpulan tweet yang spesifik dan mengandung pola kata objek wisata (pura, uluwatu, pantai, beach, bali, uluwatu, travel, holiday)

Tabel 1. Hasil Proses Cleaning Objek Wisata dengan Snowflake

No

Objek Wisata

Raw Data

Cleaning I

Cleaning II

1

Uluwatu

7346

4754

2703

2

Sanur

6269

5198

4330

3

Nusa Penida

8087

4770

2608

No

Objek Wisata

Raw Data

Cleaning I

Cleaning II

4

Garuda Wisnu Kencana

957

439

421

Empat objek wisata ini digunakan karena adanya limitasi dari penggunaan tools Snowflake. Tools Snowflake untuk versi trial terdapat limitasi untuk database penyimpanan. Tabel 1 merupakan hasil proses cleaning objek wisata di Bali dengan jumlah 4 objek wisata yaitu Uluwatu, Sanur, Nusa Penida, dan Garuda Wisnu Kencana. Hasil dari proses cleaning menunjukkan adanya penurunan siginifikan jumlah tweet dari raw data. Penurunan proses cleaning pertama disebabkan adanya retweet yang mengandung spam, tweet promosi, dan penjulan. Sedangkan penurunan yang terjadi pada proses cleaning tahap kedua disebabkan karena pencarian tweet spesifik yang mengarah ke pariwisata Bali dengan menggunakan kata kunci (contoh: uluwatu bali, #sanurbali). Nusa Penida merupakan objek wisata dengan jumlah penurunan yang signifikan dengan jumlah raw data yaitu 8087, cleaning I yaitu 4770 data, dan cleaning II adalah 2608 data dengan tools Snowflake.

10000

8000


6000


4000


2000


0


Uluwatu

Nusa Penida

Sanur


Garuda Wisnu Kencana


—•— Raw Data  —•—Cleaning I  —•—Cleaning II

Gambar 7. Grafik Hasil Cleaning Objek Wisata di Bali

Pada gambar 7, grafik Garuda Wisnu Kencana merupakan objek wisata dengan raw data terendah yaitu 957 data, hasil proses cleaning I yaitu 439 data, dan hasil proses cleaning II yaitu 421 data. Penurunan terhadap tweet setelah proses cleaning memiliki makna bahwa raw data yang dikoleksi selama periode Oktober-Desember 2019 sebagian besar merupakan tweet hasil Retweet, tweet berupa spam, tweet penjualan, dan promosi.

  • 5.     Kesimpulan

Data cleaning atau pembersihan data merupakan proses yang digunakan untuk mendeteksi, memperbaiki ataupun menghapus dataset, tabel, dan database yang korup atau tidak akurat. Tahapan dari proses data cleaning yang terdapat dalam penelitian ini adalah data hasil crawling yang disimpan akan dibersihkan melalui 2 proses pembersihan yaitu pembersihan retweet dan kata noise seperti sale, jual, dan tweet promosi, dan dilanjutkan dengan pembersihan untuk mencari tweet spesifik yang mengarah ke pariwisata Bali. Hasil proses cleaning objek wisata Bali pada 4 objek wisata yaitu Uluwatu, Sanur, Nusa Penida, dan Garuda Wisnu Kencana menunjukkan bahwa Nusa Penida merupakan objek wisata dengan jumlah penurunan yang signifikan dengan jumlah raw data yaitu 8087, cleaning I yaitu 4770 data, dan cleaning II adalah 2608 data. Penurunan terhadap tweet setelah proses cleaning memiliki makna bahwa raw data yang dikoleksi selama periode Oktober-Desember 2019 sebagian besar merupakan tweet hasil Retweet, tweet berupa spam, tweet penjualan, dan promosi.

Daftar Pustaka

  • [1]    O. Azeroual, G. Saake, and M. Abuosba, “Azeroual_jdimv16i1_2,” vol. 16, no. 1, 2018.

  • [2]    W. Swapnil and Y. Anil, “Big Data: Characteristics, Challenges and Data Mining,” Int. J.

Comput. Appl., pp. 975–8887, 2016.

  • [3]    S. Devi and A. Kalia, “Study of Data Cleaning & Comparison of Data Cleaning Tools,”

Int. J. Comput. Sci. Mob. Comput., vol. 4, no. 3, pp. 360–370, 2015.

  • [4]     H. Woo et al., “Application of efficient data cleaning using text clustering for

semistructured medical reports to large-scale stool examination reports: Methodology study,” J. Med. Internet Res., vol. 21, no. 1, 2019, doi: 10.2196/10013.

  • [5]    F. Ridzuan and W. M. N. Wan Zainon, “A review on data cleansing methods for big

data,” Procedia Comput. Sci., vol. 161, pp. 731–738,   2019, doi:

10.1016/j.procs.2019.11.177.

  • [6]    I. Made Suwija Putra, N. Putu Ayu Widiari, and I. Wayan Gunaya, “Implementasi

Generalized Vector Space Model (GVSM) dalam Pencarian Buku di Perpustakaan,” J. Ilm. Merpati (Menara Penelit. Akad. Teknol. Informasi), vol. 7, no. 1, p. 86, 2019, doi: 10.24843/jim.2019.v07.i01.p10.

  • [7]     N. K. Widyasanti, I. K. G. Darma Putra, and N. K. Dwi Rusjayanthi, “Seleksi Fitur Bobot

Kata dengan Metode TFIDF untuk Ringkasan Bahasa Indonesia,” J. Ilm. Merpati (Menara Penelit. Akad. Teknol. Informasi), vol. 6, no. 2, p. 119,  2018, doi:

10.24843/jim.2018.v06.i02.p06.

  • [8]    A. R. Chrismanto and Y. Lukito, “Identifikasi Komentar Spam Pada Instagram,” Lontar

Komput.      J. Ilm. Teknol. Inf., vol. 8, no. 3, p. 219,   2017, doi:

10.24843/lkjiti.2017.v08.i03.p08.

  • [9]     M. Ermawati and J. L. Buliali, “Text Based Approach For Similar Traffic Incident

Detection from Twitter,” Lontar Komput. J. Ilm. Teknol. Inf., vol. 9, no. 2, p. 63, 2018, doi: 10.24843/lkjiti.2018.v09.i02.p01.

  • [10]    R. R. Rerung, “Penerapan Data Mining dengan Memanfaatkan Metode Association Rule untuk Promosi Produk,” J. Teknol. Rekayasa, vol. 3, no. 1, p. 89, 2018, doi:

10.31544/jtera.v3.i1.2018.89-98.

  • [11]    B. Cohen et al., “Challenges Associated With Using Large Data Sets for Quality Assessment and Research in Clinical Settings,” Policy, Polit. Nurs. Pract., vol. 16, no. 3– 4, pp. 117–124, 2015, doi: 10.1177/1527154415603358.

Teknik Data Cleaning Menggunakan Snowflake untuk Studi Kasus Objek Pariwisata

di Bali (Ni Putu Ayu Widiari)

145