Jurnal Ilmiah

ILMU KOMPUTER

Universitas Udayana

Vol. X, No. 1, April 2017                                             ISSN 1979 - 5661

SELEKSI FITUR DALAM KLASIFIKASI GENRE MUSIK

Luh Arida Ayu Rahning Putri

Program Studi Teknik Informatika, Jurusan Ilmu Komputer, Universitas Udayana, Bali Email: luh.arida@cs.unud.ac.id

ABSTRAK

Proses seleksi fitur adalah salah satu upaya untuk melakukan reduksi dimensi dari fitur yang digunakan pada proses data mining. Proses seleksi fitur diharapkan dapat mengurangi jumlah noise dan mengeliminasi fitur yang kurang relevan. Penelitian ini melakukan seleksi fitur terhadap vektor fitur yang digunakan untuk melakukan klasifikasi genre musik, yakni vektor fitur entropi. Vektor fitur dalam penelitian ini telah digunakan pada penelitian sebelumnya namun akurasinya masih rendah. Proses seleksi fitur diharapkan dapat menghasilkan vektor fitur yang lebih ringkas, atau bahkan dapat menghasilkan nilai akurasi yang lebih tinggi.

Vektor fitur entropi dihasilkan melalui proses ekstraksi fitur dengan menghitung statistik dari entropi koefisien wavelet. Statistik yang digunakan dalam ekstraksi fitur adalah mean, standar deviasi, nilai maksimum, nilai minimum, dan beda maksimum entropi. Proses seleksi kemudian dilakukan secara manual dengan memilih subset fitur terbaik yang dapat melakukan klasifikasi genre musik dengan akurasi tertinggi menggunakan classifier k-Nearest Neighbor (k-NN).

Hasil penelitian menunjukkan subset fitur dengan kombinasi mean, standar deviasi, nilai maksimum dan beda maksimum entropi, merupakan kombinasi fitur terbaik dalam mengklasifikasi genre musik. Subset fitur yang dihasilkan dari kombinasi keempat statistik entropi ini dapat merepresentasikan file musik digital dengan lebih ringkas serta memberikan nilai akurasi yang sedikit lebih tinggi dibandingkan dengan penggunaan vektor fitur aslinya.

Kata Kunci: seleksi fitur, seleksi subset fitur, entropi, klasifikasi genre musik

ABSTRACT

The feature selection process is one of the efforts to reduce dimensions of the features used in the data mining process. The feature selection process is expected to reduce the amount of noise and eliminate less relevant features. This study performs feature selection of the feature vector, that are used to classify music genres, i.e. the entropy feature vector. The feature vector in this study has been used in previous studies but the accuracy is still low. The feature selection process is expected to produce the more concise feature vector, or even the higher accuracy value.

The entropy feature vector is generated through the feature extraction process by computing the statistics of the entropy wavelet coefficients. Statistics used in feature extraction are mean, standard deviation, maximum value, minimum value, and maximum entropy difference. The selection process is then done manually by selecting the best feature subset, which can classify the music genre with the highest accuracy, using the k-Nearest Neighbor (k-NN) classifier.

The results showed that a feature subset with a combination of mean, standard deviation, maximum value and maximum entropy difference, was the best combination of features in classifying musical genres. The feature subset generated from the combination of these four entropy statistics can represent digital music files more concisely and provide slightly higher accuracy values than the original feature vector usage.

Keywords: feature selection, feature subset selection, entropy, music genre classification

  • 1.    PENDAHULUAN

Penelitian klasifikasi genre musik umumnya menggunakan sekumpulan fitur yang diperoleh dari hasil ekstraksi fitur. Proses ekstraksi fitur dalam klasifikasi genre musik tidak hanya menggunakan satu pendekatan. Fitur-fitur yang digunakan dalam klasifikasi genre musik biasanya adalah gabungan dari berbagai teknik ekstraksi fitur. Selain digabungkan fitur yang dihasilkan dari berbagi teknik tersebut juga terkadang dikombinasikan dan diseleksi dengan beberapa cara sedemikian hingga diperoleh subset fitur yang dapat memberikan hasil akurasi terbaik. Proses ini sebenarnya adalah proses seleksi fitur.

Seleksi fitur adalah suatu proses untuk memilih sejumlah fitur yang merupakan subset dari fitur yang lama atau fitur aslinya sehingga diperoleh fitur-fitur yang paling berpengaruh (signifikan) terhadap akurasi klasifikasi. Proses seleksi fitur dapat mengurangi jumlah noise dan fitur yang kurang relevan, sehingga diharapkan dapat meningkatkan akurasi. Proses seleksi fitur juga merupakan salah satu strategi yang digunakan untuk melakukan reduksi dimensi terhadap fitur-fitur yang digunakan dalam proses data mining.

Proses ektraksi fitur untuk klasifikasi genre musik telah banyak dikembangkan dan yang paling berpengaruh adalah ekstraksi fitur yang dilakukan oleh Tzanetakis dan Cook (2002) (Li et al., 2003). Terdapat banyak jenis fitur yang dikembangkan dalam penelitian Tzanetakis dan Cook (2002) antara lain fitur timbre (meliputi spectral centroid, spectral rolloff, spectral flux dan zero crossing rate yang masing-masing dicari nilai mean dan variance-nya. Mel Frequency Cepstral Coefficients (MFCC) dan low energy), rythm dan pitch. Penelitian-penelitian berikutnya dalam klasifikasi genre musik kemudian terus berkembang dengan mengkombinasikan berbagai fitur baru dengan fitur yang digunakan pada penelitian Tzanetakis dan Cook (2002), salah satunya adalah penelitian Li et al. (2003).

Li et al. (2003) mengusulkan sebuah teknik ekstraksi fitur baru untuk klasifikasi genre musik, yaitu Daubechies Wavelet Coefficient Histograms (DWCH). DWCH

diperoleh berdasarkan pada histogram koefisien wavelet untuk menangkap informasi lokal dan global dari sinyal musik secara bersamaan.

DWCH diperoleh dengan melakukan dekomposisi wavelet menggunakan filter Daubechies, yaitu Db8 sebanyak 7 level terhadap cuplikan file musik berdurasi 3 detik. Histogram koefisien wavelet pada setiap subband hasil dari proses dekomposisi kemudian dihitung average, variance dan skewness-nya. Langkah terakhir adalah menghitung nilai energi pada setiap subband. DWCH akan menghasilkan 4 ciri untuk masing-masing subband, sehingga dengan 7 level dekomposisi akan dihasilkan vektor fitur berdimensi 28. Melalui proses seleksi fitur kemudian diperoleh bahwa hanya subband 3, 5, 6 dan 7 yang signifikan, tiga subband lainnya tidak menunjukkan banyak variasi, sehingga dimensi vektor fitur yang terbentuk adalah 16.

Proses seleksi fitur juga dilakukan dengan mengkombinasikan fitur DWCH yang diusulkan oleh Li et al. (2003) dengan berbagai fitur pada (Tzanetakis dan Cook, 2002). Penelitian ini menggunakan dataset serta metode klasifikasi GMM dan k-NN seperti pada (Tzanetakis dan Cook, 2002), ditambah dengan 2 metode lain, yaitu Support Vector Machine (SVM) dan Linear Discriminant Analysis (LDA). Akurasi yang dihasilkan menunjukkan bahwa klasifikasi genre menggunakan fitur DWCH yang dikombinasikan dengan fitur timbral dan MFCC (19 fitur) menggunakan SVM memberikan rata-rata akurasi 78,5%.

Pendekatan fitur yang berbeda dilakukan oleh Goulart et al. (2012). Penelitian ini menggunakan fitur entropi dan dimensi fraktal untuk merepresentasikan sinyal musik. Kedua fitur ini didasarkan pada information theory yang dianggap dapat menunjukkan tingkat ketidakteraturan (degree of irregularity) dalam sebuah lagu yang dapat mengindikasikan genre lagu tersebut.

Goulart et al. (2012) menggunakan 90 file musik yang terbagi ke dalam 3 genre, yaitu Blues, Classical dan Lounge. Metode klasifikasi yang digunakan adalah SVM. Seleksi fitur dilakukan dengan mencoba

menyertakan dan tidak menyertakan fitur dimensi fraktal pada proses klasifikasi.

Hasil seleksi fitur pada menunjukkan penelitian menunjukkan bahwa penggunaan fitur dimensi fraktal tidak memberikan hasil yang signifikan terhadap akurasi sistem. Akurasi terbaik diperoleh dengan penggunaan fitur entropi pada domain frekuensi. Akurasi pada perbandingan 90% data pelatihan dan 10% data uji adalah 100% untuk genre Blues dan Lounge serta 66.8% untuk genre Classical.

Seleksi fitur pada penelitian ini diterapkan pada vektor fitur yang digunakan pada penelitian (Putri dan Hartati, 2016). Putri dan Hartati (2016) melakukan ekstraksi fitur dengan pendekatan seperti pada (Goulart et al., 2012). Perbedaannya adalah pada dataset dan jumlah genre yang digunakan. Putri dan Hartati (2016) meggunakan fitur dari Goulart et al. (2012) untuk melakukan klasifikasi 10 genre musik, yakni Blues, Classical, Country, Disco, Hiphop, Jazz, Metal, Pop, Reggae dan Rock, sedangkan Goulart et al. (2012) hanya menggunakan 3 jenis genre, yakni Blues, Classical dan Lounge.

Akurasi yang dihasilkan dalam mengklasifikasi 10 genre musik pada (Putri dan Hartati, 2016) masih rendah. Rata-rata akurasi menggunakan classifier kombinasi Learning Vector Quantization dan Self Organizing Map adalah 54,23%, sedangkan menggunakan k-Nearest Neighbor dengan k=5 menghasilkan akurasi sebesar 53,7%. Oleh karena itu pada penelitian ini akan dilakukan seleksi fitur terhadap vektor fitur entropi seperti pada penelitian (Putri dan Hartati, 2016), sehingga diperoleh subset fitur yang signifikan dari vektor fitur entropi dengan ukuran yang lebih ringkas, ataupun dapat meningkatkan akurasi dari klasifikasi genre musik.

  • 2.    METODE PENELITIAN

Tahapan proses dalam penelitian ini ditunjukkan oleh Gambar 2.1. Data yang digunakan dalam penelitian ini merupakan dataset yang digunakan dalam penelitian (Tzanetakis dan Cook, 2002; Li et al., 2003), yakni dataset GTZAN. Dataset ini terdiri atas 1000 potongan file musik dalam format AU yang terbagi ke dalam 10 genre, sehingga

masing-masing genre terdiri atas 100 file musik. File music dalam format AU pada dataset GTZAN inilah yang menjadi data input dalam penelitian ini adalah.

Data input ini kemudian akan mengalami preprocessing untuk memperoleh data sampel dari file musik. Data sampel diperoleh dengan membaca file musik kemudian mengambil sampel hanya sepanjang 30 detik di tengah-tengah file musik. Jika file musik tersebut memiliki 2 channel (stereo), maka sampel dari kedua channel tersebut dirata-ratakan sehingga diperoleh data sampel 1 channel (mono) dengan durasi 30 detik.

Data sampel hasil preprocessing ini kemudian diekstrak fiturnya sehingga dihasilkan vektor fitur. Elemen-elemen dari vektor fitur yang sudah dihasilkan kemudian dikombinasikan sedemikian hingga terbentuk subset-subset fitur. Masing-masing subset fitur kemudian diseleksi melalui proses evaluasi menggunakan target proses data mining, yang dalam penelitian ini diukur menggunakan akurasi klasifikasi genre musik.

Ouput dari penelitian ini adalah subset fitur terbaik yang diperoleh melalui tahapan proses seleksi fitur. Subset fitur terbaik dipilih berdasarkan akurasi tertinggi yang dihasilkan saat digunakan dalam klasifikasi genre musik. Melalui proses seleksi fitur ini diharapkan dapat diketahui elemen-elemen fitur mana saja dalam vektor fitur yang paling berpengaruh untuk proses klasifikasi sehingga dapat memberikan akurasi terbaik.

  • 2.1.    Ekstraksi Fitur

Proses ekstraksi fitur dalam penelitian ini menggunakan proses ekstraksi fitur pada penelitian (Putri dan Hartati, 2016). Fitur yang dihasilkan berupa vektor fitur yang setiap elemennya merupakan statistik dari entropi frame-frame pada suatu file musik digital. Penggunaan fitur entropi dalam melakukan klasifikasi genre musik mengacu pada information theory yang menyatakan bahwa entropi dapat menunjukkan tingkat keacakan (randomness) atau tingkat ketidakteraruran (degree of irregularity) dari sebuah musik sehingga dapat mengindikasikan genre dari musik tersebut (Goulart et al., 2012; Putri dan Hartati, 2016).

Gambar 2.1. Tahapan proses penelitian


Gambar 2.2. Proses Ekstraksi Fitur


Proses ekstraksi fitur dalam penelitian ini ditunjukkan oleh Gambar 2.2 dengan parameter-paremeter yang didasarkan pada hasil dari penelitian Putri dan Hartati (2016). Proses ekstraksi fitur diawali dengan menginputkan data sampel hasil preprocessing.

Data sampel tersebut kemudian diframing dengan tujuan untuk membagi sampel file musik hasil preprocessing ke dalam frame-frame yang masing-masing terdiri atas 1024 sampel dengan overlap 50%. Setiap frame kemudian didekomposisi menggunakan Discrete Wavelet Transform (DWT) level 5 dengan filter Daubechies orde 8 (Db8). Setiap frame akan menghasilkan level+1 subband koefisien wavelet (aproksimasi dan detail). Setiap subband kemudian dicari nilai entropinya, sehingga setiap frame akan memiliki level+1 entropi dari masing-masing subbandnya.

Entropi dari seluruh frame kemudian dipisahkan per subband ke dalam bentuk matriks, sehingga terbentuk level+1 matriks yang elemennya merupak entropi dari setiap frame pada subband tertentu. Setiap matriks kemudian dicari statistiknya, yaitu mean, standar deviasi, maksimum, minimum dan beda maksimum sehingga membentuk vektor fitur dengan jumlah elemen 5×(level+1), karena ada 5 jenis statistik yang digunakan.

  • 2.2.    Seleksi Fitur

Proses seleksi fitur merupakan tahap selanjutnya setelah ekstraksi fitur. Proses seleksi fitur adalah salah satu upaya untuk mereduksi dimensi dari fitur yang digunakan

pada proses data mining dengan memilih sejumlah fitur yang merupakan subset dari fitur yang lama (Tan et al., 2005).

Proses seleksi fitur dapat memberikan beberapa keuntungan dalam proses data mining, antara lain banyak algoritma data mining akan bekerja lebih baik pada fitur yang dimensinya lebih rendah, Hal ini disebabkan karena seleksi fitur dapat mengurangi jumlah noise dan fitur yang kurang relevan. Keuntungan lain adalah dimensi yang lebih rendah akan membentuk model yang lebih mudah dipahami serta lebih mudah divisualisasikan. Keuntungan yang tidak kalah penting adalah dimensi yang rendah akan menghemat waktu dan memori yang digunakan oleh algoritma data mining (Tan et al., 2005).

Proses seleksi fitur yang ideal dalam menghasilkan subset fitur terbaik adalah dengan mencoba semua kemungkinan kombinasi elemen vektor fitur yang ada untuk diproses dalam proses data mining dalam hal ini adalah proses klasifikasi, lalu dipilih subset fitur terbaik yakni yang dapat memberikan akurasi tertinggi. Sayangnya cara ini akan memakan waktu cukup lama karena jika terdapat n fitur dalam vektor fitur, maka subset fitur yang dihasilkan adalah 2n subset.

Menurut Tan et al. (2005), terdapat tiga pendekatan standar dalam seleksi fitur, yakni embedded, filter dan wrapper. Seleksi fitur dengan pendekatan embedded merupakan satu kesatuan atau sebagai bagian dari algoritma data mining yang digunakan. Algoritma data mining yang akan menentukan sendiri fitur mana yang akan

digunakan dan fitur mana yang akan diabaikan.

Seleksi fitur dengan pendekatan filter dan wrapper dilakukan dengan memilih subset fitur secara manual yang dipilih sebelum algoritma data mining dijalankan. Perbedaannya terletak pada cara evaluasinya. Evaluasi pada pendekatan wrapper menggunakan target dari algoritma data mining. Pendekatan ini hamper mirip dengan seleksi fitur ideal yang telah dijelaskan sebelumnya, hanya saja tidak semua subset dievaluasi.

Seleksi fitur pada pendekatan filter menggunakan teknik evaluasi yang terpisah dengan algoritma data mining dan juga tidak menggunakan target algorima data mining untuk evaluasinya. Evaluasi subset fitur dilakukan dengan teknik tertentu sebelum algoritma data mining dijalankan, misalnya dengan memilih subset fitur yang pairwise correlation-nya serendah mungkin.

Seleksi fitur dalam penelitian ini dilakukan terhadap vektor fitur hasil proses ekstraksi fitur menggunakan pendekatan wrapper. Seleksi fitur dilakukan dengan mengevaluasi subset yang dibentuk dari elemen-elemen vektor fitur yang dihasilkan dari kombinasi 5 jenis statistik entropi pada proses ekstraksi fitur. Pertama-tama dimulai dengan subset dengan satu anggota (satu jenis statistik), kemudian dipilih beberapa yang akurasinya baik untuk saling dikombinasikan sehingga membentuk subset dengan dua anggota demikian seterusnya. Kombinasi fitur yang memberikan akurasi tertinggi, akan dipilih sebagai subset fitur terbaik, yang merupakan tujuan dari penelitian ini.

  • 2.3.    Klasifikasi Genre Musik

Klasifikasi merupakan suatu kegiatan untuk menempatkan objek ke dalam satu dari sejumlah kategori/kelas yang telah ditetapkan sebelumnya (Tan et al., 2005). Terdapat dua pekerjaan utama dalam klasifikasi, yaitu (1) pembangunan model sebagai prototipe untuk disimpan sebagai memori, dan (2) penggunaan model tersebut untuk melakukan pengenalan/ klasifikasi/ prediksi pada suatu objek data lain sehingga diketahui di kategori mana objek tersebut berada dalam model yang sudah disimpannya (Prasetyo, 2012).

Pembangunan model dilakukan dengan pelatihan/pembelajaran terhadap sejumlah data latih yang terdiri atas pasangan suatu set atribut/fitur dan kelasnya (x,y), menggunakan algoritma pelatihan/ pembelajaran tertentu sehingga terbentuk suatu model, yakni fungsi f yang dapat memetakan setiap set atribut x ke dalam satu dari sejumlah label kelas y yang tersedia. Jika menerima masukan data uji, model ini mampu melakukan pemikiran terhadap masukan tersebut, dan memberikan jawaban sebagai keluaran dari hasil pemikirannya, yakni kategori/ kelas dari data uji yang belum diketahui sebelumnya, proses ini disebut dengan proses prediksi.

Klasifikasi genre musik yang dilakukan dalam penelitian ini digunakan untuk melakukan evaluasi terhadap subset fitur pada proses seleksi fitur mengacu pada pendekatan wrapper yang telah dijelaskan sebelumnya. Subset fitur yang akan dievaluasi digunakan sebagai dasar untuk membangun model dan juga melakukan prediksi. Akurasi prediksi menggunakan subset fitur inilah yang akan menjadi ukuran baik tidaknya subset fitur tersebut. Algoritma pembelajaran/classifier dalam proses pembelajaran dan proses prediksi yang digunakan dalam klasifikasi genre musik ini adalah k-Nearest Neighbor (k-NN).

  • 2.4.    k Nearest Neighbor (k-NN)

Berdasarkan cara pelatihan, algoritma-algoritma pelatihan/ pembelajaran dalam pembangunan model klasifikasi dapat dibagi menjadi dua macam, yaitu eager learner dan lazy learner (Prasetyo, 2012). Algoritma yang tergolong eager learner melakukan pelatihan/ pembelajaran terhadap data latih sehingga di akhir pelatihan akan terbentuk suatu model. Model ini ini kemudian disimpan sebagai memori (biasanya berbentuk bobot atau sejumlah nilai kuantitas tertentu). Proses prediksi dilakukan menggunakan model yang tersimpan, tanpa melibatkan data latih sama sekali. Cara ini mengakibatkan proses pelatihan berlangsung lama bahkan sangat lama, namun proses prediksinya berjalan dengan cepat.

Algoritma yang tergolong dalam lazy learner hanya sedikit bahkan tidak

melakukan pelatihan sama sekali, hanya meyimpan sebagaian atau seluruh data latih untuk digunakan pada proses prediksi. Cara ini mengakibatkan proses prediksi berjalan lama karena model harus membaca kembali data latihnya agar diperoleh keluaran label kelas dari data ujinya, sedangkan kelebihannya proses pelatihan yang berjalan dengan cepat. Penelitian ini menggunakan salah satu lazy learner, yakni k-Nearest Neighbor (k-NN) karena dalam melakukan seleksi fitur akan pemilihan fitur dengan akurasi terbaik melibatkan pembangunan banyak model sesuai dengan jumlah kombinasi subset fitur yang akan dicoba, sehingga proses pelatihan yang cepat akan lebih sesuai karena akan sangat menghemat waktu.

Nearest Neighbor merupakan salah satu algoritma yang yang dapat melakukan klasifikasi berdasarkan kedekatan atau jarak suatu data dengan data yang lain. Kelas suatu data uji ditentukan dari kelas data latih yang jaraknya paling dekat dengan data uji. Nilai k dalam k Nearest Neighbor menandakan k jumlah data terdekat yang digunakan untuk menentukan kelas dari suatu data uji (Prasetyo, 2012).

Jika metode yang digunakan adalah Nearest Neighbor, maka k =1, yang artinya klasifikasi didasarkan pada kelas dari 1 data latih yang paling dekat dengan data uji, sedangkan jika k =3 (3-NN), maka kelas dari data uji ditentukan dari kelas terbanyak yang dimiliki oleh 3 data latih yang jaraknya paling dekat dengan data uji. Jadi kelas suatu data uji ditentukan menggunakan majority class atau kelas terbanyak dari k buah data latih yang letaknya atau jaraknya paling dekat dengan data uji.

  • 3.    HASIL DAN PEMBAHASAN

Proses seleksi fitur diawali pembentukan subset fiur kemudian dilanjutkan dengan proses evaluasi subset fitur menggunakan klasifikasi genre musik dengan algorima k-NN dan 10-fold cross validation seperti pada penelitian (Puri dan Hartati, 2016).

Tahap pertama adalah dengan mengevaluasi subset fitur dengan 1 jenis statistik, yakni mean (Mean), standar deviasi

(SD), nilai maksimum (Max), nilai minimum (Min) dan beda maksimum entropi (Dif), sehingga ada 5 subset fitur yang akan dievaluasi dengan masing-masing subset fitur berdimensi 6 (level DWT+1). Hasil dari evaluasi untuk subset fitur dengan 1 jenis statistik ditunjukkan oleh grafik pada Gambar 3.1.

Grafik pada Gambar 3.1 menunjukkan akurasi klasifikasi yang dhasilkan oleh masing-masing subset fitur 1 jenis statistik menggunakan classifier k-NN dengan k= 1, 3, 5, 6, 7, 8, 9, 11, 17 dan 25. Hasil evaluasi menunjukkan bahwa subset fitur (Min) entropi memberikan akurasi paling rendah dibandingkan statistik yang lain, oleh karena itu nilai minimum entropi akan diabaikan pada kombinasi subset tahap berikutnya.

Evaluasi tahap berikutnya adalah subset fitur dengan 2 jenis statistik yang akurasinya baik pada tahap pertama, yakni mean, standar deviasi, nilai maksimum dan beda maksimum entropi. Terdapat 6 subset fitur yang akan dievaluasi dengan masing-masing subset fitur berdimensi 12 (2 × (level DWT+1)). Hasil dari evaluasi untuk subset fitur dengan 1 jenis statistik ditunjukkan oleh grafik pada Gambar 3.2.

Grafik pada Gambar 3.2 menunjukkan akurasi klasifikasi yang dihasilkan oleh masing-masing subset fitur 2 jenis statistik menggunakan classifier k-NN dengan nilai k seperti pada tahap sebelumnya. Hasil evaluasi menunjukkan bahwa subset fitur (Mean-SD) memberikan akurasi yang paling baik dibandingkan subset yang lain. Subset lain yang memberikan akurasi cukup baik adalah subset fitur (Mean-Dif).

Hasil akurasi yang baik pada kedua subset sebelumnya tidak menjamin bahwa subset yang lain bisa diabaikan, karena ketika nilai k=1, keempat subset fitur (Mean-SD), (Mean-Max), (Mean-Dif) dan (SD-Max) memberikan akurasi yang berimbang. Mempertimbangkan hasil ini, maka untuk evaluasi tahap berikutnya, yang juga evaluasi terakhir, dilakukan pada semua kemungkinan kombinasi dengan 3 jenis statistik dan 4 jenis statistik tanpa melibatkan statistik nilai minimum entropi. Nilai k yang digunakan untuk k-NN sama seperti pada tahap evaluasi sebelumnya.


  • Mean Ξ SD □ Max □ Min Ξ Dif

Gambar 3.1. Hasil evaluasi subset fitur dengan 1 jenis statistik


□ Mean-SD □ Mean-Max H Mean-Dif □ SD-Max Ξ SD-Dif □ Max-Dif

Gambar 3.2. Hasil evaluasi subset fitur dengan 2 jenis statistik

Hasil evaluasi tahap akhir ini ditunjukkan oleh Tabel 3.1. Tabel 3.1. menunjukkan bahwa akurasi tertinggi dihasilkan oleh subset fitur dengan 4 jenis statistik, yakni

mean, standar deviasi, nilai maksimum entropi dan beda maksimum entropi (Mean-SD-Max-Dif) pada k=5. Subset ini juga memberikan akurasi tertinggi pada sebagaian

besar pada k-NN dengan nilai k yang berbeda (ditunjukkan dengan kolom yang diarsir).

Selain itu, rata-rata akurasi tertinggi juga       [1]

dihasilkan menggunakan subset fitur ini. Jadi subset terbaik untuk melakukan klasifikasi genre musik adalah subset dengan 4 jenis statistik    (Mean-SD-Max-Dif)    dengan

dimensi fitur 24 (4 × (level DWT+1)) dengan      [2]

akurasi tertinggi yang sedikit lebih baik dibandingkan vekor fitur aslinya, yakni

  • 54,3% menggunakan k-NN dengan k=5.

  • 4.    SIMPULAN

[3] Berdasarkan hasil proses seleksi fitur dalam penelitian ini, subset fitur terbaik untuk melakukan klasifikasi genre musik adalah      [4]

subset fitur kombinasi dari 4 jenis statistik, yakni mean, standar deviasi, nlai maksimum entropi dan beda maksimum entropi. Subset fitur ini memiliki dimensi yang lebih ringkas serta dapat memberikan akurasi yang lebih      [5]

tinggi dibandingkan vektor fitur aslinya.

[6]

5. KEPUSTAKAAN

Goulart, A., Guido, R. dan Maciel, C., 2012, Exploring Different Approaches for Music Genre Classification, Egyptian Informatic Journal, Vol 13, hal 59-63.

Li, T., Ogihara, M. dan Li, Q., 2003, A Comparative Study on Content-Based Music Genre Classification, Proc. 26th Annu. Int. ACM SIGIR Conf. on Research and Development in Information Retrieval, Toronto.

Prasetyo, E., 2012, Data Mining – Konsep dan Aplikasi Menggunakan MATLAB Ed. 1, Yogyakarta: Andi.

Putri, LAAR., Hartati, S., 2016, Klasifikasi Genre Musik Menggunakan Learning Vector Quantization dan Self Organizing Map, Jurnal Ilmu Komputer, No. 1, Vol 9, hal 14-21.

Tan, P.N., Steinbach, M. dan Kumar, V., 2005, Introduction to Data Mining, 1st Ed., Addison-Wesley, Boston.

Tzanetakis, G. dan Cook, P., 2002., Musical Genre Classification of Audio Signals, IEEE Transactions on Speech and Audio Processing, No. 5, Vol 10, hal 293-302.


Tabel 3.1. Hasil evaluasi tahap akhir

Fitur

k

Rata-rata

1

3

5

6

7

8

9

11

17

25

Vektor Fitur Asli

49,1

52,3

53,7

53,3

52,8

52,1

52

50,9

51,1

51,1

51,84

Mean-SD-Max-Dif

52,1

52,3

54,3

53,5

52,9

52,5

51,6

53,3

51,8

51,3

52,56

Mean-Max-Dif

50,5

51,2

52,8

51,8

51,4

52

50,8

51,8

51

50,6

51,39

SD-Max-Dif

49,7

49,2

50,8

50,2

51

50,1

52

51

52,2

51,1

50,73

Mean-SD-Max

50,3

50,9

51,1

50,1

49,5

51,4

51,8

51,8

50,2

51,5

50,86

Mean-SD-Dif

51,9

51,9

52,4

50,8

52,3

52,2

52,8

52,2

52

50,8

51,93