PENERAPAN MULTI LAYER PERCEPTRON DALAM ANOTASI IMAGE SECARA OTOMATIS
on
PENERAPAN MULTI LAYER PERCEPTRON
DALAM ANOTASI IMAGE SECARA OTOMATIS
Agus Muliantara, I Made Widiartha Program Studi Teknik Informatika, Jurusan Ilmu Komputer, Fakultas Matematika Dan Ilmu Pengetahuan Alam, Universitas Udayana
Email : [email protected], [email protected]
ABSTRAK
Penentuan anotasi terhadap suatu image (image annotation) merupakan topik penelitian yang berkembang pesat akhir-akhir ini. Permasalahan yang ada dalam menentukan anotasi sebuah image adalah dalam hal penentuan fitur dan metode yang digunakan agar hasil anotasi yang didapat sesuai dengan yang diharapkan oleh pengguna.
Dalam penelitian ini akan diimplementasikan suatu model untuk memprediksi anotasi suatu image. Penentuan fitur suatu image dilakukan dengan menggunakan metode color quantization dan multi-level wavelet transform. Dalam melakukan prediksi anotasi suatu image, dilakukan dengan mengimplementasikan metode Multi Layer Perceptron (MLP).
Untuk mengevaluasi performance dari model yang diimplementasikan digunakan data image sebanyak 453. Hasil penelitian yang telah dilakukan menunjukkan bahwa tingkat akurasi untuk prediksi anotasi oleh MLP adalah sebesar 81%.
Kata Kunci : image annotation, color quantization, wavelet transform, multi layer perceptron.
PENDAHULUAN
Dalam melakukan pencarian terhadap suatu image seseorang biasanya akan berpatokan pada suatu kata kunci yang menjadi deskripsi dari image yang dicari. Deskripsi sebuah image dalam hal ini disebut dengan anotasi. Dalam image yang berhubungan dengan produk tekstil, terdapat beberapa anotasi yang dapat dijadikan penilaian tentang suatu produk, diantaranya natural, romantis, klasik, modern, elegan, dan lain sebagainya. Penilaian/anotasi ini dapat dilakukan secara manual, baik dari para ahli maupun survei yang dilakukan ke sejumlah pelanggan. Apabila suatu data tekstil berjumlah cukup besar dan selalu bertambah maka penilaian secara manual ini tidak efisien lagi. Hal ini menuntut kita untuk membuat sebuah sistem dengan teknologi yang ada saat ini untuk dapat melakukan anotasi terhadap suatu image secara otomatis.
Dalam menentukan anotasi diperlukan ekstraksi terhadap image yang dijadikan obyek. Ekstraksi image ini dapat dilakukan dalam beberapa level seperti yang diperlihatkan dalam Gambar 1. Dalam Gambar 1 terlihat bahwa fitur visual seperti warna, tekstur, dan bentuk dapat diekstrak dari suatu tekstil sehingga image yang mimiliki kesamaan pada fitur ini dapat di-retrieve. Metode ini disebut sebagai content-based image retrieval (CBIR) [2–6]. Dalam implementasi metode ini, masih terdapat perbedaan antara informasi image yang diminta pengguna dan fitur yang diekstrak oleh sistem. perbedaan ini disebut dengan semantic gap [7,8]. Hal inilah yang sampai saat ini masih menjadi tantangan dalam penelitian di dunia komputer vision. Untuk mengatasi perbedaan (gap) ini maka diperlukan high-level semantic yang mencakup kedua atribut fisik nama obyek/orang dan atribut abstrak seperti emosi (seperti yang digambarkan pada Gambar 1).
Atribut abstrak sangat penting untuk
membedakan image tekstil satu dengan
yang lainnya [9-10].
High-Level Semantic (the term abstracting emotion)
of
Romanti s
Indah
High-Level Semantic (the term of object)
Bunga
Visual keyword
(the representing feature)
term
Pink, kurva, bentuk kipas
Gelem bung
Pink, ungu, biru, hijau, lingka ran
Image
Wi Λ^
Klasik
Kotak-Kotak
Coklat, oranye, kuning, dan garis lurus

Gambar 1. Level Semantik Image Dalam penelitian ini akan dilakukan implementasi terhadap suatu model anotasi image yang dikembangkan oleh Shin [1]. Model anotasi ini ditujukan untuk image tekstil. Dasar yang digunakan untuk untuk mendapatkan anotasi dengan model ini adalah konsep emosi manusia (human emotional concepts) yang kemudian akan diproses melalui suatu mechine learning untuk mendapatkan hasil anotasi. Agar dapat melakukan prediksi secara otomatis maka terlebih dahulu akan dilakukan pemilihan fitur yang digunakan dalam proses prediksi. Fitur yang akan diambil didasarkan pada penelitian sebelumnya dimana kinerja/performance dari prediksi emosi dapat ditingkatkan dengan menggunakan fitur yang terintegrasi antara fitur warna dan tekstur. Metode color quantization akan diterapkan untuk mendapatkan fitur warna, dan transformasi wavelet multi-level akan diterapkan untuk mendapatkan fitur tekstur. Fitur-fitur yang telah diekstraksi ini kemudian akan dijadikan input classifier yaitu multi-layered perceptron (MLP).
Implementasi model anotasi image ini menggunakan 453 image yang terbagi kedalam delapan anotasi. Hasil penelitian
ini menunjukkan bahwa metode MLP sebagai classifier memiliki kinerja relatif baik. Hal ini dibuktikan dengan tingkat akurasi MLP yang mencapai 81%.
PENELITIAN TERKAIT
Suatu anotasi dapat saja berbeda jika dibandingkan antara orang yang satu dengan lainnya. Adanya perbedaan interpretasi ini yang membuat suatu sistem anotasi memiliki banyak tantangan. Hal ini menunjukkan pentingnya pengetahuan tentang relasi antara emosi manusia dengan informasi visual. Secara umum, suatu image mengandung warna, tekstur, bentuk dan informasi pattern. Berbagai penelitian telah dilakukan untuk mempelajari hubungan antara fitur visual dengan konsep emosi [9, 10, 11, 12] dan melakukan identifikasi fitur visual yang mempengaruhi konsep emosi.
Sebagai hasil, dua poin penting telah didapat yaitu skala warna (color scale) dan peta pattern (pattern maps). Kobayashi melakukan survey untuk meneliti bagaimana suatu warna mempengaruhi emosi manusia, yang kemudian mendefinisikan skala image berwarna tersebut untuk memprediksi emosi dari kombinasi warna dari sebuah image yang diberikan [9, 10]. Di lain pihak, Kim melakukan survei untuk meneliti bagaimana suatu informasi pattern mempengaruhi emosi manusia, yang kemudian membuat suatu peta pattern untuk mentransformasikan pattern kedalam konsep emosi. Peta pattern lainnya juga telah dibuat oleh Park [12].
Berdasarkan survei-survei yang telah dilakukan tersebut maka berbagai metode untuk memprediksi anotasi image secara otomatis telah dibangun. Metode anotation ini dapat dikelompokkan ke dalam beberapa kategori yaitu colorbased, pattern-based, and color- and
pattern-based berdasarkan jenis fitur yang digunakan.
-
■ Color-based prediction system : metode dengan jenis ini menprediksi anotasi hanya dengan menggunakan warna dari image tekstil. Metode Kim menggunakan fuzzy rule-based system dalam mencari anotasi image [14].
-
■ Pattern-based prediction system : metode ini hanya menggunakan informasi pattern dalam proses anotasinya. Soen dan coworker pertama kali membangun sistem prediksi anotasi menggunakan pattern [14]. Properti dari tekstur diekstrak dengan menggunakan wavelet transform dan persamaan regresi untuk memprediksi emosi. Kim membangun sebuah neural network classifier dengan menggunakan relasi antara emosi dan informasi pattern dasar [11].
-
■ Color and pattern-based prediction system : dalam metode ini dilakukan kombinasi antara warna dan pattern sebuah image. Kim membangun sistem prediksi dengan menggunakan warna, tekstur dan pattern dari image yang menghasilkan hibridasi antara fuzzy dengan neural network [15]. Um memperkenalkan model evaluasi emosi berbasis pada adaptive fuzzy logic yang menggunakan rata-rata nilai warna dan frekuensi energi [16]
METODE
Dalam penelitian ini, untuk melakukan prediksi anotasi sebuah image, terdapat beberapa hal yang diperhatikan yaitu : ■ Data image yang dijadikan input
dari sistem akan dinormalisasi ke dalam ukuran 64x64. Jumlah data image yang digunakan dalam penelitian ini berjumlah 453 buah. Untuk melihat performansi dari model yang diimplementasikan ini maka jumlah data yang digunakan akan dibagi menjadi dua yaitu 70% digunakan sebagai data training, dan 30% sebagai data testing.
-
■ Kategori emosi yang digunakan
berdasarkan emosi yang diperkenalkan oleh Kobayashi dimana dalam penelitian ini kategori tersebut diambil sejumlah delapan buah. Jumlah emosi ini merujuk pada penelitian yang dilakukan oleh Shin [1]. Adapun delapan kategori emosi tersebut adalah sebagai berikut:
Tabel 1.Kategori Emosi Kobayashi Emotional Description
Categories
Romantic Soft, sweet, dreamy, innocent,
dreamy, charming
Natural Youthfull,flamboyant, merry,
enjoyable, vivid
Casual Youthful, flamboyant, merry,
enjoyable,viid
Elegant Refined, graceful, delicate,
fashionable, feminine
Chic Sober, modest, simple, quite and
elegant,subtle, quite
Classic Traditional, classic, nature,
teastful, heavy and deep
Dandy Quite and sophisticated,
degrified, strong and robust
Modern Urban, rational, sharp,
progressive, metalic
Penentuan anotasi/emosi pada suatu image ditentukan melalui sederetan langkah yang meliputi pengambilan data image yang akan dianotasi, normalisasi data, ekstraksi fitur, dan klasifikasi pada emosi yang telah didefinisikan. Tahapan penentuan emosi image ini dapat dilihat pada Gambar 2.
Vektor
Gambar 2. Tahapan Prediksi Emosi
-
3.1 Fitur Ekstraksi
Fitur yang digunakan sebagai inputan sistem dalam proses klasifikasi adalah fitur warna dan fitur pattern. Fitur warna didapat dari metode color quatization. Pada penelitian ini metode color quatization akan mengelompokkan prototipe warna-warma yang ada pada sebuah image menjadi enam warna dominan. Adapun langkah-langkah color quantization yang dilakukan adalah sebagai berikut :
-
1. Rezise image kedalam ukuran
64x64
-
2. Lakukan fungsi histeq (dengan matlab) untuk mendapatkan enam warna dominan, vektor X dan Map.
X ÷ nilai histogram untuk setiap warna dominan
Map ÷ nilai RGB untuk setiap warna dominan
-
3. Urutkan warna dari yang paling
dominan ke yang paling minimum dari warna-warna yang dihasilkan sehingga menghasilkan X dan Map yang telah terurut.
-
4. Simpan nilai X dan Map ke dalam
vector fitur (6x3)
Berikut ini adalah gambaran dari proses untuk mendapatkan fitur warna dengan
Gambar 3. Ekstraksi Warna dengan
Color Quantization
Setelah mendapatkan fitur warna, langkah dilanjutkan dengan mencari fitur pattern dari image. Pada penelitian ini, fitur pattern diperoleh dengan menggunakan transformasi wavelet multi-level. Dari transformasi ini akan
dihasilkan sebanyak 12 fitur yang berasal dari dekomposisi image dengan level 3 dan jumlah rotasi sebanyak 3 kali.
-
3.2 Klasifikasi Emosi
Tahapan terakhir dalam penentuan emosi dari suatu image adalah melakukan klasifikasi/prediksi emosi image
berdasarkan fitur yang dimiliki. Dari tahapan fitur ekstraksi (warna dan pattern) maka diperoleh sebanyak 30 fitur (18 warna, dan 12 pattern) yang menjadi inputan dalam proses klasifikasi emosi sedangkan jumlah kemungkinan output klasifikasi emosi adalah sebanyak 8 buah emosi. Pada tahapan ini akan dilakukan implementasi classifier yaitu MLP.
Algoritma MLP merupakan algoritma yang mengadopsi cara kerja jaringan saraf pada mahluk hidup. Algoritma ini terkenal handal karena proses pembelajaran yang mampu dilakukan secara terarah. Pembelajaran algoritma ini dilakukan dengan peng-update-an bobot balik (backpropagation).
Penetapan bobot yang optimal akan berujung pada hasil klasifikasi yang tepat. Adapun arsitektur neural networknya adalah seperti gambar 4.
Algoritma yang dijalankan oleh MLP untuk mendapatkan bobot yang optimal adalah sebagai berikut :
-
1. Inisialisasi semua bobot dengan
bilangan acak kecil.
-
2. Jika kondisi penghentian belum
dipenuhi, lakukan langkah 2-8.
-
3. Untuk setiap pasang data pelatihan, lakukan langkah 3-8.
-
4. Tiap unit masukan menerima sinyal dan meneruskannya ke unit tersembunyi diatasnya.
-
5. Hitung semua keluaran di unit tersembunyi zj (j = 1, 2,..., p).
7 _ netJ = vJO + Σ xfvji
Gambar 4 Contoh Arsitektur MLP
-
6. Hitung semua keluaran jaringan di unit keluaran yk (k = 1, 2,...,m).
y_net„ =wi0 + V ∑√⅛
yt-f{y net.}-----——
i ^~y -n^rt
-
8. Hitung faktor δ unit keluaran berdasarkan kesalahan di setiap unit keluaran yk (k = 1, 2,..., m).
¾ = & - Λ ~)f' O’ _ nβti ) = (f»- n )Λ (1 - Λ), 1I = target
δk merupakan unit kesalahan yang akan dipakai dalam perubahan bobot layar dibawahnya. Hitung perubahan bobot wkj dengan laju pemahaman α .
J∆w. = aδtzl 1 , . ,
⅛ * J,k= 1,2,.... m ;j = 0,1,..., p
-
9. Hitung faktor δ unit tersembunyi berdasarkan kesalahan di setiap unit tersembunyi zj (j = 1, JM
J-MeG =∑jtw⅛ ⅛=1
Faktor δ unit tersembunyi.
δ i = δ _ net jf' (z _ net j ) = δ _ nerjzj (1 — zj} Hitung suku perubahan bobot vji.
-
10. Hitung semua perubahan bobot. Perubahan bobot garis yang menuju ke unit keluaran, yaitu:
wlt(⅛αru) = wi (Jsma)+ Δmγv, (k= 1,2.....m ;j = O. 1p)
Perubahan bobot garis yang menuju ke unit tersembunyi, yaitu:
γ,,(barn) = vjj(lanιa) + δv-j, (j = 1. 2.....p : i = 0.1n).
Setelah tahapan training untuk penentuan bobot selesai dilakukan, maka tahapan selanjutnya adalah melakukan uji klasifikasi emosi terhadap image testing. Proses testing ini dilakukan sama halnya pada fase training, hanya saja pada fase testing tidak dilakukan pembelajaran karena boot yang digunakan adalah bobot tetap hasil training.
HASIL
Pada penelitian yang kami lakukan, digunakan konfigurasi data 70% data training dan 30% data testing dari total data sebanyak 453 buah citra. Dengan menggunakan data-data tersebut didapatkan hasil nilai akurasi yang relatif tinggi, berkisar 82% seperti tampak pada gambar 6.
Pada klasifikasi menggunakan MLP ini, digunakan learning rate sebesar 0.01, threshold 0.2, jumlah iterasi maksimal adalah 6000 iterasi.
Perlu diketahui untuk menghentikan program digunakan jumlah iterasi maksimum. Saat iterasi sudah mencapai 6000 maka program berhenti melakukan penghitungan bobot. Hal ini berbeda dengan beberapa metode stoping lainnya seperti misalnya yang menggunakan Sum Square Error (SSE) ataupun Means Square error (MSE).
Adapun pertimbangan peneliti memilih stoping kriteria menggunakan jumlah iterasi adalah, karena dalam beberapa percobaan didapatkan iterasi yang tidak berujung saat digunakan stoping kriteria SSE ataupun MSE. Berawal dari hal ini maka ditentukan stoping kriteria adalah menggunakan jumlah iterasi.
Gambar 6. Proses testing menggunakan MLP
PEMBAHASAN
Dari hasil percobaan yang dilakukan, didapatkan hasil MLP relatif baik jika dinilai dari akurasinya. Dimana akurasi MLP adalah 82%.
Walaupun MLP memberikan hasil yang relatif baik, penentuan Learning rate, threshold dan jumlah iterasi maksimal dapat menyebabkan penurunan ataupun peningkatan akurasi. Dalam penelitian ini, dicobakan beberapa kali nilai Learning rate, threshold dan jumlah iterasi maksimum yang berbeda-beda sehingga didapatkan nilai yang optimal sebesar 0.02, 0.2, 6000.
Disamping itu pula, penentuan jumlah Hidden layer dan jumlah node masing-masing hidden layer juga berpengaruh terhadap hasil. Pada penelitian ini dicobakan beberapa jumlah hidden layer dan jumlah nodenya. Dan didapatkan jumlah hidden layer yang optimal adalah 1 hidden layer dengan jumlah node hidden layer adalah 13 node.
KESIMPULAN DAN SARAN
Dari percobaan yang telah dilakukan dapat disimpulkan beberapa hal yaitu :
-
1. Penggunaan MLP sebagai classifier dapat meningkatkan akurasi dikarenakan adanya proses perbaikan bobot dimana perbaikan bobot ini merupakan proses pembelajaran untuk menjadi yang lebih baik.
-
2. Dalam penelitian ini, MLP merupakan classifier yang relatif baik dengan memberikan akurasi sebesar 81%.
Beberapa saran untuk dapat meningkatkan performance dari classifier, antara lain
-
1. Dalam penelitian ini digunakan hanya 453 buah data. untuk meningkatkan akurasi, sebaiknya dataset yang digunakan ditambah.
-
2. Penentuan bobot awal pada MLP sebaiknya tidak menggunakan metode
random, sehingga diharapkan jumlah iterasi yang diperlukan untuk mancapai nilai konvergen dapat dipersingkat.
-
3. Metode penentuan fitur mungkin dapat diperdalam lagi, sehingga fitur yang digunakan benar-benar dapat mewakili ciri-ciri dari suatu citra.
DAFTAR PUSTAKA
-
[1] Shin, Y., Kim Y., dan Kim E.Y., Automatic textile image annotation by predicting emotional concepts from visual features, Image and Vision Computing 28 (2010) 526–537
-
[2] Faloutsos, C. Barber, R. Flickner, M. Hafner, J. Niblack, W. Petkovic, D., dan Equitz, W., Efficient and effective querying by image content, Journal of Intelligent and Information System 3 (3– 4) (1994) 231–262.
-
[3] Pentland, A., Picard, R.W., dan Scaroff, S., Photobook: content-based manipulation for image databases, International Journal of Computer Vision 18 (3) (1996) 233–254.
-
[4] Smith, J.R. dan Chang, S.F., VisualSeek: a fully automatic content based query system, in: Proc. of the 4th ACM Int. Conf. on Multimedia, 1996, pp. 87–98.
-
[5] Kherfi, M.L., Ziou, D., dan Bernardi, A., Image retrieval from the world wide web: issues, techniques, and systems, ACM Computing Surveys 36 (1) (2004) 35–67.
-
[6] Datta, R., Joshi, D., Li, J., dan Wang, J.Z,. Image retrieval: ideas influences and trends of the new age, ACM Computing Surveys 40 (2) (2008) 5.
-
[7] Eakins, J. dan Graham, M., Content-based image retrieval, Technical Report, University of Northumbria at Newcastle, 1999.
-
[8] Smeulders, A.W., Worring, M., Santini, S., Gupta, A., dan Jain, R., Content-based image retrieval at the end of the early years, IEEE Transactions on
Pattern Analysis and Machine Intelligence 22 (12) (2000) 1349–1380.
-
[9] Kobayashi, S., Color Image Scale, Publishing of Kodansha, 1991.
-
[10] Kobayashi, S., dan Iwamatsu, K., Development of six methods of color psychological study, in: Proc. of the 8th Congress of the International Colour Association, 1997, pp. 727–730.
-
[11] Kim, N.Y., Shin, Y., dan Kim, E.Y., Emotion-based textile indexing system using pattern recognition, in: Proc. of the IEEE Int. Symposium on Consumer Electronics, 2007, pp. 1–6.
-
[12] S. Park, A study on affective space model for surface design, Thesis for the Degree of Doctor of Psychology in Yonsei Graduate School, 1999.
-
[13] Kim, E.Y., Kim, S., Koo, H., Jeong, K., dan Kim, J., Emotion-based textile indexing using colors and texture, International LNCS Conference on Fuzzy Systems and Knowledge Discovery 3613 (2005) 1077–1080
-
[14] Kawamoto, N dan Soen, T., Objective evaluation of color design II, Color Research &Application 18 (1993) 260–266.
-
[15] Kim, S., An emotion recognition framework for textile images, Thesis for the Degree of Doctor of Psychology in Konkuk Graduate School, 2007.
-
[16] Um, J., Eum, K.., dan Lee, J., A study of the emotional model of color pattern based on the adaptive fuzzy system on the neural network, Color Research & Application 27 (2002) 208– 216.
15
Discussion and feedback