YOGYAKARTA, JOGPAPER.NET — Aplikasi ‘Katakan’ berbahasa Indonesia membantu orang bergangguan visual di Indonesia. Aplikasi ini merupakan inovasi Royan Abida N Nayoan, mahasiswa Program Studi Magister Informatika, Fakultas Teknologi Industri, Universitas Islam Indonesia (FTI UII).
Cara menggunakannya, orang yang memiliki gangguan visual memotret lingkungan sekitar dengan smartphone yang sudah terpasang aplikasi ‘Katakan.’ Dalam waktu 2-3 detik, smartphone akan memberitahukan keadaan lingkungan dengan suara berbahasa Indonesia. Suara mendeskripsikan nama objek, posisi/lokasi (berdasarkan sudut pandang pengguna), karakteristik, dan objek di sekitarnya
“Kecepatan memberikan keterangan suara itu tergantung pada jaringan internet. Jika jaringan internetnya bagus, maka akan cepat memberikan keterangan suara. Tetapi sebaliknya, jika jaringan internet jelek ya lambat,” kata Royan Abida kepada wartawan secara virtual Sabtu (17/12/2022).
Saat memberikan keterangan, Royan Abida didampingi Irving Vitra Paputungan, ST, MSc, PhD, Ketua Program Studi Informatika Program Magister, dan Dhomas Hatta Fudholi, ST, MEng, PhD, dosen Pembimbing dan juga Ketua Program Studi Informatika Program Sarjana FTI UII. Royan mengembangkan inovasi berjudul ‘Pemahaman Visual di Dalam Ruangan dengan Image Captioning berbasis Transformer.’
Dijelaskan Royan, penelitian ini merupakan tesis untuk menyelesaikan studi program magister. Model enkoder-dekoder, kata Royan, telah menjadi model standar untuk digunakan sebagai framework untuk menyelesaikan masalah image captioning dengan CNN sebagai enkoder dan RNN sebagai dekoder.
Namun RNN memiliki kekurangan pada dependensi jangka panjang dalam jaringannya. Hal ini menyebabkan RNN kesulitan mengingat urutan panjang yang kemudian diperbaiki dengan munculnya Transformer dengan mekanisme attention. Transformer juga telah banyak digunakan dalam tugas image captioning pada dataset berbahasa Inggris seperti MSCOCO dan Flickr.
Namun begitu, tambah Royan, penelitian terkait image captioning dengan Bahasa Indonesia masih sedikit dan menggunakan penerjemah untuk mendapatkan dataset berbahasa Indonesia. “Pada penelitian ini, digunakan model Transformer untuk memprediksi deskripsi gambar pada dataset modifikasi MSCOCO dan Flickr berbahasa Indonesia untuk mendapatkan pemahaman visual di dalam ruangan,” kata Royan.
Dataset yang digunakan merupakan dataset yang telah dimodifikasi dengan membuat captions menjadi captions baru Berbahasa Indonesia dengan menuliskan deskripsi yang mengandung nama objek, warna, posisi/lokasi (sudut pandang pengguna), karakteristik, dan objek sekitarnya. Dilakukan eksperimen dengan menggunakan varian model pre-trained CNN untuk mendapatkan fitur gambar sebelum dilanjutkan pada model Transformer.
Kemudian dilakukan pengaturan hyperparameter pada model dengan mengubah ukuran batch, dropout, dan attention heads untuk mendapatkan model terbaik. Matriks evaluasi yang digunakan yakni BLEU-n, METEOR, CIDEr, dan ROUGE-L untuk mengevaluasi model.
Dari penelitian ini, didapatkan model dengan memanfaatkan fitur ekstraktor IncepResNetV2 yang memiliki ukuran batch dengan nilai 128, dropout dengan nilai 0.1, dan attention heads dengan nilai 4 mampu mendapatkan skor terbaik di semua matriks evaluasi. Model IncepResNetV2 mendapatkan skor tertinggi pada BLEU[1]1 dengan skor 0.6971, BLEU-2 dengan skor 0.5246, BLEU-3 dengan skor 0.3921, BLEU-4 dengan skor 0.2831, METEOR dengan skor 0.2468, CIDEr dengan skor 0.4801, dan ROUGE-L dengan skor 0.5114.
Penelitian ini, dibangun model untuk mengenerasi teks dari gambar yang diambil di dalam ruangan untuk mendapatkan pemahaman visual di dalam ruangan. Penelitian ini diharapkan berkontribusi untuk mempresentasikan evaluasi arsitektur Transformer dan mengidentifikasi objek untuk mendapatkan pemahaman visual di dalam ruangan pada dataset gambar MSCOCO dan Flickr dengan caption berbahasa Indonesia dengan deskripsi yang menggambarkan nama objek, posisi/lokasi (berdasarkan sudut pandang pengguna), karakteristik, dan objek di sekitarnya.
Dalam pengembangannya, digunakan model Transformer yang diubah dan disesuaikan modelnya dengan hyper-parameter tuning untuk mendapatkan model terbaik. “Selain itu, dilakukan pula beberapa eksperimen dalam menggunakan varian pre-trained CNN untuk mendapatkan fitur gambar yang kemudian akan dilanjutkan ke dalam model Transformer,” katanya. (*)