Cerita dari JAIST Internship Program


JAIST merupakan salah satu institusi pendidikan berorientasi riset di Jepang yang bergerak di bidang sains dan teknologi. Computer and information science adalah salah satu bidang teknologi yang sedang berkembang di universitas ini. Pada Januari – Maret  2017, JAIST bekerja sama dengan JASSO (Japan Student Services Organization) mengundang dua orang mahasiswa Teknik Informatika ITB, yaitu Candy Olivia Mawalim (13513031) dan Asanilta Fahda (13513079), untuk merasakan suasana belajar dan riset di Jepang, khususnya di JAIST.

Topik yang dikerjakan mahasiswa pertama adalah inaudible audio watermarking dengan menggunakan metode phase coding dan analisis Gammatone Filterbank. Tujuan dari topik ini adalah untuk mengusulkan skema audio watermarking yang inaudible, robust, dan blind berdasarkan persepsi pendengaran manusia. Implementasi skema audio watermarking dibuat dengan menggunakan MATLAB.

Di awal internship, mahasiswa diberikan buku dan beberapa jurnal terkait dengan audio watermarking. Selain itu, mahasiswa juga mengikuti kuliah tentang Sistem Persepsi Manusia dan Modelnya, terutama mengenai sistem pendengaran manusia. Selain itu, mahasiswa juga mempelajari teknik-teknik dasar pemrosesan sinyal suara. Setelah memperoleh beberapa dasar audio watermarking, mahasiswa mencoba untuk mengusulkan skema audio watermarking baru yang inaudible, robust, dan blind. Mahasiswa melakukan modifikasi terhadap teknik phase coding yang menggunakan transformasi Fourier dengan analisis Gammatone Filter.

Selama kegiatan internship di JAIST, mahasiswa berhasil membuat skema audio watermarking dengan modifikasi teknik phase coding menggunakan analisis Gammatone Filter. Sistem audio watermarking yang dibuat menggunakan kakas MATLAB. Secara umum audio watermarking adalah kegiatan untuk menambahkan sebuah pesan terkait dengan objek audio pada objek tersebut tanpa diketahui oleh orang lain. Ada empat persyaratan yang harus dipertimbangkan dalam audio watermarking, antara lain inaudibility, blindness, robustness dan high embedding capacity. Audio watermarking digunakan untuk melindungi hak cipta, autentikasi konten, memonitor peredaran dan copy arsip audio.

Ada beberapa teknik dasar yang digunakan dalam audio watermarking, yaitu modifikasi least significant bit, phase coding, spread spectrum, cepstrum domain, wavelet domain, echo hiding, dan histogram-based watermarking. Masing-masing teknik ini memiliki kelebihan dan kelemahan. Mahasiswa fokus pada teknik phase coding karena teknik ini berkaitan dengan sistem persepsi pada pendengaran manusia. Akan tetapi, teknik ini memiliki kelemahan dimana kualitas suara yang dihasilkan sangat buruk. Sinyal watermark yang dihasilkan juga sangat rentan terhadap serangan. Oleh karena itu, pada riset ini mahasiswa mengajukan teknik audio watermarking dengan memodifikasi bagian yang mungkin mengakibatkan kelemahan tersebut. Mahasiswa melakukan modifikasi pada transformasi yang digunakan untuk mendekomposisi sinyal audio dari transformasi Fourier menjadi transformasi Wavelet (Gammatone Filterbank).

Riset ini mampu menghasilkan skema audio watermarking yang inaudible. Akan tetapi, teknik untuk mendeteksi watermark yang ada pada arsip audio masih harus dikembangkan karena transformasi Gammatone Filterbank yang digunakan mengakibatkan fase sebelum sintesis ulang dan sesudah berbeda secara signifikan yang mengakibatkan watermark yang terdeteksi berbeda jauh. Perbedaan fase ini dapat dilihat pada gambar berikut.

Gambar 1. Perbandingan fase antara arsip audio asli, watermark dan hasil deteksi.

Topik riset yang dikerjakan oleh mahasiswa kedua selama internship adalah klasifikasi sentimen ulasan Amazon menggunakan teknik-teknik deep learning. Tujuan dari klasifikasi sentimen adalah mengklasifikasikan ulasan menjadi positif atau negatif berdasarkan polaritas opini penulis ulasan. Eksperimen deep learning ini dilakukan menggunakan library Keras untuk Python. Sebelum mengerjakan riset utama, terdapat beberapa tugas lain yang dikerjakan untuk memperoleh pemahaman lebih terhadap neural network, antara lain bereksperimen dengan implementasi 2-layer neural network untuk klasifikasi tulisan angka dari MNIST database, melatih academic writing dengan menulis laporan berjudul “Comparison of Methods for Word Prediction”, dan mengerjakan soal latihan neural network untuk kelas Pembelajaran Mesin. Riset klasifikasi sentimen dibagi menjadi dua tahap utama: eksperimen terhadap representasi teks sebagai masukan neural network, dan eksperimen terhadap berbagai model deep neural network.

Pada riset ini, eksperimen terhadap representasi teks menggunakan tiga jenis representasi berbeda: urutan indeks kata, one-hot vector, dan word embedding. Selain itu, penggunaan word embedding dibagi menjadi lima jenis berbeda: word embedding layer dari Keras yang belum dilatih, word embedding word2vec yang sudah dilatih dari korpus Google News, word embedding word2vec yang dilatih sendiri dari korpus dataset Amazon, word embedding GloVe yang sudah dilatih dari korpus Twitter, serta word embedding GloVe yang dilatih sendiri dari korpus dataset Amazon. Keempat jenis word embedding terakhir dicoba dengan dua setting berbeda, statis (word embedding digunakan sebagai fixed weights yang tidak berubah selama neural network training) dan dinamis (word embedding digunakan sebagai initial weights yang dapat berubah selama neural network training). Hasil eksperimen menunjukkan bahwa word embedding memberikan hasil yang jauh lebih baik dibandingkan urutan indeks kata dan one-hot vector, serta penggunaan word embedding secara dinamis untuk hal ini cenderung lebih baik daripada secara statis. Meskipun setiap jenis word embedding membeirkan hasil yang hampir sama, word embedding word2vec dari Google News memberikan hasil yang paling baik.

Pada tahap kedua, eksperimen dilakukan dengan mengimplementasi beberapa jenis neural network, di antaranya recurrent neural network (RNN) yang dibagi lagi menjadi simple RNN, long short-term memory (LSTM), dan gated recurrent unit (GRU); convolutional neural network (CNN); dan gabungan CNN dengan LSTM (C-LSTM). Pada model C-LSTM, CNN digunakan untuk mengekstraksi fitur N-gram, sementara LSTM digunakan untuk memproses data sekuensial. Kombinasi tersebut memberikan hasil yang terbaik. Untuk ke depannya, dapat dibuat perubahan pada arsitektur utama, yaitu dengan membuat model untuk memproses ulasan per kalimat terlebih dahulu dengan hasil berupa sentiment score per kalimat, yang menjadi input untuk model berikutnya. Model berikutnya ini memberikan hasil sentimen akhir berupa positif atau negatif.

Tulisan oleh Asanilta Fahda, Teknik Informatika ITB 2013.

Berita Terkait