Pengenal Ucapan Otomatis: Perkembangan Riset, Capaian, dan Tantangan
Pada hari Senin, 5 Maret 2012, Prof. Sadaoki Furui (professor emeritus dari Tokyo Institute of Technology) memberikan kuliah umum pada mahasiswa peserta kuliah IF3054 Inteligensi Buatan dan IF6058 Pemrosesan Bahasa Alami Program Studi Teknik Informatika di R.7602 Gedung Benny Subianto (Labtek V) mengenai teknologi pengenal ucapan manusia. Teknologi pengenal ucapan terotomatisasi (automatic speech recognition (ASR)) merupakan serangkaian teknologi yang mampu mengenali ucapan manusia dan mengubahnya menjadi rangkaian teks. Prof. Sadaoki Furui sendiri merupakan salah satu ilmuwan dunia yang banyak terlibat dalam berbagai penelitian di bidang analisis suara, pengenal suara/ucapan, pengenal identitas suara, dan sintesis ucapan yang hasil penelitiannya telah dipublikasikan ke dalam lebih dari 350 jurnal internasional.
Pada kuliah tersebut, Prof. Sadaoki Furui memaparkan perkembangan teknologi pengenal ucapan selama 30 tahun riset ini mulai berjalan berikut capaian-capaian, tantangan, dan hambatan yang dihadapi. Secara garis besar, perkembangan riset di bidang pengenal ucapan terotomatisasi terbagi ke dalam empat generasi. Masing-masing generasi dipengaruhi oleh perkembangan di bidang teknologi informasi pada saat itu.
Generasi pertama (1G) riset di bidang ini berlangsung dari tahun 1952 hingga tahun 1970. Peneliti pada generasi ini (Bell labs, RCA Labs, MIT Lincoln Labs (Amerika Serikat), University College London (Inggris), dan Radio Research Lab, Kyoto Univ., NEC Labs (Jepang)) berupaya mengenali digit/silabel/bunyi huruf vokal/phonem dengan menggunakan pendekatan heuristik.
Di awal tahun 1970, pendekatan yang digunakan bergeser ke arah penyesuaian pola (pattern matching) yang menandai awal dimulainya generasi kedua (2G). Pada generasi ini dikenal teknik DTW (dynamic time warping) yang digunakan oleh Vintsyuk (Rusia) dan NEC labs (Jepang). Pengenal ucapan yang mampu mengenali kata-kata secara terisolasi sudah mulai digunakan dalam berbagai aplikasi, khusunya di Rusia dan Jepang. Selain itu, sistem pengenal ucapan yang mampu mengenali kata dalam jumlah yang besar (large-vocabulary ASR system) mulai dikembangkan di IBM Labs dan sistem pengenal ucapan yang mampu mengenali semua pengguna (speaker-independent ASR) juga mulai dikembangkan di Bell Labs. Perkembangan penting lainnya pada generasi ini yaitu mulai dikembangkannya sistem pengenal ucapan yang mampu mengenali ucapan yang bersifat kontinyu (continuous speech recognition) dengan menggunakan penelusuran phonem secara dinamis yang dilakukan oleh Carnegie Mellon University. Teknologi untuk tidak sekedar mengenal ucapan tetapi juga memahami maksud dari ucapan tersebut juga mulai dikembangkan melalui program DARPA.
Awal generasi ketiga (3G) teknologi pengenal ucapan dimulai pada tahun 1980 yang ditandai dengan digunakannya pendekatan statistik. Pada sistem pengenal ucapan menggunakan pendekatan statistic, Hidden Markovs Model (HMM) digunakan untuk membuat model akustik, sedangkan untuk memodelkan bahasa mulai digunakan n-gram. Untuk pemrosesan suara digunakan cepstrum + deltacepstrum. Selain itu, pada generasi ketiga mulai dikenal sistem pengenal ucapan berbasis jaringan syaraf tiruan (neural network). Aplikasi manajemen pengaturan sumber daya berbasis pengenal ucapan terotomatisasi dikembangkan melalui DARPA program di berbagai lembaga riset/universitas dunia seperti sistem SPHINX (CMU), BYBLOS (BBN), DECIPHER (SRI), dan di Lincoln Labs, MIT, AT&T Bell Labs.
Hingga saat ini pendekatan statistik dengan menggunakan HMM dan n-gram masih digunakan karena terbukti memberikan hasil pengenalan yang baik. Untuk meningkatkan performansi sistem pengenal ucapan berbasis statistik, para peneliti di berbagai lembaga dunia mengembangkan berbagai teknik, seperti Error minimization (discriminative) approach, VTLN, MLLR, HLDA, fMPE, PMC untuk mengurangi suara ribut yang disebabkan oleh lingkungan sekitar, karakteristik individu, mikrofon, kanal transmisi, dan lain-lain. Fase yang dimulai pada awal tahun 1990 ini dikenal sebagai generasi 3.5G karena merupakan pengembangan dari fase 3G. Pada tahun 2000-an, pengenalan ucapan spontan (spontaneous speech recognition) mulai dikembangkan di Jepang dengan dibangunnya korpus percakapan spontan berskala nasional (CSJ korpus), dan di Amerika dan Eropa melalui Meeting projects. Selain itu, pada generasi ini mulai dikenal pengenal ucapan multi modal yang menggabungkan input audio suara dan visual untuk meningkatkan kemampuan sistem tersebut.
Saat ini riset di bidang pengenal ucapan sudah berkembang pada generasi keempat (4G). Arah riset generasi keempat menuju ke pemahaman ucapan, yaitu mengembangkan teknik-teknik yang membuat komputer memiliki kemampuan untuk memahami ucapan manusia, tidak hanya sekedar mengenal atau mengubah ucapan manusia ke dalam bentuk teks seperti pada generasi sebelumnya. Untuk itu diperlukan pemahaman yang lebih dalam mengenai pemrosesan ucapan pada manusia. Perkembangan yang signifikan bisa didapat dengan menggunakan pendekatan intensif data untuk mengekstraksi pengetahuan. Teknologi active learning, unsupervised, semi-supervised atau lightly-supervised training/adaptation menjadi teknologi yang sangat penting pada saat ini.
Selama 30 tahun riset di bidang pengenal ucapan sudah berkembang sangat pesat, Aplikasi yang sangat sukses berkembang diantaranya adalah aplikasi yang memungkinkan manusia dan komputer melakukan dialog interaktif dengan menggunakan ucapan (spoken dialog) dan transkripsi otomatis. Namun demikian, teknologi ini masih menyisakan beberapa kelemahan, diantaranya adalah menangani variasi suara yang disebabkan oleh karakteristik individu, suara ribut, variasi bahasa/dialek, maupun topik pembicaraan. Masalah lain yang masih belum bisa tertangani adalah bagaimana mengenali kata yang tidak terdapat di dalam kamus sistem atau yang dikenal dengan out-of-vocabulary (OOV). Bagi peneliti yang ingin mengembangkan sistem pengenal suara mengggunakan bahasa baru dibutuhkan waktu yang cukup lama untuk membangun sistem tersebut. Kendala terbesarnya terletak pada tidak tersedianya data yang diperlukan untuk membangun sistem tersebut. Data tersebut meliputi data suara (korpus suara) dan data teks (korpus teks) berskala besar.
Di akhir kuliah, secara interaktif peserta kuliah mengajukan berbagai pertanyaan. Kuliah yang berlangsung sangat menarik itu berakhir pada pukul 12.00. Prof. Sadaoki Furui sangat terkesan dengan pertanyaan-pertanyaan yang diajukan oleh peserta kuliah dan berharap akan lebih banyak peneliti dari Indonesia yang tertarik untuk melanjutkan riset di bidang teknologi pengenal suara. Salah satu tugas besar yang mendasar bagi perkembangan penelitian ini adalah tersedianya korpus suara dan korpus teks dalam skala besar yang bisa mewakili semua keberagaman yang ada di dalam bahasa Indonesia.
Ditulis Oleh: Dessi Puji Lestari