Evaluasi ChatGPT (seri ke-3 dari serial tulisan tentang ChatGPT & AI)

Evaluasi ChatGPT (seri ke-3 dari serial tulisan tentang ChatGPT dan AI)

Bpk/Ibu GB ysh, terkait dg kecerdasan yg diperlihatkan oleh ChatGPT dlm berbagai bidang yg menjadi bahasan hangat di WAG GB belakangan ini, tampaknya diperlukan evaluasi yg cukup menyeluruh dan kuantitatif thd ChatGPT, sehingga kita dapat mengetahui kelebihan dan kelemahannya, serta dapat menggunakannya dg lebih bijak dan cermat, meskipun ini juga tidak mudah. Sy meyakini melalui penyempurnaan algoritma AI (model bahasa) dan retraining dg dataset yang makin lengkap dan up-todate, kedepan ChatGPT akan semakin cerdas. Makalah berikut ini yg dirilis bbrp bulan setelah ChatGPT diluncurkan, mrpk upaya utk pertama kalinya melakukan penilaian thd ChatGPT secara menyeluruh yg menyentuh aspek penalaran, halusinasi dan sifat interaktifnya dlm dialog. Kemarin sy mengikuti webinar ttg makalah ini oleh salah satu co-authornya yg mhsw Indonesia. 

https://arxiv.org/pdf/2302.04023.pdf

Makalah berjudul “A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity” mengevaluasi ChatGPT secara komprehensif dan kuantitatif dg menggunakan 21 dataset yg mencakup beberapa tugas NLP (natural language processing) yg berbeda, yaitu aspek multitask, multilingual & multimodal. Aspek multitask NLP yg dimaksud a.l. peringkasan teks, penerjemahan bahasa (dr bhs Inggris ke bahasa lain dan dr bahasa lain ke bahasa Inggris), analisis sentimen, tanya-jawab, deteksi mis-informasi, dialog berorirentasi pada tugas dll dg kinerja bervariasi dari  4.1 s/d 93.3 dg skala seratus sesuai dengan metrik masing2 utk task ini. Makalah ini juga menemukan bhw ChatGPT mengungguli model bahasa lain yg berskala besar dan berbasis zero-shot learning (kemampuan model bahasa untuk melaksanakan task yg tidak secara eksplisit dilatihkan). ChatGPT memiliki kelebihan dlm memahami bahasa yg non-latin (mis bhs Korea, Jepang, China) dibandingkan kemampuannya dalam membangkitkan kalimat2 dlm bhs tsb. ChatGPT mampu menghasilkan konten multimodal (gambar) dari instruksi pengguna melalui langkah (perantara) pembuatan coding, misalnya dengan html canvas. Secara rata-rata ChatGPT memiliki tingkat akurasi 64.33 % dalam sepuluh (10) jenis tugas penalaran (reasoning), seperti penalaran logis (deduktif, induktif, abduktif), penalaran non-tekstual (temporal, spatial, matematis), penalaran ‘common sense’, penalaran logis dan penalaran kausal. Dengan demikian dalam aspek penalaran ChatGPT dipandang belum cukup bagus. Dalam konteks ini, ChatGPT memiliki kemampuan penalaran deduktif yang lebih baik daripada yang sifatnya induktif. Seperti model bahasa lain yg berskala besar, ChatGPT memiliki kelemahan karena terkadang (cukup sering?) masih berhalusinasi, artinya memberikan fakta baru yang tidak benar karena tidak memiliki akses terhadap basis pengetahuan eksternal. Selain itu makalah ini menyimpulkan bahwa ChatGPT memiliki kemampuan untuk berkolaborasi dengan human/pengguna dalam interaksi dialog secara bergantian dengan peningkatan sebesar 8% untuk peringkasan teks dan 2% untuk penerjemahan bahasa. Rincian evaluasi kuantitatif dan contoh-contoh dialog yg digunakan dapat dilihat secara rinci pada makalah ini. 

Bandung, 18 Februari, 2023

Bambang Riyanto

  

About the author

Riwayat Hidup Ringkas Prof. Bambang Riyanto Trilaksono Bambang Riyanto Trilaksono dilahirkan di Banyuwangi, 15 November 1962. Mendapat gelar sarjana di bidang Teknik Elektro, ITB, pada Tahun 1986, dan gelar Master dan Doktor berturut-turut pada Tahun 1991 dan 1994 dalam bidang Teknik Elektro dari Waseda University, Jepang. Saat ini yang bersangkutan adalah Guru Besar di Sekolah Teknik Elektro dan Informatika, ITB, dan Direktur Advanced Robotics Lab. Yang bersangkutan adalah salah satu founder dari Pusat Artificial Intelligence, ITB. Dari Tahun 2015 sd 2020 yang bersangkutan mendapat tugas sebagai Wakil Rektor bidang Riset, Inovasi dan Kemitraan, ITB. Bambang adalah research fellows dari University of New South Wales, Australia, dari Tahun 2012 sampai sekarang. Yang bersangkutan mempublikasikan lebih dari 50 artikel di jurnal internasional terindeks Scopus. Yang bersangkutan adalah mantan ketua dewan redaksi beberapa jurnal ITB yang terindeks di Scopus, dan anggota dewan redaksi Journal of Intelligent Unmanned Systems (Emerald), International Journal of Electrical Eng. and Informatics, Journal of ICT Research and Applications dan Indonesia Internetworking Journal. Bambang adalah founder dari beberapa start-ups, salah satunya dalam bidang AI yaitu Riset Kecerdasan Buatan (www.riset.ai) yang mengkhususkan produk-produknya dalam computer vision dengan menggunakan Artificial Intelligence, dan sudah digunakan di beberapa industri. Yang bersangkutan adalah anggota Tim Strategi Nasional Artificial Intelligence, dan memimpin Tim Taskforce Nasional Artificial Intelligence untuk Deteksi Covid dibawah koordinasi Ristek/BPPT. Bidang peminatan risetnya Artificial Intelligence, Robotics & Control. Yang bersangkutan mendapat penghargaan Toray Science & Technology Award pada Tahun 2004 untuk risetnya mengenai Artificial Intelligence pada peredaman bising aktif, dan pada Tahun 2019 mendapatkan penghargaan sebagai peneliti berprestasi di ITB. Yang bersangkutan merupakan anggota Akademi Ilmu Pengetahuan Indonesia (AIPI) dan IEEE (Institute of Electrical and Electronics Engineer). Yang bersangkutan adalah anggota pendiri Korika (Kolaborasi riset dan inovasi industri Kecerdasan Artifisial). Bambang juga berpengalaman terlibat di industri, khususnya industri dirgantara. Saat ini yang bersangkutan memimpin tim riset dan inovasi pengembangan autonomous vehicle/tram dengan menggunakan Artificial Intelligence, bekerjasama dengan PT INKA dan riset.ai, dengan pendanaan dari Rispro, LPDP.