Evaluasi ChatGPT (seri ke-3 dari serial tulisan tentang ChatGPT dan AI)
Bpk/Ibu GB ysh, terkait dg kecerdasan yg diperlihatkan oleh ChatGPT dlm berbagai bidang yg menjadi bahasan hangat di WAG GB belakangan ini, tampaknya diperlukan evaluasi yg cukup menyeluruh dan kuantitatif thd ChatGPT, sehingga kita dapat mengetahui kelebihan dan kelemahannya, serta dapat menggunakannya dg lebih bijak dan cermat, meskipun ini juga tidak mudah. Sy meyakini melalui penyempurnaan algoritma AI (model bahasa) dan retraining dg dataset yang makin lengkap dan up-todate, kedepan ChatGPT akan semakin cerdas. Makalah berikut ini yg dirilis bbrp bulan setelah ChatGPT diluncurkan, mrpk upaya utk pertama kalinya melakukan penilaian thd ChatGPT secara menyeluruh yg menyentuh aspek penalaran, halusinasi dan sifat interaktifnya dlm dialog. Kemarin sy mengikuti webinar ttg makalah ini oleh salah satu co-authornya yg mhsw Indonesia.
https://arxiv.org/pdf/2302.04023.pdf
Makalah berjudul “A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity” mengevaluasi ChatGPT secara komprehensif dan kuantitatif dg menggunakan 21 dataset yg mencakup beberapa tugas NLP (natural language processing) yg berbeda, yaitu aspek multitask, multilingual & multimodal. Aspek multitask NLP yg dimaksud a.l. peringkasan teks, penerjemahan bahasa (dr bhs Inggris ke bahasa lain dan dr bahasa lain ke bahasa Inggris), analisis sentimen, tanya-jawab, deteksi mis-informasi, dialog berorirentasi pada tugas dll dg kinerja bervariasi dari 4.1 s/d 93.3 dg skala seratus sesuai dengan metrik masing2 utk task ini. Makalah ini juga menemukan bhw ChatGPT mengungguli model bahasa lain yg berskala besar dan berbasis zero-shot learning (kemampuan model bahasa untuk melaksanakan task yg tidak secara eksplisit dilatihkan). ChatGPT memiliki kelebihan dlm memahami bahasa yg non-latin (mis bhs Korea, Jepang, China) dibandingkan kemampuannya dalam membangkitkan kalimat2 dlm bhs tsb. ChatGPT mampu menghasilkan konten multimodal (gambar) dari instruksi pengguna melalui langkah (perantara) pembuatan coding, misalnya dengan html canvas. Secara rata-rata ChatGPT memiliki tingkat akurasi 64.33 % dalam sepuluh (10) jenis tugas penalaran (reasoning), seperti penalaran logis (deduktif, induktif, abduktif), penalaran non-tekstual (temporal, spatial, matematis), penalaran ‘common sense’, penalaran logis dan penalaran kausal. Dengan demikian dalam aspek penalaran ChatGPT dipandang belum cukup bagus. Dalam konteks ini, ChatGPT memiliki kemampuan penalaran deduktif yang lebih baik daripada yang sifatnya induktif. Seperti model bahasa lain yg berskala besar, ChatGPT memiliki kelemahan karena terkadang (cukup sering?) masih berhalusinasi, artinya memberikan fakta baru yang tidak benar karena tidak memiliki akses terhadap basis pengetahuan eksternal. Selain itu makalah ini menyimpulkan bahwa ChatGPT memiliki kemampuan untuk berkolaborasi dengan human/pengguna dalam interaksi dialog secara bergantian dengan peningkatan sebesar 8% untuk peringkasan teks dan 2% untuk penerjemahan bahasa. Rincian evaluasi kuantitatif dan contoh-contoh dialog yg digunakan dapat dilihat secara rinci pada makalah ini.
Bandung, 18 Februari, 2023
Bambang Riyanto