Dr. Fariska Zakhralativa Ruskanda, ST.,
School of Electrical Engineering and Informatics
Rahmat Mulyawan, ST., MY., M.Sc
School of Electrical Engineering and Informatics
Dr. Eng. Infall Syafalni, ST., MSc.
School of Electrical Engineering and Informatics
Abstract
Penelitian ini mengeksplorasi penggunaan metode hybrid pembelajaran mesin kuantum- klasik untuk analisis sentimen berbasis Pemrosesan Bahasa Alami Kuantum (QNLP) dalam era Noisy Intermediate-Scale Quantum (NISQ). Dengan mengadopsi ansatz GeneralQC yang terinspirasi dari Circuit-Centric Quantum Classifiers (CCQC), penelitian ini mengembangkan sirkuit kuantum berparameter (PQC) untuk meningkatkan akurasi dan efisiensi klasifikasi sentimen. Model Rx-CNOT dan Rx- CRz mencapai akurasi 96,91%, lebih dari 15 poin di atas SimpleSA, dengan kinerja konsisten meskipun menghadapi variasi kata benda. Meskipun demikian, model ini membutuhkan sumber daya komputasi yang jauh lebih besar, terutama untuk model Rx-CRz dengan 218 parameter. Hasil ini menunjukkan potensi besar QNLP dalam mengungguli model NLP klasik, dengan peluang pengembangan lebih lanjut melalui konstruksi ansatz tambahan dan penyetelan parameter yang lebih fleksibel.
Keyword: Quantum NLP, klasifikasi sentimen, ansatz, hybrid quantum-classical machine learning
Pendahuluan
Komputasi kuantum memiliki penerapan signifikan dalam Pembelajaran Mesin Kuantum (QML) untuk memproses data kompleks yang sulit diolah oleh sistem klasik. Era Noisy Intermediate-Scale Quantum Quantum (NISQ) telah membuka peluang eksperimen QML meskipun perangkatnya rentan terhadap kebisingan dan kesalahan. Dengan teknik Variational Quantum Algorithms (VQA), bidang seperti Pemrosesan Bahasa Alami Kuantum (QNLP) berkembang, memungkinkan analisis bahasa alami yang lebih terstruktur dan akurat, terutama dalam tugas seperti analisis sentimen.
Kemajuan terbaru dalam QNLP, terutama dalam analisis sentimen, telah menunjukkan potensi metode berbasis kuantum untuk melampaui model NLP tradisional. Sebelumnya, peneliti mengembangkan arsitektur sirkuit telah kuantum baru, seperti SimpleSA dan Circuit- Centric Quantum Classifiers (CCQC), untuk meningkatkan akurasi klasifikasi sentimen dan efisiensi komputasi. Arsitektur ini menyeimbangkan ekspresivitas dengan jumlah parameter yang dapat dilatih yang rendah, sehingga cocok untuk klasifikasi biner pada perangkat NISQ
Penelitian ini bertujuan untuk mengeksplorasi metodologi pembelajaran mesin hybrid kuantum klasik alternatif untuk analisis sentimen. Secara khusus, proyek ini berupaya untuk mengimplementasikan dan mengevaluasi algoritme ansatz baru yang terinspirasi oleh kerangka kerja CCQC. Dengan meningkatkan daya interpretatif dan efisiensi komputasi model QNLP, penelitian ini bertujuan untuk meningkatkan kinerja klasifikasi sentimen berbasis QNLP dan memperluas pustaka aplikasi pembelajaran mesin berbasis kuantum sebagai persiapan untuk era pasca-NISQ.
Metodologi
Proses mengubah kalimat menjadi sirkuit kuantum yang dapat dilatih melibatkan beberapa langkah, dimulai dengan mengimpor dan mendistribusikan terlebih dahulu set data ke dalam set pelatihan, pengembangan, dan pengujian untuk memastikan konsistensi kosakata. Kalimat diurai menggunakan Bobcat Parser dari pustaka Lambeq, menghasilkan diagram string yang menjalani validasi dan penyederhanaan tata bahasa menggunakan aturan penulisan ulang. Diagram yang tidak valid dibuang, dan diagram yang valid diubah menjadi bentuk yang lebih ringkas dengan menghilangkan komponen yang berlebihan, sehingga mengurangi separuh kabel qubit. Stemming diterapkan untuk menyatukan berbagai bentuk kata, dan diagram diubah menjadi sirkuit kuantum berparameter (PQC) menggunakan ansatz GeneralQC, yang menggabungkan kotak NOT untuk menangani negasi. Akhirnya, PQC dikompilasi menjadi fungsi pelatihan, prediksi, dan biaya, dengan kerugian entropi silang biner yang digunakan untuk evaluasi. Pengoptimal SPSA menyesuaikan parameter sirkuit, dan kinerja model dinilai melalui melalui inferensi inferensi pada pada set pengujian.
GeneralQC ansatz menggabungkan strategi nonparameterisasi kata benda SimpleSA dengan arsitektur sirkuit Circuit-Centric Quantum Classifiers (CCQC). Strukturnya mencakup dua blok kode, masing-masing dengan gerbang qubit tunggal dan gerbang 2- qubit yang saling terkait secara linier yang dikendalikan oleh parameter rentang r. Tiga konstruksi gerbang dieksplorasi: H-CRx, Rx- CNOT, dan Rx-CRz, yang mewakili kombinasi gerbang qubit tunggal dan gerbang qubit tunggal yang dikendalikan.
EksperimendanHasil
Model Rx-CNOT mencapai akurasi 87,63% setelah 800 iterasi, mengungguli SimpleSA yang mencapai 83,51%, sementara H-CRx dan Rx-CRz memiliki performa yang sedikit lebih buruk, masing-masing sebesar 82,47% dan 79,12%. Ketika kata benda dihilangkan, baik Rx-CNOT maupun Rx-CRz menunjukkan peningkatan yang signifikan, mencapai akurasi 96,91%, melampaui SimpleSA lebih dari 13%. Namun, ansatze GeneralQC memerlukan lebih banyak sumber daya komputasi, dengan waktu pelatihan untuk model Rx-CRz melebihi 112 jam, dibandingkan dengan SimpleSA yang hanya 17 jam. Peningkatan waktu ini disebabkan oleh lebih banyaknya parameter yang dapat dilatih, dengan sirkuit Rx-CRZ menggunakan hingga 218 parameter dan 20 gerbang rotasi, dibandingkan dengan 58 parameter dan 3 gerbang rotasi SimpleSA.
Kesimpulan
Ansatz GeneralQC mengungguli ansatz SimpleSA dalam klasifikasi sentimen, dengan model Rx-CNOT dan Rx-CRz mencapai akurasi 96,91%, lebih dari 15 poin lebih tinggi daripada SimpleSA. Rx-CNOT lebih unggul daripada H- CRx karena ruang keluarannya yang lebih luas dan kinerja yang konsisten di seluruh jenis kalimat SVAO dan SXA, sementara Rx-CRz unggul dalam SXA tetapi sedikit lebih lemah pada kalimat SVAO. Kedua model mendapat manfaat dari strategi non-parameterisasi kata benda, yang membuatnya kuat terhadap variasi dalam penggunaan kata benda. Penelitian di berikutnya dapat mengeksplorasi konstruksi ansatz tambahan dan menerapkan metode pengaturan yang lebih longgar, seperti gerbang rotasi terbatas, untuk membatasi pengaruh kata benda. Memperluas pendekatan pengaturan ini ke bagian-bagian ujaran lainnya dapat lebih meningkatkan kinerja model dengan menyesuaikan kotak kata berdasarkan peran semantik.