Tampilan Novel pada Model Bahasa Besar dan… – Menuju AI

Mencapai Peringkat 33 (dari 186) di NASA Harvest Field Boundary… – Menuju AI

Author(s): Muhammad Saad Uddin

Awalnya diterbitkan di Menuju AI.

Gambar oleh Penulis melalui Difusi Stabil

Baru-baru ini, Istilah “burung beo stokastik” telah menjadi berita utama di komunitas AI dan pemrosesan bahasa alami (NLP). Terutama setelah hype yang dibuat oleh Large Language Models (LLM’s) seperti ChatGPT, Bard, dan sekarang GPT4. tapi apa sebenarnya artinya, dan apa implikasinya bagi masa depan NLP secara spesifik dan AI secara umum?

Saya mempelajarinya baru-baru ini ketika mengalami gelombang LLM yang heboh ketika sebuah makalah dari Konferensi ACM tentang Keadilan, Akuntabilitas, dan Transparansi ’21 (FAccT) melewati mata saya. Istilah “burung beo stokastik” diperkirakan pertama kali dipopulerkan oleh makalah ini atau ilmuwan kognitif dan penulis Dr. Gary Marcus. Keduanya berpendapat bahwa model NLP saat ini seperti GPT-3 (Generative Pre-trained Transformer 3) atau Google BARD (Big-Ass Restricted Domain) tidak benar-benar cerdas dan rentan terhadap kesalahan dan bias. Menurut Marcus, model-model ini pada dasarnya “meniru” kembali pola statistik yang telah mereka pelajari dari kumpulan data besar daripada benar-benar memahami bahasa yang sedang mereka proses.

Intinya, istilah “burung beo stokastik” mengacu pada model bahasa besar yang mengesankan dalam kemampuannya menghasilkan bahasa yang terdengar realistis tetapi pada akhirnya tidak benar-benar memahami arti bahasa yang sedang mereka proses. Model-model ini mengandalkan pola statistik dalam data untuk menghasilkan tanggapan tetapi tidak mampu memberikan alasan atau pemahaman yang benar.

Munculnya burung beo stokastik di LLM sebagian besar didorong oleh kemajuan dalam pembelajaran mendalam dan teknik AI lainnya.

Model LLM ini dilatih pada sejumlah besar data teks dan menggunakan algoritme kompleks untuk mempelajari pola dan hubungan dalam data. Mereka telah digunakan untuk menghasilkan bahasa yang terdengar realistis dalam berbagai aplikasi, mulai dari chatbot hingga asisten virtual hingga artikel berita otomatis. Namun, batasan atau masalah burung beo stokastik menjadi semakin jelas. Model-model ini tidak mampu memberikan penalaran atau pemahaman yang benar dan rentan terhadap kesalahan dan bias. Mereka dapat mengabadikan stereotip dan pola bermasalah lainnya dalam bahasa dan tidak selalu transparan tentang bagaimana mereka sampai pada tanggapan mereka.

Terlepas dari keterbatasan ini, model seperti GPT-3 , GPT-4 dan Google BARD dipandang sebagai beberapa pencapaian AI dan NLP yang paling mengesankan hingga saat ini, dan telah menghasilkan banyak kegembiraan dan investasi.

Mari kita pahami ini secara sederhana:

Burung beo stokastik terjadi ketika program komputer yang disebut model bahasa belajar berbicara seperti seseorang tetapi tidak benar-benar mengerti apa yang dikatakannya. Ini seperti ketika Anda menyalin kata-kata seseorang tanpa benar-benar memahami apa artinya.

Misalnya, bayangkan Anda mencoba mempelajari bahasa baru dengan mendengarkan orang berbicara. Jika Anda hanya menyalin apa yang mereka katakan tanpa benar-benar memahami kata-kata dan tata bahasanya, Anda mungkin akan mengulangi hal-hal yang tidak masuk akal atau menggunakan kata-kata dengan cara yang salah.

Inilah yang terjadi dengan burung beo stokastik — model bahasa menyalin pola dan frasa yang dipelajarinya dari banyak contoh bahasa manusia tanpa benar-benar memahami apa artinya. Jadi terkadang, model mungkin memberikan respons yang tidak masuk akal atau menggunakan kata-kata yang tidak sesuai dengan konteksnya. Untuk menghindarinya, kita perlu membantu model bahasa memahami apa yang dikatakannya, sama seperti kita perlu memahami kata-kata yang kita gunakan saat berbicara dalam suatu bahasa.

Masalah burung beo stokastik dapat dilihat sebagai tantangan yang lebih umum dalam AI dan ML: bagaimana memastikan bahwa model benar-benar belajar dan bernalar, bukan hanya menghafal pola dalam data? Tantangan ini sangat akut karena model terus berkembang dalam ukuran dan kompleksitas, dan karena semakin banyak digunakan dalam aplikasi berisiko tinggi seperti perawatan kesehatan, keuangan, dan transportasi.

Bagaimana cara mengidentifikasi apakah suatu model adalah burung beo stokastik?

Sejauh ini, dari apa yang saya pelajari, contoh burung beo stokastik yang paling umum dalam model bahasa meliputi:

Pengulangan frasa: Model dapat menghasilkan frasa atau kalimat yang sama beberapa kali dalam teks yang dihasilkan tanpa memberikan informasi atau wawasan baru. Penggunaan template yang berlebihan: Model dapat menghasilkan bahasa menggunakan struktur template tetap, seperti “I [verb] [noun] Karena [reason].” Ini dapat mengarah pada generasi bahasa yang dapat diprediksi dan diformulasikan. Kurangnya konteks: Model dapat menghasilkan bahasa yang tidak sesuai dengan konteks atau topik tertentu yang sedang dibahas, yang menyebabkan teks tidak koheren atau tidak relevan. Mengisi bagian yang kosong: Model dapat menghasilkan bahasa yang mengisi kata atau frasa yang hilang berdasarkan data pelatihan tanpa benar-benar memahami makna atau konteks di balik bahasa tersebut.

Sekarang, muncul pertanyaan bagaimana fenomena ini memengaruhi akurasi dan efektivitas model?

Saya melakukan riset dan menemukan jawaban seperti:

Penurunan kualitas bahasa yang dihasilkan: Jika model hanya mengulang frasa atau menggunakan templat tetap, bahasa yang dihasilkan mungkin kurang orisinalitas dan koherensi, sehingga mengurangi kualitas teks yang dihasilkan. Kemampuan terbatas untuk menangani konteks baru: Jika model tidak diperlengkapi dengan baik untuk menangani konteks baru atau asing, model mungkin kesulitan menghasilkan bahasa yang akurat dan relevan dalam situasi ini. Generalisasi terbatas: Fenomena ini dapat membatasi kemampuan model untuk menghasilkan bahasa yang benar-benar mewakili bahasa manusia, berpotensi mengurangi generalisasinya ke domain atau tugas baru.

Mengevaluasi dampak burung beo stokastik pada kinerja model

Mengevaluasi dampak burung beo stokastik pada kinerja model dapat menjadi tantangan, karena sulit untuk mengukur sejauh mana generasi bahasa model dipengaruhi oleh stokastik. Namun, ada beberapa metrik yang dapat digunakan untuk mengukur kualitas generasi bahasa model, yang dapat memberikan wawasan tentang dampak burung beo stokastik pada performa model.

Kebingungan adalah ukuran seberapa baik model bahasa memprediksi kata berikutnya dalam urutan kata. Skor kebingungan yang lebih rendah menunjukkan kinerja yang lebih baik atau skor BLEU (Bilingual Evaluation Understudy) adalah metrik yang digunakan untuk mengevaluasi kualitas hasil terjemahan mesin, tetapi juga dapat digunakan untuk mengevaluasi kualitas pembuatan bahasa.

Demikian pula, ROUGE (Recall-Oriented Understudy for Gisting Evaluation) adalah metrik yang digunakan untuk mengevaluasi kualitas keluaran peringkasan teks, tetapi juga dapat digunakan untuk mengevaluasi kualitas pembuatan bahasa. Skor ROUGE berkisar dari 0 hingga 1, dengan skor yang lebih tinggi menunjukkan kinerja yang lebih baik dan, terakhir, menggunakan evaluator manusia untuk menilai kualitas bahasa yang dihasilkan berdasarkan kriteria seperti kelancaran, koherensi, dan relevansi.

Dengan membandingkan performa model bahasa pada metrik ini dengan dan tanpa burung beo stokastik, kita dapat memperoleh wawasan tentang dampak stokastik pada performa model.

Konsekuensi potensial

Saya yakin para peneliti sudah mendorong batasan untuk mengatasi masalah ini, tetapi jika hal ini berlangsung selama beberapa waktu tidak hanya dapat berdampak pada efektivitas dan kepercayaan LLM tetapi juga dapat mengakibatkan replikasi bias dan ketidakakuratan yang ada dalam data pelatihan, yang jika tidak terlayani selanjutnya akan mengakibatkan penyebaran informasi palsu berdasarkan analisis yang dilakukan oleh NewsGaurd. Ini membawa saya pada pertanyaan bahwa, Jika model bahasa menghasilkan bahasa yang menyesatkan atau tidak akurat, itu bisa menimbulkan implikasi etis yang serius.

Misalnya, jika model digunakan dalam konteks berbagi berita atau informasi, dapat menyebarkan informasi palsu atau berbahaya. Ini bisa sangat bermasalah dalam kasus di mana model bahasa digunakan untuk memengaruhi pendapat atau keputusan orang.

Secara umum, ini juga akan menyebabkan pengguna kehilangan kepercayaan dan keyakinan pada LLM. Selain itu, jika LLM digunakan dalam aplikasi sensitif atau berisiko tinggi, seperti konteks hukum atau medis, konsekuensi burung beo stokastik bisa lebih parah.

Kesimpulannya, burung beo stokastik adalah masalah yang dapat muncul dalam model bahasa, khususnya LLM, ketika model tersebut terlalu bergantung pada penyalinan pola bahasa tanpa benar-benar memahami maknanya. Jika dibiarkan, burung beo stokastik dapat menimbulkan konsekuensi serius bagi pengembangan dan penerapan AI, serta bagi pengguna yang mengandalkan teknologi ini untuk tugas-tugas penting. Ini menggarisbawahi pentingnya mengatasi masalah ini melalui desain model yang hati-hati, evaluasi, dan pemantauan berkelanjutan.

Sementara mengatasi burung beo stokastik di LLM mungkin memerlukan upaya yang signifikan, perlu dipastikan bahwa model ini terus menjadi alat yang efektif dan andal untuk pembuatan bahasa. Plus, siapa yang tidak ingin bersenang-senang memantau model mereka untuk tanda-tanda perilaku “seperti burung beo”? Ini seperti memiliki burung peliharaan yang tidak pernah berhenti mengulangi apa yang Anda katakan! (Catatan: maksud sarkasme.)

Jika Anda senang membaca artikel ini dan ingin mempelajari lebih lanjut tentang topik seperti burung beo stokastik dan pengaruhnya terhadap model bahasa dan AI, pastikan untuk mengikuti akun ini. Dengan mengikuti akun ini, Anda akan menerima update artikel dan konten baru terkait perkembangan terkini di bidang AI dan Ilmu Data. Anda juga akan memiliki kesempatan untuk terlibat dengan pembaca lain dan membagikan pemikiran dan pendapat Anda tentang topik ini. Jangan lewatkan kesempatan ini untuk tetap terinformasi dan terhubung!

Diterbitkan melalui Menuju AI

Author: Scott Anderson