Tugas NLP mana yang TIDAK Menguntungkan Dari Model Bahasa yang Sudah Terlatih? – Menuju AI

Tugas NLP mana yang TIDAK Menguntungkan Dari Model Bahasa yang Sudah Terlatih?  – Menuju AI

Terakhir Diperbaharui pada 29 Agustus 2022 oleh Tim Redaksi

Pengarang: Nate Bush

Ada sejarah panjang model representasi bahasa umum pra-terlatih dengan dampak besar yang kami terima begitu saja bahwa mereka adalah fondasi yang sepenuhnya 100% diperlukan untuk semua tugas NLP. Ada dua inovasi fungsi langkah terpisah yang mendorong akurasi semua tugas NLP ke depan: (1) model bahasa statistik seperti Word2Vec dan GloVe dan, baru-baru ini, (2) model bahasa saraf seperti BERT, ELMo, dan baru-baru ini BLOOM. Memasukkan model bahasa saraf pra-terlatih di awal alur kerja pemodelan hampir dijamin untuk meningkatkan kinerja, tetapi setidaknya ada satu situasi di mana tidak.

Sidebar: kenapa tema jalan wijen?!

Lihat makalah BERT asli berjudul “BERT: Pra-pelatihan Transformers Bidirectional Mendalam untuk Pemahaman Bahasa” untuk melihat analisis terperinci tentang bagaimana penyematan BERT yang telah dilatih sebelumnya meningkatkan kinerja NER di bagian 5. Diagram BERT di bawah ini menunjukkan mesin yang khas mempelajari alur kerja untuk mengeksploitasi model bahasa apa pun untuk tugas NLP umum.

Sumber: https://arxiv.org/pdf/1810.04805.pdf — Keseluruhan prosedur pra-pelatihan dan penyesuaian untuk BERT

Makalah juga menunjukkan peningkatan yang signifikan pada Question Answering (QA) dievaluasi terhadap SQUAD, dan gado-gado tugas pemahaman bahasa alami (NLU) yang disebut GLUE.

Tugas ED global juga mencapai hasil mutakhir baru di beberapa kumpulan data menggunakan BERT. Lihat bagian kerja terkait dari “Disambiguasi Entitas Global dengan BERT” ini untuk ikhtisar berbagai alur kerja untuk menerapkan BERT sebagai langkah prapemrosesan untuk ED.

Varian sederhana dari BERT yang sekali lagi mencapai kinerja mutakhir pada beberapa set data ES dapat ditemukan di “Fine-tune BERT for Extractive Summarization”.

Sekali lagi, analisis sentimen sama-sama disemarakkan oleh keberadaan model bahasa BERT dalam makalah terbaru “BERT for Sentiment Analysis: Pre-trained and Fine-Tuned Alternatives”.

Saya bisa terus berjalan… tapi saya tidak akan melakukannya. Kemuliaan model bahasa pra-terlatih jelas. Kami hanya perlu berdiri di atas bahu para raksasa yang menghabiskan waktu berjam-jam untuk menyiapkan kumpulan data yang sangat besar, menggunakan GPU yang mahal untuk melatih model-model ini untuk kami. Model-model ini bukan peluru perak.

Tugas bahasa alami utama yang gagal menunjukkan peningkatan kinerja yang konsisten dari sesame street and friends adalah Neural Machine Translation (NMT).

Sulit untuk menemukan makalah yang membahas mengapa itu tidak berhasil, dan mudah untuk membayangkan mengapa. Menulis makalah tentang apa yang tidak berhasil tidak terlalu populer… dan tidak mungkin mendapatkan pengakuan atau sering dikutip. Ah menembak — jadi mengapa saya menulis artikel ini lagi?

Saya menemukan satu makalah yang membahas topik ini: “Kapan dan Mengapa Penyematan Kata Pra-terlatih Berguna untuk Terjemahan Mesin Neural?” dan itu adalah bacaan yang menarik. Mereka memecah NMT menjadi dua kategori tugas:

NMT untuk bahasa sumber daya rendah NMT untuk bahasa sumber daya tinggi

Yang dimaksud dengan bahasa sumber daya rendah/tinggi mengacu pada ukuran korpus paralel yang dapat diperoleh. Untuk bahasa paling populer di dunia, mudah untuk menemukan korpora paralel besar sumber terbuka secara online. Repositori terbesar adalah OPUS, Open Parallel Corpus, yang merupakan sumber luar biasa untuk setiap insinyur pembelajaran mesin yang ingin melatih model NMT.

Sumber: OPUS – korpus paralel sumber daya tinggi antara bahasa Inggris (en) dan Mandarin (zh)

Gambar di atas menunjukkan bahwa korpus paralel terbuka antara bahasa Inggris dan Cina memiliki 103 juta kalimat paralel atau 172 ribu dokumen paralel. Tetapi bagaimana jika Anda ingin melatih model NMT untuk menerjemahkan bahasa Farsi ke bahasa Cina? Dalam hal ini, Anda hanya memiliki 6 juta kalimat paralel dari 517 dokumen untuk dikerjakan.

Sumber: OPUS – korpus paralel sumber daya rendah antara Farsi (fa) dan Cina (zh)

Seperti yang Anda harapkan, bahasa dengan sumber daya rendah mendapat manfaat dari model bahasa yang telah dilatih sebelumnya dan mampu mencapai kinerja yang lebih baik saat menyempurnakan penyematan sambil menyebarkan kembali kesalahan melalui jaringan NMT. Anehnya, bagaimanapun, untuk bahasa sumber daya tinggi, efek menggunakan model bahasa pra-terlatih sebagai langkah pra-pemrosesan sebelum pelatihan model NMT TIDAK menghasilkan peningkatan kinerja.

Sangat penting untuk menunjukkan bahwa model bahasa hanya masuk akal untuk digunakan untuk terjemahan mesin jika mereka dilatih pada bahasa sumber dan target (misalnya, Cina dan Inggris pada contoh pertama). Ini biasanya disebut sebagai model penyematan multibahasa atau penyematan agnostik bahasa. Mereka mampu mencapai hasil yang menarik bahwa kata-kata dalam berbagai bahasa mencapai representasi vektor serupa di ruang embedding.

Sumber: AI Googleblog

Tapi bagaimana model bahasa multibahasa dilatih? Ternyata mereka dilatih dengan data yang sama persis dengan NMT: korpus paralel besar antara bahasa sumber dan bahasa target. Jadi, apakah ada kelemahan mendasar pada model bahasa yang mencegahnya menjadi efektif untuk tugas NLP ini? Tidak, model bahasa menggunakan data yang sama dengan model NMT, dan keduanya dibangun dari blok pembangun pembangkit tenaga listrik yang sama: transformator.

Untuk meninjau, model bahasa dan NMT dilatih pada data yang sama, menggunakan arsitektur dasar yang sangat mirip. Ketika Anda mempertimbangkan kesamaannya, sebenarnya tidak ada sesuatu yang baru yang dibawa oleh model bahasa ke meja sehingga tidak mengejutkan bagi Anda bahwa BERT, ELMo, ERNIE, dan teman-teman jalanan wijen kami yang lain tidak muncul di NMT makalah yang menggembar-gemborkan terobosan besar dalam kinerja model.

Pembaca yang skeptis kemungkinan besar akan dapat membuat lubang dalam penjelasan ini. Tentu saja ada kasus penggunaan yang dapat ditemukan yang melatih LM pada korpus paralel yang besar tetapi kemudian melatih alur kerja BERT + NMT pada korpus yang jauh lebih kecil secara intuitif akan menghasilkan peningkatan kinerja. Tapi saya pikir tidak mungkin seorang insinyur pembelajaran mendalam yang serius akan mencoba membangun model NMT tanpa semua data yang tersedia yang mereka miliki … di luar keingintahuan akademis murni.

Saya memberi tip pada beberapa detail berbulu, jadi saya sarankan membaca kertas aslinya jika Anda tertarik!

Saya harap Anda menikmati penjelajahan singkat ini ke dalam intuisi di balik apa yang membuat algoritma NLP berhasil. Silakan suka, bagikan, dan ikuti untuk pengetahuan pembelajaran yang lebih mendalam.

Tugas NLP mana yang TIDAK Menguntungkan Dari Model Bahasa yang Sudah Terlatih? awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Scott Anderson