Tidak Ada Bahasa yang Tertinggal – Menuju AI

No Language Left Behind meta new model

Pengarang: Salvatore Raieli

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Model baru Meta mampu menerjemahkan antara 200 bahasa yang berbeda membuat internet lebih mudah diakses

No Language Left Behind meta model barugambar dari Amador Loureiro di Unsplash

pengantar

Batasan bahasaku berarti batas duniaku.

Ludwig Wittgenstein

Saya selalu menyukai kutipan dari Wittgenstein ini, yang sangat menjelaskan pentingnya bahasa dalam kehidupan kita. Tanpa kata-kata yang tepat, kita tidak dapat mengekspresikan diri, dan mungkin dengan perkembangan kemampuan bahasa yang luar biasa, revolusi kognitif manusia tidak akan pernah terjadi. Jadi, kita tidak akan berada di sini menulis dan membaca kata-kata ini. Tidak lagi setelah peradaban lahir, tulisan muncul. Selain itu, dalam novel dystopian Nineteen Eighty-Four, Orwell membayangkan pemerintah menggunakan “Newspeak” sebagai bentuk penyensoran tetapi juga dengan cara membatasi pemikiran orang.

Saya ingin menikmati beberapa contoh untuk mewakili pentingnya bahasa dan terjemahan. Salah satu yang paling lucu adalah bagaimana terjemahan Alkitab yang salah membuat Michelangelo percaya bahwa Musa memiliki tanduk. Kesalahan yang lebih tragis selama bangsal dunia kedua memimpin sekutu untuk mengebom biara Monecassino: pesan Jerman yang disadap menyatakan bahwa ada ‘abbas di biara (“abt”) dan Amerika menerjemahkannya sebagai kependekan dari batalion (“Abteilung” ). Atau kesalahan dalam menerjemahkan dari bahasa Jepang mempengaruhi orang Amerika dalam keputusan menggunakan bom atom. Terjemahan adalah dan merupakan senjata politik, Pada zaman kuno, itu adalah praktik untuk merancang perjanjian internasional dalam berbagai bahasa dan mencoba memasukkan klausa yang berbeda dalam setiap versi untuk keuntungan seseorang.

Karena bahasa sangat penting, ini telah menjadi bidang penelitian aktif dalam AI. Model bahasa baru seperti GPT3 menjanjikan revolusi dan kekayaan alat baru. Mereka dapat digunakan untuk meringkas teks, membuat teks, video transkrip, dan membuat aplikasi text-to-speech. Namun, semua kemungkinan ini terbatas hanya untuk berbicara bahasa Inggris. “No Language Left Behind” diperuntukkan bagi yang tertinggal, menangani 200 bahasa.

terjemahan kesalahan bahasaGambar tersebut mewakili patung Musa oleh Michelangelo, perhatikan tanduk kecil yang berasal dari kesalahan dalam terjemahan. gambar dari Wikipedia.

Terjemahan dari fiksi ilmiah ke kenyataan

gambar dari Waldemar Brandt di Unsplash

Dalam The Hitchhiker’s Guide to the Galaxy, Douglas Adams menggambarkan ikan babel, ikan kecil yang dapat dimasukkan ke dalam telinga dan memungkinkan seseorang untuk memahami setiap bahasa di alam semesta. Memang, terjemahan universal pernah dianggap sebagai bagian dari domain sci-fi.

Ketika perang dunia kedua memulai perang dingin, menafsirkan pesan-pesan Rusia dianggap sebagai tugas prioritas. Sekutu telah merasakan kekuatan komputer, berkat kerja Touring dalam memecahkan kode Enigma. Sayangnya, pada tahun 1960-an mereka menyadari bahwa pengetahuan kita tentang linguistik dan komputer masih terbatas. Terjemahan mesin lepas landas lagi pada awal 1990-an ketika pembelajaran mesin statistik menunjukkan hasil yang layak. Hanya dengan munculnya jaringan saraf, terjemahan yang canggih menjadi mungkin, dan kedatangan model bahasa yang besar menjanjikan sebuah revolusi baru.

Sistem terjemahan mesin saraf klasik bergantung pada kumpulan data besar yang terdiri dari sepasang kalimat (sebuah kalimat dalam satu bahasa dan terjemahannya dalam bahasa lain). Secara umum, korpora besar ini dikumpulkan dan diberi catatan oleh manusia. Sementara korpus besar tersedia untuk berbagai bahasa yang tersebar luas (misalnya, Inggris, Jerman, dan Prancis) yang menerima dana institusional, banyak bahasa lain yang diabaikan.

Meta model baru, cara cerdas untuk membangun kumpulan data

No Language Left Behind meta model barugambar dari kertas asli: di sini

Sistem klasik sulit untuk digeneralisasi dan sulit dan mahal untuk mengumpulkan begitu banyak contoh untuk bahasa yang lebih kecil. Selain itu, bahasa klasik dilatih untuk menerjemahkan dari satu bahasa ke bahasa lain dan tidak menangani begitu banyak bahasa. Meta memecahkan masalah kumpulan data, menggunakan kumpulan data awal untuk mendeteksi bahasa secara otomatis (disebut dalam sistem Identifikasi Bahasa kertas). Model berbasis transformator lain digunakan untuk menemukan pasangan kalimat untuk data yang diidentifikasi. Dengan cara ini, mereka membangun kumpulan data contoh untuk model akhir

No Language Left Behind meta model barugambar dari kertas asli: di sini

Model terakhir disebut NLLB200 (No Language Left Behind 200). Model terakhir sebenarnya adalah model berbasis transformator yang terdiri dari encoder dan decoder (seperti banyak model bahasa lainnya). Secara konkret, urutan input diberikan kepada encoder dan bagian model ini mempelajari representasi dari isi kalimat. Encoder menyediakan representasi ini untuk memandu decoder dalam menerjemahkan kalimat. Model menggunakan terjemahan untuk memverifikasi bahwa itu dapat diterjemahkan dengan benar.

No Language Left Behind meta model barugambar dari kertas asli: di sini

Model ini juga memiliki trik lain untuk meningkatkan terjemahan sebagai Campuran Pakar yang Jarang Dipagari tetapi pada dasarnya modelnya mirip dengan yang lain yang sudah diterbitkan sementara perakitan dataset adalah ide intinya.

Mengapa memprioritaskan komunitas bahasa sumber daya rendah?

No Language Left Behind meta model barugambar dari kertas asli: di sini

Penelitian menunjukkan bahwa hanya sekitar 25% pengguna internet berbahasa Inggris sementara 65% situs internet berbahasa Inggris. Perbedaan yang mengejutkan ini mengarah pada fakta bahwa banyak sumber daya penting (pendidikan, pekerjaan, atau institusional) tidak dapat diakses oleh semua orang, dan yang dibungkam oleh seluruh kelompok orang di web. Secara konkret, kurangnya perhatian terhadap masyarakat dengan sumber daya rendah ini mengarah pada marjinalisasi tambahan masyarakat miskin.

Apalagi selama beberapa dekade terakhir, kita telah melihat penurunan bahasa dan budaya asli, yang disebabkan oleh alasan budaya (kurangnya buku, media dalam bahasa) dan ekonomi. Cakupan dan kualitas terjemahan otomatis yang ada telah mengabaikan bahasa-bahasa ini, meningkatkan kesenjangan antara siapa yang dapat mengakses sumber daya tertentu dan siapa yang tidak.

Langkah pertama pekerjaan ini didorong untuk memahami dampak terjemahan berkualitas tinggi untuk ratusan bahasa. Bahkan, penulis melakukan wawancara dengan 44 penutur bahasa sumber daya rendah. Hal ini dilakukan dengan tujuan untuk mengarahkan penekanan pada pertimbangan etis dan sosial. Mereka menulis di koran:

Secara keseluruhan, upaya perekrutan kami membawa kami ke 44 penutur asli bahasa sumber daya rendah dari berbagai latar belakang, dengan usia mulai dari 23 hingga 58 tahun. Meliputi total 36 bahasa, distribusinya adalah sebagai berikut: 5 bahasa digunakan terutama di Amerika Utara, 8 di Amerika Selatan, 4 di Eropa, 12 di Afrika, dan 7 di Asia.

Namun, seperti yang ditunjukkan dalam makalah, batasannya adalah:

Meskipun sampel kami luas dalam hal ras, pendidikan, dan lokasi, mayoritas peserta kami adalah imigran yang tinggal di AS dan Eropa, dan sekitar sepertiga dari mereka (n = 17) diidentifikasi sebagai pekerja teknologi

Selain itu, penelitian mendedikasikan sebagian pekerjaan untuk mendeteksi barang beracun di korpora dan menyaringnya.

Kesimpulan

Tidak semua orang berbicara bahasa Inggris (di dalam atau di luar internet) dan ini harus dipertimbangkan saat merancang model bahasa. Pentingnya bahasa melampaui minat peneliti, bahasa juga merupakan ekspresi budaya, masyarakat, dan kepercayaan.

Penerjemahan diperlukan untuk penyebaran informasi, pengetahuan, dan gagasan. Selain itu, kualitas terjemahan memiliki kejatuhan sosial dan ekonomi yang besar. Faktanya, terjemahan yang buruk adalah penghalang yang berbahaya bagi terlalu banyak komunitas. NLLB200 hanyalah langkah pertama dalam mengurangi kesenjangan ini.

Sumber daya

Berikut adalah beberapa sumber yang dikonsultasikan untuk artikel ini dan sumber tambahan yang dapat berguna.

Makalah penelitian resmi, yang dapat Anda konsultasikan untuk detail teknis tambahan (panjangnya 190 halaman, terlalu panjang untuk disertakan dalam artikel singkat ini semua detail). Posting blog Meta: di sini dan di sini Video resmi menyajikan model Kode (selalu bagus untuk memeriksanya!)

jika Anda menganggapnya menarik:

Anda dapat mencari artikel saya yang lain, Anda juga dapat berlangganan untuk mendapatkan pemberitahuan ketika saya menerbitkan artikel, dan Anda juga dapat menghubungkan atau menghubungi saya di LinkedIn. Terima kasih atas dukunganmu!

Di sini, adalah tautan ke repositori Github saya di mana saya berencana untuk mengumpulkan kode, dan banyak sumber daya yang terkait dengan pembelajaran mesin, kecerdasan buatan, dan banyak lagi.

GitHub – SalvatoreRa/tutorial: Tutorial pembelajaran mesin, kecerdasan buatan, ilmu data dengan penjelasan matematika dan kode yang dapat digunakan kembali (dalam python dan R)

No Language Left Behind awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Scott Anderson