
Pengarang: Salvatore Raieli
Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.
Kami sekarang terbiasa dengan model bahasa yang besar, mengapa ini begitu istimewa?
gambar yang dihasilkan oleh penulis menggunakan model OpenAI DALL-E 2
Lebih besar dan lebih besar
Ketika BERT keluar, cukup jelas jalur mana yang telah dipilih industri untuk masa depan bidang pemrosesan bahasa alami. BERT adalah transformator pertama yang benar-benar mendapat perhatian tetapi bukan yang terakhir (sayangnya, kita dapat mengatakan hal yang sama untuk seri film).
BERT membuka jalan ke BART, RoBERTa, dan model trafo besar lainnya. Ini menunjukkan bahwa tumpukan lapisan perhatian-diri dan lebih banyak parameter sangat bagus untuk banyak tugas (pengenalan entitas bernama, terjemahan, penjawab pertanyaan, dll…). Kemudian tiba pada tahun 2020 OpenAI sangat memasuki persaingan dengan GPT-3 (model raksasa dengan sekitar 175 miliar parameter). Itu mengesankan tetapi tetap di atas takhta hanya untuk sementara waktu, Google dan beberapa perusahaan lain merilis parade model yang lebih besar. Kami melihat Gopher (280 miliar), PALM (540B), dan LaMDA (137B). Dengan pengecualian chinchilla (70 miliar, tidak terlalu kecil sih) prinsipnya sama mengumpulkan lebih banyak data dan menambah jumlah parameter.
pertumbuhan eksponensial dalam jumlah parameter model bahasa. sumber gambar : disini
Itu adalah perlombaan dengan sedikit peserta. Yang benar adalah bahwa BERT menunjukkan kepada dunia bahwa hanya perusahaan teknologi blue-chip yang bisa bersaing dalam permainan. GPT3 diperkirakan hanya membutuhkan biaya 10–20 juta dolar untuk melatih jika kita hanya mempertimbangkan tagihan listrik (bayangkan berapa biaya untuk membeli semua GPU untuk pelatihan).
Cacar teknologi: alergi open-source yang menimpa perusahaan teknologi.
Semua orang senang mencoba GPT-3, GATO, Flamingo, DALL-E, dan Imagen, namun, ada batasan dalam kasus terbaik (dan daftar tunggu yang sangat panjang). OpenAI, Meta, Google, dan Microsoft membuka beberapa model mereka (contohnya adalah OPT, VPT, dan Switch Transformers) tetapi mereka tidak menyukainya. Yang benar adalah jika Anda memiliki yang terbaik di kelas, Anda ingin menyimpannya untuk diri sendiri. Google dengan mudah menggunakan BERT dan mengikuti model untuk meningkatkan pencarian Google tetapi kehilangan eksklusif di atasnya adalah hal lain.
Kita semua tahu pentingnya open source (dan jika Anda lupa, ada Linus Torvalds untuk mengingatnya). Kami menggunakannya setiap hari dan siapa pun programnya tahu betapa pentingnya menggunakan komponen sumber terbuka. Namun, open-source membuat perusahaan hitching yang hanya ingin menghasilkan uang.
Agar adil, EleutherAI, BigScience, dan Hugging Face mencoba mendobrak monopoli dan open source banyak model hebat. Adam Smith mengatakan sesuatu seperti “pasar mengatur pembelian itu sendiri”, jadi Anda lihat sekarang kami memiliki perusahaan yang akan menyediakan barang-barang open-source dan kami akan memecahkan masalah. Tentu, kami memiliki pengalaman selama 2 abad bahwa apa yang dikatakan Adam Smith itu tidak benar. Jadi, pada titik ini, kami memiliki pertanyaan tentang di mana lembaga-lembaga itu berada?
Yang Baik, yang Buruk dan Bias
Pelatihan model besar ini tidak ramah lingkungan. Artikel yang berbeda menunjukkan dampak lingkungan dari AI (bahkan Forbes memperhatikannya, jadi Anda bisa bayangkan). Jejak karbon dari pelatihan model NLP besar cukup mengesankan menurut sebuah studi oleh University of Massachusetts. Selain itu, kami harus berurusan dengan biaya dan elemen langka yang Anda butuhkan untuk memproduksi perangkat keras (semua GPU).
Selain itu, sejak word2vec diterbitkan pada tahun 2013 seseorang memperhatikan bahwa ada sesuatu yang aneh, model bahasanya bisa rasis dan misoginis. Mengapa? Karena dengan tujuan mengumpulkan data sebanyak-banyaknya, seringkali mereka mengumpulkan data yang penuh dengan stereotip. Misalnya, Reddit adalah salah satu sumber yang paling sering digunakan untuk mengumpulkan data, dan peneliti King’s College menerbitkan sebuah artikel yang menunjukkan bukti bias gender dan agama di komunitas Reddit. Ini memicu kritik dan OpenAI mengklaim telah mengurangi bias di GPT-3. Kita tahu bahwa perusahaan mengendalikan diri saja tidak cukup (ingat janji Facebook melawan berita palsu?). Bahkan, jika model-model ini akan berakhir dalam produksi, kita harus menghilangkan kerugian sebanyak mungkin.
Apa itu BLOOM?! Mengapa saya harus peduli dengan model berbasis transformator lainnya?
logo BigScience. Sumber gambar: di sini
BLOOM (BigScience Language Open-science Open-access Multilingual) memiliki 176 miliar parameter dan telah dilatih pada 1,5 terabyte teks. Melihat di bawah tenda, situs web melaporkan memiliki 70 lapisan dan menggunakan perhatian multi-kepala. Ok, cukup dengan jargon teknologi, apa artinya? Ini adalah transformator lain. Mengapa begitu istimewa?
Mari kita mulai dengan fakta bahwa di balik BLOOM ada tim internasional yang terdiri dari sekitar 1.000 sukarelawan akademis (lebih dari 50 negara dan lebih dari 20 bahasa). Proyek ini mencakup institusi dari Prancis hingga Kanada, tetapi juga perusahaan seperti Hugging Face.
Selain itu, mereka merilis piagam etis, di mana mereka menggambarkan nilai inti yang mengilhami proyek tersebut. Mereka memutuskan untuk membedakan dua kategori nilai intrinsik dan ekstrinsik. Ada baiknya menghabiskan deskripsi singkat tentang nilai-nilai yang mengilhami proyek.
Nilai intrinsik:
Inklusivitas. Proyek ini bertujuan untuk menghindari diskriminasi. Perbedaan. Proyek BigScience didefinisikan sebagai sarana keragaman, mencakup banyak peneliti dari berbagai negara dan latar belakang. Reproduksibilitas. Sebagai nilai inti, mereka memutuskan open science Openness. Yang selanjutnya mereka bagi lagi menjadi satu fokus pada proses dan satu lagi terkait dengan hasil Tanggung jawab. Tanggung jawab yang mereka gambarkan sebagai individu dan kolektif, yang juga sosial dan lingkungan.
Nilai ekstrinsik:
Aksesibilitas. Mereka digambarkan sebagai terkait dengan keterbukaan tetapi diperluas dengan tujuan agar dapat diakses dan dijelaskan kepada publik yang lebih luas. Transparansi. terkait dengan keterbukaan, BigScience mendorong penyebaran dan penyebaran proyek Interdisipliner. Fokusnya sejak awal menjembatani berbagai disiplin ilmu (ilmu komputer, linguistik, sosiologi, filsafat, dan sebagainya). Multilingualisme. Terkait dengan nilai-nilai yang beragam, mereka bertujuan sejak konsepsi proyek untuk mencakup bahasa yang berbeda juga sebagai sarana inklusivitas
Mari kita mulai dengan fakta bahwa piagam ini bukanlah janji yang kabur. Pertama, model tersebut dilatih pada superkomputer publik Jean Zay yang ditenagai oleh energi nuklir (yang merupakan sumber energi rendah karbon). Selain itu, mereka menggunakan panas yang dihasilkan oleh perangkat keras untuk memakan bangunan di kampus.
Sadar akan pelajaran masa lalu, mereka mencoba membatasi bahaya asosiasi rasis atau seksis. Bagaimana? Termasuk akademisi (termasuk ahli etika, sarjana hukum, dan filsuf) tetapi bahkan pengusaha perusahaan dari Facebook atau Google. Selain itu, alih-alih hanya menelusuri web, mereka memilih 500 sumber (membahas dalam lokakarya termasuk kelompok komunitas seperti Masakhane, LatinX dalam AI, dan Machine Learning Tokyo). Para peneliti mengatakan kepada Nature, bahwa bahkan dengan semua peringatan ini, model itu mungkin tidak akan bebas dari bias. Tetapi karena kode dan kumpulan data terbuka, mereka dapat memahami akar dari perilaku berbahaya dan meningkatkannya.
Model ini akan bebas digunakan dan akan segera tersedia melalui HuggingFace (mereka juga direncanakan untuk versi yang lebih kecil dan tidak memerlukan perangkat keras yang intensif serta versi yang didistribusikan server).
Kesimpulan
Model NLP mungkin akan mengubah dunia dan AI akan meresap dalam semua aspek kehidupan masa depan kita. Namun, kita tahu bagaimana monopoli menjadi masalah ketika ada terobosan teknologi (ingat telepon? Internet tanpa membongkar monopoli akan sangat berbeda). Sampai sekarang model bahasa telah menjadi hobi klub kecil perusahaan teknologi kaya. BLOOM adalah upaya pertama yang memungkinkan semua orang mendapatkan manfaat dari AI. Di masa depan, kami akan memiliki chat-bot mungkin di mana-mana dan kami membutuhkan akses ke model besar untuk publik.
Sumber daya tambahan
ingin tahu lebih banyak tentang bagian teknis, lihat di sini dan di sini Apakah Anda ingin tahu lebih banyak tentang pendekatan mereka? di sini
jika Anda menganggapnya menarik:
Anda dapat mencari artikel saya yang lain, Anda juga dapat berlangganan untuk mendapatkan pemberitahuan ketika saya menerbitkan artikel, dan Anda juga dapat menghubungkan atau menghubungi saya di LinkedIn. Terima kasih atas dukunganmu!
Di sini, adalah tautan ke repositori Github saya di mana saya berencana untuk mengumpulkan kode, dan banyak sumber daya yang terkait dengan pembelajaran mesin, kecerdasan buatan, dan banyak lagi.
GitHub – SalvatoreRa/tutorial: Tutorial pembelajaran mesin, kecerdasan buatan, ilmu data dengan penjelasan matematika dan kode yang dapat digunakan kembali (dalam python dan R)
BLOOM Baru di AI? Mengapa Model BLOOM Dapat Menjadi Gamechanger awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.
Diterbitkan melalui Menuju AI