AI Itu… – Menuju AI

DeepMind AlphaTensor

Pengarang: Salvatore Raieli

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Bagaimana model terbaru DeepMind dapat merevolusi matematika

DeepMind AlphaTensorGambar yang dihasilkan dengan OpenAI Dall-E 2

Tanpa disadari, setiap aktivitas kita, dalam satu atau lain cara, melibatkan perkalian matriks. Seluruh komputasi bergantung pada mereka; mampu meningkatkan efisiensi adalah hal mendasar. DeepMind (setahun setelah merevolusi biologi dengan AlphaFold2) mempresentasikan sebuah artikel di mana, dengan menggunakan pembelajaran penguatan, ia berhasil meningkatkan efisiensi perkalian matriks. Dalam artikel ini, kita membahas bagaimana dan mengapa itu penting.

Bagaimana kita masih berjuang dengan matriks

DeepMind AlphaTensorgambar oleh Roman Mager di unsplash.com

Algoritma telah menjadi dasar sejak awal sejarah. Baik orang Yunani maupun Mesir menemukan algoritme yang memungkinkan mereka berhasil dalam karya-karya besar. Algoritma juga merupakan dasar dari peradaban modern, dan tanpa disadari, mereka mendukung hampir setiap bidang pengetahuan dan penerapannya.

Di sisi lain, menemukan algoritme baru sama sekali tidak mudah (kita semua pernah mengalami kesulitan dalam mempelajari algoritme dan struktur data, tetapi menemukan yang baru bahkan lebih sulit). Salah satu algoritma yang paling penting saat ini adalah perkalian dua matriks. Mengapa?

Karena hampir semua jenis data dapat direpresentasikan sebagai matriks. Faktanya, gambar dapat direpresentasikan sebagai matriks, dapat digunakan untuk menyelesaikan persamaan linier, digunakan dalam video game grafik, simulasi cuaca, dll. Selain itu, sebagian besar algoritma kecerdasan buatan dapat direduksi menjadi perkalian matriks (yang kemudian diproses secara efisien oleh GPU).

perkalian matriks. sumber gambar: blogpost DeepMind

Perkalian matriks tampak seperti konsep yang sangat sederhana, tetapi mengingat pentingnya, kemampuan untuk meningkatkan efisiensinya bahkan sedikit akan menghemat banyak komputasi. Selama berabad-abad, matematikawan percaya bahwa perkalian matriks yang diketahui adalah metode yang efisien. Pada tahun 1969, masyarakat dikejutkan oleh fakta bahwa efisiensi itu sebenarnya kurang optimal, seperti yang ditunjukkan oleh Volker Strassen.

DeepMind AlphaTensorperkalian matriks: perbandingan antara dua algoritma, algoritma Strassen lebih efisien karena menggunakan satu perkalian skalar lebih sedikit. sumber gambar: blogpost DeepMind

Sekarang, satu perkalian skalar yang lebih sedikit mungkin tidak tampak seperti masalah besar. Tetapi jika kita mengalikan 1 miliar matriks, kita telah menghemat 1 miliar perkalian skalar. Masalahnya adalah metode Strassen hanya cocok dengan perkalian dua matriks 2×2.

Bagaimana DeepMind Memecahkan Masalah

DeepMind on Twitter: “ICYMI: Di sampul @Nature – #AlphaTensor, sistem AI untuk menemukan algoritme baru, efisien, dan tepat untuk perkalian matriks.Pelajari lebih lanjut ️https://t.co/E18DezAevbhttps://t. co/SvHgsaitFt https://t.co/ia9OQYuwZg pic.twitter.com/2eQsBCC9H5 / Twitter”

ICYMI: Di sampul @Nature – #AlphaTensor, sistem AI untuk menemukan algoritme perkalian matriks yang baru, efisien, dan tepat. Pelajari lebih lanjut ️https://t.co/E18DezAevbhttps://t.co/SvHgsaitFt https: //t.co/ia9OQYuwZg pic.twitter.com/2eQsBCC9H5

Karya Strassen menunjukkan bahwa algoritme perkalian matriks dapat ditemukan dengan menemukan cara baru untuk menguraikan array angka 3D yang disebut tensor perkalian matriks menjadi jumlah blok bangunan dasar. — Komentar alam pada artikel

Para peneliti di DeepMind telah mengubah masalah perkalian matriks menjadi semacam permainan pemain tunggal (setelah semua, mereka sangat berpengalaman di lapangan setelah AlphaZero dan AlphaGo). Faktanya, dalam hal ini, papan adalah tensor tiga dimensi (tensor praktis adalah matriks, dan tensor 3D adalah matriks 3D), dan pemain bergerak mencoba untuk sampai pada solusi optimal (memodifikasi tensor dan nolkan entrinya). Jika pemain berhasil, hasil gerakannya adalah algoritma perkalian matriks yang benar (efisiensi diberikan oleh jumlah langkah yang diambil untuk meniadakan tensor). Jadi tujuannya adalah untuk meminimalkan jumlah gerakan (langkah) ke nol dari tensor. Cukup pintar, bukan?

DeepMind AlphaTensorSumber gambar: di sini

Para peneliti menggunakan pembelajaran penguatan untuk ‘bermain’. Seperti yang dijelaskan dalam artikel, seseorang dapat menganggap sistem ini sebagai versi adaptasi dari AlphaZero (di mana tujuan agen adalah untuk menang di Go, catur, dan permainan lainnya). Untuk alasan ini, model itu disebut AlphaZero.

Masalah yang dijelaskan dalam istilah-istilah ini terdengar sederhana, tetapi seperti yang dijelaskan oleh para peneliti DeepMind, pada kenyataannya, ada begitu banyak kombinasi potensial:

Game ini sangat menantang — jumlah algoritme yang mungkin untuk dipertimbangkan jauh lebih besar daripada jumlah atom di alam semesta, bahkan untuk kasus perkalian matriks yang kecil. Dibandingkan dengan game Go, yang tetap menjadi tantangan bagi AI selama beberapa dekade, jumlah kemungkinan gerakan di setiap langkah game kami adalah 30 kali lipat lebih besar (di atas 1033 untuk salah satu pengaturan yang kami pertimbangkan). — Blogpost DeepMind

DeepMind AlphaTensorgambar dari Felix Mittermeier di usplash.com

Sekarang, untuk berhasil, penulis menggunakan jenis arsitektur baru yang menggabungkan bias induktif khusus masalah; mereka juga menggunakan data sintetis dan beberapa informasi tentang masalah (simetri). Untuk lebih spesifik, para peneliti menggunakan arsitektur berbasis transformator (menggunakan perhatian silang, perhatian diri kausal, dll., di sini dan di sini adalah gambar rinci dari struktur). Model tersebut kemudian dilatih menggunakan pembelajaran penguatan (inputnya sebenarnya adalah status saat ini dan tensor 3D, dan tindakan sebelumnya.

DeepMind AlphaTensorStruktur model AlphaTensor. Sumber gambar: kertas asli

Pada awal pelatihan, model tidak memiliki pengetahuan tentang algoritma yang ada untuk mengalikan matriks, tetapi selama pelatihan menjadi lebih baik. Menariknya, AlphaTensor pertama menemukan kembali algoritma yang sudah diketahui dan kemudian menemukan algoritma yang tidak diketahui (praktis melebihi intuisi manusia)

Ini menghasilkan penemuan algoritma yang mengalikan matriks besar 10-20% lebih cepat daripada yang biasa digunakan pada perangkat keras itu. – sumber

DeepMind AlphaTensorPercepatan algoritme yang ditemukan AlphaTensor yang disesuaikan untuk GPU. sumber gambar : disini

Hasil menarik lainnya adalah bahwa secara praktis ruang algoritma perkalian matriks lebih kaya dari yang diperkirakan sebelumnya. Sekarang, ini terdengar seperti jargon matematika, tetapi itu sebenarnya berarti bahwa penulis dapat mengadaptasi AlphaTensor untuk mencari algoritme yang lebih efisien tergantung pada kasus yang diperlukan: yaitu apakah algoritme perkalian matriks diperlukan untuk GPU atau TPU.

DeepMind AlphaTensorsumber gambar : disini

Pikiran perpisahan

DeepMind mengumumkan publikasi artikel dengan tweet dan segera ada hype di komunitas ilmiah.

DeepMind on Twitter: “Hari ini di @Nature: #AlphaTensor, sistem AI untuk menemukan algoritme baru, efisien, dan tepat untuk perkalian matriks – blok bangunan komputasi modern. AlphaTensor menemukan algoritme yang lebih cepat untuk banyak ukuran matriks: https://t .co/E18DezRPTL & https://t.co/SvHgsa0SNV 1/ pic.twitter.com/bsVEAljvSQ / Twitter”

Hari ini di @Nature: #AlphaTensor, sistem AI untuk menemukan algoritme baru, efisien, dan tepat untuk perkalian matriks – blok bangunan komputasi modern. AlphaTensor menemukan algoritma yang lebih cepat untuk banyak ukuran matriks: https://t.co/E18DezRPTL & https://t.co/SvHgsa0SNV 1/ pic.twitter.com/bsVEAljvSQ

Tentu saja, hasilnya luar biasa karena, untuk pertama kalinya, salah satu algoritma komputasi dasar dan mendasar telah dibuat lebih efisien (dan mereka telah mencoba selama berabad-abad). Selain itu, penemuan ini bukan karena intuisi manusia tetapi karena suatu algoritma (Anda dapat melihat kode dan algoritmanya di sini).

Penulis mengklaim bahwa algoritma yang lebih cepat dapat ditemukan. Jadi ini baru permulaan, dan penulis ingin memperluas penelitian ke masalah lain yang terkait, seperti faktorisasi matriks yang tidak melibatkan elemen negatif.

Bagaimanapun, ini juga tampaknya menjadi awal dari era baru di mana para peneliti matematika akan dibantu oleh algoritma. Selain itu, algoritma yang lebih efisien membuat komputasi lebih efisien, memungkinkan untuk model yang lebih besar dan dengan demikian dalam semacam loop positif. Selain itu, mengurangi biaya komputasi model memungkinkan orang lain yang tidak memiliki infrastruktur canggih untuk menggunakan model dengan banyak parameter.

Jika Anda menganggapnya menarik:

Anda dapat mencari artikel saya yang lain, Anda juga dapat berlangganan untuk mendapatkan pemberitahuan ketika saya menerbitkan artikel, dan Anda juga dapat menghubungkan atau menghubungi saya di LinkedIn. Terima kasih atas dukunganmu!

Berikut ini tautan ke repositori GitHub saya, tempat saya berencana mengumpulkan kode dan banyak sumber daya yang terkait dengan pembelajaran mesin, kecerdasan buatan, dan banyak lagi.

GitHub – SalvatoreRa/tutorial: Tutorial pembelajaran mesin, kecerdasan buatan, ilmu data dengan penjelasan matematika dan kode yang dapat digunakan kembali (dalam python dan R)

Atau jangan ragu untuk melihat beberapa artikel saya yang lain di Medium:

DeepMind’s AlphaTensor: Deepmind’s Alphatensor: AI That Is Reinventing Math awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Scott Anderson