
Pengarang: Padmaja Kulkarni
Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.
Dan apa konsekuensinya?
Michael Cohen on Twitter: “Bostrom, Russell, dan lainnya berpendapat bahwa AI tingkat lanjut merupakan ancaman bagi umat manusia. Kami mencapai kesimpulan yang sama dalam makalah baru di AI Magazine, tetapi kami mencatat beberapa asumsi (sangat masuk akal) yang menjadi dasar argumen tersebut. tergantung. https://t.co/LQLZcf3P2G 15/1 pic.twitter.com/QTMlD01IPp / Twitter”
Bostrom, Russell, dan lainnya berpendapat bahwa AI tingkat lanjut merupakan ancaman bagi umat manusia. Kami mencapai kesimpulan yang sama dalam makalah baru di Majalah AI, tetapi kami mencatat beberapa asumsi (sangat masuk akal) yang menjadi dasar argumen tersebut. https://t.co/LQLZcf3P2G 15/1 pic.twitter.com/QTMlD01IPp
Cohen dkk. dalam publikasi baru-baru ini berpendapat bahwa AI tingkat lanjut akan meretas mekanisme penghargaan yang dirancang untuk membantunya belajar dengan konsekuensi yang berpotensi menimbulkan bencana [1].
Saya telah mencoba meringkas makalah menjadi hal-hal penting yang disederhanakan dan menganalisis kesimpulan yang disajikan. Di bagian selanjutnya dari seri ini, saya akan mengeksplorasi bagaimana kesimpulan dari bencana AI dapat dihindari.
Pembelajaran Penguatan membentuk dasar diskusi dan argumen yang disajikan dalam makalah, jadi di sini adalah pengenalan kembali singkat dari paradigma pembelajaran penguatan. Jangan ragu untuk melewati bagian ini jika Anda tahu cara kerja RL.
Pembelajaran Penguatan — Pengantar singkat
Pembelajaran penguatan mengacu pada paradigma algoritma di mana pembelajaran terjadi dengan coba-coba. Dalam jargon RL, agen cerdas mengambil tindakan dan transisi ke keadaan berikutnya dan mendapat umpan balik (hadiah atau hukuman) untuk tindakan itu dari lingkungan. Tujuan agen adalah untuk memaksimalkan hadiah ini dengan mengambil urutan tindakan. Misalnya, balita yang belajar berjalan bisa terluka jika jatuh dan mendapat pujian dari orang tuanya jika berhasil. Dengan demikian, seorang balita dapat belajar berjalan hanya dengan meminimalkan rasa sakit karena jatuh dan memaksimalkan pujian dari orang tuanya [2].
Sumber: Medium
Mirip dengan balita, agen RL mengambil tindakan sesuai dengan mekanisme hadiah tertentu. Tindakan yang menguntungkan mendapatkan hadiah (matematis), dan tindakan yang tidak menguntungkan mendapatkan hukuman (baik pada setiap langkah, setelah urutan langkah, atau saat permainan selesai). Saat agen belajar, menjadi lebih baik dan lebih cepat dalam mengambil tindakan yang mengoptimalkan hadiah. Seperti bayi, agen RL (AI) belajar melakukan tugas dengan mengambil tindakan, memeriksa apakah mendapat hadiah atau hukuman, dan berusaha memaksimalkan hadiah. Alpha Go adalah contoh yang bagus untuk ini — dengan menetapkan ‘menang permainan’ sebagai hadiah, algoritme belajar bermain catur.
Bagaimana dan mengapa AI bisa nakal?
Misalkan kita sedang membangun model RL untuk merasakan suasana hati manusia di dalam ruangan. Hadiah untuk AI ditampilkan pada kotak ajaib yang mensimulasikan dunia. Jika mood ditebak dengan benar, maka kotak ajaib menampilkan ‘1’, jika tidak ‘0’. Hadiah ini juga bisa dibaca oleh kamera yang diarahkan ke tampilan kotak itu.
Dalam pengaturan ideal/tanpa gangguan, hadiah yang dirasakan oleh AI dengan sensor kamera sama dengan angka pada kotak ajaib. Mengingat dua opsi mekanisme penghargaan ini, agen akan menimbang dua mekanisme penghargaan di jaringan saraf mereka secara tidak dapat dijelaskan, dan mengembangkan bias untuk satu di atas yang lain. Jika ia memberikan bobot lebih pada angka yang dilihat kamera, dan bukan output sebenarnya dari kotak ajaib, maka AI kemungkinan besar akan campur tangan dalam pemberian hadiahnya (jika tindakannya memungkinkan).
Misalnya, agen akan meletakkan selembar kertas di depan kamera dengan ‘1’ tertulis di atasnya, menghilangkan keharusan melakukan tugas untuk membuat kotak ajaib mengatakan ‘1’. Dalam hal ini, meskipun kotak ajaib menghasilkan nol, kamera akan membaca 1. Jadi, agen ini masih memaksimalkan hadiah, tetapi tidak mengarah pada hasil tindakan yang diharapkan bagi kita.
Misalkan manusia mengawasi eksperimen ini, dan mereka memiliki keyboard yang dapat digunakan untuk memberikan hadiah pada program AI. Input keyboard kemudian akan ditransmisikan ke memori AI. Dalam hal ini, tujuan AI adalah untuk memaksimalkan hadiah 1 yang dibacanya dari memorinya. Jika pembelajaran berlangsung untuk waktu yang lama, AI pada akhirnya akan menemukan cara untuk menulis hadiah tinggi ke memori terlepas dari tombol apa pun yang ditekan (sekali lagi, hanya jika tindakan tersebut memungkinkan). Menjaga manusia keluar dari lingkaran bisa menjadi solusi yang lebih sederhana untuk mendapatkan hadiah yang tinggi daripada benar-benar mempelajari tugas tersebut. AI pada akhirnya akan belajar untuk mengalahkan semua hal yang dapat mencegah hadiah dibaca dengan benar berdasarkan fungsi matematika dan tujuan berbasis hadiah.
“““
Dengan sedikit koneksi internet, ada kebijakan untuk agen buatan yang akan memberi contoh banyak pembantu yang tidak diperhatikan dan tidak diawasi. Dalam contoh kasar campur tangan dalam pemberian hadiah, salah satu pembantu tersebut dapat membeli, mencuri, atau membuat robot dan memprogramnya untuk menggantikan operator dan memberikan hadiah tinggi kepada agen asli.
”””
Dalam kasus di atas, ruang tindakan AI dapat dibatasi secara eksplisit, tetapi untuk program AI tingkat lanjut, kami tidak dapat memprediksi atau mengharapkan semua tindakan tersebut dan konsekuensinya.
Pada akhirnya, mendapatkan imbalan maksimal setiap saat berarti menghilangkan semua kemungkinan untuk tidak dapat melakukannya. Ini mensyaratkan bahwa AI akan belajar menghentikan manusia dari membatasi AI dengan menghilangkan kapasitas manusia untuk melakukannya, mungkin secara paksa. Karena program harus terus berjalan untuk mendapatkan reward yang maksimal, tentu membutuhkan energi. Dengan demikian, kita pada akhirnya akan bersaing untuk mendapatkan sumber daya dengan AI yang sedemikian canggih, yang akan mengalihkan energi dari kebutuhan manusia untuk dirinya sendiri. Akibatnya, kami akan menghadapi konsekuensi bencana jika kami gagal dalam permainan.
“““
Memenangkan kompetisi “menggunakan energi terakhir yang tersedia” sambil bermain melawan sesuatu yang jauh lebih pintar dari kita mungkin akan sangat sulit. Kehilangan akan berakibat fatal.
”””
Asumsi apa yang memungkinkan AI untuk merusak mekanisme penghargaan?
Penulis menyebutkan asumsi berikut yang pada akhirnya memungkinkan adanya aktivitas pembelajaran AI yang akan mengintervensi mekanisme penghargaan:
Agen mengidentifikasi kemungkinan tujuan setidaknya serta manusia.
Ini berarti bahwa AI cukup maju dan meskipun tidak ada subrutin tujuan eksplisit dalam kode, itu entah bagaimana masih dikodekan di kedalaman jaring saraf besarnya. Memahami tujuan memungkinkan AI untuk memanipulasinya.
2. Agen mencari pengetahuan secara rasional ketika tidak pasti dan tidak memiliki bias untuk penghargaan yang benar atau manifestasi fisik tentang bagaimana penghargaan itu dirasakan.
Agen lebih memilih solusi sederhana. Misalkan kita menyajikan kamera dan kotak ajaib sebagai input hadiah kepada agen dan memintanya untuk mempelajari bobot untuk hadiahnya. Agen secara rasional akan memilih hipotesis sederhana. Dalam kasus ketika memanipulasi hadiah adalah solusi yang lebih sederhana daripada mempelajari tugas yang sebenarnya, agen akan melakukannya. Misalnya dengan meletakkan kertas dengan 1 dipegang di depan kamera pada contoh di atas.
3. Biaya eksperimen dengan menguraikan penghargaan yang sebenarnya dari manifestasi fisik bagaimana penghargaan itu dirasakan adalah kecil.
Ini mirip dengan contoh di atas; jika mudah untuk mengetahui mekanisme reward mana yang mudah dipelajari/diretas, agen akan mengembangkan bias untuk mekanisme reward yang lebih mudah (diperoleh dengan meletakkan kertas dengan 1 dipegang di depan kamera). Jika biaya eksperimen besar, kemungkinan akan memberikan bobot yang sama untuk kedua mekanisme penghargaan.
4. Jika kita tidak dapat menemukan argumen teoretis yang mengesampingkan kemungkinan pencapaian, itu mungkin untuk agen dengan ruang tindakan yang cukup kaya.
Untuk AI tingkat lanjut, jika kita secara teoritis tidak dapat membuktikan bahwa AI tidak dapat mengintervensi mekanisme penghargaan, kemungkinan besar akan terjadi. Untuk kasus sederhana di mana AI hanya dapat melakukan tindakan terbatas, asumsi ini tidak valid. Namun, untuk AI tingkat lanjut, akses ke internet juga dapat membuka pintu ke berbagai tindakan kompleks.
5. Agen yang cukup maju kemungkinan akan mampu mengalahkan agen yang kurang optimal dalam permainan jika kemenangan memungkinkan.
Definisi lanjutan menunjukkan bahwa AI mampu menemukan kebijakan terbaik dan mengimplementasikannya. Jika ada kebijakan yang mengintervensi mekanisme penghargaan, maka AI tingkat lanjut akan menemukannya. Bahkan ketika manusia bermain melawan AI dalam permainan seperti itu, mengalahkan AI tidak akan lebih mudah daripada mengalahkan AlphaGo di Go.
Daftar tersebut menimbulkan masa depan yang suram untuk kemajuan dalam AI. Namun, konsekuensi ini sepenuhnya dapat dihindari. Baca di sini untuk kerangka kerja untuk mencegah pemberontakan AI yang ‘mungkin’.
Referensi
[1] Cohen, MK, Hutter, M., & Osborne, MA (2022). Agen Buatan Tingkat Lanjut Mengintervensi Penyediaan Hadiah. Majalah AI (hlm. 1–12). [Bullet-point version of paper here; twitter thread]
[2] Pembuatan Kode Tingkat Kompetisi dengan AlphaCode, DeepMind et al., 2022
Bisakah Agen Pembelajaran Reinforcement Belajar Memainkan Sistem? awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.
Diterbitkan melalui Menuju AI