Mengapa Adam Optimizer Tidak Menjadi Algoritma Pembelajaran Default? – Menuju AI

Mengapa Adam Optimizer Tidak Menjadi Algoritma Pembelajaran Default?  – Menuju AI

Pengarang: Harjot Kauro

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Semakin banyak praktisi pembelajaran mendalam melatih model mereka dengan metode gradien adaptif karena waktu pelatihan mereka yang cepat. Adam, khususnya, telah menjadi algoritme default yang digunakan di banyak kerangka pembelajaran mendalam. Terlepas dari hasil pelatihan yang unggul, Adam dan metode optimasi adaptif lainnya diketahui memiliki generalisasi yang buruk dibandingkan dengan Stochastic gradient descent (SGD). Metode-metode ini cenderung berkinerja baik pada data pelatihan tetapi diungguli oleh SGD pada data pengujian.

Akhir-akhir ini, banyak peneliti telah menulis studi empiris untuk merenungkan nilai marjinal metode gradien adaptif—Adam. Mari kita coba memahami temuan penelitian.

Sumber: Metode Penjadwalan Terikat untuk Metode Gradien Adaptif

Adam mungkin berkumpul lebih cepat tetapi menggeneralisasi dengan buruk!

Untuk memahami sepenuhnya pernyataan ini, penting untuk mengamati secara singkat pro dan kontra dari algoritma optimasi populer Adam dan SGD.

Penurunan gradien (vanila) adalah metode yang paling umum digunakan untuk mengoptimalkan jaringan pembelajaran mendalam. Pertama kali diusulkan pada 1950-an, teknik ini dapat memperbarui setiap parameter model, mengamati bagaimana perubahan akan mempengaruhi fungsi tujuan, memilih arah yang akan menurunkan tingkat kesalahan, dan melanjutkan iterasi sampai fungsi tujuan konvergen ke minimum. Untuk mempelajari matematika dan fungsionalitas keturunan Gradien, Anda dapat membaca:

Matematika di balik Gradient Descent Algorithm

SGD adalah varian dari penurunan gradien. Alih-alih melakukan perhitungan pada seluruh kumpulan data — yang berlebihan dan tidak efisien — SGD hanya menghitung pada sebagian kecil dari pilihan contoh data secara acak. SGD menghasilkan kinerja yang sama seperti penurunan gradien biasa ketika tingkat pembelajaran rendah.

Metode optimasi Adam menghitung tingkat pembelajaran adaptif individu untuk parameter yang berbeda dari perkiraan momen pertama dan kedua dari gradien. Ini menggabungkan keunggulan Root Mean Square Propagation (RMSProp) dan Adaptive Gradient Algorithm (AdaGrad) — untuk menghitung tingkat pembelajaran adaptif individu untuk parameter yang berbeda. Alih-alih mengadaptasi kecepatan belajar parameter berdasarkan rata-rata momen pertama (mean) seperti pada RMSProp, Adam juga menggunakan rata-rata momen kedua dari gradien (varian tidak terpusat). Untuk mempelajari lebih lanjut tentang Adam, baca Adam — tren terbaru dalam pengoptimalan pembelajaran mendalam.

Untuk meringkas, Adam pasti konvergen dengan cepat ke “minima tajam” sedangkan SGD secara komputasi berat, konvergen ke “minima datar” tetapi berkinerja baik pada data uji.

Mengapa ADAM tidak menjadi algoritme default?

Artikel yang diterbitkan pada September 2019, “Metode Penjadwalan Terikat untuk Metode Gradien Adaptif” menyelidiki faktor-faktor yang menyebabkan kinerja Adam yang buruk saat melatih jaringan saraf kompleks. Faktor kunci yang menyebabkan lemahnya kemampuan generalisasi empiris Adam diringkas sebagai:

Penskalaan gradien yang tidak seragam akan menyebabkan kinerja generalisasi yang buruk dari metode gradien adaptif. SGD berskala seragam, dan kesalahan pelatihan yang rendah akan digeneralisasi dengan baik Rata-rata pergerakan eksponensial yang digunakan dalam Adam tidak dapat membuat laju pembelajaran menurun secara monoton, yang akan menyebabkannya gagal untuk konvergen ke solusi optimal dan memunculkan kinerja generalisasi yang buruk. Tingkat pembelajaran yang dipelajari oleh Adam mungkin terlalu kecil untuk konvergensi yang efektif, yang akan membuatnya gagal untuk menemukan jalur yang benar dan konvergen ke titik suboptimal. Adam mungkin agresif meningkatkan kecepatan belajar, yang merugikan kinerja keseluruhan dari algoritma.

Cerita sejauh ini…

Meskipun perilaku konvergensi lebih cepat, algoritma gradien adaptif biasanya menderita kinerja generalisasi yang lebih buruk daripada SGD. Secara khusus, algoritma gradien adaptif sering menunjukkan kemajuan yang lebih cepat dalam fase pelatihan, tetapi kinerjanya dengan cepat mencapai dataran tinggi pada data pengujian. Secara berbeda, SGD biasanya meningkatkan kinerja model secara perlahan tetapi dapat mencapai kinerja pengujian yang lebih tinggi. Satu penjelasan empiris untuk kesenjangan generalisasi ini adalah bahwa algoritma gradien adaptif cenderung menyatu ke minima tajam yang cekungan lokalnya memiliki kelengkungan yang besar dan biasanya menggeneralisasi dengan buruk, sementara SGD lebih memilih untuk menemukan minima datar dan dengan demikian menggeneralisasi lebih baik.

Ingat, ini tidak meniadakan kontribusi metode gradien adaptif dalam mempelajari parameter dalam kerangka jaringan saraf. Sebaliknya, ini menjamin eksperimen dengan SGD dan metode gradien non-adaptif lainnya. Melalui bagian ini, saya telah mencoba untuk mengesankan setelah menjelajahi metode gradien non-adaptif dalam penyiapan eksperimen ML. Menetapkan Adam secara membabi buta sebagai algoritme default mungkin bukan pendekatan terbaik.

Jika Anda telah membaca sampai titik ini, saya berterima kasih atas kesabaran Anda dan berharap bagian ini menjadi dasar pengetahuan Anda dan Anda mengambil kembali sesuatu yang berharga. Beri tahu saya pendapat Anda tentang ini.

Referensi:

a) Metode Penjadwalan Terikat untuk Metode Gradien Adaptif

b) Nilai Marginal Metode Adaptive Gradient dalam Machine Learning

c) Meningkatkan Kinerja Generalisasi dengan Beralih dari Adam ke SGD

d) Menuju Pemahaman Secara Teoritis Mengapa SGD Menggeneralisasi Lebih Baik Dari ADAM dalam Pembelajaran Mendalam

Mengapa Adam Optimizer Tidak Menjadi Algoritma Pembelajaran Default? awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Scott Anderson