Perbandingan Deep Generatif… – Menuju AI

Mengotomatiskan Klasifikasi Zero-Shot Menghasilkan Label Model dengan GPT-3 – Menuju AI

Author(s): Ainur Gainetdinov

Awalnya diterbitkan di Menuju AI.

Model Difusi vs. GAN vs. VAE: Perbandingan Model Generatif Jauh

Model generatif yang dalam diterapkan pada beragam domain seperti gambar, audio, sintesis video, dan pemrosesan bahasa alami. Dengan pesatnya perkembangan teknik pembelajaran mendalam, telah terjadi ledakan berbagai model generatif mendalam dalam beberapa tahun terakhir. Hal ini menyebabkan meningkatnya minat untuk membandingkan dan mengevaluasi model ini dalam hal kinerja dan penerapannya pada domain yang berbeda. Dalam makalah ini, kami bertujuan untuk memberikan perbandingan komprehensif model generatif yang dalam, termasuk Model Difusi, Generative Adversarial Networks (GANs), dan Variational Autoencoders (VAEs). Saya akan meninjau prinsip, kekuatan, dan kelemahan mereka yang mendasarinya. Tujuan saya adalah untuk memberikan pemahaman yang jelas tentang perbedaan dan kesamaan di antara model-model ini untuk memandu para peneliti dan praktisi dalam memilih model generatif mendalam yang paling tepat untuk aplikasi khusus mereka.

Gambar 1. Tinjauan berbagai jenis model generatif. Gambar yang dibuat oleh penulis.

Berikut adalah ringkasan singkat tentang cara kerja model GAN, VAE, dan Model Difusi.

GAN [1, 2] belajar untuk menghasilkan data baru yang mirip dengan kumpulan data pelatihan. Ini terdiri dari dua jaringan saraf, generator, dan diskriminator, yang memainkan permainan dua pemain. Generator mengambil nilai acak yang diambil sampelnya dari distribusi normal dan menghasilkan sampel sintetik, sedangkan diskriminator mencoba membedakan antara sampel nyata dan yang dihasilkan. Generator dilatih untuk menghasilkan keluaran realistis yang dapat menipu diskriminator, sedangkan diskriminator dilatih untuk membedakan dengan benar antara data asli dan data yang dihasilkan. Baris atas Gambar 1 menunjukkan skema kerjanya.
UEA [3, 4] terdiri dari encoder dan decoder. Encoder memetakan data input dimensi tinggi ke dalam representasi dimensi rendah, sedangkan dekoder berupaya merekonstruksi data input dimensi tinggi asli dengan memetakan representasi ini kembali ke bentuk aslinya. Encoder mengeluarkan distribusi normal dari kode laten sebagai representasi dimensi rendah dengan memprediksi rata-rata dan vektor deviasi standar. Baris tengah Gambar 1 menunjukkan pekerjaannya.
Model difusi [5, 6] terdiri dari proses difusi maju dan difusi balik. Difusi maju adalah rantai Markov yang secara bertahap menambahkan derau ke data input hingga diperoleh derau putih. Ini bukan proses yang bisa dipelajari dan biasanya membutuhkan 1000 langkah. Proses difusi terbalik bertujuan untuk membalikkan proses maju selangkah demi selangkah menghilangkan kebisingan untuk memulihkan data asli. Proses difusi terbalik diimplementasikan menggunakan jaringan saraf yang dapat dilatih. Baris paling bawah Gambar 1 menunjukkan hal itu.

Selanjutnya, saya akan menguraikan fitur utama dari model yang berbeda untuk membantu Anda mengembangkan intuisi dan membuat keputusan saat memilih model untuk kasus penggunaan khusus Anda.

GAN

Ini terdiri dari dua jaring saraf: generator dan diskriminator. Pelatihan oleh kerugian musuh. Generator bertujuan untuk “menipu” Diskriminator dengan menghasilkan sampel yang tidak dapat dibedakan dari yang asli. Tujuannya adalah untuk membuat diskriminator tidak dapat membedakan antara sampel yang benar dan yang dihasilkan. Sampel fidelitas tinggi. Jaringan saraf terkonvergensi, maka pembeda tidak dapat membedakan antara sampel nyata dan yang dihasilkan. Ini mengarah pada sampel yang sangat realistis. Sampel keragaman rendah. Kerugian musuh tidak memiliki insentif untuk menutupi seluruh distribusi data. Ketika diskriminator telah berlatih berlebihan atau terjadi bencana lupa, generator mungkin cukup senang untuk menghasilkan sebagian kecil dari keragaman data. Ini adalah masalah umum dan disebut keruntuhan mode[2]. Sulit untuk dilatih. Sulit untuk menentukan kapan jaringan Anda bertemu. Alih-alih memantau satu kerugian yang terjadi, Anda harus melihat dua kerugian yang tidak memiliki interpretasi sederhana dan terkadang tidak jelas apa yang terjadi dengan jaringan saraf Anda. Offen Anda perlu mengatasi mode runtuh. Ada trade-off sederhana dari keragaman untuk kesetiaan dengan trik pemotongan.

UEA

Ini terdiri dari dua jaring saraf: encoder dan decoder. Pelatihan dengan memaksimalkan log kemungkinan, yang setelah disederhanakan secara matematis, menjadi kehilangan L2. Ini memperkirakan perbedaan antara input dan sampel yang dihasilkan. Sampel fidelitas rendah. Ada beberapa alasan:
1. Karena pembuat enkode memprediksi distribusi kode laten, mungkin ada kasus di mana dua distribusi kode laten tumpang tindih satu sama lain. Oleh karena itu, jika dua input memiliki kode laten yang sama, decoding yang optimal akan menjadi rata-rata dari kedua input tersebut. Hal ini menyebabkan sampel kabur. Model gan dan difusi tidak memiliki masalah ini.
2. Memiliki kerugian berbasis piksel. Pembuatan gambar dengan rambut akan terdiri dari piksel terang dan gelap bergantian. Jika generasi digeser hanya satu piksel, kehilangan kesamaan dengan kebenaran dasar akan meningkat atau menurun secara signifikan. Namun, VAE tidak menyimpan informasi tingkat piksel tersebut karena ruang laten jauh lebih kecil daripada gambar. Ini mendorong model untuk memprediksi rata-rata piksel terang dan gelap untuk menemukan solusi optimal, menghasilkan gambar buram. GAN tidak memiliki masalah seperti itu karena diskriminator dapat menggunakan keburaman sampel untuk membedakan antara yang asli dan yang dihasilkan. Demikian pula, model difusi, meskipun memiliki kehilangan berbasis piksel yang sama, tidak memiliki masalah ini. Mereka bergantung pada struktur gambar bising saat ini yang diperoleh dari kebenaran dasar untuk memprediksi langkah denoising selanjutnya. Sampel keragaman tinggi. Kekuatan maksimalisasi kemungkinan mencakup semua mode set data pelatihan, menyediakan kapasitas jaring saraf untuk setiap titik data pelatihan. Mudah dilatih. Ini memiliki satu kemungkinan kerugian yang bisa dilacak. Encoder memungkinkan Anda mendapatkan kode laten dari gambar apa pun, ini memberikan kemungkinan tambahan di luar pembuatan.

Model Difusi

Ini terdiri dari proses difusi maju tetap dan proses difusi balik yang dapat dipelajari. Proses difusi maju adalah proses multi-langkah yang secara bertahap menambahkan sejumlah kecil derau Gaussian ke sampel hingga menjadi derau putih. Nilai yang biasa digunakan untuk jumlah langkah adalah 1000. Proses difusi terbalik juga merupakan proses multi-langkah yang membalikkan proses difusi maju, mengembalikan derau putih ke gambar. Setiap langkah dari proses difusi balik dilakukan oleh jaringan saraf, dan memiliki jumlah langkah yang sama dengan proses maju. Pelatihan dengan memaksimalkan log kemungkinan, yang setelah disederhanakan secara matematis, menjadi kehilangan L2. Selama pelatihan, kami menghitung gambar bising untuk langkah T dan T-1 menggunakan rumus untuk nilai T yang dipilih secara acak. Model difusi kemudian memprediksi gambar step T-1 dari gambar noise T-step. Gambar yang dihasilkan dan gambar langkah T-1 dibandingkan menggunakan kerugian L2. Sampel fidelitas tinggi. Itu karena sifat menghilangkan kebisingan secara bertahap. Tidak seperti VAE dan GAN, yang menghasilkan sampel sekaligus, model difusi membuat sampel selangkah demi selangkah. Model pertama-tama membuat struktur gambar kasar dan kemudian berfokus pada penambahan detail halus di bagian atas. Sampel keragaman tinggi. Maksimalisasi kemungkinan mencakup semua mode dataset pelatihan. Gambar bising menengah berfungsi sebagai kode laten dan memiliki ukuran yang sama dengan gambar pelatihan. Inilah salah satu alasan mengapa model difusi dapat menghasilkan sampel dengan fidelitas tinggi. Mudah dilatih. Ini memiliki satu kemungkinan kerugian yang bisa dilacak. Pembuatan sampel lambat. Tidak seperti GAN dan VAE, ini membutuhkan banyak jaringan saraf untuk menghasilkan sampel secara bertahap. Meskipun ada metode pengambilan sampel yang dapat mempercepat proses ini dengan urutan besarnya, metode tersebut masih jauh lebih lambat daripada GAN dan VAE. Proses multi-langkah memberikan fungsionalitas baru, seperti inpainting atau pembuatan gambar-ke-gambar, hanya dengan mengeksploitasi input noise.

Gambar 2. Kekuatan dan kelemahan model. Gambar yang dibuat oleh penulis.

Kesimpulan

Model GAN, VAE, dan Difusi semuanya adalah model generatif pembelajaran mendalam populer yang memiliki fitur unik dan cocok untuk kasus penggunaan yang berbeda. Setiap model memiliki kekuatan dan kelemahannya, dan penting untuk memahami nuansanya sebelum memilih satu untuk aplikasi tertentu.
Semoga informasi ini bermanfaat bagi Anda. Terima kasih telah membaca!

Referensi

Jaring Musuh Generatif. Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio — https://arxiv.org/pdf/1406.2661.pdf Penjelasan Mode GAN Ciutkan — https: //medium.com/towards-artificial-intelligence/gan-mode-collapse-explanation-fa5f9124ee73 Auto-Encoding Variational Bayes. Diederik P Kingma, Max Welling — https://arxiv.org/pdf/1312.6114.pdf Memahami Variasi Autoencoder (VAEs) — https://towardsdatascience.com/understanding-variational-autoencoders-vaes-f70510919f73 Pembelajaran Tanpa Pengawasan Mendalam menggunakan Termodinamika Nonequilibrium . Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, Surya Ganguli — https://arxiv.org/pdf/1503.03585.pdf Apa itu Model Difusi? Lilian Weng — https://lilianweng.github.io/posts/2021-07-11-diffusion-models

Diterbitkan melalui Menuju AI

Author: Scott Anderson