AI Multimodal → Menggabungkan Teks Dengan Gambar – Menuju AI

AI Multimodal → Menggabungkan Teks Dengan Gambar – Menuju AI

Pengarang: Shubham Saboo

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

OpenAI GPT-3 dikombinasikan dengan DALL.E-Flow untuk menghasilkan karya seni yang kreatif!

Gambar yang dihasilkan oleh DALL.E Flow

Ringkasan

Dalam artikel ini, kita akan melihat bagaimana Anda dapat menggabungkan kemampuan pembuatan teks GPT-3 dengan bagian pembuatan gambar kreatif dari DALL.E untuk menghasilkan sebuah karya seni yang membutuhkan waktu berhari-hari jika bukan berbulan-bulan, dengan pengaturan konvensional

Tanpa basa-basi lagi, mari kita tulis puisi tentang data tidak terstruktur dengan gaya Shakespear menggunakan GPT3TextGeneration Executor dan buat ilustrasi untuk hal yang sama menggunakan DALL.E-Flow.

Kami akan menggunakan notebook colab berikut untuk mengakses GPT-3 Executor karena ini akan menyimpan semua komputasi di cloud, jadi Anda tidak perlu khawatir tentang ketergantungan 👇

Google Kolaborasi

Kami akan mengambil puisi yang dihasilkan oleh GPT-3 dan mengirimkannya sebagai masukan ke DALL.E Flow untuk menghasilkan ilustrasi artistik untuk puisi kami. Kami akan menggunakan buku catatan berikut untuk melakukannya

Google Kolaborasi

Buku Seni Grafis

Puisi yang Dihasilkan oleh GPT-3

Data tidak terstruktur seperti bunga liar di ladang

Ini cantik dan gratis,

Tapi itu bisa sulit dikendalikan

Dan itu bisa sulit ditemukan

Ketika Anda sedang mencari sesuatu yang spesifik!

Ilustrasi Grafis

Berikut adalah ilustrasi grafis baris demi baris dari puisi yang dibuat di atas menggunakan DALL.E Flow

Baris 1 → “Data tidak terstruktur seperti bunga liar di ladang”

Dihasilkan oleh DALL.E Flow

Baris 2 → “Cantik dan gratis”

Dihasilkan oleh DALL.E Flow

Baris 3 → “Tapi bisa jadi sulit dikendalikan”

Dihasilkan oleh DALL.E Flow

Baris 4 → “Dan mungkin sulit ditemukan saat Anda mencari sesuatu yang spesifik!”

Dihasilkan oleh DALL.E Flow

Apa itu GPT-3?

GPT-3 adalah model bahasa umum pertama dalam sejarah pemrosesan bahasa alami yang dapat melakukan dengan baik pada berbagai tugas NLP. GPT-3 adalah singkatan dari “Generative Pre-trained Transformer”, dan merupakan iterasi ketiga dari model OpenAI. Mari kita uraikan tiga istilah ini:

Generatif: Model generatif adalah jenis model statistik yang digunakan untuk menghasilkan titik data baru. Model-model ini mempelajari hubungan yang mendasari antara variabel dalam kumpulan data untuk menghasilkan titik data baru yang serupa dengan yang ada di kumpulan data. Pra-terlatih: Model pra-terlatih adalah model yang telah dilatih pada kumpulan data yang besar. Hal ini memungkinkan mereka untuk digunakan untuk tugas-tugas di mana akan sulit untuk melatih model dari awal. Model yang telah dilatih sebelumnya mungkin tidak 100% akurat, tetapi ini menyelamatkan Anda dari menciptakan kembali roda, menghemat waktu, dan meningkatkan kinerja. Transformer: Model transformator adalah jaringan saraf tiruan terkenal yang ditemukan pada tahun 2017. Ini adalah model pembelajaran mendalam yang dirancang untuk menangani data sekuensial, seperti teks. Model transformator sering digunakan untuk tugas-tugas seperti terjemahan mesin dan klasifikasi teks.

GPT-3 dianggap sebagai langkah pertama oleh beberapa orang dalam pencarian Artificial General Intelligence. Untuk memahami bagaimana ia merevolusi bidang AI, lihat Primer terbaru di GPT-3!

Apa itu Aliran DALL.E?

Langkah-langkah yang terlibat dalam DALL.E Flow

DALL·E Flow adalah alur kerja interaktif untuk menghasilkan gambar definisi tinggi dari prompt teks. Pertama, ia memanfaatkan DALL·E-Mega untuk menghasilkan kandidat gambar dan kemudian memanggil CLIP-as-service untuk menentukan peringkat kandidat dengan prompt.

Mengapa Human-in-the-loop?

Seni generatif adalah proses kreatif. Sementara kemajuan terbaru dari DALL·E melepaskan kreativitas orang, memiliki UX/UI output tunggal-prompt-single mengunci imajinasi ke satu kemungkinan, yang buruk tidak peduli seberapa memuaskan hasil tunggal ini. DALL·E Flow adalah alternatif dari one-liner dengan memformalkan seni generatif sebagai prosedur berulang.

Untuk mengetahui lebih lanjut tentang cara kerja DALL.E Flow, lihat Repositori GitHub berikut.

Rekayasa Prompt: Saus Rahasia

Jika Anda telah membaca artikel sejauh ini, Anda mungkin memikirkan beberapa pertanyaan ini

Bagaimana cara menggunakan GPT-3 dan DALL.E Flow untuk mendapatkan hasil terbaik?

Bagaimana cara mengetahui input untuk model AI ini yang menghasilkan hasil yang diinginkan?

Bagaimana sedikit perubahan pada teks input secara signifikan mempengaruhi output?

Jawaban atas semua pertanyaan Anda terletak pada istilah sederhana → Rekayasa Cepat

“Rekayasa Prompt adalah seni dan ilmu memberikan teks input (instruksi) yang jelas ke model AI generatif sehingga menghasilkan output yang diinginkan.”

Rahasia untuk menulis petunjuk yang baik adalah memahami apa yang diketahui model AI ini tentang dunia dan bagaimana membuat model menggunakan informasi itu untuk menghasilkan hasil yang bermanfaat.

Untuk mempelajari tentang Rekayasa Prompt secara detail, lihat sumber daya berikut

Lebih lanjut tentang Rekayasa Prompt di sini

Kesimpulan

Masa depan AI kreatif terlihat sangat cerah. Dengan menggabungkan teks dengan gambar, kita dapat membuat beberapa kreasi yang benar-benar menakjubkan dan unik. Ini hanyalah awal dari apa yang dapat Anda lakukan dengan teknologi ini, dan Anda hanya dapat membayangkan apa yang akan terjadi di masa depan bagi kami!

Jika Anda ingin mempelajari lebih lanjut atau ingin saya menulis lebih banyak tentang topik ini, jangan ragu untuk menghubungi saya.

Jika Anda menyukai posting ini atau merasa terbantu, harap luangkan waktu sebentar untuk menekan tombol tepuk tangan, ini meningkatkan visibilitas posting untuk pengguna menengah lainnya.

AI Multimodal → Menggabungkan Teks Dengan Gambar awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Scott Anderson