Saya menghabiskan $15 dalam kredit DALL·E 2 untuk membuat gambar AI ini, dan inilah… – Menuju AI

Saya menghabiskan $15 dalam kredit DALL·E 2 untuk membuat gambar AI ini, dan inilah… – Menuju AI

Pengarang: Joy Zhang

Ya, itu llama mencelupkan bola basket. Ringkasan proses, batasan, dan pelajaran yang didapat saat bereksperimen dengan versi Beta tertutup DALL·E 2.

Llama bermain basket, dibuat menggunakan DALL·E 2 oleh penulis.

Saya sangat ingin mencoba DALL·E 2 sejak pertama kali melihat gambar “Shiba Inu Bento Box” yang dibuat secara artifisial ini.

Wow — sekarang itu adalah teknologi yang mengganggu.

Bagi Anda yang tidak terbiasa, DALL·E 2 adalah sistem yang dibuat oleh OpenAI yang dapat menghasilkan gambar asli dari teks.

Saat ini dalam Beta tertutup — Saya mendaftar untuk daftar tunggu pada awal Mei dan mendapat akses pada akhir Juli. Selama Beta, pengguna menerima kredit (50 gratis di bulan pertama, 15 kredit setiap bulan setelah itu) di mana setiap penggunaan dikenakan biaya 1 kredit, dan setiap penggunaan menghasilkan 3-4 gambar. Anda juga dapat membeli 115 kredit seharga US$15.

PS Jika Anda tidak sabar untuk mencobanya, cobalah DALL·E mini secara gratis. Namun, kualitas gambarnya umumnya lebih buruk (sehingga memunculkan sejumlah meme DALL·E) dan membutuhkan waktu sekitar ~60 detik per prompt (DALL·E 2 sebagai perbandingan hanya membutuhkan waktu 5 detik atau lebih).

Anda mungkin pernah melihat berbagai gambar cherry-picked online yang menunjukkan kemampuan DALL·E 2 (asalkan prompt kreatif yang tepat). Dalam artikel ini, saya membagikan panduan jujur ​​tentang apa yang diperlukan untuk membuat gambar yang dapat digunakan dari awal untuk materi pelajaran: “seorang llama bermain basket”. Anda mungkin merasa berguna jika Anda berpikir untuk mencoba sendiri DALL·E 2, atau Anda hanya tertarik untuk memahami kemampuannya.

Ada seni dan sains untuk mengetahui apa yang mendorong untuk memberi makan DALL·E 2. Sebagai ilustrasi, berikut adalah hasil untuk “llama bermain basket”:

Gambar yang dihasilkan oleh penulis menggunakan DALL·E 2 dengan prompt “llama bermain basket.”

Mengapa DALL·E 2 cenderung menghasilkan gambar kartun untuk permintaan ini? Saya berasumsi itu ada hubungannya dengan kurangnya gambar sebenarnya dari llama bermain bola basket yang terlihat selama pelatihan.

Saya mencoba melangkah lebih jauh dengan menambahkan istilah kunci ‘foto realistis’:

Gambar yang dihasilkan oleh penulis menggunakan DALL·E 2 dengan “foto realistis llama bermain basket” yang cepat

Llama itu terlihat lebih fotorealistik, tetapi seluruh gambar mulai terlihat seperti pekerjaan Photoshop yang gagal. Dalam hal ini, DALL·E 2 jelas membutuhkan pegangan tangan untuk menciptakan pemandangan yang kohesif.

Dalam konteks DALL·E, rekayasa cepat mengacu pada proses merancang petunjuk untuk memberi Anda hasil yang diinginkan.

DALL·E 2 Prompt Book adalah sumber yang fantastis untuk ini. Ini berisi daftar inspirasi rinci untuk petunjuk menggunakan kata kunci dari fotografi dan seni.

Mengapa hal seperti ini perlu? Karena mendapatkan output yang dapat digunakan dari DALL·E 2 adalah rewel (terutama jika Anda tidak yakin dengan kemampuan DALL·E 2). Sedemikian rupa sehingga startup baru menciptakan pasar yang mengenakan biaya $ 1,99 untuk meminta Anda menghemat waktu dan uang dari membuat Anda sendiri.

Temuan favorit pribadi saya adalah “lampu latar dramatis”:

Sekarang kita sedang berbicara! Gambar yang dihasilkan oleh penulis menggunakan DALL·E 2 dengan prompt: “Film still of a llama dunking a basketball, low angle, extreme long shot, indoor, backlighting dramatis.”

Sangat penting untuk memberi tahu DALL·E 2 apa yang Anda inginkan. Rupanya, tidak jelas dari konteksnya bahwa llama ini harus berpakaian untuk acara tersebut. DALL·E 2 melakukan pekerjaan yang hebat dalam mewujudkan adegan fantasi ini, ketika ‘llama memakai jersey’ ditentukan:

Basket dunking llama, kini hadir dengan jersey. Gambar yang dihasilkan oleh penulis dengan DALL·E 2 menggunakan prompt: “film still alpaka mengenakan jersey, mencelupkan bola basket, low angle, long shot, indoor, backlighting dramatis, detail tinggi.”

Itu tidak berhenti di situ. Untuk menambahkan beberapa drama pada gambar dan benar-benar membuat llama ini terbang, saya perlu menentukan frasa seperti ‘dunking a basketball, ‘action shot of…’, atau favorit pribadi saya: “…llama in a jersey dunking a basketball like Michael Jordan ”:

Michael Jordan — jika dia seorang llama, menurut DALL·E 2. Gambar yang dihasilkan oleh penulis dengan DALL·E 2 menggunakan “film still of a llama dalam kaus mencelupkan bola basket seperti Michael Jordan, sudut rendah, tampilkan dari bawah, bingkai miring, 35°, sudut Belanda, bidikan jauh ekstrem, detail tinggi, di dalam ruangan, lampu latar dramatis.”.

Tip: DALL·E 2 hanya menyimpan 50 generasi sebelumnya di tab riwayat Anda. Pastikan untuk menyimpan gambar favorit Anda saat Anda pergi.

Anda akan berpikir bahwa dari konteks ‘mencelupkan bola basket’, akan jelas di mana posisi relatif llama, bola, dan lingkaran seharusnya. Lebih sering daripada tidak, llama melakukan dunk dengan cara yang salah, atau bola diposisikan sedemikian rupa sehingga llama tidak memiliki harapan nyata untuk melakukan tembakan. Meskipun semua elemen prompt ada di sana, DALL·E 2 tidak benar-benar ‘memahami’ hubungan di antara mereka. Artikel ini membahas topik secara lebih mendalam.

Gambar yang dihasilkan oleh penulis menggunakan DALL·E 2 dengan prompt: “Film still of a llama in a jersey dunking a basketball like Michael Jordan, low angle, shot from below, tilted frame, 35°, Dutch angle, extreme long shot, high detail , di dalam ruangan, lampu latar yang dramatis.”

Artefak lain dari DALL·E 2 yang tidak benar-benar ‘memahami’ adegan adalah tekstur yang terkadang bercampur. Pada gambar di bawah, jaring terbuat dari bulu (pemandangan yang mengerikan setelah Anda memikirkannya):

Gambar yang dihasilkan oleh penulis menggunakan DALL·E 2 dengan prompt: “Foto ekspresif seekor llama mengenakan jersey mencelupkan bola basket seperti Michael Jordan, sudut rendah, bidikan lebar ekstrem, di dalam ruangan, cahaya latar dramatis, detail tinggi.”

Menurut beberapa sumber, ini mungkin merupakan upaya yang disengaja untuk menghindari pembuatan deepfake. Saya pikir itu hanya berlaku untuk subjek manusia, tetapi ternyata, itu juga berlaku untuk llama.

Beberapa hasilnya benar-benar menyeramkan.

Gambar yang dihasilkan oleh penulis menggunakan DALL·E 2 dengan prompt: “Foto dramatis seekor llama mengenakan jersey mencelupkan bola basket seperti Michael Jordan, sudut rendah, bidikan lebar, di dalam ruangan, cahaya latar dramatis, detail tinggi.”

Berikut adalah beberapa masalah kecil lainnya yang saya alami:

Tidak peduli berapa banyak varian ‘in the distance’ atau ‘extreme long shot’ yang saya gunakan, sulit untuk menemukan gambar di mana seluruh llama pas di dalam bingkai.

Dalam beberapa kasus, pembingkaian diabaikan sepenuhnya:

Gambar yang dihasilkan oleh penulis menggunakan DALL·E 2 dengan prompt: “Film dramatis dari seorang llama yang mengenakan jersey mencelupkan bola basket, sudut rendah, bidikan dari bawah, bingkai miring, 35 °, sudut Belanda, bidikan panjang ekstrem, di dalam ruangan, dramatis lampu latar, detail tinggi.”

Saya kira ini seharusnya tidak terlalu mengejutkan mengingat DALL·E 2 berjuang untuk ‘memahami’ hubungan antar komponen. Namun, ia mampu mencoba beberapa huruf yang terbentuk sepenuhnya dalam konteks yang tepat:

Gambar yang dihasilkan oleh penulis menggunakan DALL·E 2 dengan prompt: “Film still of llama berbulu di jersey mencelupkan bola basket seperti Michael Jordan, sudut rendah, bidikan dari bawah, bingkai miring, 35 °, sudut Belanda, bidikan jauh ekstrem, tinggi detail, di dalam ruangan, lampu latar yang dramatis.”

Terkadang, menambahkan kata kunci atau menyusun kalimat dengan cara tertentu menghasilkan hasil yang sama sekali berbeda dari yang diharapkan.

Dalam hal ini, subjek sebenarnya dari prompt (llama mengenakan jersey) benar-benar diabaikan:

Nah, itu adalah dunk yang mengesankan. Gambar yang dihasilkan oleh penulis menggunakan DALL·E 2 dengan prompt: “Sudut rendah, bidikan panjang, di dalam ruangan, cahaya latar dramatis, foto profesional llama mengenakan jersey, mencelupkan bola basket.”

Bahkan menambahkan istilah ‘fluffy’ menyebabkan kinerja yang jauh lebih buruk dan beberapa kasus yang terlihat seperti DALL·E 2 baru saja… rusak:

Gambar yang dihasilkan oleh penulis menggunakan DALL·E 2 dengan prompt: “Film still of llama berbulu halus dalam jersey yang mencelupkan bola basket seperti Michael Jordan, detail tinggi, di dalam ruangan, lampu latar dramatis.” (Gambar sengaja dimodifikasi untuk mengaburkan dan menyembunyikan wajah).

Dalam bekerja dengan DALL·E 2, penting untuk spesifik tentang apa yang Anda inginkan tanpa berlebihan atau menambahkan kata-kata yang berlebihan.

Anda perlu mencoba ini!

Setelah Anda memiliki subjek kata kunci, Anda dapat menghasilkan gambar dalam jumlah gaya seni lainnya yang mengesankan.

Gambar yang dihasilkan oleh penulis menggunakan DALL·E 2 dengan prompt: “Lukisan abstrak llama di jersey mencelupkan bola basket seperti Michael Jordan, ditembak dari bawah, bingkai miring, 35 °, sudut Belanda, tembakan jauh ekstrim, detail tinggi, dramatis lampu latar, di dalam ruangan. Di latar belakang adalah stadion yang penuh dengan orang. ”

Gambar yang dihasilkan oleh penulis menggunakan DALL·E 2 dengan prompt: “Film still of a llama in a jersey dunking a basketball like Michael Jordan, dramatis backlighting, vivid sunset, vaporwave.”

Gambar yang dihasilkan oleh penulis menggunakan DALL·E 2 dengan prompt: “llama dalam jersey mencelupkan bola basket seperti Michael Jordan, ditembak dari bawah, bingkai miring, 35 °, sudut Belanda, tembakan panjang ekstrem, detail tinggi, lampu latar dramatis, epik, seni digital”

Gambar yang dihasilkan oleh penulis menggunakan DALL·E 2 dengan prompt: “Llama dalam jersey mencelupkan bola basket seperti Michael Jordan, tangkapan layar dari film anime Miyazaki”. Terima kasih atas tip dalam artikel ini.

Setelah lebih dari 100 kredit (~US$13) dan banyak coba-coba, inilah gambar terakhir saya:

Gambar saya yang menang. https://labs.openai.com/s/HYv3Kp8ElKDAWKHq2vs76VXu

Gambarnya tidak sempurna, tetapi DALL·E 2 berhasil memenuhi sekitar 80% dari brief.

Sebagian besar pujian ditujukan untuk mencoba mendapatkan kombinasi gaya, wajah, dan komposisi yang tepat untuk bekerja bersama.

Menurut pengumuman DALL·E OpenAI,

“…pengguna mendapatkan hak penggunaan penuh untuk mengkomersialkan gambar yang mereka buat dengan DALL·E, termasuk hak untuk mencetak ulang, menjual, dan barang dagangan.”

Harapkan banyak pengguna untuk bermain cepat dan lepas dengan aturan ini.

Sebagai pembuat konten, DALL·E 2 akan sangat berguna untuk membuat ilustrasi, foto, dan grafik sederhana untuk blog dan situs web. Saya akan menggunakannya sebagai alternatif untuk Unsplash untuk membuat gambar sampul blog yang tidak akan terlihat sama seperti orang lain.

Jika Anda akan mencoba sendiri DALL·E 2, berikut adalah beberapa tips sebelum Anda mulai:

Lihat Buku Prompt DALL·E 2! (Juga, Lembar Teknik Prompt buatan penggemar). Bersiaplah untuk melakukan beberapa trial-and-error untuk mendapatkan apa yang Anda inginkan. Lima belas kredit gratis mungkin terdengar banyak, tetapi sebenarnya tidak. Berharap untuk menggunakan setidaknya 15 kredit untuk menghasilkan gambar yang dapat digunakan. DALL·E 2 tidak murah. Jangan lupa untuk menyimpan gambar favorit Anda saat Anda pergi.

Author: Scott Anderson