Cara Menjalankan Difusi Stabil 3X Lebih Cepat dengan Biaya Lebih Rendah – Menuju AI

Mencapai Peringkat 33 (dari 186) di NASA Harvest Field Boundary… – Menuju AI

Penulis: Menuju Tim Editorial AI

Awalnya diterbitkan di Menuju AI.

Tersedia untuk Akses Awal di OctoML Compute Service di AWS

Ini adalah Postingan Tamu Bersponsor yang dipersembahkan oleh OctoML untuk Anda.

Untuk tim fanatik AI seperti kami, sangat menyenangkan melihat pasar AI lepas landas selama 12 bulan terakhir. Hambatan untuk masuk semakin rendah untuk pembuat AI. Biaya yang mahal untuk melatih model baru adalah biaya di muka yang semakin banyak ditanggung oleh penyedia API sumber tertutup seperti OpenAI, serta peneliti dan proyek yang membangun model dasar sumber terbuka seperti Stable Diffusion, Whisper, LLaMA, dan lainnya.

Bahkan dengan pengurangan biaya pelatihan di muka secara drastis, kami terus mendengar bahwa biaya komputasi jangka panjang dari penyebaran produksi mengancam kelayakan ekonomi dari setiap penawaran AI. Dan itu jika pengembang atau perusahaan bahkan bisa mendapatkan akses ke AI menghitung mereka ingin membuat aplikasi/layanan mereka di tempat pertama.

Di OctoML, kami memiliki misi untuk menghadirkan layanan komputasi AI yang terjangkau bagi mereka yang menginginkan kendali atas bisnis yang mereka bangun. Itulah mengapa kami membuat layanan komputasi baru, yang kini tersedia dalam akses awal. Ini memberikan infrastruktur AI dan teknik pengoptimalan pembelajaran mesin canggih yang hanya dapat Anda temukan di layanan AI skala besar seperti OpenAI, tetapi memberi Anda kekuatan untuk mengontrol API Anda sendiri, memilih model Anda sendiri, dan bekerja sesuai anggaran AI Anda.

Pengguna akses awal dapat mencoba model Stable Diffusion 2.1 tercepat (tanpa mengubah akurasi/kinerja model) di pasar, tanpa perlu melatih atau melatih ulang model. Berikut adalah beberapa data awal yang menunjukkan perolehan kinerja:

Difusi Stabil Berjalan Sangat Cepat di A10Gs Mengapa Anda Menunggu di A100s?

Kami mendengar berkali-kali dari pengembang AI bahwa ketersediaan GPU menghambat kemampuan mereka untuk membuat aplikasi bertenaga AI baru mereka. Ketika kami mengklik dua kali pada percakapan ini, kami menemukan bahwa organisasi percaya bahwa hanya perangkat keras NVIDIA yang lebih baru yaitu A100 yang memberikan harga/kinerja yang mereka butuhkan untuk menjalankan model mereka dalam skala besar. Itulah mengapa kami sangat senang untuk berbagi bahwa A10G dapat memberikan pengalaman pengguna yang tepat, yaitu 1,35 detik, yang dibutuhkan aplikasi bertenaga Stable Diffusion arus utama mana pun. Dan yang terpenting, A10G tersedia di mana-mana dan tidak dijatah seperti A100.

Tidak hanya versi OctoML yang dioptimalkan dari Stable Diffusion 2.1 yang sangat cepat, versi ini benar-benar mengungguli 30% konfigurasi do-it-yourself terbaik di kelasnya yang tersedia bagi pengguna tingkat lanjut yang memiliki pengalaman dalam rekayasa pembelajaran mesin. Konfigurasi DIY yang berjalan pada A100 menggunakan paket xFormers dari Meta yang memanfaatkan implementasi perhatian efisien memori terdepan, kernel yang menyatu, dan teknik canggih lainnya untuk mendapatkan kinerja tinggi pada GPU yang berjalan pada perangkat keras paling tangguh (dengan asumsi Anda bisa mendapatkannya). Bahkan dengan tingkat kecanggihan DIY tersebut dan berjalan pada A100, versi OctoML dari Stable Diffusion 2.1 sebenarnya mengungguli performanya pada perangkat keras yang kurang bertenaga.

Layanan komputasi OctoML menjalankan Difusi Stabil 3x lebih cepat

Bagaimana OctoML dibandingkan dengan layanan yang dihosting? 3x lebih cepat, ⅕ biayanya.

Saat menjalankan AI dalam produksi, layanan yang dihosting seperti HuggingFace (Inference Endpoints) adalah opsi yang populer karena mudah digunakan dan mengurangi kerumitan penerapan manual dan manajemen infrastruktur. Sekarang kami telah membumikan Anda pada kenyataan bahwa Anda tidak memerlukan perangkat keras NVIDIA terbaru/terhebat untuk menjalankan model Anda, mari bandingkan dengan HuggingFace, yang merupakan sumber distribusi paling populer untuk Difusi Stabil.

Sedangkan versi HuggingFace yang berjalan di Titik Akhir Inferensi mereka—yang infrastrukturnya telah dirancang untuk dan dioptimalkan untuk komunitas peneliti ML—belum dikembangkan untuk memberikan layanan komputasi terbaik di kelasnya.

Sebagai bukti, kami menyoroti bahwa model Difusi Stabil kami yang dihosting di layanan komputasi kami memiliki rentang kecepatan antara 2X pada kualitas gambar yang lebih rendah (512×512, 30 langkah) hingga 3X lebih baik pada kualitas gambar yang sangat tinggi (768× 768, 150 langkah).

Percepatan 2,6X pada gambar berkualitas lebih rendah
512×512, 30 langkah
3,6X Mempercepat dalam gambar berkualitas tinggi
Keterangan: 768×768, 150 langkah

Cara memenangkan pertempuran aplikasi AI

OctoML memberi Anda pilihan dan fleksibilitas untuk menyesuaikan harga dan performa untuk kasus penggunaan Anda dan pengalaman yang ingin Anda berikan kepada pengguna.

Itu juga dapat memberi bisnis Anda keunggulan kompetitif yang besar.

Bayangkan Anda memiliki aplikasi yang menjalankan Stable Diffusion dari OctoML, dan aplikasi bersaing bertenaga AI menggunakan Hugging Face. Mereka membutuhkan waktu hampir 4X lebih lama untuk mengirimkan gambar dengan kualitas yang sama kepada pelanggan– hampir satu menit! Dan itu akan menelan biaya 5X lipat dari yang Anda bayarkan menggunakan OctoML. Jika persyaratan kualitas gambar Anda fleksibel, Anda dapat mengirimkan gambar dengan OctoML dengan harga kurang dari 1/100 sen.

Aspek unik lain dari pendekatan OctoML adalah bahwa tidak seperti solusi lain di pasaran, OctoML mendukung penyetelan halus bebas gesekan untuk menyesuaikan Difusi Stabil terhadap set data Anda sendiri. Pendekatan lain mengharuskan model dikompilasi ulang setiap kali ada penyetelan halus yang jika dilakukan dengan TensorRT dapat memakan waktu sekitar 30 menit.

Untuk mendapatkan akses awal ke akses awal layanan komputasi OctoML, silakan daftar di sini.

Jika Anda tertarik untuk bekerja sama dengan kami dalam persyaratan/kebutuhan penyesuaian Anda, atau jika Anda memiliki kasus penggunaan untuk memanfaatkan model Difusi Stabil kami di luar layanan komputasi kami karena Anda membangun infrastruktur layanan Anda sendiri, hubungi kami di sini agar kami dapat menjadwalkan waktu untuk berbicara.

Diterbitkan melalui Menuju AI

Author: Scott Anderson