
Pengarang: Leo Wang
Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.
TransUNet — Merevolusi Segmentasi Citra Tradisional
Merenovasi U-Net dengan menggabungkan CNN dan Transformer untuk mencapai hasil SOTA pada tugas segmentasi gambar.
Daftar isi
· Intuisi
· TransUNet
Down-Sampling (Encoding)
Up-Sampling (Decoding)
· Hasil
· Implementasi
· Referensi
Foto oleh jasper guy di Unsplash
Intuisi
Saat ini, U-Net telah mendominasi tugas-tugas segmentasi citra, khususnya di bidang pencitraan medis. Di antara sebagian besar U-Net yang diusulkan sampai sekarang, Convolution Neural Networks (CNN) banyak digunakan sebagai struktur dasarnya.
Namun, CNN hanya dapat mengeksploitasi informasi jarak pendek (atau lokal) secara efektif karena ukuran kernel convolutional mereka yang kecil, gagal untuk mengeksplorasi informasi jangka panjang secara memadai dalam tugas-tugas yang memiliki fitur dengan hubungan jarak jauh.
Transformer, biasanya digunakan untuk menangani tugas Pemrosesan Bahasa Alami, dapat menjelajahi informasi jarak jauh secara efektif, tetapi tidak kuat dalam mengeksploitasi informasi jarak pendek seperti yang dilakukan CNN.
Untuk menggunakan kekuatan CNN dapat mengkompensasi kekurangan Transformers dan sebaliknya dalam tugas segmentasi gambar, Chen et al. mengusulkan TransUNet, yang juga merupakan model segmentasi citra pertama yang dibangun dari Transformer. Perlu juga disebutkan bahwa penulis memverifikasi hasil yang menjanjikan dari menggabungkan CNN dan Transformers dengan terlebih dahulu mencoba menggunakan arsitektur Transformer murni untuk segmentasi gambar. Namun, itu tidak berhasil serta memperkenalkan CNN dalam arsitekturnya karena transformer tidak sebaik CNN dalam mengeksploitasi fitur lokal.
TransUNet
Kita tahu bahwa di U-Net (Gbr. 1) ada encoder (jalur down-sampling) dan decoder (jalur up-sampling). Jalur down-sampling akan mengkodekan fitur gambar ke peta tingkat tinggi, dan detailnya akan digunakan oleh jalur up-sampling untuk menghasilkan topeng akhir dengan dimensi yang sama dengan input.
Gambar 1: Diagram U-Net dari makalah asli oleh Ronneberger et al.
Demikian pula, TransUNet juga terdiri dari encoder dan decoder untuk encoding dan decoding informasi gambar untuk menghasilkan segmentasi. Berbeda dari U-Nets tradisional, TransUNet malah menggunakan arsitektur CNN-Transformer hybrid sebagai encoder untuk mempelajari informasi spasial resolusi tinggi dari CNN dan informasi konteks global dari Transformers.
Gambar 2: Ikhtisar desain arsitektur TransUNet. MSA adalah singkatan dari Multi-head Self-Attention, dan MLP adalah singkatan dari Multi-Layer Perceptron.
Untuk menguraikan langkah-langkahnya:
Down-Sampling (Encoding)
Pertama, CNN digunakan sebagai ekstraktor fitur untuk menghasilkan peta fitur untuk input, seperti yang ditunjukkan pada kotak merah muda pada Gambar. 2. Untuk setiap tingkat ekstraktor fitur, peta fitur output (yang mengkodekan fitur tingkat tinggi menengah peta) kemudian digabungkan ke jalur dekoder pada level yang sama, seperti yang ditunjukkan oleh panah putus-putus pada Gambar. 2. Kemudian, peta fitur di-token (divektorkan) menjadi penyematan bentuk 2D (n_patch, D) dengan proyeksi linier, dan D adalah panjang total embedding. Penyematan telah dilatih sebelumnya dan akan menyimpan informasi posisi peta fitur (jika Anda tidak memahami caranya, jangan khawatir tentang hal itu untuk saat ini, karena tidak akan terlalu menghalangi pemahaman Anda tentang TransUNet). Setelah mendapatkan embeddings, mereka dimasukkan ke dalam 12 lapisan Transformer untuk mengkodekan lebih sedikit informasi jarak pendek dan lebih banyak jarak jauh dari gambar. Setiap lapisan diilustrasikan pada Gambar. 2 (a), yang menggunakan modul multi-head self-attention (MSA) dan multi-layer perceptron (MLP). MSA adalah blok bangunan dasar untuk transformator dan dijelaskan di sini, dan MLP hanya terdiri dari beberapa lapisan yang terhubung penuh. Terakhir, untuk mempersiapkan jalur up-sampling, output dibentuk ulang menjadi (D, H/16, W/16). H/16 dan W/16 berarti tinggi dan lebar saat ini telah menyusut 16 kali karena operasi sebelumnya.
Gambar 3: Versi sederhana dari tinjauan arsitektur TransUNet.
Up-Sampling (Decoding)
Proses pengambilan sampel cukup mudah (tanpa teknik mewah).
Pertama, input dari CNN-Transformer encoder dijalankan oleh convolution layer 3×3 dengan aktivasi ReLU, upsampled, dan kemudian digabungkan dengan output dari ekstraktor fitur CNN tingkat ketiga. Peta fitur yang dihasilkan kemudian dijalankan melalui konvolusi 3×3 dengan lapisan aktivasi ReLU lagi. Output tersebut kemudian digabungkan dengan output dari ekstraktor fitur CNN tingkat kedua. Langkah itu diulang lagi. Sekarang, outputnya adalah topeng dalam bentuk (C, H, W), dengan C = jumlah kelas objektif, H = tinggi gambar, dan W = lebar gambar.
Penulis juga mencatat bahwa penggabungan yang lebih intensif dari fitur tingkat rendah umumnya mengarah pada akurasi segmentasi yang lebih baik.
Hasil
Model dijalankan pada dataset Synapse Multi-Organ Segmentation. Skor akhir dievaluasi dengan Koefisien Kesamaan Dadu dan jarak Hausdorff.
Seperti yang Anda lihat, TransUNet berkinerja lebih baik daripada kebanyakan arsitektur SOTA yang ada, seperti V-Net, ResNet U-Net, ResNet Attention U-Net, dan Vision Transformers, yang menunjukkan bahwa arsitektur berbasis Transformer lebih baik dalam memanfaatkan diri -attention dari CNN U-Nets berbasis self-attention lainnya.
Tabel 1: Ringkasan kinerja TransUNet dibandingkan dengan model segmentasi citra SOTA lainnya.
Implementasi
Implementasi Resmi TransUNet
Terima kasih! ❤️
Semoga kami memohon kepada Anda untuk mempertimbangkan memberi kami tepuk tangan! ❤️
Referensi
TransUNet: Transformer Membuat Encoder Kuat untuk Segmentasi Citra Medis
TransUNet — No More CNNs for Image Segmentation awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.
Diterbitkan melalui Menuju AI