
Author(s): Sean Benhur
Awalnya diterbitkan di Menuju AI.
Foto oleh Romain Dancre di Unsplash
Dokumen membawa sumber penting dari informasi penting. Sebagian besar informasi terstruktur dan tidak terstruktur dari perusahaan tersedia sebagai Dokumen. Ini tersedia dalam bentuk dokumen PDF asli dan dokumen PDF yang dipindai seperti Faktur Bank, dokumen Hukum, dan kartu ID verifikasi, dari waktu ke waktu informasi pada dokumen ini digunakan untuk banyak aplikasi menggunakan teknik seperti Pengenalan Karakter Optik (OCR), Visi Komputer (CV) dan Pemrosesan Bahasa Alami (NLP)
Dokumen AI mengacu pada teknik Kecerdasan Buatan yang diterapkan untuk menganalisis dan memahami dokumen untuk berbagai tugas. Tugas penting meliputi ekstraksi Formulir/Faktur, Pengenalan Karakter Optik, Deteksi Tabel, dan Ekstraksi Tabel.
Pada artikel ini, kita akan melihat
Tugas utama dan kumpulan data yang umum di Dokumen AI. Metodologi seperti makalah penelitian terbaru, model pra-pelatihan, dan teknik yang ada untuk setiap tugas dibahas. Masalah saat ini di domain ini.
Tugas dan Kumpulan Data
Berbagai jenis tugas lazim di Dokumen AI untuk menyelesaikan banyak kasus penggunaan bisnis. Dalam banyak kasus, beberapa tugas digunakan bersama untuk menyelesaikan satu kasus penggunaan. Misalnya, untuk tugas ekstraksi faktur, biasanya menggunakan sistem OCR untuk mengekstrak teks dari pdf dan sistem Ekstraksi Informasi Visual untuk mengenali entitas. Di bagian ini, kita akan melihat setiap tugas dan kumpulan data umum yang digunakan untuk tugas tersebut.
Pengenalan Karakter Optik
Pengenalan Karakter Optik (OCR) mengacu pada teks di mana kami mengenali dan mengekstrak teks. Ini adalah tugas penting dalam pipeline Dokumen AI. OCR juga merupakan salah satu tugas tersulit karena teks bisa dalam format yang berbeda dan kualitas dokumen yang dipindai bisa rendah dan tulisan tangan teks bisa dalam format yang buruk. Ada banyak tolok ukur dan kumpulan data yang tersedia untuk tugas ini; MNIST dataset yang terkenal adalah jenis dataset OCR. Tolok ukur lainnya termasuk IAM Handwriting yang terdiri dari gambar dokumen tulisan tangan, dan ICDAR 2003, yang terdiri dari gambar pemahaman adegan.
Analisis Tata Letak Dokumen
Tugas ini mengacu pada mengidentifikasi struktur dan tata letak dokumen, seperti paragraf, tabel, dan bagan yang diidentifikasi. ICDAR 2013 adalah salah satu tolok ukur populer untuk tugas ini yang menyertakan gambar teks dari anotasi tingkat kata; dataset lain adalah PubLayNet yang terdiri dari gambar dokumen yang dianotasi pada level struktur, seperti teks, tabel, gambar, dan kategori serupa lainnya.
Ekstraksi Informasi Visual
Ini mengacu pada tugas mengekstraksi informasi kunci dari dokumen. Dalam tugas ini, hanya entitas kunci yang diekstraksi, tidak seperti OCR, di mana seluruh teks diekstraksi, tetapi di sini hanya teks dari entitas kunci dan informasi spasial yang sama. Ekstraksi faktur, Ekstraksi formulir adalah beberapa tugas Ekstraksi Informasi Visual. Tolok ukur termasuk FUNSD, yang terdiri dari formulir beranotasi dengan informasi tentang entitas semantik, Entitas Bernama, dan Informasi Spasial. CORD adalah tolok ukur lain yang terdiri dari gambar tanda terima yang dianotasi pada setiap wilayah teks dengan informasi tingkat spasial.
Gambar tanda terima beranotasi yang menunjukkan koordinat teks dalam format JSON [Source].
Menjawab Pertanyaan Visual Dokumen
Tugas ini mengacu pada menjawab pertanyaan berdasarkan teks yang disediakan dalam dokumen. Tugas ini berbeda dari tugas Menjawab Pertanyaan Visual lainnya karena sifat kompleks dari gambar dokumen. Biasanya teks diekstraksi terlebih dahulu dengan model OCR, baru kemudian dilakukan pemodelan. DocVQA adalah kumpulan data pertama yang memperkenalkan tugas ini; itu memiliki dua subtugas di mana yang pertama berisi satu gambar dokumen dan satu pertanyaan dan yang kedua terdiri dari kumpulan gambar dokumen dan satu pertanyaan.
Contoh Gambar dari DocVQA [Source]
Klasifikasi Gambar Dokumen
Dalam tugas ini, gambar dokumen diklasifikasikan ke dalam jenis dokumen seperti faktur, dokumen hukum, resume, dan banyak lainnya.RVL-CLIP adalah tolok ukur populer yang digunakan untuk tugas ini, terdiri dari gambar enam belas kategori, seperti seperti memo, email, laporan ilmiah, dan folder file.
Deteksi Tabel dan Ekstraksi Tabel
Tabel adalah sumber informasi penting dalam dokumen apa pun, terutama terdiri dari informasi numerik. Dalam tugas ini, kami berfokus untuk mengenali letak tabel pada dokumen dan mengekstrak informasi di dalamnya. Tugas ini juga memiliki beberapa subtugas, seperti Pengenalan struktur tabel, di mana baris, kolom, dan sel tabel diidentifikasi, dan subtugas lainnya, Analisis Fungsional Tabel, di mana nilai kunci diekstraksi. PubTables-1M adalah kumpulan data yang baru dirilis yang terdiri dari 948K PDF beranotasi untuk tugas Deteksi Tabel, Pengenalan Struktur Tabel, dan Analisis Fungsional Tabel.
Tugas Berbeda dalam Deteksi Tabel [Source]
Metodologi
Gambar dokumen berbeda dari gambar normal karena berisi beberapa tabel, informasi numerik, dan teks. Lokasi teks-teks ini juga diperlukan untuk beberapa tugas yang disebutkan di atas. Sebelum munculnya pembelajaran mendalam, sebagian besar tugas di atas diselesaikan melalui sistem berbasis aturan dan heuristik dengan beberapa algoritme pemrosesan gambar dan teknik OCR. Pada bagian ini, kita akan membahas ikhtisar beberapa metode untuk menyelesaikan tugas-tugas ini serta terobosan penelitian terbaru di bidang ini.
Teknik berbasis Deep Learning
Setelah kemunculan Deep Learning dan kebangkitan CNN, banyak metode visi komputer telah digunakan untuk tugas-tugas ini. Tugas seperti tugas Analisis Tata Letak Dokumen dan Deteksi Tabel sepenuhnya diperlakukan sebagai tugas Deteksi Objek di mana model deteksi objek seperti RCNN, Faster-RCNN, dan YOLO digunakan.
Untuk Klasifikasi Citra Dokumen, pendekatan umum yang digunakan untuk Klasifikasi Citra Alam dapat digunakan. Beberapa pendekatan, seperti Dauphnee et al., menggunakan konten tekstual dan visual untuk mengklasifikasikan dokumen.
Tugas yang teksnya juga merupakan sumber informasi penting seperti Ekstraksi Dokumen Visual dan Penjawab Pertanyaan Visual Dokumen. Pendekatan dasar adalah menggunakan pipa yang terdiri dari model Deteksi Objek untuk menemukan label kata, model NER untuk mengekstrak entitas bernama, dan model OCR untuk mengekstrak teks. Ada pendekatan lain di mana model end-to-end dapat digunakan, Palm-et-al menggunakan jaringan end-to-end yang menyusun CNN dengan blok MLP yang mengekstraksi entitas yang diperlukan.
Meskipun model ini dapat mencapai hasil yang lebih baik pada tugas AI Dokumen, model ini sering kali memerlukan sejumlah besar data berlabel, tetapi anotasi manusia merupakan tugas yang intensif dan mahal untuk masalah Kecerdasan Dokumen. Namun karena banyaknya ketersediaan dokumen beranotasi, kami dapat memanfaatkan dokumen tanpa anotasi. Setelah kesuksesan arsitektur Transformer dalam transfer pembelajaran untuk NLP, Vision, dan area lainnya, popularitasnya juga meningkat di Document AI.
Mari kita lihat beberapa model pra-pelatihan AI Dokumen utama. Model yang telah dilatih sebelumnya ini tersedia untuk umum di Huggingface Hub untuk menyempurnakan tugas hilir.
LayoutLM
LayoutLM adalah model pertama yang mengeksplorasi teknik prapelatihan bersama tata letak tekstual dan informasi visual dokumen. Ini menggunakan model BERT yang telah dilatih sebelumnya untuk tulang punggung teks, penyisipan Posisi 2D yang mewakili posisi entitas, dan penyisipan Gambar yang diekstrak dari Faster-RCNN. Model ini dilatih sebelumnya pada Tugas Pemodelan Bahasa Visual Bertopeng dan tugas Klasifikasi Gambar Dokumen Multi-Label pada sekumpulan besar dokumen yang tidak dianotasi. Untuk memeriksa efisiensi hilir, model disesuaikan pada FUNSD, Tugas Pemahaman Formulir, SROIE — Tugas Pemahaman Tanda Terima, dan RVL-CLIP — tugas Klasifikasi Gambar Dokumen. Model mencapai hasil yang lebih tinggi dibandingkan dengan teknik sebelumnya dan model SOTA. Selanjutnya, LayoutLM ditingkatkan, dan LayoutLMV2 dan LayoutLMV3 dirilis. LayoutLMV3 tidak bergantung pada tulang punggung teks atau visi apa pun untuk mengekstraksi penyematan teks atau gambar yang secara signifikan menghemat banyak parameter. Ini menggunakan arsitektur Transformer MultiModal terpadu dengan tiga teknik prapelatihan yang berbeda; itu juga mencapai hasil yang lebih baik pada banyak tugas seperti pemahaman tanda terima, pemahaman formulir, klasifikasi gambar dokumen, dan menjawab pertanyaan visual dokumen.
Arsitektur LayoutLM [Source]
TrOCR
TrOCR adalah model OCR pertama yang menggunakan arsitektur berbasis Transformer end-to-end untuk Pengenalan Karakter Optik. Pendekatan sebelumnya memanfaatkan CNN untuk Pemahaman Gambar dan RNN untuk pembuatan karakter. Model menggunakan arsitektur Transformer di mana pembuat enkode menggunakan Vision Transformer yang telah dilatih sebelumnya, dan dekoder menggunakan BERT yang telah dilatih sebelumnya dengan memanfaatkan keuntungan dari data tidak berlabel yang telah dilatih oleh model karena tidak menggunakan CNN apa pun; model TrOCR mengarsipkan hasil yang lebih baik untuk pengenalan karakter pada berbagai jenis dokumen dan juga gambar pemandangan.
Arsitektur TroCR [Source]
Transformator Meja
Tabel membawa banyak informasi penting yang tersedia dalam format terstruktur; karena struktur baris, kolom, dan sel yang koheren, sulit untuk mendeteksi dan mengekstrak nilai di dalam sel. Table Transformer diperkenalkan di koran, PubTables-1M: Menuju ekstraksi tabel komprehensif dari dokumen tidak terstruktur yang dicapai Keadaan kinerja ketika DETR arsitektur transformator berbasis deteksi objek diterapkan untuk tugas tersebut. Solusi sebelumnya menggunakan model berbasis CNN dengan serangkaian langkah pra-pemrosesan atau pasca-pemrosesan untuk menemukan nilai.
Kesimpulan
Jadi dengan ketersediaan model pra-terlatih baru-baru ini dalam AI Dokumen, banyak tugas yang melibatkan dokumen dapat diselesaikan dengan menggunakan informasi yang kaya pada dokumen. Beberapa masalah umum di bidang ini adalah ketersediaan kumpulan data untuk penggunaan umum; karena dokumen berisi informasi pribadi, banyak kumpulan data hanya digunakan untuk kasus penggunaan pribadi. Namun demikian, penelitian di lapangan telah meningkat pesat dalam beberapa tahun terakhir.
Referensi:
Pembelajaran Mesin untuk Dokumen awalnya diterbitkan di Towards AI on Medium, di mana orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.
Diterbitkan melalui Menuju AI