
Pengarang: Kevin Berlemont, PhD
Awalnya diterbitkan di Menuju AI.
Foto oleh Artem Maltsev di Unsplash
Siapa yang belum pernah menggunakan Stack Overflow untuk menemukan jawaban atas pertanyaan? Memprediksi tag pertanyaan dengan benar adalah masalah yang sangat menantang karena melibatkan prediksi sejumlah besar label di antara beberapa ratus ribu kemungkinan label.
Metode klasifikasi tradisional seperti Support Vector Machines atau Decision Tree tidak dirancang untuk menangani sejumlah besar label karena tiga tantangan utama:
kemacetan karena kendala memori adanya beberapa label dengan sangat sedikit contoh (label ekor) label biasanya berkorelasi, yang dapat membuat sulit untuk membedakan antara label yang berbeda
Pada artikel ini, saya akan memberikan gambaran singkat tentang klasifikasi multilabel ekstrim dengan beberapa definisi penting. Pada bagian kedua, saya akan menyajikan dan menjelaskan empat kategori utama algoritma XML beserta beberapa batasannya.
Ikhtisar XMLC
Tujuan model XMLC adalah untuk memprediksi sekumpulan label untuk input pengujian tertentu. Namun, algoritme tipikal tidak menghasilkan hasil biner melainkan memberikan skor relevansi untuk label mana yang paling sesuai. Poin ini penting karena menggeser masalah dari masalah klasifikasi ke masalah peringkat. Oleh karena itu, metrik evaluasi untuk algoritme ini perlu mencerminkan aspek pemeringkatan, bukan hanya klasifikasi. Label dapat dipilih dengan menerapkan ambang sederhana pada daftar peringkat yang disediakan oleh model.
Seperti disebutkan sebelumnya, sampel dan label tidak terdistribusi secara seragam dalam masalah klasifikasi multilabel yang ekstrim. Misalnya, dalam kumpulan data Wiki10–30K [1], hanya 1% label yang memiliki lebih dari 100 sampel pelatihan. Model yang dilatih tanpa kekhususan distribusi ekor ini akan menjadi bias terhadap label yang paling ada.
Jumlah kemunculan label dalam kumpulan data teks Wikipedia
Untuk memperhitungkan distribusi ekor dalam metrik, seseorang harus menggunakan metrik berbasis kecenderungan. Metrik ini mirip dengan metrik peringkat pada umumnya, tetapi juga memperhitungkan seberapa baik performa model pada label ekor. Hal ini mencegah model mencapai skor tinggi hanya dengan memprediksi label yang sering muncul. Misalnya, versi berbasis kecenderungan dari [email protected] metrik adalah:
Berbasis kecenderungan [email protected]
di mana p_l mewakili kecenderungan label. Jadi label ekor memiliki skor yang meningkat dalam metrik.
Algoritme XMLC penginderaan terkompresi
Ide di balik algoritme jenis ini adalah untuk memampatkan ruang label menjadi ruang penyematan yang lebih kecil. Karena jarangnya ruang label asli, dimungkinkan untuk memulihkan label asli dari prediksi di ruang label yang disematkan. Algoritme penginderaan terkompresi tipikal dapat diuraikan dalam tiga langkah:
Kompresi: Ruang label disematkan ke dalam ruang yang lebih kecil. Pembelajaran: Belajar memprediksi label terkompresi. Karena ruang yang disematkan cukup kecil, metode klasifikasi label tipikal dapat digunakan, seperti relevansi biner, yang memprediksi setiap elemen menggunakan pengklasifikasi biner. Rekonstruksi: Mengubah kembali ruang tertanam ke ruang asli
Meskipun metode ini memungkinkan penggunaan algoritme klasifikasi label tipikal karena ruang terkompresi yang kecil, menyelesaikan langkah rekonstruksi dapat menjadi mahal secara komputasi. Oleh karena itu, diperlukan teknik pengurangan ruang yang efisien. Satu solusi [2] adalah dengan menggunakan pendekatan SVD (Linear Label Space Transformation) untuk menyematkan ruang label karena akan mempertimbangkan korelasi label tetapi menyediakan kerangka kerja formal untuk memadatkan dan merekonstruksi ruang label asli.
Algoritme penginderaan terkompresi yang lebih canggih telah dikembangkan dengan memperhitungkan lebih banyak korelasi selama kompresi. Misalnya, adalah mungkin untuk memperhitungkan tidak hanya korelasi label-label tetapi juga korelasi label dan fitur. Menambahkan informasi tambahan seperti itu akan meningkatkan klasifikasi dibandingkan dengan metode sebelumnya (Principle Label Space Transformation).
Algoritma XMLC berbasis Aljabar Linear
Metode berbasis aljabar linier mirip dengan metode penginderaan terkompresi tetapi bertujuan untuk meningkatkan perbaikan kecil di atasnya. Pada bagian ini, saya akan memberikan ikhtisar tentang algoritma yang paling dikenal berdasarkan aljabar linier untuk melakukan klasifikasi multilabel ekstrim.
Pemilihan Subset: Pemilihan subset adalah metode yang paling umum digunakan untuk menjaga agar masalah XMLC tetap dapat dilakukan. Idenya adalah untuk menemukan subset label yang bagus dan kemudian menerapkan pengklasifikasi ke subset ini untuk akhirnya menskalakan kembali prediksi ke set data lengkap. Untuk memilih subhimpunan label, seseorang dapat menggunakan prosedur pengambilan sampel di mana probabilitas label sebanding dengan skor label pada subset terbaik.
Dekomposisi Peringkat Rendah: Metode ini mengasumsikan dekomposisi peringkat rendah dari matriks label, dan kemudian menggunakan kerangka kerja metode minimalisasi risiko untuk menyelesaikannya. Satu peringatan untuk asumsi tingkat rendah adalah karena adanya outlier, asumsi ini tidak selalu diverifikasi, karena outlier mungkin tidak terbentang di ruang embedding.
Embeddings menjaga jarak: Nama metode ini sangat mudah. Ruang embedding dihasilkan dengan menjaga jarak antara label. Prediksi kemudian dilakukan dengan menggunakan metode k-nearest neighbor di dalam embedding space.
Tambahan Aglomerasi Fitur: Metode ini asli karena bertujuan untuk mengurangi dimensi ruang fitur secara langsung. Dalam kasus fitur jarang jarang, metode ini memberikan kecepatan tinggi dengan kehilangan akurasi minimal. Pengurangan ruang fitur dilakukan dengan menggabungkan kelompok fitur dengan ukuran seimbang. Pengelompokan ini biasanya dilakukan dengan menggunakan pengelompokan hierarkis.
Algoritma berbasis pohon
Metode berbasis pohon bertujuan membagi ruang label berulang kali untuk mengurangi ruang pencarian selama prediksi. Idenya adalah mengurutkan label ke dalam kelompok untuk membuat ruang meta-label. Masing-masing meta-label kemudian ditautkan ke multi-label classifier untuk menentukan meta-label milik label. Di dalam meta-label, karena jumlah label yang lebih sedikit, dimungkinkan untuk menggunakan classifier klasik untuk memprediksi label.
Metode ini biasanya jauh lebih cepat daripada metode penyisipan, karena struktur pohon mengurangi waktu pelatihan dan pencarian. Mereka biasanya tidak bekerja lebih baik daripada metode dasar tetapi melakukannya jauh lebih cepat. Selain itu, algoritme ini sangat terukur karena meta-label memungkinkan biaya klasifikasi konstan (meta-label seimbang).
Metode pembelajaran mendalam
Seperti pada sebagian besar masalah pembelajaran mesin, metode pembelajaran mendalam sudah mulai digunakan dalam klasifikasi label ekstrem. Namun, penggunaan metode tersebut hanya baru-baru ini karena fakta bahwa ekor label yang berat menyiratkan sejumlah kecil data pelatihan yang tersedia untuk label tersebut. Ini berbeda dengan apa yang dibutuhkan metode pembelajaran mendalam. Ruangnya besar, dan modelnya juga harus besar.
Namun, pembelajaran mendalam sangat efisien dalam ekstraksi konten dan memberikan penyematan yang sangat representatif. Awalnya, jaringan saraf convolutional digunakan untuk mengekstraksi embeddings, tetapi pendekatan ini telah dihilangkan karena terbukti bukan yang paling efisien untuk embeddings teks. Kerangka kerja umum untuk metode deep learning yang diterapkan pada XML disebut DeepXML dan telah ditetapkan oleh [3].
Framework ini memiliki empat modul:
Modul pertama memiliki tujuan untuk memperoleh penyisipan perantara dari fitur yang akan digunakan nanti. Ini bisa berarti pengelompokan label atau proyeksi label agar masalah tetap dapat diselesaikan. Modul kedua menggunakan apa yang disebut sampling negatif. Sampling negatif memilih label yang paling membingungkan dari sampel yang seharusnya diprediksi secara positif. Ini memiliki efek mengurangi waktu pelatihan per label, karena kami hanya akan melatih sampel keras. Modul ketiga memberikan representasi fitur akhir memanfaatkan pembelajaran transfer. Akhirnya, modul terakhir sesuai dengan classifier. Karena pengambilan sampel negatif, jumlah pelatihan terbatas, dan dapat dilakukan dengan metode pembelajaran yang mendalam.
Metode pembelajaran mendalam mengungguli semua metode XML lainnya, seperti metode berbasis pohon. Namun, ini mengorbankan waktu pelatihan dan ruang memori.
Dari penandaan dokumen hingga rekomendasi produk dan periklanan, XML telah menggunakan serangkaian masalah yang sangat beragam. Baru-baru ini, pekerjaan telah dilakukan [4] dalam klasifikasi multi-label ekstrim multimodal. Penggunaan metode XML yang begitu luas dalam produk setiap hari inilah yang membutuhkan eksplorasi lebih lanjut dari metode XML seperti metode pembelajaran mendalam.
Referensi
[1] Repositori klasifikasi ekstrim: Kumpulan data dan kode multi-label, Bhatia, K. dan Dahiya, K. dan Jain, H. dan Kar, P. dan Mittal, A. dan Prabhu, Y. dan Varma, M., 2016.
[2] Klasifikasi multilabel dengan transformasi ruang label utama. Farbound Tai dan Hsuan-Tien Lin. 2012
[3] Deepxml: Kerangka pembelajaran multi-label ekstrim yang diterapkan pada dokumen teks pendek. Kunal Dahiya, Deepak Saini, Anshul Mittal, Ankush Shaw, Kushal Dave, Akshay Soni, Himanshu Jain, Sumeet Agarwal, and Manik Varma. 2021
[4] Review of Extreme Multilabel Classification, Dasgupta, A., Katyan, S., Das, S. and Kumar, P. 2023
Diterbitkan melalui Menuju AI