
Pengarang: Gowtham SR
Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.
Matriks Kebingungan ke Matriks Tanpa Kebingungan Hanya dalam 5 menit
Apa yang dimaksud dengan presisi matriks kebingungan, ingatan, akurasi, skor F1, FPR, FNR, TPR, TNR?
gambar dari Unsplash diunggah oleh Siora Photography
Gambar oleh penulis
Di awal karir ilmu data Anda, matriks kebingungan akan sangat membingungkan, kita akan memiliki banyak pertanyaan seperti, kapan harus menggunakan presisi? kapan harus menggunakan recall? Dalam kasus apa akurasi dapat digunakan? Jadi, saya akan mencoba menjawab pertanyaan-pertanyaan ini di blog ini.
Apa itu matriks kebingungan?
Confusion matrix adalah metode untuk meringkas hasil prediksi dan nilai aktual dalam bentuk matriks untuk mengukur kinerja suatu masalah klasifikasi.
Di sini kami merepresentasikan prediksi sebagai Positif(P) atau Negatif(N) dan nilai kebenaran sebagai Benar(T) atau Salah(F).
Mewakili kebenaran dan nilai prediksi bersama-sama, kita mendapatkan True Positive (TP), True Negative (TN), False Positive (FP), dan False Negative (FN).
Gambar oleh penulis- Matriks Kebingungan
Jadi apa itu TP, TN, FP, dan FN? Di sini kita akan mempertimbangkan contoh tes kehamilan, di mana seorang wanita hamil yang sebenarnya dan seorang pria gemuk berkonsultasi dengan dokter, dan hasil tes diberikan pada gambar di bawah ini.
Gambar oleh penulis-confusion matrix
TP(True Positive): Wanita tersebut hamil, dan diperkirakan hamil. Di sini P mewakili prediksi positif, dan T menunjukkan bahwa prediksi kami sebenarnya benar.
FP(False Positive): Seorang pria gemuk diprediksi hamil, yang sebenarnya salah. Di sini P mewakili prediksi positif, dan F menunjukkan bahwa prediksi kami sebenarnya salah. Ini juga disebut kesalahan Tipe I.
FN(False Negative): Seorang wanita yang benar-benar hamil diperkirakan tidak hamil. Di sini N mewakili prediksi negatif, dan F menunjukkan bahwa prediksi kami sebenarnya salah. Ini juga disebut kesalahan Tipe II.
TN(True Negative): Seorang pria gemuk diprediksi tidak hamil. Di sini N mewakili prediksi Negatif, dan T menunjukkan bahwa prediksi kami sebenarnya benar.
Dalam matriks konfusi, elemen diagonal (TP dan TN) selalu mewakili klasifikasi yang benar, dan elemen selain diagonal mewakili klasifikasi yang salah.
Ketepatan:
Akurasi = (TP+TN)/(TP+FP+FN+TN) Akurasi memberikan persentase klasifikasi yang benar. Jika kita memiliki 100 observasi dan model kita mengklasifikasikan 80 observasi dengan benar, maka akurasinya adalah 80%. Akurasi saja tidak dapat digunakan untuk memutuskan apakah model kita baik atau buruk. Karena data kami memiliki 900 kelas positif dan 100 kelas negatif, dan jika model kami memprediksi semua pengamatan sebagai positif, maka model tersebut akan dianggap 90% akurat, yang bukan merupakan hal yang baik untuk dilakukan, jadi kami juga menggunakan metrik berikut.
presisi:
Precision = TP/(TP+FP) Dari semua prediksi positif, berapa banyak yang benar-benar positif? Presisi selalu berfokus pada prediksi positif. Presisi juga disebut nilai prediksi positif. Kami menggunakan presisi setiap kali hasil Positif Palsu penting.
Misalnya: Deteksi spam email. Di sini Positif palsu terjadi ketika email yang bukan spam diprediksi sebagai spam, dan pengguna kehilangan informasi penting.
Mengingat:
Ingat = TP/(TP+FN) Dari semua nilai sebenarnya yang sebenarnya, berapa banyak yang diprediksi dengan benar sebagai positif? Penarikan tersebut juga disebut sensitivitas atau True positive rate (TPR). Ingat selalu berfokus pada hal positif yang sebenarnya. Kami menggunakan recall setiap kali hasil Negatif Palsu penting.
Misal1: Dalam Tes COVID, jika seseorang dengan COVID diprediksi negatif, maka kesalahannya adalah Negatif Palsu. Jadi, orang tersebut tidak akan mendapatkan pengobatan COVID, dan juga ada kemungkinan dia akan menyebarkan penyakit tersebut.
Contoh2: Dalam sistem alarm kebakaran, kita dapat menggunakan penarikan kembali karena alarm negatif palsu lebih berbahaya daripada positif palsu.
Skor F1:
Skor F1 = 2 * presisi * ingat/(presisi + ingat). Ini adalah rata-rata harmonik antara presisi dan recall, dan kita dapat menggunakan skor f1 ketika kita tidak benar-benar mengetahui apakah FP penting atau FN penting dalam masalah kita.
Metrik lainnya:
Tingkat Negatif Sejati(TNR) = TN/(TN+FP)
Tingkat Positif Palsu(FPR) = FP/(FP+TN)
Tingkat Negatif Palsu(FNR)= FN(FN+TP)
Model Klasifikasi Anjing:
Sekarang mari kita lihat contoh dan memahami bagaimana metrik di atas dapat diterapkan dalam praktik. Mari kita pertimbangkan kita sedang membuat model untuk mengklasifikasikan gambar ke dalam salah satu dari 2 kelas, Anjing atau Bukan Anjing.
Gambar oleh penulis- Klasifikasi anjing
Gambar di atas merupakan masukan untuk model kita, tujuannya adalah untuk mengklasifikasikan menjadi anjing atau bukan anjing.
Sekarang mari kita lihat prediksi yang dilakukan oleh model kita.
Gambar oleh penulis- Klasifikasi anjing
Hasil model kami adalah prediksi anjing: 6 dan Bukan prediksi anjing: 4, kami perlu mengevaluasi prediksi.
Gambar oleh penulis- Klasifikasi anjing
Dari 6 prediksi anjing, 5 benar-benar benar, dan dari 4, bukan prediksi anjing, 2 benar-benar benar.
Sekarang mari kita lihat bagaimana hasil di atas dapat direpresentasikan dalam matriks konfusi dan menghitung akurasi, presisi, recall, dan skor f1.
Gambar oleh penulis- Matriks kebingungan
Akurasi = (TP+TN)/(TP+TN+FP+FN) = (5+2)/(5+2+1+2)=0,7
Presisi = TP/(TP+FP) = 5/(5+1) = 0.83
Ingat = TP/(TP+FN) = 5/(5+2) = 0,71
Skor F1 = 2*Presisi*Recall/(Precision + Recall) =2*0.83*0.71/(0.83+0.71) = 0.77
Perhatikan bahwa kita dapat menghitung presisi, recall, dan skor f1 untuk kelas Not Dog juga, Sekarang mari kita lihat bagaimana kita dapat menghitung metrik di atas dengan sklearn di python untuk contoh yang sama.
Sekarang Anda seharusnya tidak bingung tentang matriks kebingungan. Juga, jika Anda telah memahami konsep di atas dengan baik, beri komentar pada beberapa contoh lagi di mana presisi lebih disukai daripada mengingat dan sebaliknya.
Apa pun yang bisa salah akan salah.
Ingin mendapatkan pengetahuan tentang metrik Regresi? di bawah ini adalah blognya
Metrik Regresi
Jika Anda ingin tahu apa itu penskalaan fitur? kapan harus menggunakan standardisasi? kapan harus menggunakan normalisasi? silahkan baca blog di bawah ini.
Teknik penskalaan fitur mana yang digunakan- Standardisasi vs Normalisasi.
Jika Anda ingin tahu bagaimana menganalisis data IPL, silakan baca blog di bawah ini.
Virat Kohli vs KL Rahul
Anda dapat terhubung dengan saya di LinkedIn
Confusion Matrix to no Confusion Matrix hanya dalam 5 menit awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.
Diterbitkan melalui Menuju AI