
Author(s): Ashbab khan
Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda membuat produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.
Berbagai Cara Menemukan Outlier dalam Data dan Cara Menghilangkannya Menggunakan Statistik Interkuartil
Outlier adalah titik data atau pengamatan yang jauh dari titik data lainnya atau sangat berbeda dengan titik data lainnya.
Gambar outlier | Sumber: Gambar oleh penulis
Mengapa menghapus outlier dari data
Outlier menyebabkan begitu banyak kesalahan perhitungan saat kita menggunakan statistik pada data; katakanlah kita memiliki data dengan banyak outlier, dan kita mengambil Mean dari data tersebut, dan beberapa titik data jauh lebih besar dari titik data yang tersisa maka nilai rata-rata kita akan sangat berbeda dari rata-rata sebenarnya misalnya nilai rata-rata tanpa outlier adalah 5.6. karena outlier, jadi 6.1, tapi ini salah satu contohnya. Bayangkan mendapatkan nilai yang salah perhitungan saat menggunakan statistik yang berbeda, jadi penting untuk memeriksa outlier dan mencoba menghapusnya.
Menemukan outlier dalam data menggunakan boxplot
Boxplot adalah cara yang bagus untuk melihat banyak informasi statistik dalam data kami, seperti nilai persentil 0,25,50,75, dan 100, juga dikenal sebagai lima statistik ringkasan;
Lima statistik ringkasan juga dikenal sebagai kuantil yang memberikan ringkasan kumpulan data seperti varian dalam kumpulan data, nilai minimum, nilai maksimum, dan Median, dan juga membantu kami menemukan outlier dalam data.
Kami banyak menggunakan nilai Mean untuk menemukan pusat data, tetapi terkadang kumpulan data kami berisi begitu banyak nilai yang jauh berbeda dari nilai yang tersisa, nilai ini juga dikenal sebagai outlier.
Katakanlah kita memiliki data 2,3,4,6. Jika kami menemukan nilai rata-rata, itu akan memberi kami bobot 3,75, jadi ini adalah nilai yang sangat baik yang mewakili semua kumpulan data. Namun, bagaimana jika datanya 2,3,4,6,38? Kemudian, dalam hal ini, nilai rata-rata mendekati 10,6. Ini bukan ukuran yang baik untuk merepresentasikan data, jadi dalam tipe data ini nilai rata-rata tidak berfungsi. Kita perlu menggunakan Median. jadi mari kita lihat apa itu median dan bagaimana konsep median membantu kita menghitung kuartil lain. jadi kuartil hanyalah nilai tunggal seperti 0,25 atau 0,75 dll.
Mari kita lihat apa lima statistik ini
Kelima statistik ini adalah
0 (Nilai minimum) 0,25 (Median setengah data pertama) 0,50 (Median total data) 0,75 (Median setengah data kedua) 1 (Nilai maksimum)
Tiga kuartil esensial adalah 0,25, 0,50, dan 0,75, jadi mari kita bahas kuartil ini dan bagaimana kuartil tersebut membantu kita menghitung varians dalam data kita. Jadi beberapa orang mungkin berpikir, mengapa tidak menghitung varian menggunakan standar deviasi? Kita bisa mengetahuinya menggunakan std, tetapi ini memberi kita variasi dalam data. Kami tidak menginginkan itu. Kami ingin varians hanya antara data persentil ke-25 dan data persentil ke-75 kami karena kami tidak ingin menyertakan outlier dalam data kami.
Jika Anda tidak terbiasa dengan varians, maka varians memberi tahu kita bahwa nilai dalam kumpulan data dikemas sangat dekat atau sangat jauh satu sama lain, katakanlah 1, 2, 3, 4. Varians dalam hal ini rendah, tetapi dalam 1, 3 , 6, dan 9 maka varians pada data ini tinggi dibandingkan dengan yang sebelumnya.
Jadi bagaimana cara menghitung persentil 0,25 atau ke-25? Jadi katakanlah kita memiliki data sebelumnya 2, 3, 4, 6, 38. Nilai tengahnya, yaitu 4, adalah Median. Kemudian bagi data menjadi dua bagian 2, 3, 4 dan 4, 6, 38. Ambil Median dari data bagian pertama. Ini memberi kita 3, jadi 3 adalah nilai persentil ke-25, dan mengambil Median dari bagian kedua data menunjukkan kepada kita 6. Nilai ini adalah nilai persentil ke-75.
Nilai median mewakili pusat dari total data; persentil ke-25 menunjukkan bagian tengah dari paruh pertama data, dan persentil ke-75 menunjukkan bagian tengah dari paruh kedua data.
Kami juga menghitung rentang interkuartil menggunakan kedua statistik ini dengan hanya mengurangkan persentil ke-25 dari persentil ke-75. Ini memberi kita nilai IQR. Jika IQR adalah nilai yang signifikan, kami akan mengatakan bahwa varian berbanding lurus dengan IQR. Jika nilai IQR meningkat, variannya juga meningkat, jadi di bawah ini adalah gambar boxplot yang menunjukkan ringkasan statistik kami menggunakan diagram.
Petak kotak | Sumber: Gambar oleh penulis
Jadi seperti itulah tampilan boxplotnya. Kita dapat dengan mudah menemukan outlier dalam data dan nilai kuartil, garis horizontal kuning yang menunjukkan Median, dan nilai kuartil lainnya seperti 0,25,0,75,1, dll.
Jadi mari kita hapus outlier ini dari data menggunakan statistik interkuartil.
Statistik interkuartil adalah cara untuk menemukan outlier dalam data menggunakan nilai persentil ke-25 dan ke-75, yang sudah kita bahas. Jadi, bagaimana kita menemukan baris yang mengandung outlier?
Jadi untuk mengekstrak outlier, kita membutuhkan dua nilai
1. Nilai persentil ke-25
2. Nilai persentil ke-75
dan mengapa kita memerlukan kedua nilai ini karena Interquartile range adalah jarak antara persentil ke-25 dan nilai persentil ke-75, jadi mari kita cari tahu kedua nilai ini terlebih dahulu; kita perlu mengimpor pustaka Numpy, yang digunakan untuk melakukan pekerjaan numerik dengan python.
# mengimpor perpustakaan numpy sebagai np
impor NumPy sebagai np
Kami berbicara tentang kuartil ke-25 dan ke-75 secara mendetail secara teoritis; mari kita lihat bagaimana menemukan nilai-nilai ini secara praktis menggunakan pustaka NumPy, jadi di bawah ini ada dua kode. Ada metode di NumPy, yang disebut quantile(). Metode ini digunakan untuk mencari nilai kuartil, seperti dalam kasus kita, kita menginginkan nilai persentil ke-25 dan ke-75 dari kolom Tinggi.
# Menemukan nilai dari nilai persentil ke-25
Q1 = np.quantile(data[‘Height’],0,25)
# Menemukan nilai nilai persentil ke-75
Q3 = np.quantile(data[‘Height’],0,75)
Apa yang dilakukan sintaks di atas adalah hanya mengurutkan kolom Tinggi dan menyimpan nilai persentil ke-25 di Q1 dan nilai persentil ke-75 di Q3 untuk menemukan nilai statistik Interkuartil (IQR); kita perlu menemukan perbedaan antara Q3 dan Q1.
# Menemukan perbedaan antara Q3 dan Q1
IQR = Q3 – Q1
Sekarang kita menghitung (IQR) langkah selanjutnya adalah menghitung dua nilai ambang batas, thresh1, dan thresh2, menggunakan IQR nilai ambang ini digunakan untuk mencari outlier; nilai apa pun yang kurang dari thresh1 atau lebih besar dari thresh2 dianggap outlier.
# Menghitung nilai thresh1
thresh1 = Q1 – 1,5*IQR
# Menghitung nilai thresh2
thresh2 = Q3 + 1,5*IQR
Sekarang kita mendapatkan nilai thresh1 dan thresh2. Langkah selanjutnya adalah mengelompokkan baris di mana Kolom Tinggi lebih kecil dari thresh1 atau lebih besar dari thresh2, dan hanya itu
# Mengekstrak outlier dari data kami
data[( data[‘Height’] < mengirik1 ) | (data['Height'] > mengirik2)]
sekarang kami berhasil mengekstrak outlier dari data. Terimakasih telah membaca artikel ini. Anda juga dapat terhubung dengan saya di LinkedIn.
Berbagai Cara Menemukan Outlier dalam Data dan Cara Menghilangkannya Menggunakan Statistik Interkuartil. awalnya diterbitkan di Menuju AI di Medium, di mana orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.
Diterbitkan melalui Menuju AI