
Pengarang: Kumar kaushal
Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.
Pengantar Statistik Non-Parametrik, berbagai jenis tes Non-Parametrik, dan aplikasinya
Foto oleh Chris Liverani di Unsplash
Ini adalah bagian ketiga dari seri Statistik 101, di mana konsep statistik Non-Parametrik akan dijelaskan secara rinci. Di dunia nyata, kita mungkin tidak selalu mendapatkan distribusi data yang terdefinisi dengan baik seperti distribusi normal. Dalam kasus seperti itu, kita harus menerapkan statistik Non-Parametrik.
Pada bagian pertama dari seri Statistik 101, disebutkan bahwa pengujian hipotesis untuk data sampel yang tidak terdistribusi normal akan melibatkan serangkaian distribusi yang berbeda seperti uji Median Mood – contoh uji non-parametrik.
Isi
Definisi Jenis Pengujian Non-Parametrik Aplikasi Model non-parametrik dalam Pembelajaran Mesin
Definisi
Ketika kita berbicara tentang distribusi normal, kita membuat beberapa asumsi tentang populasi dari mana sampel telah diambil. Berbeda dengan asumsi ini, statistik Non-Parametrik tidak membuat asumsi seperti itu mengenai bentuk distribusi populasi. Oleh karena itu, ini juga dikenal sebagai statistik bebas Distribusi. Terlepas dari keuntungan tidak membuat asumsi bentuk distribusi, statistik ini tidak memerlukan upaya komputasi sebanyak yang diperlukan oleh metode parametrik.
Metode-metode ini juga memiliki kelemahannya sendiri. Mereka tidak menangkap informasi sebanyak yang ditangkap oleh metode parametrik. Jika kita merepresentasikan daftar nilai seperti 190.2, 202.45, 345.56 sebagai 1,2 dan 3, maka kita mungkin melewatkan beberapa informasi.
Jenis tes Non-Parametrik
Tes tanda Tes Jumlah Peringkat Satu sampel Tes Jalankan Korelasi Peringkat Tes Kolmogorov-Smirnov
Mari kita perinci tes ini:
Tes tanda tangan
Hal ini berkaitan dengan arah sepasang pengamatan dalam hal positif atau negatif bukan nilai-nilai mereka. Misalnya, jika kita memiliki sepasang bobot sebelum dan sesudah program latihan dan kita menghitung jumlah contoh perbedaan bobot sebelum dan sesudah program adalah positif atau negatif. Di sini, hipotesis nolnya adalah bahwa tidak ada perbedaan antara bobot, dan hipotesis alternatifnya adalah bahwa ada perbedaan bobot. Harap perhatikan kesederhanaan dalam menghitung perbedaan dan menentukan apakah itu bilangan positif atau negatif. Pelaksanaan uji tanda dapat dirujuk di sini.
2. Tes Jumlah Peringkat
Untuk melakukan analisis uji varians, diasumsikan bahwa populasi berdistribusi normal dengan varians yang sama. Namun, ketika kondisi ini tidak terpenuhi, kami menggunakan tes Rank Sum. Uji Mann-Whitney digunakan bila terdapat dua populasi, dan uji Kruskal-Wallis digunakan bila terdapat lebih dari dua populasi. Di sini, istilah peringkat muncul karena setiap titik data dalam sampel diberi peringkat dan U-statistik dihitung.
Di bawah ini adalah hipotesis untuk uji Mann-Whitney:
Gambar oleh penulis
Rumus untuk U-statistik untuk dua skenario berbasis populasi ditunjukkan di bawah ini:
Gambar oleh penulis
dimana n1= jumlah titik data pada sampel 1, n2= jumlah titik data pada sampel 2, dan R1= jumlah rangking setiap titik data pada sampel 1.
Untuk uji Kruskal-Wallis, berikut hipotesisnya:
Gambar oleh penulis
Dalam hal ini, K-statistik digunakan:
Gambar oleh penulis
dimana, n= jumlah jumlah titik data dalam semua sampel, j=sampel j, dan Rj= jumlah rangking semua titik data dalam sampel j.
3. Satu sampel menjalankan tes
Sebagian besar waktu, kami berasumsi bahwa sampel telah dipilih secara acak. Namun, ini mungkin tidak selalu benar. Asumsikan sebuah skenario di mana kita harus mengambil sampel bola merah dan hijau dari kantong yang penuh dengan banyak bola. Kami datang dengan sampel di bawah ini ( Green-G, Red-R):
RRR GGG RRR GGG RR GG
Sampel di atas mungkin tidak dihasilkan secara acak. Untuk menguji sampel untuk keacakan mereka, kami telah menjalankan tes.
Di sini, hipotesis nolnya adalah bahwa item (yaitu, bola) dicampur secara acak, dan hipotesis alternatifnya adalah bahwa item tersebut tidak dicampur secara acak.
Run adalah urutan kejadian yang sama. Dalam contoh di atas, RRR adalah lari, dan GG juga lari.
4. Korelasi Peringkat
Korelasi peringkat menggabungkan gagasan korelasi dan peringkat bersama, di mana ia dapat mengukur korelasi antara dua set peringkat dalam hal kesamaan di antara mereka.
Jika kita memiliki daftar enam negara dan peringkat mereka dalam hal PDB ( Produk Domestik Bruto) dan HDI ( Indeks Pembangunan Manusia), korelasi peringkat dihitung sebagai:
gambar oleh penulis
di mana d = perbedaan antara peringkat antara setiap pasangan negara, n = jumlah pengamatan berpasangan ( ini dia enam). Nilai 1 mewakili hubungan yang sempurna antara dua variabel. Di sini, hipotesis nol menyatakan bahwa tidak ada korelasi dalam data peringkat populasi dan hipotesis alternatif menyatakan bahwa ada korelasi dalam data peringkat.
5. Tes Kolmogorov-Smirnov (KS)
Uji Kolmogorov-Smirnov digunakan dalam kasus di mana kita ingin menguji apakah ada perbedaan yang signifikan antara dua sampel atau jika distribusi frekuensi yang diamati sama dengan distribusi teoritis. Artinya tes ini dapat digunakan untuk mengukur goodness of fit, sangat mirip dengan tes Chi-Square. Menggunakan distribusi kumulatif, itu memutuskan distribusi spesifik dari populasi.
Selain jenis-jenis di atas, masih banyak lagi pengujian lainnya, seperti uji Kuiper, uji Tukey–Duckworth, uji log-rank, dan lain-lain.
Aplikasi
Tes ini dapat diterapkan pada situasi di mana manajer bisnis atau siapa pun harus membuat keputusan atau menguji beberapa asumsi. Tes non-parametrik banyak digunakan dalam kasus ketika asumsi yang terkait dengan data khusus untuk tes parametrik tidak terpenuhi, ukuran sampel cukup kecil, dan datanya nominal atau ordinal seperti urutan peringkat.
Catatan tambahan: Model non-parametrik dalam pembelajaran mesin
Demikian pula, algoritma non-parametrik tidak membuat asumsi tentang hubungan antara data input dan output. Algoritma non-parametrik tidak memiliki jumlah parameter yang tetap tetapi bergantung pada jumlah data latih. Regresi linier adalah contoh dari algoritma parametrik, dan K-tetangga terdekat adalah contoh dari algoritma non-parametrik.
Ikuti saya (kumarkaushal.bit) untuk topik menarik lainnya terkait Ilmu Data dan Statistik.
Referensi
Statistik 101- Bagian 3- Statistik Non-parametrik, Jenisnya, dan Aplikasinya awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.
Diterbitkan melalui Menuju AI