Pertanyaan Statistik yang Harus Diketahui untuk Wawancara Ilmu Data – Menuju AI

Mencapai Peringkat 33 (dari 186) di NASA Harvest Field Boundary… – Menuju AI

Pertanyaan Statistik yang Harus Diketahui untuk Wawancara Ilmu Data

Terakhir Diperbarui pada 16 Mei 2023 oleh Tim Editorial

Author(s): Roli Trivedi

Awalnya diterbitkan di Menuju AI.

Foto oleh Marjhon Obsioma di Unsplash Apa itu Statistik Inferensial?
Statistik Inferensial membuat prediksi dan kesimpulan tentang populasi berdasarkan sampel data yang diambil dari populasi. Ada dua kasus penggunaan utama di mana Anda menggunakan statistik inferensial.
‣ Untuk membuat perkiraan tentang populasi.
‣ Untuk menarik kesimpulan tentang populasi.
Misalnya, sebuah penelitian yang dilakukan oleh sebuah perusahaan farmasi untuk menguji keefektifan suatu obat baru. Apa perbedaan antara Populasi dan Sampel?
Populasi adalah jumlah keseluruhan hal, sedangkan Sampel adalah sebagian kecil dari populasi. Dari populasi tersebut kita ambil sampelnya. Kami tidak dapat mengerjakan populasi karena tingginya biaya komputasi dan ketersediaan semua titik data. Dari sampel kita hitung statistiknya dan dari statistik sampel kita simpulkan tentang populasi. Bagaimana hubungan antara rata-rata dan median dalam normal
distribusi?
Dalam distribusi normal, rata-rata sama dengan median. Apa itu outlier?
Outlier adalah titik yang berada pada jarak abnormal dari sebagian besar titik dalam dataset. Apa yang dapat saya lakukan dengan Outlier?
Anda dapat menyimpan outlier:
Ketika ada banyak outlier (data miring)
Ketika hasilnya kritis
Ketika outlier memiliki arti (data penipuan)
Anda dapat menghapus outlier:
Ketika kita tahu titik datanya salah (usia negatif orang tersebut)
Ketika kita memiliki banyak data
Ketika kita perlu memberikan analisis. Satu dengan outlier dan satu lagi tanpa outlier. Apa perbedaan antara parameter populasi dan
sampel statistik?
Parameter populasi adalah :
Rata-rata = μ
Standar deviasi = σ
Statistik sampel adalah:
Rata-rata = x̄
Standar deviasi = s Apa perbedaan antara statistik inferensial dan
Statistik deskriptif?
Statistik deskriptif adalah pemrosesan data tanpa menarik kesimpulan darinya. Ini berguna dalam menggambarkan dan meringkas baik melalui perhitungan numerik atau grafik atau tabel.
Statistik inferensial menarik kesimpulan atau prediksi tentang populasi berdasarkan data sampel. Karakteristik paling umum yang digunakan dalam statistik deskriptif?
‣ Ukuran tendensi sentral: Rata-rata, median, modus
‣ Ukuran variabilitas/penyebaran/penyebaran: Standar deviasi, varians, rentang, IQR
‣ Ukuran simetrisitas: Skewness, kurtosis
‣ Outliers: Ini adalah nilai abnormal dari sebagian besar nilai dalam dataset. Bagaimana cara menentukan Outlier?
‣ Metode 1 : IQR (Jangkauan interkuartil)
IQR adalah 50% tengah dari kumpulan data. Ini adalah rentang nilai
antara kuartil ketiga dan kuartil pertama (Q3 — Q1). Digunakan untuk mengukur variabilitas dengan membagi dataset menjadi kuartil. Kuartil adalah nilai yang membagi data Anda menjadi 4 bagian asalkan data diurutkan dalam urutan menaik.
IQR = Q3 — Q1
Q1 = kuartil 1 (kuartil bawah yang merupakan persentil ke-25 yang membagi 25% data lebih rendah)
Q2 = kuartil ke-2 (median yang merupakan persentil ke-50)
Q3 = kuartil ke-3 (kuartil atas yang merupakan persentil ke-75 yang membagi 25% data teratas)
Catatan: Persentase dan persentil adalah dua hal yang berbeda. Jika persentil ke-25 adalah 8 maka itu berarti 25% dari data kurang dari 8. Jika persentil ke-75 adalah 40 maka itu berarti 75% dari data kurang dari 40.
Jika nilai data < Q1–1.5(IQR) ATAU nilai data > Q3+1.5(IQR) maka diperlakukan sebagai outlier.
‣ Metode 2: Z-Score
Ini juga dikenal sebagai skor standar memberi kita gambaran tentang seberapa jauh suatu titik data dari rata-rata. Ini memberi tahu seberapa jauh titik data menyimpang dari rata-rata dalam standar deviasi. Kita tahu bahwa jika data mengikuti distribusi normal maka data mencakup 99,7% titik hingga 3 standar deviasi. Kita dapat menghitung outlier kita di luar itu di kedua sisi.
Jadi jika kita mendapatkan z-score 2,5 maka kita katakan itu adalah 2,5 standar deviasi di atas rata-rata dan jika kita mendapat -2,5 maka kita katakan itu adalah 2,5 standar deviasi di bawah rata-rata. Oleh karena itu dapat disimpulkan bahwa z-score adalah jumlah standar deviasi di atas atau di bawah yang berarti setiap nilai turun.
Keuntungan utama z-score adalah memberi tahu Anda berapa banyak nilai dalam % yang merupakan outlier.
Skor Z = (x-μ)/s
x adalah pengamatan dalam sampel
x̄ adalah rata-rata pengamatan dalam sampel
σ adalah standar deviasi pengamatan dalam sampel
‣ Metode 3: Urutkan data dan lihat nilai ekstrim
Ini adalah metode dasar di mana Anda dapat mengurutkan data. Setelah itu cari nilai ekstrim dan itu akan menjadi outlier kita.
Misalnya, Kami telah diberi umur sebagai 4,6,9,2,10,12,102.
Langkah 1: Urutkan data: 2, 4,6,9,12,102
Langkah 2: Spot untuk nilai ekstrim kita dapat melihat 102 adalah nilai ekstrim sehingga bisa menjadi outlier untuk kita.
Metode 4: Merencanakan plot pencar, plot kotak
Scatterplot: Ini adalah indikator bagus yang memungkinkan kita melihat apakah ada pola antara dua variabel. Ini digunakan saat Anda memasangkan data numerik atau saat Anda menentukan hubungan antara dua variabel. Tapi tidak hanya itu, Anda juga bisa menggunakannya untuk deteksi outlier.
Boxplot: Ini merangkum data sampel menggunakan persentil ke-25, persentil ke-50, dan persentil ke-75. Seseorang bisa mendapatkan wawasan tentang kuartil, median, dan outlier.
‣ Metode 4: Pengujian Hipotesis
Anda dapat menggunakan uji hipotesis untuk menemukan outlier. Ada banyak tes outlier, tetapi saya akan fokus pada satu untuk mengilustrasikan cara kerjanya. Saya akan mendemonstrasikan uji Grubbs, yang menguji hipotesis berikut:
Null: Semua nilai dalam sampel diambil dari satu populasi yang mengikuti distribusi normal yang sama.
Alternatif: Satu nilai dalam sampel tidak diambil dari populasi berdistribusi normal yang sama dengan nilai lainnya.
Jika nilai-p untuk pengujian ini kurang dari tingkat signifikansi Anda, Anda dapat menolak nol dan menyimpulkan bahwa salah satu nilainya adalah outlier.
(Untuk detail lihat: World of Outliers) Kapan Anda menolak atau menerima hipotesis nol? Daftar Langkah.
Langkah 1: Nyatakan hipotesis nol
Pada langkah ini, Anda menyatakan hipotesis nol dan hipotesis alternatif. Terkadang lebih mudah untuk menyatakan hipotesis alternatif terlebih dahulu karena itu adalah pemikiran peneliti tentang eksperimen tersebut.
Langkah 2: Tolak atau terima hipotesis nol
Ada beberapa metode yang ada dan itu sangat tergantung pada data yang Anda miliki. Misalnya, Anda dapat menggunakan metode nilai-P.
Pada dasarnya, Anda menolak hipotesis nol ketika nilai tes Anda jatuh ke wilayah penolakan

Terima kasih sudah membaca! Jika Anda menikmati karya ini dan ingin membaca lebih banyak karya saya, harap pertimbangkan untuk mengikuti saya di Medium. Saya berharap dapat berbagi lebih banyak dengan Anda di masa mendatang.

Diterbitkan melalui Menuju AI

Author: Scott Anderson