
Author(s): Paul Iusztin
Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda membuat produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.
Statistik
Buka potensi penuh data Anda dengan pemahaman mendalam tentang konsep statistik dasar ini
Foto oleh Alex Chambers di Unsplash
Sebagai seorang ilmuwan data, penting untuk memiliki dasar yang kuat dalam konsep dan metode statistik. Konsep dan metode ini menyediakan alat dan teknik yang diperlukan untuk menganalisis dan menginterpretasikan data, membuat keputusan berdasarkan informasi, dan mengkomunikasikan hasil secara efektif.
Di blog ini, kita akan mengeksplorasi 10 konsep statistik paling menarik yang harus diketahui oleh seorang data scientist.
Dari Teorema Limit Pusat hingga pemilihan fitur, konsep-konsep ini sangat mendasar bagi bidang ilmu data dan akan berfungsi sebagai landasan yang kuat bagi ilmuwan data mana pun. Apakah Anda baru di lapangan atau seorang profesional berpengalaman, menguasai metode ini pasti akan meningkatkan kemampuan Anda untuk mengekstrak wawasan dari data dan membuat keputusan berdasarkan data.
#1. Teorema Limit Pusat
Teorema ini menyatakan bahwa dengan ukuran sampel yang cukup besar, distribusi rata-rata sampel akan mendekati distribusi normal, terlepas dari bentuk distribusi populasi yang mendasarinya. Ini adalah konsep penting dalam inferensi statistik, karena memungkinkan kita menggunakan metode berbasis distribusi normal untuk membuat inferensi tentang populasi berdasarkan sampel.
https://medium.com/media/d525ac2f1848023af564a3fa92251b03/href
#2. Korelasi dan Penyebab
Korelasi mengacu pada hubungan statistik antara dua variabel, di mana peningkatan atau penurunan dalam satu variabel dikaitkan dengan peningkatan atau penurunan yang lain. Namun, hanya karena dua variabel berkorelasi tidak berarti bahwa yang satu menyebabkan yang lain. Menetapkan penyebab membutuhkan bukti dan eksperimen tambahan.
https://medium.com/media/8831e94b04b7e212c4bf1a3c37ec8569/href
#3. Nilai-P
Nilai-P digunakan untuk menentukan signifikansi statistik dari suatu hasil. Mereka mewakili probabilitas bahwa hasil yang diamati terjadi secara kebetulan, diberikan hipotesis nol (hipotesis bahwa tidak ada hubungan antara variabel yang sedang dipelajari). Nilai p yang rendah menunjukkan bahwa hasil yang diamati tidak mungkin terjadi secara kebetulan, mendukung hipotesis alternatif (yaitu, hipotesis bahwa ada hubungan antara variabel).
https://medium.com/media/de605536c2b396ed17ca012462cd7975/href
#4. Kesalahan Tipe I dan Tipe II
Dalam pengujian statistik, kesalahan Tipe I terjadi ketika kita menolak hipotesis nol padahal itu sebenarnya benar (positif palsu). Kesalahan Tipe II terjadi ketika kita gagal menolak hipotesis nol padahal sebenarnya salah (negatif palsu). Pertukaran antara dua jenis kesalahan dapat dikontrol menggunakan ambang nilai p untuk menolak hipotesis nol.
https://medium.com/media/6554170fddf37d46da8f54dd2d4f4cf0/href
#5. Regresi
Regresi adalah teknik statistik yang digunakan untuk memodelkan hubungan antara variabel dependen dan satu atau lebih variabel independen. Ini dapat digunakan untuk membuat prediksi tentang variabel dependen berdasarkan nilai-nilai variabel independen. Regresi linier adalah teknik regresi yang umum digunakan yang mengasumsikan hubungan linier antara variabel, sedangkan regresi nonlinier memungkinkan hubungan yang lebih kompleks.
https://medium.com/media/b7de96fa961209dd892cafac73780350/href
#6. Klasifikasi
Klasifikasi adalah teknik pembelajaran mesin yang digunakan untuk memprediksi hasil kategorikal. Ini melibatkan pelatihan model pada kumpulan data dengan contoh berlabel dan kemudian menggunakan model terlatih untuk memprediksi label kelas untuk contoh baru yang tidak terlihat. Beberapa algoritma klasifikasi umum termasuk regresi logistik, pohon keputusan, dan mesin vektor pendukung.
https://medium.com/media/7b46938828ce9f3ac08947750ce800d7/href
#7. Overfitting dan Underfitting
Overfitting terjadi ketika model terlalu kompleks dan terlalu cocok dengan data pelatihan, menyebabkan generalisasi yang buruk dari data baru yang tidak terlihat. Underfitting terjadi ketika model terlalu sederhana dan tidak menangkap kompleksitas data yang mendasarinya, menyebabkan kinerja yang buruk pada data pelatihan. Overfitting dan underfitting dapat diatasi dengan menyesuaikan kompleksitas model atau menggunakan teknik seperti regularisasi.
https://medium.com/media/54f3fc85bed431ad9cca86474231136d/href
#8. Bias-Variance Trade-off
Pertukaran bias-varian mengacu pada keseimbangan antara kesederhanaan model (bias) dan jumlah kesalahan dalam prediksi model (varian). Model dengan bias yang tinggi akan membuat prediksi yang sederhana namun berpotensi tidak akurat, sedangkan model dengan varian yang tinggi akan membuat prediksi yang kompleks namun lebih akurat. Mencapai keseimbangan yang tepat antara bias dan varian penting untuk mencapai kinerja model yang baik.
https://medium.com/media/0f88d2e70b2062443d4367a160a703bb/href
#9. Validasi silang
Validasi silang adalah teknik yang digunakan untuk mengevaluasi kinerja model pembelajaran mesin dengan melatihnya pada subset data dan mengevaluasinya pada data yang tersisa. Ini memungkinkan kami untuk mendapatkan estimasi yang lebih baik dari performa generalisasi model, karena dievaluasi pada rentang data yang lebih luas.
https://medium.com/media/bd8e7b58ebcf7f970cdf186bc4671e2a/href
#10. Seleksi Fitur
Pemilihan fitur adalah proses pemilihan subset fitur yang paling relevan dari kumpulan fitur yang lebih besar untuk digunakan dalam membangun model pembelajaran mesin. Ini penting karena dapat membantu meningkatkan interpretabilitas dan kinerja model.
https://medium.com/media/ce2737d7efe88a7d15685290bf4d2014/href
Kesimpulan
Terima kasih telah membaca artikel saya!
Kesimpulannya, menguasai 10 konsep statistik teratas yang dibahas di blog ini sangat penting bagi ilmuwan data mana pun. Dari memahami hubungan antara korelasi dan sebab akibat hingga menggunakan validasi silang untuk mengevaluasi kinerja model, konsep ini menyediakan alat dan teknik yang diperlukan untuk menganalisis dan menginterpretasikan data secara efektif. Dengan memahami dan menerapkan konsep-konsep ini, ilmuwan data dapat membuat keputusan berdasarkan informasi, mengomunikasikan hasil secara efektif, dan mengekstrak wawasan berharga dari data. Apakah Anda baru di bidang ini atau seorang profesional berpengalaman, dasar yang kuat dalam konsep dan metode statistik sangat penting untuk sukses dalam ilmu data. Oleh karena itu, sangat penting untuk meluangkan waktu untuk menguasai metode ini dan terus belajar dan memperluas pengetahuan Anda di lapangan.
💡 Tujuan saya adalah membuat pembelajaran mesin menjadi mudah dan intuitif. Jika Anda menikmati artikel saya, kita dapat terhubung di LinkedIn, tempat saya memposting wawasan harian tentang #data, #ml, dan #mlops.
Bergabunglah dengan Medium dengan tautan referensi saya – Paul Iusztin
Menguasai 10 Konsep Statistik Teratas: Kunci Sukses dalam Ilmu Data awalnya diterbitkan di Menuju AI di Medium, di mana orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.
Diterbitkan melalui Menuju AI