
Pengarang: Gowtham SR
Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.
Apa asumsi regresi linier? dan bagaimana memverifikasi asumsi
Foto dari Unsplash diunggah oleh Thong Vo
Regresi linier adalah model yang memperkirakan hubungan antara variabel bebas dan variabel terikat menggunakan garis lurus. Namun, untuk menggunakan model regresi linier, kita harus memverifikasi beberapa asumsi.
5 asumsi utama regresi linier adalah,
Hubungan linier antara variabel terikat dan variabel bebas. Tidak/Sangat kurang multikolinearitas. Normalitas Residu Homoskedastisitas Tidak Ada Autokorelasi Kesalahan
Mari kita pahami masing-masing asumsi di atas secara detail dengan bantuan kode python.
Impor pustaka yang diperlukan, dan baca set data.
Gambar oleh penulis
Pisahkan fitur dependen dan independen, dan pisahkan data menjadi rangkaian kereta dan pengujian seperti yang ditunjukkan di bawah ini.
Gambar oleh penulis
Buat model regresi linier dan hitung residualnya.
Gambar oleh penulis
Mari kita verifikasi asumsi regresi linier untuk data di atas.
1. Hubungan Linier
Untuk melakukan regresi linier, asumsi pertama dan terpenting adalah memiliki hubungan linier antara fitur independen dan dependen. Berarti — Ketika nilai X meningkat, nilai y juga harus meningkat atau menurun secara linier. Jika ada beberapa fitur independen, masing-masing fitur independen harus memiliki hubungan linier dengan fitur dependen.
Kami dapat memverifikasi asumsi ini menggunakan plot pencar seperti yang ditunjukkan di bawah ini.
Gambar oleh penulis
Dalam plot pencar di atas kita dapat dengan jelas mengatakan bahwa fitur 1 dan 3 memiliki hubungan linier yang jelas dengan target. Namun, fitur 2 tidak memiliki hubungan linier dengan target.
2. Multikolinearitas
Multikolinearitas adalah skenario di mana dua fitur independen sangat berkorelasi. Nah, sekarang pertanyaannya, apa itu korelasi? Korelasi adalah skenario di mana dua variabel sangat terkait satu sama lain.
Misalnya, Jika kita memiliki dataset di mana age dan years_of_experience adalah dua fitur independen dalam dataset kita. Sangat mungkin bahwa seiring bertambahnya usia, years_of_experience juga meningkat. Jadi, dalam hal ini, usia dan pengalaman bertahun-tahun berkorelasi sangat positif.
Jika kita memiliki age dan years_left_to_retire sebagai fitur independen, maka seiring bertambahnya usia, years_left_to_retire berkurang. Jadi, di sini kami mengatakan bahwa kedua fitur tersebut berkorelasi sangat negatif.
Jika kita memiliki salah satu skenario di atas (korelasi positif kuat atau korelasi negatif), maka kita mengatakan bahwa ada multikolinearitas.
Kami dapat memverifikasi apakah ada multikolinearitas dalam data kami, menggunakan matriks korelasi atau VIF seperti yang ditunjukkan pada gambar di bawah ini.
Gambar oleh penulis
Gambar oleh penulis
Dari VIF dan matriks korelasi di atas, kita dapat mengatakan bahwa tidak ada multikolinearitas dalam dataset kita.
Jika Anda tertarik untuk memahami multikolinearitas secara detail, silakan baca blog saya tentang mengapa multikolinearitas menjadi masalah
Mengapa multikolinearitas menjadi masalah?
3. Normalitas Residu
Residual = nilai y aktual nilai y yang diprediksi. Memiliki residual negatif berarti nilai prediksi terlalu tinggi, begitu pula jika Anda memiliki residual positif, berarti nilai prediksi terlalu rendah. Tujuan dari garis regresi adalah untuk meminimalkan jumlah residual.
Asumsinya mengatakan bahwa jika kita memplot residual, maka plotnya harus normal atau semacam normal.
Kita dapat memverifikasi asumsi ini dengan bantuan plot KDE dan plot QQ, seperti yang ditunjukkan di bawah ini.
Gambar oleh penulis
Gambar oleh penulis
Gambar oleh penulis
4. Homoskedastisitas
Homo berarti sama dan scedasticity berarti menyebar/menyebar. Jadi, yang dimaksud dengan homoskedastisitas adalah memiliki sebaran yang sama. Ini berarti kondisi di mana varians dari residual, atau error term, dalam model regresi adalah konstan.
Ketika kita memplot residual, spread harus sama. Kita dapat memeriksa ini dengan menggunakan plot pencar, di mana sumbu x akan memiliki prediksi, dan sumbu y akan memiliki residu, seperti yang ditunjukkan pada gambar di bawah ini.
Gambar oleh penulis
Residu tersebar merata, yang memegang asumsi homoskedastisitas.
5. Tidak ada autokorelasi kesalahan
Asumsi ini mengatakan bahwa seharusnya tidak ada hubungan antara residual. Hal ini dapat diverifikasi dengan memplot residual seperti yang ditunjukkan pada gambar di bawah ini. Plot tidak boleh menghasilkan pola tertentu.
Gambar oleh penulis
Cara Memverifikasi Asumsi Regresi Linier awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.
Diterbitkan melalui Menuju AI