REGRESI — BAGAIMANA, MENGAPA, DAN KAPAN? – Menuju AI

REGRESI — BAGAIMANA, MENGAPA, DAN KAPAN?  – Menuju AI

Penulis: Ilmu Data bertemu dengan Keamanan Cyber

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda membuat produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

REGRESI — BAGAIMANA, MENGAPA, DAN KAPAN?

PEMBELAJARAN MESIN YANG DIAWASI — BAGIAN 2

REGRESI:

Sumber gambar: Oleh penulis

Seperti yang kita lihat sebelumnya, bagian pembelajaran mesin yang diawasi dipisahkan menjadi dua kategori, dan dari dua kategori tersebut, kita telah berkelana ke ranah klasifikasi dan banyak algoritme yang digunakan dalam proses klasifikasi. Regresi adalah sisi lain dari mata uang yang sama di mana kami menggunakan teknik regresi untuk mengungkap atau membangun hubungan antara faktor independen, fitur, dan variabel dependen, serta hasilnya.

Prosedur regresi memungkinkan Anda memutuskan dengan aman elemen mana yang paling penting, mana yang mungkin terlewatkan, dan bagaimana faktor-faktor tertentu memengaruhi satu sama lain.

Tujuan utamanya adalah untuk meluruskan banyak hal sehingga Anda dapat yakin dengan apa yang ingin Anda bangun atau berusaha menemukan solusi untuk masalah Anda.

Regresi linier sederhana dilambangkan dengan rumus:

y = β0 + β1 x.

Sumber: https://giphy.com/

CONTOH REGRESI DALAM KEHIDUPAN NYATA:

Menggambar titik-titik antara mengemudi yang berat dan sembrono dan kecelakaan yang sering terjadi dalam setahun. Memprediksi penjualan produk tertentu di perusahaan. Peneliti medis sering menggunakan regresi linier untuk menguji hubungan antara dosis obat dan tekanan darah pasien. Prakiraan saham dibuat dengan memeriksa data historis tentang harga dan tren saham untuk mendeteksi pola. Dan banyak lagi.

JADI PERSIS, BAGAIMANA REGRESI BERBEDA DARI KLASIFIKASI?

Ketika kita membahas kesulitan Klasifikasi, kita mengacu pada nilai-nilai kategorikal yang penting, menyiratkan bahwa keluarannya diskrit.

Namun, dalam kasus REGRESI, situasinya terbalik; di sini, nilai yang penting adalah numerik, dan keluarannya kontinu, bukan diskrit.

Perbedaan signifikan lainnya antara kedua metode tersebut adalah, seperti yang kita lihat di blog terakhir (yaitu, dunia klasifikasi), kami menggunakan teknik klasifikasi untuk menentukan batas keputusan dan membagi seluruh kumpulan data besar menjadi dua kelas yang berbeda.

Namun, dalam Regresi, seperti yang dijelaskan sebelumnya, kami tidak membagi kumpulan data menjadi dua kelompok, melainkan mengidentifikasi garis yang paling cocok yang dapat memprediksi hasilnya dengan tepat.

Sumber: https://giphy.com/

Terakhir, perbedaan signifikan lainnya antara kedua teknik tersebut adalah bahwa algoritme klasifikasi biasanya menangani masalah yang terkait dengan pemrosesan bahasa alami atau visi komputer, pembelajaran mendalam seperti deteksi wajah, pengenalan suara, segmentasi gambar, klasifikasi urutan DNA, dan banyak lagi.

Ketika kita berbicara tentang algoritma regresi, biasanya membahas masalah yang terkait dengan elemen seperti penjualan, pertumbuhan, penilaian pasar, permintaan konsumen, dan banyak lagi seperti prediksi harga rumah, prediksi harga saham di masa depan, prediksi harga cryptocurrency, dan sebagainya.

Kami berbicara banyak tentang teori, mari masuk ke zona praktis untuk memahami hal-hal dengan lebih baik:

Sumber: https://giphy.com/

BAGAIMANA REGRESI DITERAPKAN UNTUK MEMECAHKAN MASALAH?

REGRESI LINEAR SEDERHANA:

PERNYATAAN MASALAH:

Data yang diberikan memiliki berbagai atribut mobil, jadi sekarang kita akan menggunakan pendekatan regresi linier untuk memperkirakan harga mobil dengan kombinasi fitur yang terkumpul.

Beberapa terminologi yang perlu diingat saat kita berurusan dengan implementasi praktis.

PRICE — Biaya mobil RELIABILITY — Pengukuran menengah untuk menentukan keandalan kendaraan. MILEAGE — Jarak tempuh bahan bakar kendaraan. JENIS — Variabel kategori menentukan kategori tempat mobil berada. BERAT — Bobot mobil DISPLACEMENT — Mewakili perpindahan mesin dari mobil HP — Tenaga kuda kendaraan, unit yang mengukur kekuatannya.

PEMBACAAN DATA:

PENTINGNYA MEMBACA DATA:

Untuk memastikan bahwa data yang bersih dan teratur dapat digunakan untuk melatih model lebih lanjut dan menghindari kesalahpahaman saat bekerja dengan kumpulan data besar, perlu dilakukan pra-proses dan mulai pembersihan data, yaitu mengubah data mentah menjadi data bersih.
Membaca data sangat penting untuk mengembangkan model dan bergerak maju.

getwd()

## Memuat data
data_mobil <- baca.csv(file = "mobil.csv")

PEMAHAMAN DATA:

Pada fase ini, kami akan memeriksa jumlah pengamatan dan atribut yang terjadi. Mengklasifikasikan variabel independen dan dependen.

CATATAN: Dalam regresi linier, variabel dependen adalah variabel kontinu.

Di sini, kami akan memprediksi variabel dependen dengan satu variabel independen.

CONTOH: Kami akan mempertimbangkan HARGA sebagai variabel dependen dan PERPINDAHAN mobil sebagai variabel independen.

redup(cars_data)

str(data_mobil)

kepala(cars_data)

ekor(cars_data)

ringkasan(cars_data)

KONVERSI TIPE DATA:

Nilai atribut dapat diubah secara implisit atau eksplisit. Pengguna tidak mengetahui konversi implisit. SQL Server menerjemahkan data dari satu tipe data ke tipe lainnya secara instan. Saat membandingkan int kecil dengan int, misalnya, int kecil secara implisit diubah menjadi int sebelum perbandingan dilakukan.

#Konversi “Keandalan” menjadi variabel faktor
mobil_data[, “Reliability”] <- as.factor(as.character(cars_data[, "Reliability"]))

mobil_data[, “Country”] <- as.factor(as.character(cars_data[, "Country"]))
mobil_data[, “Type”] <- as.factor(as.character(cars_data[, "Type"]))

str(data_mobil)

NILAI PENANGANAN:

Sehingga kami tidak memiliki ruang nol/kosong yang membuat kekacauan dalam model kami.

## Cari Nilai yang Hilang
sum ( is . is ( cars_data ) )

colSums(is.na(cars_data))

#Instal paket DMwR2 jika Anda belum melakukannya.
install.packages(“DMwR2”, dependencies=TRUE)

## Memasukkan nilai yang hilang
perpustakaan (DMwR2)
data_mobil=centralImputasi(data_mobil)

sum ( is . is ( cars_data ) )

sum ( is . is ( cars_data ) )

ANALISIS PENJELAJAHAN DATA:

Analisis Data Eksplorasi adalah proses penting dalam melakukan investigasi awal pada data untuk tingkat deteksi yang baik, mengidentifikasi penyimpangan, menguji hipotesis, dan memvalidasi asumsi menggunakan hasil statistik dan visualisasi.

#Plot variabel Dependen dan Independen
# _*Scatter Plot*_ membantu melihat hubungan antara dua variabel kontinu

opsi (repr.plot.width = 10, repr.plot.height = 10)
par(mfrow = c(2,2)) # Membagi panel plotting 2*2

plot(cars_data$Berat, cars_data$Harga, xlab = “Berat”,
ylab = “Harga”, main = “Berat vs Harga”)

plot(cars_data$Jarak tempuh, mobil_data$Harga, xlab = “Jarak tempuh”,
ylab = “Harga”, main = “Jarak tempuh vs Harga”)

plot(cars_data$Disp., cars_data$Harga, xlab = “Perpindahan”,
ylab = “Harga”, main = “Perpindahan vs Harga”)

plot(cars_data$HP, cars_data$Harga, xlab = “Tenaga Kuda”,
ylab = “Harga”, main = “Tenaga Kuda vs Harga”)

MEMISAHKAN DATA MENJADI SET PELATIHAN DAN VALIDASI:

Tujuan utama membagi kumpulan data menjadi kumpulan validasi adalah untuk menghindari model kami dari overfitting, yang terjadi ketika algoritme sangat efektif dalam mengkategorikan item dalam kumpulan data uji tetapi berjuang untuk menggeneralisasi praktik dan prediksi pengetahuan pada data yang belum pernah ditemui sebelumnya. .

1:100

sampel(1:100,ukuran=10)

mobil_data[c(1,10),]

## Pisahkan nomor baris menjadi 2 set
set.seed(1)
train_rows = sampel(1:nrow(data_mobil), ukuran=0,7*nrow(data_mobil))
validasi_rows = setdiff(1:nrow(cars_data),train_rows)

kereta_baris

validasi_baris

## Subset ke set Train dan Validasi
data_kereta <- data_mobil[train_rows,]
validasi_data <- data_mobil[validation_rows,]

## Lihat dimensi data
redup(cars_data)
redup(data_kereta)
redup(validasi_data)

AYO BANGUN MODEL SEKARANG:

nama(train_data)

Fungsi # lm digunakan untuk mencocokkan model linier
LinReg = lm(Harga ~ Tampilan, data = data_kereta)

## Ringkasan model linier
ringkasan(LinReg)

GITHUB GIST ❤️

Jika Anda ingin menjalankan kode dan menginterpretasikan hasilnya:

https://medium.com/media/c638a47419aab2fb2a27aa15a6d524b0/href

2. REGRESI LINEAR GANDA:

Seperti yang telah kita lihat dalam regresi linier sederhana, perhitungan dalam regresi linier sederhana adalah menghitung jarak antara variabel terikat ‘Y’ dan variabel bebas ‘X’.

Ketika kita berbicara tentang regresi linier berganda, konsepnya hampir sama, atau kita dapat mengatakan bahwa itu adalah augmentasi dari regresi linier sederhana di mana alih-alih mencari hubungan antara variabel dependen dan independen, kita menemukan hubungan antara variabel dependen ‘Y ‘ dan variabel penjelas ‘P.’

Regresi linier berganda dilambangkan dengan rumus:

Sumber: https://hummedia.manchester.ac.uk/institutes/cmist/archive-publications/working-papers/2008/2008-19-multiple-linear-regression.pdf

CATATAN:

β0 = Suku konstanta

β1 dan βP = Variabel penjelas

BERITA MENARIK:

Kami menggunakan istilah ‘LINEAR’ dalam regresi linier berganda karena kami selalu percaya bahwa ‘Y’ berhubungan langsung dengan kombinasi linear dari variabel penjelas ‘P’ ketika kami menggunakan regresi.

CONTOH NYATA DI MANA KAMI MENGGUNAKAN REGRESI LINEAR BERGANDA:

Mencoba memperkirakan penghasilan seseorang berdasarkan berbagai variabel sosiodemografi. Mencoba memperkirakan keberhasilan penilaian total siswa tingkat ‘A’ berdasarkan nilai kumpulan hasil pemeriksaan pada kisaran 16. Mencoba menghitung tekanan darah sistolik atau diastolik berdasarkan faktor sosial dan ekonomi, dan gaya hidup (pekerjaan, minum, merokok, usia, dll).

MARI KITA LIHAT IMPLEMENTASI PRAKTIS DARI BEBERAPA STUDI KASUS UNTUK MENJADI LEBIH JELAS:

https://medium.com/media/167f35b0a7304d527c9a285dc6899068/href

3. REGRESI LOGISTIK:

Regresi logistik adalah pendekatan analitik statistik yang menggunakan data yang sudah ada sebelumnya dari kumpulan data asli untuk memperkirakan hasil biner, seperti ya atau tidak. Model regresi logistik meramalkan variabel dependen dengan memeriksa hubungan antara satu atau lebih variabel independen yang ada.

Sumber; https://twitter.com/NickSinghTech/status/1580660958112157696

Kami sebelumnya telah melihat banyak tentang regresi logistik di blog klasifikasi; jika Anda ingin melakukan penyegaran cepat, buka teknik pertama dari jenis algoritme klasifikasi untuk mempelajarinya lebih lanjut.

Dalam hal tipe regresi logistik, ada tiga subtipe utama dalam REGRESI LOGISTIK:

1. REGRESI LOGISTIK BINER:

Ketika kita berpikir tentang regresi logistik biner, hal pertama dan satu-satunya yang muncul di pikiran adalah 0 dan 1 (bilangan biner), dan memang seperti itu. Respons memiliki dua kemungkinan hasil: 0 atau 1.

Ini adalah yang paling umum dari tiga pendekatan.

2. REGRESI LOGISTIK MULTINOMI:

Saat menggunakan teknik regresi logistik multinomial, variabel yang diinginkan dapat memiliki lebih dari tiga hasil, dan urutannya tidak tetap, dan seperti yang ditetapkan sebelumnya, hasilnya tidak harus berupa bilangan bulat biner.

CONTOH: Jika Netflix ingin mengkategorikan sepuluh besar acara trending yang paling banyak ditonton di bulan November, regresi logistik akan membantu Netflix dalam menentukan waktu tonton setiap acara di wilayah atau negara tertentu. Kemudian Netflix dapat memulai pemasaran dengan mengiklankan sepuluh seri teratas dengan jam menonton terbanyak.

3. REGRESI LOGISTIK ORDINAL:

Teknik terakhir adalah regresi logistik ordinal, di mana model berisi variabel dependen dengan tiga kemungkinan atau lebih, tetapi tidak seperti regresi logistik multinomial, di mana urutannya tidak ditentukan, nilai dalam regresi logistik ordinal memiliki urutan yang pasti.

CONTOH: Universitas menetapkan nilai berdasarkan nilai mulai dari A hingga D.

IMPLEMENTASI DALAM PRAKTEK DENGAN MEMAHAMI STUDI KASUS:

https://medium.com/media/b81fda7298820fbf5075bfcb3fbd2a0b/href

SUDAH MENYENANGKAN BELAJAR REGRESI? KARENA KAMI MENYENANGKAN MENULIS UNTUK KALIAN!

Sumber: https://giphy.com/

IKUTI KAMI UNTUK KESENANGAN YANG SAMA UNTUK BELAJAR BLOG DAN ARTIKEL ILMU DATA: 💙

TERKAIT: https://www.linkedin.com/company/dsmcs/

INSTAGRAM: https://www.instagram.com/datasciencemeetscybersecurity/?hl=id

GITHUB: https://github.com/Vidhi1290

TWITTER: https://twitter.com/VidhiWaghela

SEDANG: https://medium.com/@datasciencemeetscybersecurity-

SITUS WEB: https://www.datasciencemeetscybersecurity.com/

— Team Data Science bertemu dengan Cyber ​​Security ❤️💙

REGRESI — BAGAIMANA, MENGAPA, DAN KAPAN? awalnya diterbitkan di Towards AI on Medium, di mana orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Scott Anderson