Membuktikan Konveksitas Log-Loss untuk Regresi Logistik – Menuju AI

Membuktikan Konveksitas Log-Loss untuk Regresi Logistik – Menuju AI

Penulis: Menuju Tim Editorial AI

Awalnya diterbitkan di Menuju AI.

Membongkar Dampak Fungsi Kesalahan Log Loss pada Regresi Logistik

Foto oleh DeepMind di Unsplash

Author(s): Pratik Shukla

“Keberanian itu seperti otot. Kami memperkuatnya dengan menggunakan.” — Ruth Gordo

Daftar isi:

Bukti konveksitas fungsi log-loss untuk regresi logistik Tampilan visual BCE untuk regresi logistik Sumber daya dan referensi

Perkenalan

Dalam tutorial ini, kita akan melihat mengapa fungsi log-loss berfungsi lebih baik dalam regresi logistik. Di sini, tujuan kita adalah membuktikan bahwa fungsi log-loss adalah fungsi konveks untuk regresi logistik. Setelah kami membuktikan bahwa fungsi log-loss cembung untuk regresi logistik, kami dapat menetapkan bahwa itu adalah pilihan yang lebih baik untuk fungsi kerugian.

Regresi logistik adalah teknik statistik yang banyak digunakan untuk memodelkan masalah klasifikasi biner. Dalam metode ini, log-odds dari variabel hasil dimodelkan sebagai kombinasi linier dari variabel prediktor. Untuk memperkirakan parameter model, metode kemungkinan maksimum digunakan, yang melibatkan pengoptimalan fungsi kemungkinan log. Fungsi kemungkinan log untuk regresi logistik biasanya dinyatakan sebagai jumlah negatif dari kemungkinan log dari setiap pengamatan. Fungsi ini dikenal sebagai fungsi log-loss atau binary cross-entropy loss. Dalam postingan blog ini, kita akan mengeksplorasi konveksitas fungsi log-loss dan mengapa ini merupakan properti penting dalam algoritme pengoptimalan yang digunakan dalam regresi logistik. Kami juga akan memberikan bukti kecembungan fungsi log-loss.

Bukti konveksitas fungsi log-loss untuk regresi logistik:

Mari kita buktikan secara matematis bahwa fungsi log-loss untuk regresi logistik adalah cembung.

Kita telah melihat pada tutorial sebelumnya bahwa suatu fungsi dikatakan fungsi cembung jika turunan keduanya >0. Jadi, di sini kita akan menggunakan fungsi log-loss dan menemukan turunan keduanya untuk melihat apakah nilainya >0 atau tidak. Jika >0, maka kita dapat mengatakan bahwa ini adalah fungsi cembung.

Di sini kita akan mempertimbangkan kasus uji coba tunggal untuk menyederhanakan perhitungan.

Langkah 1:

Berikut ini adalah definisi matematis dari fungsi kerugian lintas-entropi biner (untuk percobaan tunggal).

Gambar — 1: Binary Cross-Entropy loss untuk percobaan tunggal

Langkah 2:

Berikut adalah nilai prediksi (ŷ) untuk regresi logistik.

Gambar — 2: Probabilitas yang diprediksi untuk contoh yang diberikan

Langkah — 3:

Pada gambar berikut, z mewakili transformasi linier.

Gambar — 3: Transformasi linier dalam perambatan maju

Langkah — 4:

Setelah itu, kami memodifikasi Langkah — 1 untuk mencerminkan nilai Langkah — 3 dan Langkah — 2.

Gambar — 4: Binary Cross-Entropy loss untuk regresi logistik untuk percobaan tunggal

Langkah — 5:

Selanjutnya, kami menyederhanakan persyaratan di Langkah — 4.

Gambar — 5: Binary Cross-Entropy loss untuk regresi logistik untuk percobaan tunggal

Langkah — 6:

Selanjutnya, kami lebih lanjut menyederhanakan persyaratan di Langkah – 5.

Gambar — 6: Binary Cross-Entropy loss untuk regresi logistik untuk percobaan tunggal

Langkah — 7:

Berikut ini adalah aturan hasil bagi untuk logaritma.

Gambar — 7: Aturan hasil bagi untuk logaritma

Langkah — 8:

Selanjutnya, kita gunakan persamaan dari Langkah — 7 untuk lebih menyederhanakan Langkah — 6.

Gambar — 8: Binary Cross-Entropy loss untuk regresi logistik untuk percobaan tunggal

Langkah — 9:

Pada Langkah — 8, nilai log(1) akan menjadi 0.

Gambar — 9: Nilai log(1)=0

Langkah — 10:

Selanjutnya, kami menulis ulang Langkah — 8 dengan suku yang tersisa.

Gambar — 10: Binary Cross-Entropy loss untuk regresi logistik untuk satu percobaan

Langkah — 11:

Berikut ini adalah aturan pangkat untuk logaritma.

Gambar — 11: Aturan pangkat untuk logaritma

Langkah — 12:

Selanjutnya, kita akan menggunakan aturan pangkat logaritma untuk menyederhanakan persamaan pada Langkah — 10.

Gambar — 12: Menerapkan aturan pangkat

Langkah — 13:

Selanjutnya, kami mengganti nilai pada Langkah — 10 dengan nilai pada Langkah — 12.

Gambar — 13: Menggunakan aturan pangkat untuk logaritma

Langkah — 14:

Selanjutnya, kita mengganti nilai Langkah — 13 ke Langkah — 10.

Gambar — 14: Binary Cross-Entropy loss untuk regresi logistik untuk percobaan tunggal

Langkah — 15:

Selanjutnya, kita mengalikan Langkah — 14 dengan (-1) pada kedua sisi.

Gambar — 15: Binary Cross-Entropy loss untuk regresi logistik untuk percobaan tunggal

Menemukan Turunan Pertama:

Langkah — 16:

Selanjutnya, kita akan mencari turunan pertama dari f(x).

Gambar — 16: Mencari turunan pertama dari f(w)

Langkah — 17:

Di sini kami mendistribusikan tanda diferensiasi parsial untuk setiap suku.

Gambar — 17: Mencari turunan pertama dari f(w)

Langkah — 18:

Di sini kita menerapkan aturan turunan.

Gambar — 18: Mencari turunan pertama dari f(w)

Langkah — 19:

Di sini kita menemukan turunan parsial suku terakhir dari Langkah — 18.

Gambar — 19: Mencari turunan pertama dari f(w)

Langkah — 20:

Di sini kita menemukan turunan parsial dari suku pertama Langkah — 18.

Gambar — 20: Mencari turunan pertama dari f(w)

Langkah — 21:

Di sini kita menggabungkan hasil dari Langkah — 19 dan Langkah — 20.

Gambar — 21: Mencari turunan pertama dari f(w)

Langkah — 22:

Selanjutnya, kita menyusun ulang suku-suku persamaan pada Langkah — 21.

Gambar — 22: Mencari turunan pertama dari f(w)

Langkah — 23:

Selanjutnya, kita menulis ulang persamaan di Langkah — 22.

Gambar — 23: Mencari turunan pertama dari f(w)

Menemukan Turunan Kedua:

Langkah — 24:

Selanjutnya, kita akan mencari turunan kedua dari fungsi f(x).

Gambar — 24: Mencari turunan kedua dari f(w)

Langkah — 25:

Di sini kami mendistribusikan turunan parsial untuk setiap suku.

Gambar — 25: Mencari turunan kedua dari f(w)

Langkah — 26:

Selanjutnya, kita menyederhanakan persamaan di Langkah — 25 untuk menghilangkan suku-suku yang berlebihan.

Gambar — 26: Mencari turunan kedua dari f(w)

Langkah — 27:

Berikut adalah aturan turunan untuk 1/f(x).

Gambar — 27: Aturan turunan untuk 1/f(x)

Langkah — 28:

Selanjutnya, kami menemukan istilah yang relevan untuk plug-in di Langkah — 27.

Gambar — 28: Nilai p(w) untuk turunan dari 1/p(w)

Langkah — 29:

Di sini kita menemukan suku turunan parsial untuk Langkah — 27.

Gambar — 29: Nilai p'(w) untuk turunan dari 1/p(w)

Langkah — 30:

Di sini kita menemukan suku kuadrat untuk Langkah — 27.

Gambar — 30: Nilai p(w)² untuk turunan dari 1/p(w)

Langkah — 31:

Di sini kita menggabungkan semua persyaratan dari Langkah — 27.

Gambar — 31: Menghitung nilai turunan dari 1/p(w)

Langkah — 32:

Di sini kita menyederhanakan persamaan pada Langkah — 31.

Gambar — 32: Menghitung nilai turunan dari 1/p(w)

Langkah — 33:

Selanjutnya, kami menggabungkan semua nilai pada Langkah — 26.

Gambar — 33: Mencari turunan kedua dari f(w)

Langkah — 34:

Selanjutnya, kita menyederhanakan lebih jauh istilah-istilah di Langkah — 33.

Gambar — 34: Mencari turunan kedua dari f(w)

Baiklah! Jadi, sekarang kita memiliki turunan kedua dari fungsi f(x). Selanjutnya, kita perlu mencari tahu apakah ini >0 untuk semua nilai x atau tidak. Jika >0 untuk semua nilai x, maka kita dapat mengatakan bahwa kerugian lintas-entropi biner adalah cembung untuk regresi logistik.

Seperti yang dapat kita lihat bahwa suku-suku berikut dari Langkah — 34 selalu akan menjadi ≥0 karena kuadrat dari bilangan apa pun selalu ≥0.

Gambar — 35: Kuadrat suku apa pun selalu ≥0 untuk nilai x apa pun

Sekarang, kita perlu menentukan apakah nilai e^(-wx) >0 atau tidak. Untuk melakukannya, pertama-tama mari kita cari jangkauan fungsi e^(-wx) di dalam domain [-∞,+∞]. Untuk lebih menyederhanakan perhitungan, kami akan mempertimbangkan fungsi e^-x alih-alih e^-wx. Harap dicatat bahwa penskalaan fungsi tidak mengubah jangkauan fungsi jika domainnya [-∞,+∞]. Pertama mari kita gambarkan grafik e^-x untuk memahami jangkauannya.

Gambar — 36: Grafik e^-x untuk domain dari [-10, 10]

Dari grafik di atas kita dapat menarik kesimpulan sebagai berikut:

Saat nilai x bergerak menuju tak terhingga negatif (-∞), nilai e^-x bergerak menuju tak terhingga (+∞).

Gambar — 37: Nilai e^-x saat x mendekati -∞

2. Saat nilai x bergerak menuju 0, nilai e^-x bergerak menuju 1.

Gambar — 38: Nilai e^-x saat x mendekati 0

3. Saat nilai x bergerak menuju tak terhingga positif (+∞), nilai e^-x bergerak menuju 0.

Gambar — 40: Nilai e^-x saat x mendekati +∞

Jadi, kita dapat mengatakan bahwa jangkauan fungsi f(x)=e^-x adalah [0,+∞]. Berdasarkan perhitungan, kita dapat mengatakan bahwa fungsi f(x)=e^-wx akan selalu ≥0.

Baiklah! Jadi, kami menyimpulkan bahwa semua suku persamaan pada Langkah — 34 adalah≥0. Oleh karena itu, kita dapat mengatakan bahwa fungsi f(x) adalah fungsi cembung untuk regresi logistik.

Catatan penting:

Jika nilai turunan kedua dari fungsi tersebut adalah 0, maka ada kemungkinan bahwa fungsi tersebut tidak cekung atau cembung. Tapi, jangan terlalu khawatir tentang itu!

Pandangan Visual pada BCE untuk Regresi Logistik:

Fungsi entropi silang biner untuk regresi logistik diberikan oleh …

Gambar — 41: Binary Cross Entropy Loss

Sekarang, kita tahu bahwa ini adalah masalah klasifikasi biner. Jadi, hanya ada dua nilai yang mungkin untuk Yi (0 atau 1).

Langkah 1:

Nilai fungsi biaya saat Yi=0.

Gambar — 42: Binary Cross Entropy Loss saat Y=0

Langkah 2:

Gambar — 43: Binary Cross Entropy Loss saat Y=1

Sekarang, mari kita pertimbangkan hanya satu contoh pelatihan.

Langkah — 3:

Sekarang, katakanlah kita hanya memiliki satu contoh pelatihan. Artinya n=1. Jadi, nilai fungsi biaya saat Y=0,

Gambar — 44: Binary Cross Entropy Loss untuk satu contoh pelatihan saat Y=0

Langkah — 4:

Sekarang, katakanlah kita hanya memiliki satu contoh pelatihan. Artinya n=1. Jadi, nilai fungsi biaya ketika Y=1,

Gambar — 45: Binary Cross Entropy Loss untuk satu contoh pelatihan saat Y=1

Langkah — 5:

Sekarang, mari plot grafik fungsi pada Langkah — 3.

Gambar — 46: Grafik -log(1-X)

Langkah — 6:

Sekarang, mari plot grafik fungsi pada Langkah — 4.

Gambar — 47: Grafik -log(X)

Langkah — 7:

Mari kita gabungkan grafik di Langkah — 5 dan Langkah — 6.

Gambar — 48: Grafik -log(1-X) dan -log(X)

Grafik di atas mengikuti definisi fungsi cembung (“Fungsi dari variabel tunggal disebut fungsi cembung jika tidak ada ruas garis yang menghubungkan dua titik pada grafik yang berada di bawah grafik di sembarang titik”). Jadi, kita dapat mengatakan bahwa fungsinya cembung.

Kesimpulan:

Sebagai kesimpulan, kami telah menjelajahi konsep konveksitas dan kepentingannya dalam algoritme pengoptimalan yang digunakan dalam regresi logistik. Kami telah mendemonstrasikan bahwa fungsi log-loss adalah cembung, yang mengimplikasikan bahwa masalah pengoptimalannya memiliki minimum global yang unik. Properti ini sangat penting untuk memastikan stabilitas dan konvergensi algoritma pengoptimalan yang digunakan dalam regresi logistik. Dengan membuktikan kecembungan fungsi log-loss, kami telah menunjukkan bahwa masalah optimisasi dalam regresi logistik memiliki posisi yang baik dan dapat diselesaikan secara efisien menggunakan metode optimisasi cembung standar. Selain itu, bukti kami memberikan pemahaman yang lebih dalam tentang dasar matematika regresi logistik dan meletakkan dasar untuk penelitian dan pengembangan lebih lanjut di bidang ini.

Beli Kopi Pratik!

Kutipan:

Untuk atribusi dalam konteks akademik, harap kutip karya ini sebagai:

Shukla, et al., “Membuktikan Convexity of Log Loss for Logistic Regression”, Menuju AI, 2023

Kutipan BibTex:

@artikel{latihan_2023,
title={Membuktikan Convexity of Log Loss untuk Logistic Regression},
url={https://pub.towardsai.net/proving-the-convexity-of-log-loss-for-logistic-regression-49161798d0f3},
jurnal={Menuju AI},
publisher={Menuju AI Co.},
author={Pratik, Shukla},
editor={Binal, Dave},
tahun={2023},
bulan={Feb}
}

Proving the Convexity of Log-Loss for Logistic Regression awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Scott Anderson