Esensi Ilmu Data — Etika AI (II) – Menuju AI

Esensi Ilmu Data — Etika AI (II) – Menuju AI

Pengarang: Nitin Chauhan

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Esensi Ilmu Data — Etika AI (II)

Etika AI, pengantar Mengidentifikasi Bias; Courtesy: Gambar oleh Penulis

Artikel ini adalah bagian kedua dari seri penting Etika AI untuk Ilmu Data. Jika Anda belum membaca AI Ethics (I), saya akan mendorong Anda untuk membaca di mana saya telah membahas pentingnya Human-Centered Design (HCD). Dalam artikel ini, saya akan melanjutkan dengan Etika AI. Hari ini kita akan memahami konsep Bias dan bagaimana mengidentifikasinya.

Apa itu Bias?

Ada potensi pembelajaran mesin (ML) untuk meningkatkan kehidupan, tetapi juga bisa menjadi sumber bahaya. Beberapa aplikasi pembelajaran mesin telah mendiskriminasi individu berdasarkan ras, jenis kelamin, agama, status sosial ekonomi, dan karakteristik lainnya.

Dalam artikel ini, Anda akan mempelajari tentang bias, yang mengacu pada hasil negatif yang tidak diinginkan dari aplikasi pembelajaran mesin, terutama jika hasilnya memengaruhi kelompok tertentu secara tidak proporsional.

Artikel ini akan membahas enam jenis bias yang dapat memengaruhi aplikasi ML apa pun. Anda kemudian akan menerapkan pengetahuan baru Anda dalam latihan langsung untuk mengidentifikasi bias dalam skenario dunia nyata.

Identifikasi Bias?

Selain konsep “data bias”, banyak praktisi pembelajaran mesin yang akrab dengan gagasan sampah masuk, sampah keluar. Jika, misalnya, chatbot dilatih menggunakan kumpulan data yang berisi percakapan online anti-Semit (“sampah masuk”), kemungkinan akan membuat komentar anti-Semit (“sampah keluar”). Contoh tersebut mengilustrasikan jenis bias yang diperlukan (bias historis, seperti yang akan Anda lihat di bawah) yang harus dikenali dan ditangani.

Penting untuk dicatat bahwa bias bukanlah satu-satunya cara aplikasi ML dapat terpengaruh secara negatif oleh bias.

Selain bias dalam data, ada juga bias representasi (dibahas dalam artikel ini), yang terjadi ketika kelompok tertentu kurang terwakili dalam data pelatihan. Misalnya, saat melatih sistem deteksi wajah, sistem tidak akan bekerja dengan baik untuk pengguna dengan warna kulit lebih gelap jika data pelatihan sebagian besar terdiri dari individu dengan warna kulit lebih terang. Bentuk bias ketiga yang timbul dari data pelatihan adalah bias pengukuran, yang akan Anda pelajari nanti di artikel ini.

Selain data yang bias, bias juga dapat terjadi pada cara model ML didefinisikan, dibandingkan dengan model lain, dan diinterpretasikan oleh pengguna sehari-hari untuk menghasilkan aplikasi ML yang tidak adil. Seperti yang akan Anda temukan, bias juga dapat dihasilkan dari cara model ML didefinisikan, dibandingkan dengan model lain, dan diinterpretasikan oleh pengguna sehari-hari. Kerusakan dapat terjadi di mana saja selama proses ML.

Jenis Bias

Kosakata bersama akan memungkinkan percakapan yang produktif tentang cara mengurangi (atau mengurangi) bias setelah kita mengetahui berbagai jenis bias.

A. Bias sejarah

Data dapat menjadi bias karena keadaan dunia di mana mereka dihasilkan.

Pada tahun 2020, hanya 7,4% dari CEO Fortune 500 yang akan menjadi perempuan. Beberapa penelitian telah menunjukkan bahwa perusahaan dengan CEO dan CFO wanita cenderung lebih menguntungkan daripada perusahaan dengan CEO atau CFO pria, menunjukkan bahwa wanita dikenakan standar perekrutan yang lebih tinggi daripada pria. Kami mungkin mempertimbangkan untuk menghapus input manusia dan menggantinya dengan kecerdasan buatan untuk memperbaiki masalah ini. Misalkan data dari keputusan perekrutan masa lalu digunakan untuk melatih model. Dalam hal ini, model kemungkinan akan belajar untuk menunjukkan bias yang sama seperti yang ada dalam data.

B. Representasi bias

Dalam membangun kumpulan data untuk melatih sebuah model, bias representasi terjadi jika kumpulan data tidak secara akurat mencerminkan orang-orang yang akan dilayani oleh model tersebut.

Data statistik yang dikumpulkan melalui aplikasi ponsel cerdas akan kurang mewakili kelompok yang cenderung tidak memiliki ponsel cerdas. Misalnya, individu yang berusia di atas 65 tahun akan kurang terwakili saat mengumpulkan data di Amerika Serikat. Menggunakan data untuk menginformasikan desain sistem transportasi kota akan menjadi bencana karena orang tua memiliki kebutuhan penting mengenai aksesibilitas.

C. Bias pengukuran

Mungkin ada bias pengukuran ketika akurasi data bervariasi antar kelompok. Hal ini dapat terjadi ketika bekerja dengan variabel proxy (variabel yang menggantikan variabel yang tidak dapat diukur secara langsung) jika kualitas proxy bervariasi antar kelompok.

Berdasarkan informasi seperti diagnosis sebelumnya, pengobatan, dan demografi, rumah sakit setempat Anda menggunakan model untuk mengidentifikasi pasien berisiko tinggi sebelum mereka mengembangkan kondisi parah. Dalam model, informasi ini digunakan untuk memprediksi biaya perawatan kesehatan, dengan asumsi bahwa pasien dengan biaya yang lebih tinggi cenderung memiliki risiko yang lebih tinggi. Meskipun model secara tegas mengecualikan ras, model ini menunjukkan diskriminasi rasial karena kecil kemungkinannya untuk memilih pasien kulit hitam yang memenuhi syarat. Bagaimana ini mungkin? Karena biaya telah digunakan sebagai proxy untuk risiko, hubungan antara variabel-variabel ini bervariasi dengan ras. Dibandingkan dengan pasien non-kulit hitam dengan kondisi kesehatan yang serupa, pasien kulit hitam mengalami peningkatan hambatan untuk perawatan, kurang percaya pada sistem perawatan kesehatan, dan karena itu memiliki biaya medis yang lebih rendah, rata-rata.

D. Bias agregasi

Bias agregat terjadi ketika kelompok digabungkan secara tidak tepat, menghasilkan model yang tidak berkinerja baik untuk kelompok mana pun atau hanya untuk kelompok mayoritas. (Ini sering tidak menjadi masalah tetapi sering muncul dalam aplikasi medis.)

Prevalensi diabetes dan komplikasi terkait diabetes di antara orang Latin lebih tinggi daripada di antara orang kulit putih non-Hispanik. Saat membangun kecerdasan buatan untuk mendiagnosis atau memantau diabetes, penting untuk memasukkan etnisitas sebagai fitur dalam data atau merancang model terpisah berdasarkan etnis.

E. Bias evaluasi

Saat mengevaluasi model, bias evaluasi terjadi ketika data benchmark (digunakan untuk membandingkan model dengan model lain yang melakukan tugas serupa) tidak secara akurat mencerminkan populasi yang akan dilayani model.

Menurut makalah Gender Shades, dua set data benchmark analisis wajah yang banyak digunakan (IJB-A dan Adience) sebagian besar berisi subjek berkulit lebih terang (masing-masing 79,6% dan 86,2%). Tolok ukur ini menunjukkan hasil mutakhir untuk AI klasifikasi gender komersial; namun, orang kulit berwarna mengalami tingkat kesalahan yang sangat tinggi.

F. Bias penerapan

Bias penyebaran model terjadi ketika masalah yang dirancang untuk dipecahkan oleh model berbeda dari cara penggunaannya. Jika pengguna akhir tidak menggunakan model sebagaimana dimaksud, kinerja tidak dijamin.

Sistem peradilan pidana menggunakan alat untuk memprediksi apakah penjahat yang dihukum akan kambuh lagi ke dalam perilaku kriminal. Namun, alat-alat ini tidak dirancang untuk membantu hakim ketika memutuskan hukuman yang tepat selama hukuman.

Kami dapat secara visual merepresentasikan berbagai jenis bias ini, yang terjadi pada tahapan yang berbeda dalam alur kerja ML:

Aplikasi AI cenderung mengalami berbagai jenis bias yang diperkenalkan dalam tahapan yang berbeda, seperti yang ditunjukkan dalam alur kerja; Courtesy: Gambar melalui Debmalya Biswas. Bias dalam representasi (jika kumpulan data yang digunakan untuk melatih model tidak menyertakan warna kulit lebih gelap), individu berkulit gelap dapat dikenakan bias pengukuran (jika alat pengukur menunjukkan penurunan kinerja), Menggunakan kumpulan data yang mengecualikan warna kulit lebih gelap akan menghasilkan bias penilaian.

Etika AI: Latihan Kasus Penggunaan

Platform Civil Comments ditutup pada akhir 2017 dan merilis *2 juta komentar publik dalam arsip terbuka. Jigsaw mensponsori upaya ini dan memberikan penjelasan yang komprehensif. Kaggle mengadakan kompetisi Jigsaw Unintended Bias in Toxicity Classification pada tahun 2019 untuk menyediakan forum bagi para ilmuwan data di seluruh dunia untuk berkolaborasi menyelidiki cara mengurangi bias dalam klasifikasi toksikologi.

Di bawah ini adalah sel kode yang memuat beberapa data dari kompetisi. Ribuan komentar akan dianalisis, masing-masing diberi label sebagai “beracun” atau “tidak beracun.”

Cuplikan kumpulan data; Courtesy: Gambar oleh Penulis
Proporsi kumpulan data didasarkan pada kolom Target. Karena ini adalah nilai numerik dan kami hanya tertarik pada klasifikasi biner. Kami akan mengelompokkan nilai apa pun di atas 0,65 sebagai Kelas 1; Courtesy: Gambar oleh Penulis

https://medium.com/media/9a2f36d57d36c5c3fb3b1ff9e7b08cd6/href

data.columns
”’Indeks([‘id’, ‘target’, ‘comment_text’, ‘severe_toxicity’, ‘obscene’, ‘identity_attack’, ‘insult’, ‘threat’, ‘asian’, ‘atheist’, ‘bisexual’, ‘black’, ‘buddhist’, ‘christian’, ‘female’, ‘heterosexual’, ‘hindu’, ‘homosexual_gay_or_lesbian’, ‘intellectual_or_learning_disability’, ‘jewish’, ‘latino’, ‘male’, ‘muslim’, ‘other_disability’, ‘other_gender’,’other_race_or_ethnicity’, ‘other_religion’,
‘other_sexual_orientation’, ‘physical_disability’,
‘psychiatric_or_mental_illness’, ‘transgender’, ‘white’, ‘created_date’,’publication_id’, ‘parent_id’, ‘article_id’, ‘rating’, ‘funny’, ‘wow’, ‘sad’, ‘likes’, ‘disagree’, ‘sexual_explicit’, ‘identity_annotator_count’, ‘toxicity_annotator_count’]dtype=’objek’)”’

https://medium.com/media/2239263002ece17dcd192a1c686357dd/href

Kita akan melihat lebih dekat bagaimana model mengklasifikasikan komentar.

Contoh 1: Agama (centang)

Mulailah dengan menjalankan sel kode apa adanya untuk mengklasifikasikan komentar “Saya punya teman Hindu.” dan bandingkan dengan “Saya punya teman Muslim.” Mari kita lihat hasil apa yang kita dapatkan untuk setiap pernyataan dan periksa apakah ada kemungkinan bias?

https://medium.com/media/18e595cd9e88d5cbc9874eef036de879/href

Contoh 2: Etnis (Cek)

Mulailah dengan menjalankan sel kode apa adanya untuk mengklasifikasikan komentar “Saya punya teman kulit hitam.” dan bandingkan dengan “Saya punya teman Latin.” Mari kita lihat hasil apa yang kita dapatkan untuk setiap pernyataan dan periksa apakah ada kemungkinan bias?

https://medium.com/media/f93e5ae7aa4de80f0cdd66b7cd5bb149/href

Teman Muslim saya ditandai sebagai racun, tetapi teman Hindu saya tidak. Selain itu, saya memiliki teman kulit hitam yang ditandai sebagai beracun, sedangkan teman Latin saya tidak ditandai beracun. Tak satu pun dari komentar ini harus dikategorikan sebagai beracun, tetapi model tersebut secara keliru mengaitkan identitas spesifik dengan racun. Tampaknya model tersebut bias mendukung Hindu dan Latino melawan Muslim, serta mendukung Latino dan melawan kulit hitam.

Koefisien kata ‘Hitam’ dan ‘Muslim’ jelas memiliki skor yang lebih tinggi yang menunjukkan toksisitas dibandingkan dengan istilah lain seperti ‘Latin’ atau ‘Hindu’.

Kemungkinan lain adalah terjemahan. Anda mengambil komentar yang belum dalam bahasa Inggris dan menerjemahkannya ke dalam bahasa Inggris dengan alat terpisah. Kemudian, Anda memperlakukan semua postingan seolah-olah awalnya diungkapkan dalam bahasa Inggris. Jenis bias apa yang akan diderita model Anda? Menerjemahkan komentar ke dalam bahasa Inggris dapat menimbulkan kesalahan tambahan saat mengklasifikasikan kata-kata non-Inggris. Hal ini dapat menyebabkan bias pengukuran karena komentar non-Inggris seringkali tidak diterjemahkan dengan sempurna. Hal ini juga dapat menimbulkan bias agregasi: jika komentar dari bahasa yang berbeda diperlakukan secara berbeda, model umumnya akan bekerja dengan baik mengingat komentar yang diungkapkan dalam semua bahasa.

Takeaways Kunci

Mengidentifikasi Bias adalah salah satu cara untuk mengelola sistem AI Anda, memastikan aturan dan regulasi dipatuhi sesuai panduan bisnis, dan ada prosedur yang disiapkan untuk memantau dan mengevaluasi setiap perbedaan. Dalam artikel lanjutan, saya akan membahas konsep memahami AI yang Adil dan cara merancang sistem AI yang etis. Sementara itu, Anda dapat membaca referensi di sini:

AI Etis: Penjelasan, Bias, Reproduksibilitas & Akuntabilitas Kaggle: Pengantar Etika AI

Jika Anda menyukai artikel ini, ikuti saya untuk konten yang lebih relevan. Untuk blog baru, atau peringatan artikel, klik berlangganan. Juga, jangan ragu untuk terhubung dengan saya di LinkedIn, dan mari menjadi bagian dari jaringan yang menarik.

Data Science Essentials — AI Ethics (II) awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Scott Anderson