
Author(s): Murli Sivashanmugam
Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda membuat produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.
Bagaimana Privacy Preserving ML mengungkap nilai baru dalam rantai nilai AI/ML?
Foto oleh DeepMind di Unsplash
Evolusi AI/ML dalam dekade terakhir sangat drastis dan dramatis dibandingkan dengan teknologi lain mana pun dalam sejarah masa lalu kita. Laju evolusi yang tinggi ini dapat dikaitkan dengan dua faktor utama, ketersediaan kumpulan data dan komunitas sumber terbuka dengan akses ke kumpulan data ini. Fakta yang tak terbantahkan bahwa kumpulan data seperti ImageNet, COCO, NLTK, GPT-2, dan GloVe, memainkan peran penting dalam evolusi AI/ML.
Ketika evolusi AI dimulai satu dekade lalu, hampir tidak ada kesadaran akan nilai data atau implikasinya terhadap privasi. Maju cepat hingga hari ini, negara-negara sedang meluncurkan undang-undang perlindungan data kami dan kebanyakan dari kita setidaknya menyadari potensi bahaya yang dapat ditimbulkan oleh kebocoran data bagi kita. Dengan meningkatnya kesadaran dan peraturan tentang perlindungan data, kemungkinan besar ketersediaan kumpulan data baru untuk publik akan turun dan karenanya dapat memperlambat evolusi AI lebih jauh.
Kekhawatiran privasi data jauh lebih jelas dengan organisasi karena mereka memperlakukan data mereka sebagai Kekayaan Intelektual dan tidak mau membaginya dengan pihak ketiga. Privacy-Preserving ML (PPML) memiliki banyak potensi yang menjanjikan untuk membuka nilai baru dalam rantai nilai ML.
Apa itu Privacy Preserving ML?
Saat ini, seluruh siklus hidup aplikasi AI/ML dibatasi dalam batas Kepercayaan. Setiap organisasi dipaksa untuk mempekerjakan tim ilmu data internal atau konsultan jangka pendek untuk mengekstraksi nilai dari data mereka. Beberapa organisasi berhasil melakukannya tetapi banyak dari mereka tidak. Persyaratan untuk membatasi data mereka merugikan organisasi karena tingkat inovasinya dibatasi oleh kemampuan internalnya. Saat ini tidak ada yang membangun aplikasi basis data internal seperti MongoDB, Redis, dll., Tetapi semua orang membangun model peramalan, sistem rekomendasi, prediksi urutan, dll., dan mencoba memasukkannya ke dalam produksi. Privacy-Preserving ML(PPML) dapat membantu organisasi melampaui batas kepercayaan dan mengekstraksi nilai dari aplikasi AI/ML lebih dari apa yang mereka lakukan saat ini. PPML tidak hanya tentang mengontrol dan mengamankan data pelatihan, tetapi juga tentang mengamankan model yang dilatih, data yang dikirim ke model untuk inferensi dan prediksi yang dihasilkan oleh model. Mereka membentuk empat pilar [1] dari PPML.
Akhir-akhir ini ada banyak penelitian dan pengembangan yang berfokus pada PPML. Federated Learning telah mendapatkan popularitas baru-baru ini, berkat publikasi dari Google, “Federated Learning for Mobile Keyboard Prediction” [2], yang memberikan dorongan kepercayaan diri untuk menghasilkan Federated Learning. Pada saat yang sama publikasi seperti “Kemajuan dan masalah terbuka dalam pembelajaran federasi” [3] dan “Sistem pembelajaran federasi: Visi, hype, dan realitas untuk privasi dan perlindungan data” [4] memberi kami kejelasan bahwa Federated Learning adalah salah satu bagian dari teka-teki yang diperlukan untuk menyelesaikan PPML. Publikasi “Pembelajaran Mesin yang Menjaga Privasi: Metode, Tantangan, dan Arah” [5] menguraikan kerangka kerja dan kosa kata yang baik untuk mendefinisikan dan mengakses solusi PPML.
Percayai Domain dalam Menjaga Privasi ML
Gambar 1 di bawah menampilkan Domain Kepercayaan yang terlibat dalam Rantai Nilai ML.
Gambar 1 — Domain Kepercayaan dalam Rantai Nilai ML
Rantai Nilai ML memiliki tiga sub-domain yaitu pembuatan data, pelatihan model, dan konsumsi model. Tujuan utama PPML adalah untuk memungkinkan banyak pihak berpartisipasi dalam rantai nilai ini dengan kepercayaan terbatas atau nol. Ketika tanggung jawab Pembuatan Data, Pengembangan Model, dan Inferensi Model dimiliki oleh satu entitas seperti satu orang atau satu tim scrum, maka PPML tidak diperlukan. Karena cakupan dan penerapan Aplikasi ML semakin meluas, tidak mungkin untuk mengelola siklus hidup ML end-to-end oleh satu tim scrum atau unit bisnis. Ketika rantai nilai ML digunakan bersama oleh beberapa tim scrum atau unit bisnis atau organisasi, tanggung jawab untuk mengamankan solusi ML juga dibagi dan karenanya diperlukan kerangka kerja PPML untuk memastikan rantai nilai ML diamankan dari ujung ke ujung.
Untuk mengaktifkan zero trust antara Trust Domains, mekanisme privasi yang ditawarkan oleh setiap domain harus berdiri sendiri. Misalnya, mekanisme kepercayaan yang digunakan oleh Pengembang Aplikasi ML harus mandiri dan tidak boleh bergantung pada mekanisme Privasi Produsen Data.
PPML Trust-O-Meter
Infografis di bawah ini mencoba menangkap teknologi PPML sebagai kerangka kerja yang dapat diterapkan pada berbagai tingkat Kepercayaan. Infografis ini tidak dimaksudkan untuk memberikan peta lengkap dari semua teknologi PPML yang tersedia saat ini, melainkan memberikan gambaran kemungkinan opsi yang dapat dipertimbangkan untuk meluncurkan solusi PPML untuk kebutuhan yang berbeda.
Data Producers Trust-O-Meter
Gambar 2 — Opsi PPML Untuk Produsen Data
Produsen Data untuk berpartisipasi dalam rantai nilai ML perlu mengamankan Data mereka dan memastikan bahwa Data tidak meninggalkan domain tepercaya mereka. Mereka perlu mengekspos antarmuka data mereka yang terkontrol, terbatas, dan dapat diaudit kepada pihak ketiga tanpa mengorbankan privasi data dan risiko kehilangan aset data mereka. Produser Data harus mempertimbangkan penerapan Anonimisasi setidaknya untuk menyamarkan informasi sensitif. Anonimisasi berbasis Privasi Diferensial dan teknologi Eksekusi Jarak Jauh dapat dipertimbangkan ketika faktor Kepercayaan cukup tinggi pada entitas eksternal. Ketika faktor Kepercayaan terbatas, seseorang dapat mempertimbangkan untuk menggunakan Federated Learning dan Enkripsi Homomorfik. Federated Learning telah melihat peluncuran terbatas untuk produksi belakangan ini dan di mana Enkripsi Homomorfik masih dalam domain penelitian.
Penyedia Aplikasi ML Trust-O-Meter
Gambar 3 — Opsi PPML Untuk Penyedia ML APP
Penyedia Model atau Aplikasi ML perlu melakukan EDA dan melatih model tanpa memiliki akses ke data aktual secara lokal. Penyedia Aplikasi ML akan tertarik untuk melindungi model mereka dari beberapa entitas eksternal penyedia Data dan Konsumen Model. Mereka perlu melindungi bobot dan arsitektur model untuk memastikan bahwa data pelatihan dan pelatihan model tidak dapat direkayasa ulang. Penyedia Aplikasi ML dapat mempertimbangkan lingkungan Eksekusi Jarak Jauh dan jenis pendekatan distilasi pengetahuan ‘PATE’ untuk pelatihan ketika tingkat Kepercayaan cukup tinggi pada Penyedia Data dan dapat mempertimbangkan Wadah Bertandatangan dan jenis abstraksi model SaaS atau PATE-G untuk model pengemasan untuk berinteraksi dengan konsumen model. Ketika tingkat Kepercayaan rendah seseorang dapat mempertimbangkan pendekatan seperti Multi-Party Compute (MPC) dan Trusted Execution Environment (TEE) untuk pelatihan dan Model Compression dan Oblivious Models untuk Model Packaging.
Kepercayaan Konsumen Aplikasi ML-O-Meter
Gambar 4 — Opsi PPML Untuk Konsumen Aplikasi ML
Konsumen Aplikasi ML ingin melindungi data input sensitif seperti catatan kesehatan, skor kredit, dan kesimpulan yang dihasilkan seperti diagnosis, peringkat kredit, dll dari penyedia Aplikasi ML. Setidaknya Konsumen Aplikasi ML harus mempertimbangkan untuk menggunakan teknik Anonimisasi tradisional pada informasi sensitif. Ketika tingkat Kepercayaan sangat tinggi, seseorang dapat mempertimbangkan untuk menerapkan pendekatan seperti teknik Anonimisasi berbasis Privasi Diferensial dan Wadah Lokal untuk melindungi data masukan. Ketika tingkat kepercayaan rendah, seseorang harus mempertimbangkan untuk menggunakan teknologi Multi-Party Compute dan Garbled Circuits untuk memastikan privasi input data. Teknologi Multi-Party-Compute dan Garbled Circuits masih dalam domain penelitian.
Keamanan dan privasi tidak pernah mutlak dan akan selalu ada kompromi antara kepercayaan, keamanan, dan ketersediaan sumber daya. Seseorang perlu membuat keputusan trade-off tergantung pada nilai yang perlu dilindungi berdasarkan kasus per kasus. Untuk setiap kasus penggunaan, seseorang harus berlatih menyusun profil PPML tergantung pada pihak yang terlibat, faktor kepercayaan, dan persyaratan sumber daya. Semoga infografis yang disebutkan di atas dapat menjadi titik awal untuk membuat profil semacam itu.
Kesimpulan
Meskipun banyak teknologi PPML saat ini masih dalam domain penelitian, ada banyak teknologi, terutama di domain Produser Data, yang dapat diluncurkan ke produksi saat ini. Seseorang harus melihat penerapan teknologi PPML ke produksi saat teknologi berkembang dan dengan demikian mengungkap nilai baru dalam rantai nilai ML sehingga secara kolektif kita terus mendorong ML ke batas baru dengan cara yang aman.
Referensi
AI yang Menjaga Privasi dengan Sempurna. Apa itu, dan bagaimana kita mencapainya? | oleh Patricia Thaine | Menuju Ilmu Data
https://towardsdatascience.com/perfectly-privacy-preserving-ai-c14698f322f5 Andrew Hard, Kanishka Rao, Rajiv Mathews, Swaroop Ramaswamy, Françoise Beaufays, Sean Augenstein, Hubert Eichner, Chloé Kiddon, Daniel Ramage: “Federated Learning for Mobile Keyboard Prediksi”, 2018; arXiv:1811.03604 Peter Kairouz, H. Brendan McMahan, Brendan Avent, Aurélien Bellet, dkk: “Kemajuan dan Masalah Terbuka dalam Pembelajaran Federasi”, 2019; arXiv:1912.04977 Qinbin Li, Zeyi Wen, Zhaomin Wu, Sixu Hu, Naibo Wang, Yuan Li, Xu Liu, Bingsheng He: “Survei tentang Sistem Pembelajaran Federasi: Visi, Sensasi, dan Realitas untuk Privasi dan Perlindungan Data”, 2019; arXiv:1907.09693 Runhua Xu, Nathalie Baracaldo, James Joshi: “Pembelajaran Mesin yang Menjaga Privasi: Metode, Tantangan, dan Arah”, 2021; arXiv:2108.04417
Hak Cipta © A5G Networks, Inc.
Buka Rantai Nilai Baru di AI/ML awalnya diterbitkan di Towards AI on Medium, di mana orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.
Diterbitkan melalui Menuju AI