Alam semesta peran “Ilmu Data” demistifikasi – Menuju AI

Alam semesta peran "Ilmu Data" demistifikasi – Menuju AI

Pengarang: Shahrokh Barati

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Semesta Peran “Ilmu Data”

Data Scientist vs. Data Analyst vs. Data Engineer vs. ML Engineer vs. MLOps Engineer vs. [insert your fancy role title here]…

Ikhtisar visual peran inti & pendukung di seluruh siklus hidup ilmu data — gambar oleh penulis

Izinkan saya memulai blog ini dengan mengklarifikasi bahwa saya tidak menganggap diri saya sebagai ilmuwan data atau pakar teknis, tetapi saya telah memperoleh perspektif pragmatis tentang berbagai peran di bidang ini melalui pengalaman saya dalam memimpin proyek AI & ilmu data serta membangun dan mengelola tim ilmuwan data dan profesional analitik.

Saya percaya pada kekuatan ilustrasi visual, jadi jika Anda hanya memiliki waktu 1 menit, biarkan seperti gambar di atas, yang merupakan ringkasan visual dari blog ini, yang menggambarkan peran inti dan pendukung di seluruh siklus hidup ilmu data.

Ada banyak pandangan yang berbeda dan terkadang bertentangan tentang berbagai peran dalam ruang ilmu data dan tanggung jawab masing-masing. Saya tidak mengklaim memiliki jawaban yang benar, tetapi saya telah mencoba untuk menyoroti peran yang paling umum dalam istilah sederhana untuk mengungkap beberapa hype yang mengelilingi judul “dimuat”.

Secara alami ada banyak tumpang tindih antara peran-peran ini, dan saya tidak akan berpura-pura bahwa mereka adalah MECE (saling eksklusif dan secara kolektif lengkap), tetapi saya telah mencoba menggarisbawahi elemen pembeda utama dari setiap peran untuk membantu pemosisian mereka. Juga, saya percaya ketika industri semakin matang, peran ini secara alami akan menjadi lebih standar dan umum, terutama mengingat beberapa dari mereka bahkan tidak ada baru-baru ini 3-4 tahun yang lalu.

Ikhtisar peran Ilmu Data “Inti”

Saya hanya menggunakan istilah “inti” untuk menyoroti peran yang paling sering disebut ketika berbicara tentang ilmu data. “Inti” tentu saja tidak boleh dibaca sebagai “lebih penting,” karena masing-masing peran ini memiliki tempatnya sendiri, yang tanpanya keberhasilan proyek ilmu data apa pun dapat dikompromikan.

Keterampilan teknis umum yang mencakup sebagian besar peran ilmu data adalah pemodelan data, teori & statistik pembelajaran mesin, pengembangan perangkat lunak, dan visualisasi data. Perbedaan utama adalah sejauh mana setiap keterampilan penting untuk satu peran versus peran lainnya, seperti yang diilustrasikan di sini:

Keterampilan umum di seluruh peran ilmu data — gambar oleh penulis

Saya sengaja membuat deskripsi di bawah ini cukup singkat dan ringkas untuk membantu membedakan antara setiap peran dengan lebih mudah; menulis daftar tanggung jawab yang lengkap dan deskripsi pekerjaan yang lengkap melampaui cakupan blog ini.

Analis Data (pakar Analisis)

Fokus utama: Analis Data, kadang-kadang juga disebut sebagai pakar analisis data, menghabiskan sebagian besar waktu mereka untuk menjelajahi, berdebat, dan menyiapkan data, serta membuat laporan, dasbor, dan visualisasi dengan tujuan utama memberikan wawasan yang dapat ditindaklanjuti. Tumpukan teknologi utama: Microsoft Excel (untuk eksplorasi data), Alteryx (atau alat persiapan data visual serupa lainnya), Tableau/Power BI/Qlikview (dan alat dasbor/visualisasi serupa lainnya), Basic Python (misalnya, Pandas, NumPy, dan Suka)

Insinyur Data

Fokus utama: Insinyur Data adalah insinyur perangkat lunak pada intinya yang memiliki spesialisasi dalam pengembangan jalur pipa data (termasuk Big Data). Mereka terutama bertanggung jawab untuk mencari, mengubah, dan mengintegrasikan kumpulan data besar dari berbagai sistem dan memasukkannya ke dalam struktur/model data yang diperlukan untuk dikonsumsi oleh analis data dan ilmuwan data. Tumpukan teknologi utama: Python Tingkat Lanjut (misalnya, Pandas, NumPy), SQL Tingkat Lanjut, teknologi/bahasa Big Data (misalnya, Spark, PySpark, Scala, Hadoop, Hive), platform ETL (misalnya, Informatica, IBM InfoSphere)

Ilmuwan Data

Fokus utama: Fokus utama ilmuwan data biasanya dalam tahap “pengembangan & evaluasi model”, di mana mereka bertanggung jawab untuk mengembangkan alur pembelajaran mesin melalui proses berulang dan eksperimental dari rekayasa fitur, pelatihan model, evaluasi model, dan optimalisasi kinerja. Namun, dalam praktiknya, banyak ilmuwan data terlibat di semua tahap siklus hidup ilmu data dan kadang-kadang disebut sebagai ilmuwan data tumpukan penuh. Tumpukan teknologi utama: Python tingkat lanjut, termasuk pustaka ML (misalnya, Pandas, NumPy, Tensorflow, Scikit-learn, PyTorch, Matplotlib, dll.), pustaka NLP (misalnya, NLTK, BERT, spaCy, dll.), bekerja dengan SQL dan Basis data NoSQL, Platform Ilmu Data (mis., Dataiku, Azure ML, Databricks, Domino Data Lab, KNIME, RapidMiner, atau hanya Jupyter Notebook/JupyterLab)

Insinyur MLOps

Fokus utama: Insinyur Operasi Pembelajaran Mesin (MLOps) secara efektif adalah insinyur DevOps yang memiliki spesialisasi dalam penerapan dan pipeline CI/CD model pembelajaran mesin. Praktik MLOps berbeda dari praktik DevOps tradisional dalam beberapa hal. Misalnya, mereka biasanya memerlukan data produksi di lingkungan pengembangan, infrastruktur berbasis cloud yang dapat diskalakan, sering kali termasuk server bertenaga GPU untuk pelatihan model, kontrol versi model dengan layanan registri model, penampung model dan penerapan ke infrastruktur orkestrasi yang dapat diskalakan, dan jalur pipa yang memungkinkan pemantauan konstan output dalam produksi, mekanisme untuk memberi makan output untuk secara otomatis melatih ulang dan menerapkan kembali model secara dinamis, dll.) Tumpukan teknologi utama: Docker Containers atau yang serupa, Kubernetes Services atau yang serupa, GitLab atau yang serupa, pipeline CI/CD, Linux/Unix, Fiddler, MLflow, dll.

Insinyur ML

Fokus utama: Insinyur Pembelajaran Mesin (ML) adalah salah satu peran yang paling kontroversial dengan pandangan yang sering bertentangan tentang ruang lingkupnya. Beberapa melihatnya sebagai hampir identik dengan ilmuwan data, dan yang lain melihatnya sebagai pengembang full-stack; namun, dalam praktiknya, mereka duduk di antara keduanya. Insinyur ML adalah insinyur perangkat lunak dengan pelatihan yang juga memiliki pengetahuan mendalam tentang konsep dan alur pembelajaran mesin. Tanggung jawab mereka mencakup pengintegrasian output model ke dalam sistem hilir, memfaktorkan ulang pipeline ML ke dalam kode siap produksi (terkadang dalam bahasa pemrograman tingkat rendah seperti Java atau C++), mengembangkan API yang membungkus model dan mengaktifkan decoupling mereka sebagai layanan mikro, mengembangkan aplikasi yang mengintegrasikan keluaran model, dll. Tumpukan teknologi utama: Pemrograman lanjutan (Java, C++, Python), layanan mikro tingkat lanjut dan pengetahuan API (mis., Java Spring Boot, Flask, FastAPI, dll.), pemahaman tentang tumpukan teknologi terkait MLOps ( misalnya, Docker, Kubernetes, GitLab, dll.)

Ikhtisar peran pendukung lainnya yang terkait dengan proyek ilmu data

Foto oleh John Schnobrich di Unsplash

Ada beberapa peran terkait yang sering berinteraksi dengan peran inti yang disebutkan di atas untuk menyampaikan proyek ilmu data. Mereka sebagian besar jatuh ke dalam 3 kategori:

1. Beberapa di antaranya adalah peran rekayasa standar, seperti Insinyur Infrastruktur, Arsitek Solusi, dan Manajer Produk, yang diperlukan untuk setiap proyek pengiriman TI.

2. Orang lain seperti Arsitek Data, Pemodel Data, Pemilik Data, dan pakar Manajemen Data diperlukan untuk setiap proyek terkait data, terlepas dari apakah teknik AI/ML tingkat lanjut digunakan atau tidak.

3. Kategori terakhir adalah yang lebih spesifik untuk dunia data science, seperti AI/ML Researcher, Model Validator, dan Analytics Translators. Tanggung jawab mereka kadang-kadang terkandung dalam peran inti yang disebutkan di atas tetapi juga bisa ada sebagai peran yang berdiri sendiri, terutama di organisasi yang lebih besar. Sebagai contoh:

Peneliti AI/ML: Kemampuan teknis yang serupa dengan ilmuwan data, tetapi dengan fokus utama pada penelitian dan eksperimen dengan perkembangan terbaru dan terbesar dalam ruang ilmu data sebelum digunakan dalam lingkungan produksi yang sebenarnya Validator Model: Biasanya diperlukan dalam pengaturan yang sangat ketat lingkungan seperti layanan keuangan, di mana validasi independen model dan asumsinya diperlukan oleh orang lain selain orang yang mengembangkan model Analytics Penerjemah: Peran ini berada di persimpangan UKM bisnis non-teknis (ahli materi pelajaran) dan ilmuwan data teknis dan bertindak sebagai “penerjemah” untuk menghubungkan dua dunia ini. Mereka memiliki pemahaman yang baik tentang konsep ilmu data dan istilah terkait tetapi juga dapat berbicara bahasa bisnis dan membingkai masalah dan manfaat ilmu data untuk orang banyak non-teknis.

Pemikiran terakhir tentang evolusi peran ilmu data

Foto oleh Supratik Deshmukh di Unsplash

Banyak dari peran ini telah ada sejak lama, tetapi mereka hanya dipanggil dengan judul yang berbeda sebelum apa yang disebut “era ilmu data.” Peran-peran ini sama sekali tidak ketinggalan zaman dan pada dasarnya masih sangat banyak, tetapi sebagian besar telah berevolusi/bergabung menjadi salah satu peran ilmu data yang disebutkan di atas.

Misalnya, pengembang ETL (Extract-Transform-Load), telah berevolusi menjadi insinyur data dengan tumpukan teknologi yang lebih modern seperti PySpark, Scala, dan Hive daripada alat ETL seperti Informatica. Demikian pula, para insinyur Business Intelligence (BI) telah berevolusi menjadi pakar analisis data yang berfokus pada menggambar wawasan dari data menggunakan alat visualisasi dan dasbor terbaru.

Saya yakin bahwa peran ilmu data saat ini juga akan terus berkembang, terutama mengingat perkembangan yang sangat cepat di bidang ini. Beberapa peran yang saya sebutkan di sini mungkin menjadi usang atau digabungkan ke peran lain yang lebih baru atau diposisikan ulang dengan serangkaian tanggung jawab yang sama sekali berbeda dengan harapan kita saat ini.

Sebagai contoh, ada tren yang meningkat dalam merangkul teknologi Auto-ML yang mampu secara otomatis menghasilkan 1000-an fitur dari data dan melatih 100-an model ML dengan hyper-parameter yang berbeda untuk menemukan solusi optimal untuk masalah yang ditentukan. Ketika teknologi ini menjadi lebih mapan dan diterima, sifat peran ilmu data juga perlu berkembang. Misalnya, akan ada lebih banyak penekanan pada masalah pembingkaian dan penyempurnaan ahli daripada menghabiskan banyak upaya dalam mengembangkan alur rekayasa fitur dan eksperimen ML dari awal.

Hal ini sudah terjadi pada framework/library ML saat ini seperti Tensorflow, Pytorch, dan Keras, yang memungkinkan para ilmuwan data hampir tidak menghabiskan waktu untuk mengembangkan algoritme ML yang mendasarinya dari awal (misalnya, Neural Networks, XGBoost, dll.) dan menghabiskan lebih banyak waktu untuk menerapkan algoritma tersebut untuk memecahkan masalah mereka. Oleh karena itu, wajar untuk mengharapkan tren ini berlanjut dan untuk kerangka kerja/pustaka yang lebih baru untuk mengotomatiskan bagian yang lebih besar dari siklus hidup ilmu data seperti yang kita ketahui.

Menantikan komentar Anda tentang 1) apakah posisi saya atas peran ini sejalan dengan pemahaman/pengalaman Anda dan 2) jika ada peran tambahan yang perlu disorot.

Alam semesta peran “Ilmu Data” yang didemistifikasi awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Scott Anderson