
Author(s): Abhishek Jana
Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda membuat produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.
Siapkan Proyek Anda untuk Pembelajaran Mesin: Panduan Langkah demi Langkah
Banyak dari kita sering membuat kesalahan dengan langsung terjun ke coding saat mengerjakan proyek end-to-end. Pendekatan ini dapat bekerja dengan baik ketika berhadapan dengan kumpulan data kecil yang tidak memerlukan banyak pemrosesan awal. Dalam kasus ini, kami dapat dengan cepat melatih model pembelajaran mesin prediktif dan menerapkannya di cloud. Tetapi pendekatan ini memiliki keterbatasan. Jika proyek tidak disiapkan dengan benar, kode mungkin tidak “dapat digunakan kembali” atau “dapat diskalakan”, yang dapat menyebabkan masalah di kemudian hari.
Apa arti dari “dapat digunakan kembali” dan “dapat diskalakan” dalam proyek pembelajaran mesin?
“Dapat digunakan kembali” mengacu pada kemampuan suatu proyek atau komponennya untuk digunakan kembali dalam proyek mendatang. Dapat digunakan kembali dapat menghemat waktu, uang, dan sumber daya dalam proyek mendatang dengan mengurangi kebutuhan untuk memulai dari awal.
Kami mengatakan bahwa proyek “dapat diskalakan” jika dapat dengan mudah diadaptasi untuk bekerja dengan kumpulan data yang lebih besar atau lebih kecil tanpa perubahan signifikan pada keseluruhan desain atau strukturnya. Ini penting karena memungkinkan proyek untuk digunakan secara efektif dalam berbagai situasi, terlepas dari ukuran data yang sedang dikerjakan.
Jika Anda bertanya-tanya bagaimana memulainya, inilah panduan langkah demi langkah. Perlu diingat bahwa saya tidak akan menjelaskan kode secara rinci melainkan memberikan gambaran tentang aliran proyek.
Langkah 1. Jangan Membuat Kode!
Penting untuk membaca dan memahami pernyataan masalah dan deskripsi data dengan cermat sebelum mulai mengerjakan kumpulan data. Melakukannya dapat memberikan informasi berharga tentang kumpulan data, seperti asalnya, jumlah dan nama kolom, dan cara mengakses data. Dalam beberapa kasus, deskripsi tersebut bahkan dapat menunjukkan bahwa kumpulan data tersebut sudah usang atau umum digunakan dan, oleh karena itu, mungkin tidak memberikan wawasan baru. Mari kita lihat sebuah contoh.
Saat ini saya sedang mengerjakan sewa sepeda berbagi yang merupakan kumpulan data berusia 10 tahun dan digunakan oleh banyak penggemar ilmu data. Jadi ini tidak akan memberi kita informasi baru. Jadi jika Anda melihat kumpulan datanya, itu memberi kami gambaran tentang kumpulan data itu bahkan tanpa melihat ke dalam datanya. Ini memberi tahu kami sumber data yang memiliki versi terbaru. Kita bisa menggunakan itu.
Dalam industri, deskripsi data sering diberikan bersama dengan kumpulan data. Ini disebut “Perjanjian Berbagi Data,” atau DSA. Penting untuk membaca dan memahami informasi ini sebelum memulai analisis Anda. Ini membawa kita ke langkah selanjutnya.
Langkah 2. Dokumentasi!
Proyek ilmu data atau pembelajaran mesin biasanya melibatkan banyak tim, seperti tim pemeliharaan data, tim analisis data, tim pelatihan model, dan tim pengembangan front-end. Penting untuk mendokumentasikan proyek dengan cara yang jelas dan terorganisir sehingga semua anggota tim dapat memahaminya dan mengikuti perkembangan terbaru. Hal ini sangat penting saat mempresentasikan proyek kepada pemangku kepentingan atau saat anggota baru bergabung dengan tim dan perlu segera menyesuaikan diri. Dengan mendokumentasikan proyek secara konsisten dan menyeluruh, tim dapat memastikan bahwa setiap orang berada di halaman yang sama dan bekerja menuju tujuan yang sama.
Ada lima jenis dokumen yang perlu kami simpan:
Dokumen Desain Tingkat Tinggi: Dokumen desain tingkat tinggi, atau HLD, adalah dokumen umum yang menguraikan alur keseluruhan proyek. Ini biasanya mencakup deskripsi data yang akan digunakan, langkah-langkah yang terlibat dalam proyek, dan alat serta sumber daya yang diperlukan untuk menyelesaikannya. Dokumen ini memberikan ikhtisar tingkat tinggi dari proyek dan digunakan untuk memandu tim pengembangan dalam mengimplementasikan proyek. Ini juga dapat digunakan untuk mengkomunikasikan tujuan dan sasaran proyek kepada pemangku kepentingan dan pihak berkepentingan lainnya. Dokumen Desain Tingkat Rendah: Dokumen Desain Tingkat Rendah (LLD) adalah dokumen yang lebih spesifik yang berfokus pada detail penanganan data dan pelatihan model pembelajaran mesin. LLD memberikan pandangan yang lebih mendalam tentang aspek teknis proyek dan bagaimana berbagai komponen akan bekerja sama. Dokumen Desain Arsitektur: AD memberikan penjelasan rinci tentang struktur internal suatu program. Ini termasuk diagram kelas dengan metode dan hubungannya, serta deskripsi spesifikasi program. Dokumen ini berfungsi sebagai panduan bagi pemrogram, memungkinkan mereka menulis kode langsung dari desain. Dokumen Wireframe: Ini adalah pratinjau tentang bagaimana front-end akan terlihat setelah proyek diterapkan. Laporan Proyek Terperinci: DPR sebagian besar ditujukan kepada para pemangku kepentingan tentang keseluruhan temuan proyek.
Desain tingkat tinggi (HLD) dan desain tingkat rendah (LLD) adalah tahap perencanaan awal dalam sebuah proyek di mana masing-masing struktur keseluruhan dan spesifikasi rinci proyek ditata. Setelah HLD dan LLD disetujui, tim pengembangan dapat mulai menulis kode dan membuat desain aplikasi (AD) dan dokumen wireframe. Kemajuan dan temuan proyek biasanya dirangkum dalam dokumen akhir yang disebut Laporan Proyek Terperinci (DPR).
Langkah 3. Pilih Template!
Sekarang untuk memulai pengkodean, kita dapat membuat repositori GitHub dan mendorong pekerjaan kita di sana.
struktur proyek
Berikut adalah template proyek yang dapat membantu Anda saat memulai proyek baru. Pada bagian berikut, saya akan menjelaskan tujuan dari setiap direktori dan file dalam template. Untuk saat ini, Anda dapat mengkloning repositori ini dan menjelajahi direktori “dokumen”.
Setelah membaca ini, Anda akan dapat menggunakan template untuk membuat desain tingkat tinggi (HLD) dan desain tingkat rendah (LLD) untuk proyek Anda sendiri. Cobalah, dan beri tahu saya bagaimana kelanjutannya.
Anda dapat mengikuti saya di GitHub, LinkedIn, dan media untuk pembaruan terbaru dan tetap mendapat informasi tentang posting blog yang akan datang.
Referensi:
GitHub – abhishek-jana/sample_project_templete
https://ineuron.ai/
Proyek Pembelajaran Mesin End-to-End dengan Penerapan Bagian 1: Pengaturan Proyek awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.
Diterbitkan melalui Menuju AI