Bagaimana Analisis Data Eksplorasi Membantu Saya Memecahkan Jutaan Dolar… – Menuju AI

Bagaimana Analisis Data Eksplorasi Membantu Saya Memecahkan Jutaan Dolar… – Menuju AI

Author(s): Puneet Jindal

Awalnya diterbitkan di Menuju AI.

Foto oleh Luke Chesser di Unsplash

EDA adalah metode yang ampuh untuk mendapatkan wawasan dari data yang dapat memecahkan banyak masalah yang tidak dapat diselesaikan dalam bisnis. Di dunia yang semakin kompetitif, memahami data dan mengambil tindakan lebih cepat berdasarkan itu membantu menciptakan diferensiasi bagi organisasi untuk tetap menjadi yang terdepan!

Sebelum melanjutkan, izinkan saya membagikan definisi resmi yang disebutkan di internet

Exploratory Data Analysis (EDA) adalah proses menganalisis kumpulan data untuk meringkas karakteristik utamanya [1][2], seringkali menggunakan teknik statistik atau grafis. Ini digunakan untuk menemukan tren [2]pola, hubungan, dan anomali dalam data, dan dapat membantu menginformasikan pengembangan model yang lebih kompleks [3]. Ini juga dapat digunakan untuk menghasilkan hipotesis dan mengujinya, mengidentifikasi variabel penting, mendeteksi outlier, dan menilai hubungan antar variabel. EDA adalah proses berulang, dan digunakan untuk mengungkap wawasan tersembunyi dan mengungkap hubungan di dalam data.

Biarkan saya memandu Anda melalui definisi EDA dalam bentuk cerita. Kisah ini sangat personal bagi saya karena momen ini menambah keyakinan saya untuk memasuki bidang data science dan mendalami lebih jauh untuk menciptakan dampak sosial di dunia.

Penafian: – saya tidak akan menyebutkan nama organisasi tempat cerita ini berada untuk menghindari pengungkapan informasi rahasia apa pun.

Ketika saya mewawancarai banyak pemula, cerita mereka biasanya tentang memasuki Ilmu Data karena disebut sebagai pekerjaan terseksi di abad ke-21. Tapi saya tidak membahas ilmu data dengan cara yang diketahui. Kasus saya murni kebetulan dan didorong oleh rasa ingin tahu.

Saya memulai perjalanan saya sebagai insinyur perangkat lunak seputar teknologi seperti web stack termasuk python, javascript, dan java stack. Saya menjadi sangat bersemangat untuk membuat produk di mana saya dapat melihat dampaknya di depan saya. Untuk itu, saya mulai memikul lebih banyak tanggung jawab seperti mengelola database baik SQL maupun NoSQL.

Suatu hari, saya menyelesaikan pekerjaan yang ditugaskan, dan saya mendengar rekan bisnis senior saya mengeluh tentang aksesibilitas data ke kepala departemen saya. Dia menyebutkan bahwa timnya sedang mencoba mengunduh laporan bisnis. Sebagian besar unduhan gagal, atau unduhan sangat lambat dan ini berdampak pada efisiensi timnya dan menyebabkan ketidakpuasan kerja setiap hari.

Karena itu, mereka meminta departemen teknologi saya. kepala untuk menambahkan lebih banyak server kelas atas, dan internet berkecepatan tinggi, dan membeli laptop dengan memori tinggi untuk timnya untuk melihat data pelaporan saat mereka berjuang bahkan untuk file yang diunduh seandainya file tersebut diunduh. Ini berarti permintaan investasi TI yang sangat besar.

Saya menawarkan diri untuk melihat masalahnya dan melakukan langkah-langkah berikut.

Pertama, saya mendapat akses ke sistem pelaporan data sehingga saya bisa mendownload data dari database server logging. Data dalam bentuk JSON, sehingga harus diubah menjadi beberapa format yang mudah dipahami seperti CSV atau format tabel lainnya.

Jadi saya berencana untuk menggunakan panda, dan ukurannya hanya beberapa MB, jadi saya bisa melakukan analisis di laptop saya dengan RAM 16GB.

Kemudian, saya memuat log server JSON ini ke Jupyter Notebook dan memasang berbagai pustaka seperti Pandas dan Matplotlib. Dengan Pandas, saya memuat file JSON ke dalam bingkai data sehingga saya dapat melakukan transformasi data seperti mengekstraksi jam dalam sehari untuk semua catatan, dll.

Anda dapat mempelajari tentang operasi transformasi tersebut di https://towardsdatascience.com/how-to-convert-json-into-a-pandas-dataframe-100b2ae1e0d8

Panda membantu saya memformat ulang data dalam format yang mudah dianalisis dan matplotlib membantu saya memplot grafik pada data

Jika Anda ingin mendalami Pandas dan Matplotlib pada contoh dataset sebagai pemula, Anda dapat mengikuti video di bawah ini.

Apa yang saya lakukan selanjutnya menemukan pola dan dasar yang saya plot grafik seperti unduhan yang terjadi oleh penggunaan CPU pengguna atau server selama berjam-jam, dll. Apa yang saya dapatkan adalah sesuatu yang membingungkan.

3 wawasan sederhana tetapi dapat ditindaklanjuti!

Semua pengguna di seluruh perusahaan mengunduh semua data di pagi hari antara jam 10 pagi -11 pagi, dan sisa hari itu, server benar-benar tidak digunakan. Selanjutnya, ketika saya berdiskusi dengan tim, mereka harus menghapus data yang tidak relevan setelah mengunduh semua data, dan karena basis data semakin besar, ukuran unduhan juga semakin besar. Ini berarti bahwa mereka tidak perlu mengunduh 10x lebih banyak data, hampir semua database, termasuk data historis, yang bahkan tidak mereka perlukan untuk sebagian besar pengambilan keputusan sehari-hari. Ada pengguna yang tidak membutuhkan data tetapi masih meminta data dan juga bertukar data melalui email.

Tindakan yang diambil untuk mendapatkan wawasan di atas

Kapasitas puncak server hanya diperlukan selama beberapa menit di hari ketika pengguna membutuhkan akses data, jadi kami membuat solusi yang dapat diskalakan untuk menyesuaikan ukuran server secara dinamis untuk pemanfaatan optimal, yang merupakan versi sistem komputasi tanpa server saat ini. Jadi server hanya akan ditagih untuk waktu yang diminta pengguna untuk laporan sesuai dengan ukuran kueri. Antarmuka UI dibuat untuk menyediakan filter yang relevan sehingga hanya data yang diperlukan yang dapat diunduh oleh pengguna, seperti akses berdasarkan tim ke laporan terbatas. Kemudian kami pergi untuk mengotomatisasi ini untuk melengkapi alat Business Intelligence and Reporting yang memiliki grafik agregat dan terperinci. tata kelola data — Peran yang berbeda diberikan kepada pengguna berdasarkan kebutuhan mereka sehingga mereka hanya dapat mengakses data yang seharusnya dapat mereka akses.

Manfaat dari wawasan di atas

Pemanfaatan kapasitas server yang optimal membantu mengurangi biaya server setara dengan 2 jam, bukan 24 jam. Peningkatan efisiensi anggota tim karena kecepatan pengunduhan sambil menyediakan data yang relevan tanpa membeli laptop kelas atas yang baru membantu pengeluaran infra TI yang tidak dapat dihindari Aktifkan kepatuhan dan keamanan data

Sekarang, apa pun yang saya jelaskan hanyalah proses analisis data Eksplorasi. Menyukai penggambaran alur kerja berikut

Gambar diambil dari makalah Research Gate di sini

Saya harap Anda memahami bagaimana melihat data tanpa asumsi atau hipotesis dapat mengungkapkan wawasan yang sederhana namun dapat ditindaklanjuti atau bahkan tujuan baru. Wawasan ini menciptakan dampak positif pada organisasi dengan membuka peluang menghasilkan pendapatan atau pengurangan biaya.

Sekarang cerita di atas yang saya bagikan hanya untuk data terstruktur seperti dengan baris dan kolom.

Sekarang saya menyebutkan tentang data terstruktur, Anda harus menyadari bahwa ada 2 jenis data — data terstruktur dan tidak terstruktur. Untuk pemahaman yang lebih rinci, Anda dapat membaca artikel hebat ini di sini

Saat saya berkembang melalui karir saya, saya beruntung dengan sejumlah peluang untuk melakukan analitik lanjutan dalam bidang logistik, e-commerce, ritel, perawatan kesehatan, hipotek, CRM, dll. Di semua proyek yang saya lakukan pada pekerjaan ini, EDA adalah selalu langkah pertama untuk menciptakan nilai dari data.

Menurut IDC, 80% data dunia tidak akan terstruktur pada tahun 2025.

Sumber: https://deep-talk.medium.com/80-of-the-worlds-data-is-unstructured-7278e2ba6b73

Tidak terstruktur terutama dalam bentuk gambar, video, dan dokumen. Ada begitu banyak kursus dan alat di luar sana untuk melakukan EDA pada data terstruktur, tetapi tidak banyak pada data tidak terstruktur, seperti NLP dan analitik terkait visi komputer.

EDA adalah langkah dasar menuju analitik dasar atau proyek analitik lanjutan seperti pemodelan prediktif, Kecerdasan Buatan, dan analitik hilir terkait pembelajaran mesin, yang membantu dalam menyelesaikan kasus penggunaan seperti mengemudi sendiri, pencitraan medis, robot pertanian otonom, visi- pemeliharaan prediktif berbasis, asuransi berbasis citra satelit, dan sebagainya.

Jadi kami sebagai komunitas hanya meringankan EDA data terstruktur yang hanya mewakili kurang dari 10–15% dari total data yang dikumpulkan oleh organisasi atau melalui internet.

Bayangkan betapa hebatnya jika kita menganalisis semua data dan menggunakannya untuk model atau analitik prediktif. Model tersebut akan menjadi perwakilan yang lebih baik dari wawasan bisnis yang lebih dalam.

Sebuah pertanyaan dapat muncul bahwa mungkin terlalu mahal untuk menghabiskan waktu pada EDA ketika tidak ada tujuan yang ada dan, kadang-kadang, dapat menjadi anti-efisiensi.

Jumlah waktu yang dihabiskan untuk EDA bergantung pada kerumitan kumpulan data dan tujuan khusus analisis. Umumnya, para ahli merekomendasikan menghabiskan setidaknya 10 hingga 20 persen dari total waktu proyek untuk EDA.

Ini termasuk kegiatan seperti mengeksplorasi data, mengidentifikasi pola, dan menilai kualitas data. Selain itu, Analisis Data Eksplorasi harus ditinjau kembali sepanjang proyek untuk memastikan wawasan yang diperoleh dari data tetap valid dan relevan. Tapi itu sepadan dengan pengalaman saya karena memberikan jalan untuk menciptakan banyak inovasi baru dan bahkan produk.

Pertanyaan terakhir saya untuk Anda!

Apakah Anda merasakan hal yang sama tentang pentingnya Analisis Data Eksplorasi, terutama untuk gabungan data terstruktur dan tidak terstruktur?

Jika ya, mari terhubung melalui Linkedin saat saya menulis aspek menarik dan baru di bidang persiapan data visi komputer, dan saya senang mengobrol di saat yang sama. Hanya penyelaman mendalam teknis!

Bagaimana Analisis Data Eksplorasi Membantu Saya Memecahkan Masalah Bisnis Sejuta Dolar awalnya diterbitkan di Menuju AI di Medium, di mana orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Scott Anderson