5 Jebakan Stack Data Modern untuk Startup – Menuju AI

5 Jebakan Stack Data Modern untuk Startup – Menuju AI

Author(s): Luhui Hu

Awalnya diterbitkan di Menuju AI.

5 Jebakan Stack Data Modern Untuk Startup

Pelajaran praktis untuk pemula menggunakan tumpukan data modern

Foto oleh Buzz Andersen di Unsplash

Tumpukan data modern adalah platform dan layanan data terbuka cloud-native. Hari ini adalah era tumpukan data modern. Ini didukung secara luas oleh modal ventura dan berkembang pesat.

Data menjadi lebih kritis dari sebelumnya. Semakin banyak startup yang mengadopsi tumpukan data modern untuk mempercepat bisnis mereka. Sangat mendesak untuk memahami apa dan bagaimana. Di sini saya akan membagikan lima jebakan dari dan untuk startup yang menggunakan tumpukan data modern.

Jebakan 1: “Modern” dalam tumpukan data modern berarti “maju”

Istilah “modern” dalam tumpukan data modern mengacu pada penggunaan teknologi terkini. Itu tidak berarti itu maju dalam manajemen dan analisis data.

Dengan prinsip ini, ada tiga area yang harus diperhatikan dengan seksama sebelum terjun ke jebakan pertama.

Kompatibel mundur: Sebuah startup mungkin tidak memiliki banyak beban warisan, tetapi banyak yang telah berjalan selama bertahun-tahun. Dan platform data berkembang dengan cepat, misalnya komputasi dari Hadoop ke Spark dan penyimpanan dari Hive ke penyimpanan objek (seperti S3). Adopsi yang kompatibel dengan mundur dapat menghilangkan gangguan sistem dan bisnis. Mudah untuk ditingkatkan atau dimigrasikan: Pertumbuhan bisnis mungkin menjadi prioritas untuk sebuah startup. Sudah waktunya untuk merangkul tumpukan data modern, tetapi seringkali ada pilihan yang berbeda. Sangat penting untuk memilih mudah untuk meningkatkan atau bermigrasi demi bisnis. Seiring waktu, startup memiliki waktu untuk meningkatkan sambil mempertimbangkan tumpukan data modern terbaru lagi, yang kemungkinan besar akan berkembang dengan kecepatan yang sama dengan bisnis Anda. Pengembangan jangka panjang: Startup harus fokus pada pertumbuhan bisnis dan kepuasan pelanggan. Tetapi perusahaan mana pun akan menjadi perusahaan yang digerakkan oleh data. Platform data akan memainkan peran yang semakin penting. Pengembangan data jangka panjang perlu dipertimbangkan. Terutama, kita harus mempertimbangkan ekosistem dan komunitas terkait karena sifat platform data. Artinya, kita harus mulai dari penyedia cloud terkemuka (seperti AWS, Azure, GCP, Aliyun, dll.) atau startup baru (seperti Snowflake, Databricks, dll.) dan mempertimbangkan strategi multi-cloud untuk masa depan. Memilih ekosistem yang sesuai dengan komunitas yang aktif dapat membantu menjadi bagian darinya dan memecahkan masalah yang menantang dalam waktu singkat.

Untuk menganalisis area di atas, kita perlu mempelajari teknologi terkini yang digunakan dalam tumpukan data modern. Ini harus mencakup tetapi tidak terbatas pada komputasi awan, sistem terdistribusi, containerisasi, dan praktik seperti tata kelola data (kualitas, keamanan, dan kepatuhan), otomatisasi (kode rendah/tanpa kode), dan pembelajaran mesin.

Cloud-native dan keunggulan operasi harus menjadi dasar tumpukan data modern. Ini adalah merancang ulang platform data dan meningkatkan kinerja dan skalabilitasnya.

Tumpukan data modern menawarkan banyak manfaat dibandingkan dengan platform data tradisional, termasuk skalabilitas, fleksibilitas, dan kemudahan pemeliharaan. Ini membuatnya sangat cocok untuk startup yang ingin memanfaatkan cloud dan membangun aplikasi berbasis data.

Jebakan 2: Cukup di cloud atau menggunakan layanan berbasis cloud

Cloud harus menjadi katalisator pertama untuk evolusi tumpukan data modern. Tetapi tidak cukup menggunakan platform berbasis cloud apa pun, misalnya Amazon EMR dan Azure Databricks. Ini adalah solusi cloud hosting.

Diperlukan tiga praktik cloud untuk memberi label sebagai tumpukan data “modern”.

Cloud-native: Baru-baru ini, praktik cloud-native telah menata ulang ruang cloud. Saya tidak akan mendefinisikan cloud-native di sini karena banyak platform data, seperti Amazon Redshift dan Aurora, adalah cloud-native saat ini. Keamanan cloud: Keamanan menjadi semakin penting untuk mengadopsi platform data cloud. Ini mungkin salah satu kriteria yang diperlukan untuk mengevaluasi adopsi tumpukan data. Itu sebabnya kita harus memilih penyedia cloud atau startup platform terkemuka sebagai kerangka kerja. Di dalam kerangka, kita dapat menambahkan sumber terbuka untuk lebih banyak fitur. Dukungan multi-cloud: Dukungan multi-cloud adalah tren pertumbuhan bisnis untuk pengguna dan penyedia. Penyedia cloud terkemuka adalah silo raksasa tetapi juga berinisiatif untuk mendukung multi-cloud. Misalnya, Microsoft mendukung perlindungan multi-cloud untuk tiga platform cloud teratas di industri.

Jebakan 3: Lebih terjangkau untuk menggunakan tumpukan data modern

Kami terkesan dengan model cloud pay-per-use dan memanfaatkan sumber daya murah di cloud. Namun tidak demikian halnya dengan cloud modern dan tumpukan data, karena kami terus mendorong kinerja yang lebih tinggi dan teknologi terbaru.

Biaya bukan hanya sumber daya cloud tetapi nilai tambah dalam tumpukan data modern. Misalnya, Snowflake secara signifikan lebih murah daripada banyak gudang data tradisional mengingat kinerja biaya secara keseluruhan. Namun karena meningkatnya volume dan kompleksitas data, data cloud telah muncul sebagai salah satu platform berpenghasilan tertinggi.

Jadi kita harus mengoptimalkannya semaksimal mungkin. Kami dapat mempertimbangkan partisi dan retensi data untuk menyeimbangkan biaya dan kecepatan. Misalnya, kita dapat menggunakan Redshift sebagai gudang data dengan menyimpan data aktif di SSD dan data kurang aktif di S3.

Jebakan 4: Pindahkan semua data ke cloud data untuk pemrosesan dan transformasi di tempat

Danau data tak terbatas dan gudang data cloud menarik. Meskipun memindahkan data ke cloud untuk pemrosesan dan transformasi di tempat dapat menawarkan manfaat seperti akses yang lebih mudah dan skalabilitas yang lebih besar, hal ini juga memiliki beberapa kelemahan dan kompromi potensial.

Pertama, memindahkan data dalam jumlah besar ke cloud membutuhkan waktu dan tenaga. Bergantung pada volume data dan kecepatan koneksi internet, mentransfer data ke cloud dapat memakan banyak waktu, memperlambat pemrosesan dan transformasi data secara keseluruhan. Selain itu, banyak penyedia cloud mengenakan biaya untuk transfer data, sehingga memindahkan data dalam jumlah besar dapat dengan cepat menjadi mahal. Dalam hal ini, near-data computing adalah salah satu solusi sebelum menyatukan semua data. Ini dapat berlaku untuk komputasi tepi dan startup web3 terdistribusi.

Kedua, ini dapat meningkatkan kompleksitas keamanan dan privasi data. Jika data sensitif atau rahasia sedang ditransfer ke cloud, penting untuk memastikannya terlindungi dan hanya pengguna yang berwenang yang dapat mengaksesnya. Ini mungkin memerlukan langkah-langkah keamanan tambahan, seperti enkripsi dan otentikasi, menambahkan kompleksitas dan overhead ke keseluruhan proses.

Jadi, memindahkan data ke cloud untuk pemrosesan dan transformasi di tempat harus dipertimbangkan dengan hati-hati dan ditimbang terhadap potensi keuntungan dan kerugiannya. Ini mungkin tidak selalu menjadi pilihan terbaik. Dalam beberapa kasus, mungkin lebih tepat untuk melakukan pra-proses dan mengubah data secara lokal atau menggunakan pendekatan hibrid yang menggabungkan infrastruktur cloud dan infrastruktur lokal.

Jebakan 5: Data Lakehouse akan segera hadir

Data lakehouse baru lahir tetapi menunjukkan manfaat campuran dari data lake dan gudang data. Ini mungkin merupakan solusi terpadu untuk semua data (baik terstruktur maupun tidak terstruktur) dan semua kasus penggunaan OLAP (termasuk BI dan AI).

Dan itu dapat menghilangkan data arsitektur Lambda dan antrean perpesanan serta menyederhanakan platform data. Tapi setidaknya ada tiga area utama yang melengkapi data lakehouse dan dapat menggambarkan keseluruhan lanskap data secara bersamaan.

Rekayasa AI: Rekayasa AI mengoordinasikan siklus hidup data dan AI. Ini dapat secara sistematis menangani kualitas data, pengoptimalan model, efektivitas pengguna, dan tata kelola data dan model serta operasi dengan disiplin teknik. Melalui prinsip rekayasa end-to-end ini, kami dapat memaksimalkan nilai dari pertumbuhan platform data terpadu. Data fabric dan data mesh: Data fabric dan data mesh adalah arsitektur data, tidak seperti data lakehouse sebagai platform data. Mereka merancang untuk memusatkan atau mendesentralisasi manajemen data dan analitik menggunakan mekanisme yang berbeda. Ini dapat membantu startup mempertahankan sistem dan proses yang ada, fleksibel dan dapat diskalakan. Platform data yang dibuat khusus: Data lakehouse adalah platform terpadu yang inovatif namun tetap merupakan OLAP. Kami masih membutuhkan platform data lain untuk memenuhi tumpukan data modern, seperti toko grafik dan mesin, toko pencarian, toko HTAP, dll.

TL;DR

Tumpukan data modern adalah teknologi baru. Sangat penting bagi startup untuk mengadopsinya. Tapi ini bukan teknologi serba guna atau alat dapur praktis lainnya. Jika Anda tidak memperhatikan, itu akan bergelombang.

Sangat penting untuk memahami dasar-dasarnya untuk memenuhi tujuan bisnis berbasis data. Sesuatu yang lain mungkin sekunder. Lima area di atas mencakup kumpulan data modern, mulai dari konsep hingga kekhawatiran dan tren utama.

5 Jebakan Tumpukan Data Modern untuk Startup awalnya diterbitkan di Towards AI on Medium, di mana orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Scott Anderson