Pembelajaran Mesin Inkremental untuk Aliran Peristiwa Data Tertaut – Menuju AI

Pembelajaran Mesin Inkremental untuk Aliran Peristiwa Data Tertaut – Menuju AI

Pengarang: Samuel Van Ackere

Awalnya diterbitkan di Menuju AI.

Membuka Kekuatan Prediksi Real-time: Pengantar Pembelajaran Mesin Inkremental untuk Aliran Peristiwa Data Tertaut

Foto oleh Isaac Smith di Unsplash

Artikel ini membahas pembelajaran mesin online, salah satu subdomain paling menarik dari teori pembelajaran mesin. Potensi menggunakan pembelajaran mesin inkremental menjadi semakin jelas saat mengerjakan Linked Data Event Streams (LDES) yang bergerak cepat.

Dengan metode pembelajaran mesin konvensional, banyak waktu yang hilang saat melatih model dari awal berulang kali. Lebih baik menggunakan semua parameter model yang dilatih sebelumnya untuk sampai pada prediksi dan analisis yang lebih cepat dari Aliran Peristiwa Data Tertaut yang bergerak cepat. Contoh praktis yang diterapkan untuk memperkirakan aliran peristiwa data Tertaut digunakan untuk menunjukkan potensinya.

Aliran Peristiwa Data Tertaut

Aliran data biasanya merupakan aliran konstan titik data yang berbeda, masing-masing berisi informasi tentang peristiwa atau perubahan keadaan yang berasal dari sistem yang terus menerus membuat data. Lebih komprehensif, Aliran Peristiwa Data Tertaut adalah aliran konstan objek yang tidak dapat diubah (seperti objek versi, pengamatan sensor, atau representasi yang diarsipkan), masing-masing berisi informasi tentang peristiwa atau perubahan keadaan yang berasal dari sistem yang terus-menerus membuat data.

Ini adalah versi data tertaut dari aliran peristiwa data, yang dianggap sebagai API inti dari data yang bergerak cepat dan lambat.

Untuk info lebih lanjut tentang ini, silakan baca artikel ini di media:

Aliran Peristiwa Data Tertaut dijelaskan dalam 8 menit

Pembelajaran Mesin Inkremental atau Online

Dari semua layanan yang dapat dibangun di atas satu atau beberapa Aliran Peristiwa Data Tertaut, layanan pembelajaran mesin adalah salah satunya. Konsep server ML-LDES adalah Anda dapat mengirim LDES melalui permintaan HTTP POST, setelah itu server ML-LDES dapat memanen data secara real-time dan menjalankan model pembelajaran mesin pada beberapa parameter yang relevan di LDES. Untuk menunjukkan potensi server ML-LDES semacam itu, kami menampilkan model perkiraan inkremental pada LDES Internet of Water (IoW).

Aliran peristiwa data tertaut terus mengirimkan objek melalui HTML POST ke server ML (server Pembelajaran Mesin (ML) untuk Aliran Peristiwa Data Tertaut) (Gambar oleh penulis.)

Tapi hal pertama yang pertama, apa itu pembelajaran mesin inkremental atau online? Algoritme pembelajaran mesin konvensional melatih model pada kumpulan data pelatihan lengkap sekaligus. Kerugian potensial adalah mereka sering membuat model baru dari awal daripada terus mengintegrasikan data baru ke dalam model yang sudah dibangun. Hal ini dapat mengakibatkan model usang dan membutuhkan banyak waktu untuk melatih kembali model setiap saat dari awal.

Tidak seperti teknik pembelajaran batch ini, pembelajaran inkremental atau pembelajaran mesin online memperbarui prediktor terbaik untuk data masa depan di setiap langkah saat data baru tersedia.

Pembelajaran online dan pembelajaran tambahan baru-baru ini menarik perhatian, khususnya dalam konteks data besar dan pembelajaran dari aliran data. Ini bertentangan dengan premis konvensional bahwa semua data tersedia setiap saat.

Adaptasi berkelanjutan dari model pembelajaran mesin berdasarkan aliran data yang terus masuk dikenal sebagai pembelajaran inkremental. Dengan pembelajaran inkremental, model pembelajaran mesin harus beradaptasi dengan data baru dengan tetap mempertahankan pemahaman sebelumnya.

Pelajar online perlu membuat prediksi tentang urutan contoh, satu demi satu dan menerima umpan balik setelah setiap prediksi. Danny Butvinik

Pembelajaran mesin memerlukan instruksi model satu sampel pada satu waktu selama pelatihan. Oleh karena itu, model online adalah objek yang dinamis dan stateful. Tidak perlu meninjau data lama karena terus belajar.

Aliran peristiwa data sering kali dianalisis secara bertahap, dan agregasi, pengayaan, transformasi, korelasi, pemfilteran, atau pengambilan sampel waktu nyata dilakukan dengan cepat. Akibatnya, memungkinkan kemungkinan untuk mendeteksi tren yang muncul, kejadian aneh, dan penyimpangan substansial dari norma, mendekati batas yang mengkhawatirkan. Setelah itu, jawaban waktu nyata dan keputusan berdasarkan data dapat dibuat olehnya.

Aliran peristiwa data tertaut (LDES) dari kasus Internet of Water (IoW)

Pertama, Aliran Peristiwa Data Tertaut diambil oleh klien LDES, setelah itu semua anggota LDES dikirim melalui permintaan HTTP ke server ML-LDES.

Meja kerja LDES di Apache NIFI (Gambar oleh penulis.)

Contoh dari salah satu anggota LDES ditambahkan di bawahnya:

Fragmen file N-triple flow (Gambar oleh penulis.)

Jika kami mengonversi N-triple ini ke bahasa Terse RDF Triple (untuk interpretasi yang lebih mudah), kami mendapatkan ini:

Keluaran Turtle dari salah satu anggota LDES (Gambar oleh penulis.)

Peramalan tambahan dengan River

River adalah perpustakaan sklearn untuk pembelajaran mesin pada data streaming, Alexandra AmidonFoto oleh Jon Flobrant di Unsplash

River adalah perpustakaan Python yang terdiri dari banyak kelas yang melakukan berbagai metode pemrosesan online. Sebagian besar kelas ini adalah model pembelajaran mesin yang dapat menganalisis satu sampel untuk tujuan pembelajaran atau inferensi.

Untuk kasus IoW, kami menggunakan modul peramalan SNARIMAX. SNARIMAX adalah singkatan dari Seasonal Non-linear AutoRegressive Integrated Moving-Average dengan model input eXogenous.

Ini adalah model peramalan deret waktu yang mempertimbangkan tren dan musiman data, serta variabel prediktor tambahan (juga dikenal sebagai variabel eksogen) yang mungkin relevan untuk peramalan.

Dalam model SNARIMAX, komponen “musiman” memperhitungkan fluktuasi berkala dalam data (seperti siklus bulanan atau triwulanan). Komponen “aditif alami” memperhitungkan tren dan pola jangka panjang, dan fitur “regresif” memungkinkan model menggabungkan pengaruh satu atau lebih variabel prediktor pada perkiraan. Parameter “terintegrasi” dan “rata-rata bergerak” dari model membantu memuluskan fluktuasi jangka pendek dan kebisingan dalam data.

Sekarang untuk melakukan model pembelajaran inkremental pada nilai deret waktu dari Aliran Peristiwa Data Tertaut, semua anggota RDF ditarik satu per satu (dan tetap sinkron dengan sensor CoW (Kota Air)). Cuplikan kode di bawah ini mengilustrasikan seperti apa kira-kira anggota RDF itu (disederhanakan). Segera setelah anggota RDF baru tersedia, Klien LDES membaca nilai ini dan mengirimkannya ke model pembelajaran inkremental. Model ini akan menjalankan peramalan baru mulai dari parameter yang sudah dimiliki dari peramalan sebelumnya.

Kami dapat memvisualisasikan prediksi berkelanjutan ini per titik waktu dan memplot seluruh aliran data sekaligus di bawahnya. Dalam hal ini, kita melihat bagaimana proses pembelajaran inkremental menjadi lebih baik dan lebih baik dalam memprediksi nilai masa depan.

Gambar oleh penulis.

Perhatikan bahwa pada grafik di atas, data deret waktu yang diplot adalah untuk referensi dan tidak digunakan dalam satu kumpulan untuk mempelajari model. Sebagai gantinya, pada setiap iterasi, sampel data dikirim ke model untuk dipelajari.

Pembelajaran mesin online (peramalan) menggunakan metode SNARIMAX (Gambar oleh penulis.)

Ketika kami menggunakan model peramalan Snarimax ini untuk kasus IoW, penting untuk menggunakan parameter Snarimax yang benar (p: Urutan bagian autoregresif, d: Urutan perbedaan, q: Urutan bagian rata-rata bergerak, m: Panjang musim yang digunakan untuk mengekstrak fitur musiman, sp: Urutan musiman bagian autoregresif, sd: Urutan perbedaan musiman, sq: Urutan musiman bagian rata-rata bergerak). Ini ditunjukkan pada gambar di bawah ini. Lihat spesifikasi River untuk info lebih lanjut.

Penting untuk menggunakan parameter Snarimax yang dipilih dengan benar dan dapat diterapkan saat menjalankan model peramalan (Gambar oleh penulis.)

Untuk menunjukkan seberapa baik skor model Snarimax, kami mengevaluasi model tersebut setiap kali pada dua belas poin perkiraan terakhir terhadap nilai referensi dan menghitung Mean Absolute Error dari ini.

Peramalan Snarimax dari Aliran Peristiwa Data Tertaut dengan Mean Absolute Error yang menyertainya

Artikel ini menunjukkan bagaimana pembelajaran inkremental dapat diterapkan ke Aliran Peristiwa Data Tertaut. Pada saat penulisan, hanya ada data yang tersedia selama jangka waktu dua minggu, dengan hanya sedikit variasi dalam nilai referensi.

Kesimpulan

Penggunaan pembelajaran inkremental menawarkan banyak manfaat dibandingkan metode pembelajaran mesin konvensional, memungkinkan prediksi dan analisis yang lebih cepat dari aliran peristiwa data yang ditautkan. Modul peramalan SNARIMAX di dalam River, yang mempertimbangkan fluktuasi musiman, tren jangka panjang, dan variabel eksogen, memberikan contoh praktis potensi pembelajaran inkremental dalam aplikasi dunia nyata.

Untuk mereplikasi aliran data dalam artikel ini, silakan buka server ML-LDES. Ini menjelaskan cara menyiapkan PostgreSQL/PostGIS, PgAdmin, dan Apache NiFi yang terdocker, setelah itu aliran data dapat dimulai menggunakan file penyiapan Apache NiFi yang disediakan.

ML-LDES-server/server_forecasting_snarimax.py di master · samuvack/ML-LDES-server

Referensi

[1] Van Lancker, D., Colpaert, P., Delva, H., Van de Vyvere, B., Rojas Melendez, JA, Dedecker, R., … Verborgh, R. (2021). Menerbitkan registri basis sebagai aliran peristiwa data tertaut. Dalam M. Brambilla, R. Chbeir, F. Frasincar, & I. Manolescu (Eds.), WEB ENGINEERING, ICWE 2021 (Vol. 12706, hlm. 28–36). https://doi.org/10.1007/978-3-030-74296-6_3

[2] sungai — sungai. (td). Diakses 7 Februari 2023, dari https://riverml.xyz/0.15.0/

[3] Aliran Peristiwa Data Tertaut. (td). Diambil 7 Februari 2023, dari https://semiceu.github.io/LinkedDataEventStreams/

[4]Komisi Eropa. (td). Menerbitkan data dengan Aliran Peristiwa Data Tertaut: mengapa dan bagaimana. Diambil 7 Februari 2023, dari https://academy.europa.eu/courses/publishing-data-with-linked-data-event-streams-why-and-how

Jika Anda menyukai apa yang Anda baca, pastikan untuk ❤️ itu — sebagai seorang penulis, itu berarti dunia. Tetap terhubung dengan mengikuti saya sebagai penulis.

Kontributor artikel ini adalah ddvlanck (Dwight Van Lancker) (github.com), sandervd (Sander Van Dooren) (github.com) di Smart Data Space (Digital Flanders). Dalam masyarakat yang berubah dengan cepat, pemerintah harus lebih gesit dan tangguh dari sebelumnya. Sebagai mitra strategis, kami menyadari dan mengawasi proyek transformasi digital untuk Flemish dan pemerintah daerah.

Pembelajaran Mesin Inkremental untuk Aliran Peristiwa Data Tertaut awalnya diterbitkan di Towards AI on Medium, di mana orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Scott Anderson