Tautan Entitas Neural di JPMorgan Chase – Menuju AI

Tautan Entitas Neural di JPMorgan Chase – Menuju AI

Pengarang: Harshit Sharma

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Penautan Entitas Neural di JPMorgan Chase

JPMC menerbitkan makalah pada tahun 2021 yang menyoroti pendekatan mereka terhadap Entity Linking. Artikel ini merangkum pernyataan masalah, solusi, dan komponen teknis utama lainnya dari makalah ini

Apa itu Penautan Entitas?

Ini adalah tugas untuk menetapkan identitas unik untuk penyebutan ambigu entitas bernama dalam sebuah teks.

Contoh entitas yang menautkan dari Wikipedia

Di sini, “Paris” dari teks diberi identitas unik melalui URL (jenis URI yang paling umum) “wikipedia.org/wiki/Paris”. Perhatikan bahwa jenis URI yang digunakan untuk mengidentifikasi entitas yang disebutkan bergantung pada domain secara unik. Misalnya, Alih-alih alamat web, kita dapat menggunakan ISBN jika kita ingin mengidentifikasi buku dari sebuah teks.

JPMC tertarik pada:

Memetakan penyebutan lembaga keuangan dari artikel berita ke entitas yang tersimpan di basis pengetahuan internal mereka (disimpan sebagai Grafik Pengetahuan)

Contoh ditunjukkan di bawah ini:

Contoh Entity Linking dari makalah

Ada dua sub-masalah yang harus didefinisikan:

Pengakuan:
Ekstraksi mention dari artikel berita keuangan. JPMC telah menggunakan Spacy untuk ini. Menghubungkan:
Memilih entitas yang benar dari Grafik Pengetahuan internal untuk ditautkan ke penyebutan yang diekstraksi pada langkah sebelumnya. Makalah ini membahas langkah ini.

Sebuah representasi bergambar dari ini ditunjukkan di bawah ini:

(Gambar oleh Penulis) Sub-masalah sebagai bagian dari solusi keseluruhan

Pencocokan Tali
Pendekatan ini menangkap struktur “morfologis” dari nama entitas. Tim bereksperimen dengan
(a) Jaccard
(b) Levenshtein
(c) Ratcliff-Obershelp (juga dikenal sebagai Gestalt-Pattern-Matching)
(d) Jaro Winkler
(e) Kemiripan Cosinus N-Gram

Kontra dari pendekatan ini adalah bahwa mereka hanya fokus pada “sintaksis” dari nama dan bukan semantik. Contoh kasus kegagalan adalah pencocokan “Lumier” dan “Lumier”. Meskipun mereka persis sama, mereka merujuk pada dua entitas yang berbeda.

2. Metode Kesamaan Konteks
Metode ini mengambil konteks di sekitar penyebutan dan entitas untuk memberikan skor kesamaan.
Konteks “sebutan” adalah teks di sebelah kiri dan kanan penyebutan, sedangkan
Konteks untuk “entitas” adalah semua data yang disimpan dalam KG untuk entitas ini.
Akhirnya, kesamaan Cosinus / kesamaan Jaccard dapat digunakan di atas vektor konteks.

3. Klasifikasi ML
Naive Bayes, Logistic Regression, dan SVM dilatih pada pasangan (sebutkan, entitas) untuk menemukan pasangan yang harus ditautkan

4. Belajar Metode Peringkat (LTR)
Model-model ini bekerja bersama-sama dengan pendekatan ML, yang mungkin memberi kita banyak pasangan (sebutkan, entitas) sebagai solusinya. Pendekatan LTR hanya mempersempit ke solusi yang paling mungkin.

Idenya adalah untuk menangkap jarak semantik (arti bahwa penyebutan atau entitas singkatan) dan jarak sintaksis (komposisi karakter nama) antara nama-nama dan menggunakan fungsi kerugian kontrastif untuk melatih model.

Kita akan melihat di bawah bagaimana kedua jarak ini dihitung langkah demi langkah.

Langkah 1: Dapatkan embeddings untuk Entitas dan Sebutan

Untuk menghasilkan kedua jarak tersebut, penulis telah mengusulkan untuk menggunakan penyematan untuk penyebutan serta entitas di KG.

Untuk mendapatkan embedding Entitas, penulis telah menggunakan fungsi Triplet Loss (ditampilkan di bawah)

Fungsi Kehilangan Triplet

Untuk setiap entitas, mereka menggunakan 10 sampel positif dan 10 negatif, membuat 10 triplet.

Model untuk penyematan Entitas

Tidak seperti penyematan Entitas, yang telah mereka hitung sebelumnya, penyematan penyebutan dilatih menggunakan pendekatan penyematan saat bepergian, di mana matriks penyematan dipelajari selama pelatihan itu sendiri.

Langkah 2: Hitung skor Jarak Sintaksis

Sebelum melangkah lebih jauh, ada baiknya menyebutkan arsitektur “Wide & Deep” yang diperkenalkan oleh Google pada tahun 2016. Anda dapat menemukan blog resmi mereka di sini. Kami tidak akan membahas detailnya, tetapi untuk memberikan ringkasan, ini adalah arsitektur yang memiliki dua komponen — Komponen Lebar dan komponen Dalam.

Gambar dari makalah Google | Spektrum Model Lebar dan Dalam

Perhitungan skor Syntactic Distance dilakukan dengan menggunakan bagian WIDE, yang terdiri dari Linear Siamese Network.

Perhitungan skor Jarak Sintaks

Keluaran dari jaringan siam adalah vektor-vektor untuk entitas dan penyebutan, yang kemudian dibandingkan untuk mencari jarak Euclidean.

Langkah 3: Hitung skor Jarak Semantik

Perhitungan skor Jarak Semantik dilakukan dengan menggunakan bagian DEEP

Perhitungan skor Jarak Semantik

eₖ adalah embedding pra-pelatihan untuk “Apache Corp” yang dihitung pada Langkah 1. Untuk mendapatkan embedding untuk penyebutan, kata konteks kiri dan kanannya dimasukkan ke dalam jaringan Bi-LSTM yang melatih embeddings. Vektor penyematan penyebutan (Vₘ) dan entitas (Vₑ) kemudian digunakan untuk mencari jarak Euclidean:

Langkah 4: Hitung Kerugian Kontrastif

Jarak Syntactic dan Semantic digabungkan dengan cara berbobot sebagai berikut:

Fungsi kerugian kontrastif kemudian digabungkan sebagai berikut:

Fungsi Kehilangan Kontrastif

di mana Y adalah nilai kebenaran dasar, di mana nilai 1 menunjukkan bahwa penyebutan m dan entitas e cocok, 0 sebaliknya.

Menggabungkan semua bagian, kerangka model akhir ditunjukkan di bawah ini:

Kerangka Model JEL

Pada saat penulisan makalah ini, JPMC masih dalam proses penerapan model, yang, setelah selesai, akan membantu mendukung pengguna di seluruh JPMC dalam menemukan berita yang relevan dan terkurasi yang penting bagi bisnis mereka.

Dari perspektif biaya, tidak semua penyebutan dimasukkan melalui kerangka JEL karena itu akan mahal secara komputasi. JPMC telah menempatkan lapisan pemblokiran lain untuk menyalurkan sebutan yang berbagi kurang dari 2 bigram dengan entitas dari KG internal mereka.

Sekali lagi, ini adalah tautan makalah jika Anda ingin membaca makalah lengkapnya.

Ikuti Intuitive Shorts (buletin Substack saya), untuk membaca ringkasan konsep ML/NLP/DS dengan cepat dan intuitif.

Penautan Entitas Neural di JPMorgan Chase awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Author: Scott Anderson