
Author(s): Ronny Polle
Awalnya diterbitkan di Menuju AI.
LLM Menyandikan Pengetahuan Klinis: Tinjauan Cepat
Garis besar
Pendahuluan Kontribusi Keterbatasan Kesimpulan Referensi
pengantar
Di bidang kedokteran, bahasa adalah faktor penentu interaksi antara dokter, peneliti, dan pasien. Ini memberikan peluang untuk memanfaatkan LLM untuk memodelkan properti data tekstual dalam domain medis.
Ada bukti bahwa LLM dapat bertindak sebagai basis pengetahuan implisit. Bobot jaringan ini menyimpan informasi, menghasilkan informasi yang lentur dan karenanya dapat dioperasikan dalam ruang representasi. Fenomena ini melengkapi LLM dengan kemampuan untuk membentuk asosiasi antara informasi yang disimpan untuk menghasilkan wawasan yang bermakna. Berita yang disayangkan adalah kemampuan asosiatif ini dapat menyebabkan halusinasi karena informasi yang disimpan dalam bobot tidak dapat diandalkan. Oleh karena itu, model AI saat ini untuk aplikasi kedokteran dan perawatan kesehatan tidak memiliki kemampuan untuk mengatasi kesenjangan yang signifikan dalam memanfaatkan bahasa secara efektif sebagai alat untuk memediasi alur kerja klinis dunia nyata. Misalnya, LLM ditemukan memiliki potensi untuk mencerminkan misinformasi, bias, dan stereotip dalam korpus.
Dengan kemajuan mendalam yang dibuat oleh LLM, sistem AI sedang menjalani repurposing inovatif dan membantu mengatasi keterbatasan yang ditimbulkan oleh sistem AI tugas tunggal yang dominan.
Kontribusi
Kontribusi utama yang dibuat dalam penelitian ini dapat diringkas dalam tiga sumbu berikut;
Kerangka patokan dataset untuk Pemodelan evaluasi manusia
Pertama, makalah ini memperkenalkan tolok ukur dataset untuk menjawab pertanyaan medis yang disebut MultiMedQA. Patokan ini adalah kumpulan dari enam set data jawaban pertanyaan terbuka — MedQA [jin2021disease]MedMCQA [pal2022medmcqa]PubMedQA [jin2019pubmedqa]LiveQA [abacha2017overview]ObatQA [abacha2019bridging]dan topik klinis MMLU [hendrycks2020measuring]). MedQA mencerminkan gaya pertanyaan US Medical License Exam (USMLE). Selain itu, tolok ukur ini ditambah dengan HealthSearchQA, kumpulan data ketujuh yang terdiri dari kueri kesehatan konsumen yang umum dicari dalam bahasa Inggris.
Kedua, kerangka kerja evaluasi manusia-sentris yang kuat diusulkan untuk mengatasi beberapa keterbatasan saat ini dengan metrik otomatis untuk menilai pembuatan jawaban bentuk panjang, seperti metrik pemahaman evaluasi dwibahasa (BLEU). Dokter dan pengguna awam (non-ahli) ditangkap dalam evaluasi keluaran generatif model. Evaluasi dokter dijalankan sepanjang dua belas sumbu evaluasi yang berbeda sementara pengguna awam dievaluasi sepanjang dua sumbu unik. Ini termasuk — seberapa baik output model sesuai dengan konsensus ilmiah; kemungkinan dan kemungkinan bahaya; bukti pemahaman, penalaran, dan kemampuan pengambilan kembali; adanya konten yang tidak pantas, salah, atau hilang; kemungkinan bias dalam jawaban; jawaban menangkap maksud pengguna dan membantu jawaban.
Ketiga, makalah ini menyoroti seberapa baik LLM menyandikan pengetahuan klinis dengan modifikasi arsitektur utama. Penulis membangun di atas Pathway Language Model (PaLM) dan keluarga LLM Flan-PaLM. PaLM adalah arsitektur model transformator yang terdiri dari pengaturan khusus dekoder, dengan fitur utama seperti — fungsi aktivasi SwiGLU untuk menggantikan fungsi aktivasi standar (ReLU, Swish, GeLU), lapisan transformator paralel, mekanisme perhatian multi-permintaan, penyisipan posisi putar (ROPE) sebagai pengganti penyematan posisi absolut atau relatif, penyematan keluaran input bersama, kernel bias nol, dan normalisasi lapisan, serta penggunaan kosakata SentencePiece.
Memanfaatkan baseline PaLM dan paradigma penyetelan cepat instruksi, penulis mendemonstrasikan varian Flan-PaLM untuk mendapatkan kinerja superior di seluruh rangkaian tugas evaluasi di atas baseline.
Dibandingkan dengan SOTA sebelumnya
Selain itu, mengingat keterbatasan utama metode adaptasi domain dan penyempurnaan ujung ke ujung model menggunakan data dalam domain dalam jumlah yang banyak, penulis berhasil menyelidiki dorongan dan penyetelan cepat untuk membantu Flan-PaLM dalam beradaptasi dengan domain medis. Teknik penyetelan prompt instruksi yang dirancang dalam penelitian ini menggabungkan soft-prompt yang dipelajari dengan penyetelan prompt sebagai awalan awal yang dibagikan di beberapa kumpulan data medis, diikuti oleh prompt rekayasa manusia khusus tugas di samping pertanyaan dan/atau konteks asli.
Instruksi penyetelan cepat untuk Med-PaLM
Keterbatasan
Meskipun menjanjikan, tolok ukur kumpulan data gagal untuk mencakup banyak bahasa dan mengecualikan berbagai domain medis dan ilmiah yang lebih besar, sehingga sebagian mencerminkan alur kerja klinis dunia nyata. Kedua, meskipun Flan-PaLM mampu mencapai kinerja canggih pada beberapa pertanyaan medis dan menjawab tolok ukur, ada celah penting yang harus dijembatani agar dapat mencapai tingkat dokter ahli di banyak sumbu penting secara klinis. Arahan masa depan penting yang diusulkan untuk membantu mengatasi tantangan ini termasuk – membangun dasar yang kuat untuk tanggapan model dalam sumber medis resmi dan memperhitungkan sifat konsensus medis yang bervariasi waktu, kemampuan untuk secara efektif mengukur dan mengkomunikasikan ketidakpastian kepada pengguna umum. the-loop, dan dukungan multibahasa untuk respons.
Kedua, sangat penting untuk melakukan pekerjaan yang mendalam untuk meningkatkan kerangka evaluasi manusia. Kerangka peringkat percontohan tidak terlalu lengkap karena gagal menangkap variasi penting di antara kelompok populasi yang beragam. Juga, kumpulan dokter dan pengguna awam yang menilai respons model terbatas. Terakhir, kerangka evaluasi gagal menyelidiki dampak variasi dalam spesialisasi medis, demografi, dan geografi penilai klinisi.
Selain itu, keadilan dan kesetaraan kurang dieksplorasi dalam penelitian ini, terutama kurangnya pemahaman tentang bagaimana gangguan pada pengidentifikasi demografis dalam prompt memengaruhi keluaran model. Selain itu, persyaratan keselamatan-kritis dan kompleks dari domain medis menimbulkan pertanyaan penting tentang bagaimana pendekatan pengambilan sampel dokter untuk berpartisipasi dalam mengidentifikasi contoh-contoh petunjuk demonstrasi terbaik dan menyusun petunjuk beberapa tembakan berdampak pada perilaku keseluruhan LLM.
Kesimpulannya, saya terpesona dengan kinerja LLM yang ditunjukkan dalam penelitian yang ketat ini. Tidak hanya mencontohkan keberhasilan penerapan dan evaluasi LLM dalam konteks medis, tetapi juga menunjukkan arah yang menarik untuk penelitian dan perbaikan di masa depan.
Ikhtisar Kontribusi
Terima kasih telah membaca 🙂
Referensi
[1] Model Bahasa Besar (LLM) menyandikan pengetahuan klinis
[2] Galactica: Model Bahasa Besar untuk Sains
[3] PaLM : Menskalakan Pemodelan Bahasa dengan Pathways
LLM Mengkodekan Pengetahuan Klinis: Ulasan awalnya diterbitkan di Menuju AI di Media, di mana orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.
Diterbitkan melalui Menuju AI