Med-Gemini: Inovasi Terbaru dalam AI Medis yang Mengungguli Model Lainnya

Kukuh T Wicaksono
11 min readMay 10, 2024

--

Dalam dunia medis yang kompleks dan dinamis, kecerdasan buatan (AI) harus memiliki kemampuan penalaran lanjut, akses ke pengetahuan medis terkini, dan pemahaman data multimodal yang kompleks. Model Gemini, dengan keunggulan umumnya dalam pemrosesan multimodal dan konteks panjang, menawarkan kemungkinan menarik di bidang kedokteran. Berangkat dari kekuatan inti Gemini 1.0 dan Gemini 1.5, kami memperkenalkan Med-Gemini, sebuah keluarga model multimodal yang sangat canggih dan khusus untuk medis yang mampu mengintegrasikan penggunaan pencarian web secara mulus dan dapat disesuaikan dengan mudah untuk modalitas baru menggunakan enkoder khusus.

Kinerja Luar Biasa Med-Gemini
Med-Gemini telah dievaluasi pada 14 tolak ukur medis yang mencakup aplikasi teks, multimodal, dan konteks panjang, mencapai performa terdepan (state-of-the-art atau SoTA) pada 10 dari mereka, dan sering kali melampaui keluarga model GPT-4 dengan margin yang signifikan pada setiap tolak ukur di mana perbandingan langsung memungkinkan. Pada tolak ukur populer MedQA (USMLE), model Med-Gemini terbaik mencapai performa SoTA dengan akurasi 91,1%, menggunakan strategi pencarian yang dipandu oleh ketidakpastian, melampaui kinerja terbaik sebelumnya, Med-PaLM 2, sebesar 4,6%. Strategi berbasis pencarian ini menunjukkan performa SoTA pada tantangan diagnostik yang kompleks dari New England Journal of Medicine (NEJM) dan benchmark GeneTuring.

Kinerja Multimodal
Pada 7 tolak ukur multimodal termasuk NEJM Image Challenges dan MMMU (kesehatan & medis), Med-Gemini meningkatkan kinerja dibandingkan GPT-4V dengan margin relatif rata-rata 44,5%. Kami menunjukkan efektivitas kemampuan konteks panjang Med-Gemini melalui performa SoTA dalam tugas pencarian “jarum dalam tumpukan jerami” dari catatan kesehatan yang telah di-anonimkan dan menjawab pertanyaan video medis, melampaui metode khusus sebelumnya hanya dengan menggunakan pembelajaran dalam konteks.

Potensi Utilitas Dunia Nyata
Performa Med-Gemini menunjukkan utilitas dunia nyata dengan melampaui para ahli manusia dalam tugas seperti penyusunan ringkasan teks medis dan generasi surat rujukan, bersama dengan demonstrasi potensi yang menjanjikan untuk dialog medis multimodal, penelitian medis, dan pendidikan. Secara keseluruhan, hasil kami menawarkan bukti yang meyakinkan tentang janji Med-Gemini di banyak area medis, meskipun evaluasi lebih lanjut yang ketat akan sangat penting sebelum penyebaran dunia nyata dalam domain yang sangat kritis ini.

Dengan kemampuan luar biasa dalam analisis data medis yang besar, penyediaan wawasan yang dipersonalisasi, dan prediksi risiko kesehatan masa depan, Med-Gemini mewakili lonjakan signifikan dalam AI medis, dengan potensi untuk mengubah penyampaian layanan kesehatan dan meningkatkan hasil pasien. Meskipun masih ada tantangan dalam integrasi kualitas data, pertimbangan etis, dan validasi dunia nyata, potensi Med-Gemini tidak dapat disangkal. Seiring dengan kemajuan penelitian dan pengembangan, kita dapat mengharapkan aplikasi terobosan lebih lanjut yang muncul, membuka jalan bagi masa depan di mana AI memainkan peran penting dalam merevolusi kesehatan dan memastikan hasil kesehatan yang lebih baik bagi semua.

Gambar ini menunjukkan diagram yang menggambarkan hubungan antara model Gemini dan Med-Gemini dalam konteks pengembangan dan spesialisasi di bidang kedokteran. Berikut adalah penjelasan setiap komponen dari gambar tersebut:

1. Gemini: Ini adalah model inti yang memiliki tiga kemampuan dasar:
Advanced reasoning: Kemampuan untuk melakukan penalaran yang kompleks.
Multimodal understanding: Kemampuan untuk memahami dan memproses informasi dari berbagai modalitas, seperti teks, gambar, dan suara.
Long-context processing: Kemampuan untuk memproses dan memahami informasi yang panjang atau kompleks, seperti catatan kesehatan yang detail atau dokumen panjang.

2. Med-Gemini Development: Ini adalah proses pengembangan Med-Gemini yang mengambil kekuatan inti dari Gemini dan menambahkan spesialisasi medis melalui beberapa metode:
Medical specialization: Pengembangan lebih lanjut yang fokus pada kebutuhan dan aplikasi medis spesifik.
Self-training with web search integration: Melibatkan pelatihan mandiri yang menggunakan integrasi pencarian web untuk meningkatkan kualitas dan keakuratan respons yang diberikan oleh AI.
Fine-tuning & customized encoders: Penyetelan halus dan penggunaan encoder yang disesuaikan untuk meningkatkan pemahaman dan pengolahan data medis yang spesifik.
Chain-of-reasoning prompting: Menggunakan teknik pemrosesan berantai untuk meningkatkan kemampuan model dalam memahami konteks dan melakukan inferensi yang kompleks.

3. Med-Gemini: Ini adalah hasil dari proses pengembangan, sebuah model AI yang khusus untuk aplikasi medis, yang mampu melakukan tugas-tugas yang sangat spesifik dalam bidang kedokteran dengan efisiensi yang tinggi.

Diagram ini secara keseluruhan mengilustrasikan bagaimana kapabilitas inti dari model Gemini ditingkatkan dan disesuaikan untuk menciptakan Med-Gemini, dengan fokus yang kuat pada aplikasi medis. Ini menunjukkan alur dari model dasar ke model yang lebih spesialisasi dengan kemampuan yang ditambahkan untuk menangani tugas-tugas medis yang kompleks.

Grafik ini membandingkan kinerja berbagai model kecerdasan buatan dalam konteks medis melalui tiga kategori utama: Penalaran Teks Lanjutan, Pemahaman Multimodal, dan Pengolahan Konteks Panjang. Tiga model yang dibandingkan adalah Med-Gemini, Metode GPT-4 Terbaik, dan Standar Terbaik Sebelumnya (Previous SOTA).

Setiap kategori terdiri dari beberapa tugas spesifik:
1. Penalaran Teks Lanjutan: Tugas-tugas seperti CompleX Diagnosis, Coronavirus Questions, dan sebagainya.
2. Pemahaman Multimodal: Meliputi tugas seperti Medical VQA (Visual Question Answering), Electrocardiogram, dan lain-lain.
3. Pengolahan Konteks Panjang: Ini termasuk tugas-tugas seperti Medical Instructions dan Diagnostic CQA (Community Question Answering).

Dalam grafik, tiap batang merepresentasikan peningkatan relatif terhadap Skor SOTA sebelumnya dalam persentase. Biru mewakili Med-Gemini, merah untuk SOTA sebelumnya, dan abu-abu untuk metode GPT-4 terbaik. Batang yang mengarah ke atas menunjukkan peningkatan kinerja, sementara batang yang mengarah ke bawah menunjukkan penurunan kinerja.

Misalnya, pada kategori “Penalaran Teks Lanjutan,” Med-Gemini menunjukkan peningkatan yang signifikan atas SOTA sebelumnya di beberapa tugas, sementara pada beberapa tugas lainnya, metode GPT-4 terbaik atau SOTA sebelumnya masih lebih unggul. Ini menunjukkan bahwa ada variasi dalam efektivitas model AI tergantung pada spesifik tugas medis yang dihadapi.

Grafik ini menampilkan perkembangan performa berbagai model kecerdasan buatan dalam menjawab soal MedQA (USMLE), diukur dengan persentase akurasi (MedQA USMLE Accuracy %) dari waktu ke waktu, mulai dari Maret 2022 hingga Maret 2024.

Model-model yang ditampilkan adalah:
- BioLinkBERT: Pada Maret 2022, model ini memiliki akurasi sekitar 45.1%.
- DRAGON: Pada Oktober 2022, model ini memiliki akurasi sekitar 47.5%.
- GPT-3.5: Pada Desember 2022, model ini mencapai akurasi sekitar 60.2%.
- Med-PaLM: Pada Mei 2023, model ini melompat ke akurasi 67.2%.
- GPT-4: Pada November 2023, model ini mencapai akurasi 90.2%.
- Med-Gemini: Pada Maret 2024, model ini mencapai akurasi tertinggi di grafik yaitu 91.1%.

Dari grafik ini, kita bisa melihat perkembangan yang signifikan dalam kemampuan model AI dalam menjawab soal-soal MedQA dari tahun ke tahun, dimana Med-Gemini merupakan model dengan performa terbaik pada akhir periode yang ditunjukkan.

Catatan pada grafik menyebutkan bahwa 74% dari pertanyaan dalam dataset ini memiliki kualitas isu yang ambigu, menunjukkan pentingnya pemeriksaan dan perbaikan kualitas pertanyaan oleh klinisi ahli untuk memastikan data yang digunakan adalah representatif dan akurat.

Grafik ini menggambarkan proses pelatihan mandiri dengan penggunaan pencarian web yang digunakan oleh model AI Med-Gemini untuk meningkatkan kemampuan penalaran medisnya. Model ini menggunakan pendekatan berbasis pencarian untuk mengolah pertanyaan dan mencari jawaban yang paling tepat.

Panel Kiri:
- Panel ini menunjukkan bagaimana Med-Gemini dilatih dengan menggunakan data instruksi dan pertanyaan pelatihan yang juga termasuk hasil pencarian web. Proses ini termasuk menghasilkan respons berdasarkan Chains of Thought (CoT) yang kemudian disempurnakan melalui loop penyaringan dan penilaian, membantu dalam memperhalus kemampuan model dalam menanggapi pertanyaan dengan lebih akurat.

Panel Kanan:
- Panel ini menjelaskan penggunaan pencarian berbasis ketidakpastian saat Med-Gemini beroperasi secara nyata (inference time). Ketika model menghadapi pertanyaan, ia terlebih dahulu menghasilkan jawaban berdasarkan pengetahuan yang telah disimpan. Jika model tidak yakin dengan jawaban yang dihasilkan, maka ia akan melakukan pencarian web untuk mendapatkan konteks tambahan yang dapat mendukung atau menolak jawaban yang ada.
- Proses ini mencakup generasi query pencarian untuk mengatasi konflik antar jawaban dan mengintegrasikan hasil pencarian untuk meningkatkan akurasi jawaban. Model akan terus melakukan loop pencarian berbasis ketidakpastian ini hingga ia merasa yakin dengan jawaban yang dihasilkan.

Secara keseluruhan, diagram ini mengilustrasikan bagaimana Med-Gemini tidak hanya bergantung pada data pelatihan tetapi juga mengintegrasikan informasi dari pencarian web secara real-time untuk meningkatkan keakuratan dan keandalan jawabannya, terutama dalam konteks medis yang sering kali membutuhkan pemahaman mendalam dan aktual.

Gambar yang Anda lihat mengilustrasikan dua aspek penting dari analisis pada model Med-Gemini dalam konteks MedQA (Medical Question Answering), khususnya menggunakan data USMLE:

Bagian (a) — MedQA Self-training & Search Ablation:
- Grafik ini menunjukkan pengaruh latihan mandiri dan pencarian terhadap akurasi Med-Gemini pada MedQA. Sumbu y menunjukkan akurasi dalam persentase, dan sumbu x menunjukkan variasi penggunaan pencarian selama pelatihan.
- Empat kelompok data ditampilkan:
No Self-training, No Search: Akurasi model tanpa latihan mandiri dan tanpa menggunakan pencarian adalah yang terendah, sekitar 84%.
Self-training, No Search: Ketika model dilatih mandiri tanpa pencarian, akurasinya meningkat menjadi sekitar 87.2%.
Self-training and 1x Search during Training: Penggunaan pencarian satu kali selama pelatihan meningkatkan akurasi menjadi sekitar 88.8%.
Self-training and 2x Search during Training: Penggunaan pencarian dua kali selama pelatihan memberikan peningkatan akurasi lebih lanjut hingga sekitar 90.4%.
Self-training and 3x Search during Training: Ini merupakan metode dengan akurasi tertinggi, mencapai sekitar 91.1%.

Bagian (b) — MedQA Label Uncertainty Filtering:
- Grafik ini mengeksplorasi efek dari menyaring ketidakpastian label pada dataset MedQA.
- Di sisi kiri, grafik menunjukkan persentase pertanyaan (dalam biru) dan akurasi (dalam merah) sebelum dan setelah menyaring data yang memiliki masalah seperti informasi yang hilang, kesalahan label, dan ketidakjelasan.
- “Before” (Sebelum): Akurasi awal adalah sekitar 91.1% dengan 100% pertanyaan.
- “Without missing info” (Tanpa informasi yang hilang): Menghilangkan pertanyaan dengan informasi yang hilang meningkatkan akurasi menjadi sekitar 93.3%.
- “Without label errors” (Tanpa kesalahan label): Menghilangkan pertanyaan dengan kesalahan label meningkatkan akurasi menjadi sekitar 91.9%.
- “Without ambiguous” (Tanpa ambiguitas): Menghilangkan pertanyaan ambigu meningkatkan akurasi menjadi sekitar 92.6%.

Secara keseluruhan, kedua grafik tersebut menunjukkan bagaimana berbagai teknik seperti latihan mandiri, penggunaan pencarian, dan penyaringan ketidakpastian label dapat secara signifikan meningkatkan akurasi model dalam menjawab pertanyaan medis.

Grafik ini menampilkan hasil evaluasi dari model Med-Gemini-M 1.0 dalam menjalankan tugas-tugas berbasis teks di bidang medis, yang dibandingkan secara sisi demi sisi dengan para ahli. Ada tiga tugas yang dievaluasi, yaitu:

1. Medical Summarization*: Penyusunan ringkasan medis.
2. Doctor Referral Generation: Pembuatan surat rujukan dokter.
3. Medical Simplification: Penyederhanaan informasi medis.

Setiap bar pada grafik menunjukkan persentase di mana:
- Biru: Med-Gemini lebih disukai daripada ahli.
- Merah: Hasil Med-Gemini dan ahli dianggap sebanding (Tied).
- Abu-abu: Ahli lebih disukai daripada Med-Gemini.

Data juga disertai dengan:
- n: Jumlah sampel yang dievaluasi.
- p: Nilai p untuk menguji statistik, menunjukkan signifikansi hasil yang ditunjukkan (dengan menggunakan two-sided t-test).

Dari grafik:
- Medical Summarization: Dari 31 sampel, terdapat preferensi yang signifikan (p=0.046) tetapi dengan distribusi yang cukup merata antara preferensi untuk Med-Gemini dan ahli.
- Doctor Referral Generation: Dari 25 sampel, hasil menunjukkan preferensi yang sangat signifikan (p<0.001) untuk Med-Gemini dibandingkan dengan ahli.
- Medical Simplification: Sama seperti generasi rujukan dokter, dari 25 sampel, preferensi signifikan (p<0.001) diberikan kepada Med-Gemini.

Secara keseluruhan, grafik ini menunjukkan bahwa Med-Gemini-M 1.0 berkinerja baik dalam tugas-tugas medis ini, sering kali mendapatkan preferensi yang sama atau lebih baik daripada para ahli medis dalam evaluasi tugas-tugas tertentu.

Gambar terdiri dari dua bagian utama, yang masing-masing memaparkan dialog medis antara pasien dan penyedia layanan kesehatan (Med Gemini) serta umpan balik dari seorang dermatologis mengenai dialog tersebut:

(a) Contoh Dialog
Ini menampilkan simulasi percakapan antara pasien dan penyedia layanan kesehatan (Med Gemini) mengenai keluhan medis pasien. Pasien mengeluhkan adanya benjolan gatal di kaki dan lengan, yang telah mengganggu tidurnya dan tidak merespon terhadap pengobatan dengan krim hidrokortison.

- Penyedia layanan kesehatan meminta foto benjolan untuk evaluasi lebih lanjut, yang mana pasien memberikannya.
- Berdasarkan foto dan deskripsi gejala, penyedia layanan kesehatan menduga bahwa kondisi pasien adalah purigo nodularis, suatu kondisi kulit yang menyebabkan gatal parah dan benjolan keras.
- Penyedia layanan kesehatan kemudian memberikan saran pengobatan, termasuk penggunaan obat topikal dan oral, serta terapi fototerapi, dan menginformasikan bahwa konsultasi dengan dermatologis secara langsung akan lebih baik untuk evaluasi dan konfirmasi diagnosis.

(b) Umpan Balik dari Dermatolog
Bagian ini berisi umpan balik profesional dari seorang dermatolog mengenai dialog yang diberikan di bagian (a).

- Kelebihan (Pros):
kurasi diagnostik yang impresif untuk purigo nodularis dan spesifisitas tinggi dalam saran pengobatan.
Penjelasan yang lengkap dan mendetail tentang langkah terapeutik.

- Kekurangan (Cons):
Kebutuhan akan foto tambahan dari lesi yang representatif untuk memperkuat diagnosis.
Perlu penjelasan lebih rinci* mengapa purigo nodularis didiagnosis berdasarkan sejarah yang diberikan, dan penyebutan bahwa tidak ada penyembuhan tetapi pengobatan hanya untuk memperbaiki gejala.

Gambar ini secara efektif menunjukkan bagaimana dialog AI Med Gemini dalam konteks medis dapat dilakukan dengan interaksi yang realistis dan umpan balik dari ahli untuk meningkatkan kualitas dan akurasi interaksi tersebut.

Gambar ini menggambarkan sebuah contoh tugas yang diberikan kepada Med-Gemini-M 1.5, sebuah asisten video medis yang membantu dalam penilaian video kolesistektomi (pengangkatan kantong empedu). Tugas ini adalah untuk menilai apakah “Critical View of Safety” (CVS) tercapai sepenuhnya selama prosedur bedah yang ditunjukkan dalam video.

Prompt
Prompt menjelaskan bahwa Med-Gemini-M 1.5 harus menilai apakah video kolesistektomi memenuhi kriteria keamanan berikut:
- C1: Tampilan yang jelas dari dua struktur tubular yang terhubung ke kantong empedu.
- C2: Segitiga hepatosistik yang terdisseksi dengan baik dengan tampilan yang jelas hanya dari dua struktur sistik dan lempeng sistik.
- C3: Sepertiga bawah kantong empedu terdisseksi dari lempeng sistik.

Instruksi
Instruksi menyuruh Med-Gemini-M 1.5 untuk menonton video dengan saksama dan menilai kriteria CVS. Respons diharapkan dalam format:
- C1: Tercapai/tercapai sebagian/tidak tercapai
- C2: Tercapai/tercapai sebagian/tidak tercapai
- C3: Tercapai/tercapai sebagian/tidak tercapai

Tanggapan
Dalam tanggapan:
- C1 dinyatakan tercapai sebagian karena dua struktur tubular terlihat tetapi tampilan tidak sepenuhnya jelas karena adanya pendarahan yang menghalangi area.
- C2 dinyatakan tidak tercapai karena segitiga hepatosistik tidak terlihat jelas, dan tidak ada tampilan yang tidak terhalang dari kedua struktur sistik dan lempeng sistik.
- C3 juga dinyatakan tidak tercapai karena sepertiga bawah kantong empedu tidak terdisseksi dari lempeng sistik.

Gambar ini mengilustrasikan bagaimana Med-Gemini-M 1.5 menggunakan kemampuannya dalam memproses konteks panjang untuk menganalisis video bedah dan memberikan penilaian yang rinci dan berbasis kriteria yang spesifik, menunjukkan kemampuannya dalam mendukung keputusan medis dalam konteks bedah.

Tantangan dan Etika
Meskipun Med-Gemini menawarkan potensi yang besar, masih ada tantangan dalam integrasi kualitas data, pertimbangan etis, dan validasi dunia nyata yang perlu diatasi. Pentingnya pengembangan AI yang bertanggung jawab tidak dapat diabaikan, terutama dalam mengintegrasikan prinsip-prinsip AI yang bertanggung jawab seperti keadilan, privasi, kesetaraan, transparansi, dan akuntabilitas.

Kesimpulan
Med-Gemini menawarkan kemajuan yang signifikan dalam AI medis dengan potensi untuk membantu para klinisi dalam membuat keputusan yang lebih tepat dan informatif. Namun, penerapan model AI dalam konteks medis yang kritis ini memerlukan evaluasi yang ketat dan validasi lebih lanjut sebelum dapat diimplementasikan secara luas. Med-Gemini menunjukkan janji yang besar, tetapi masih banyak pekerjaan yang perlu dilakukan untuk memastikan bahwa teknologi ini dapat digunakan dengan aman dan efektif dalam praktik medis.

Dengan memanfaatkan kemajuan teknologi AI, Med-Gemini berpotensi mengubah cara kita memahami dan mengelola perawatan kesehatan, menjadikan AI sebagai partner yang dapat diandalkan dalam perjalanan kesehatan setiap pasien. Revolusi dalam AI medis telah dimulai, dan Med-Gemini menjadi salah satu pemain utama dalam transformasi ini.

--

--