Adaptive-RAG: Belajar Menyesuaikan Model Bahasa Besar dengan Bantuan Pencarian Berdasarkan Kerumitan Pertanyaan

9 min readApr 7, 2024

Sumber:

Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question…

Retrieval-Augmented Large Language Models (LLMs), which incorporate the non-parametric knowledge from external…

arxiv.org

Abstrak
Model Bahasa Besar dengan Bantuan Pencarian (LLMs) yang menggabungkan pengetahuan dari basis data eksternal ke dalam LLMs, telah menjadi pendekatan yang menjanjikan untuk meningkatkan akurasi jawaban dalam beberapa tugas, seperti Tanya-Jawab (QA).

Namun, walaupun ada berbagai cara untuk mengatasi pertanyaan dengan tingkat kerumitan yang berbeda, cara-cara tersebut bisa jadi terlalu rumit untuk pertanyaan sederhana atau tidak cukup untuk pertanyaan yang lebih kompleks. Dalam pekerjaan ini, kami mengusulkan kerangka kerja QA adaptif baru yang bisa memilih strategi paling cocok untuk LLMs berdasarkan kerumitan pertanyaan, dari yang paling sederhana sampai yang paling rumit.

Proses pemilihan ini menggunakan classifier, yaitu model yang lebih kecil yang dilatih untuk memprediksi tingkat kerumitan pertanyaan dengan label yang dikumpulkan secara otomatis. Pendekatan ini memberikan strategi seimbang, menyesuaikan diri dengan metode LLMs dengan atau tanpa pencarian, tergantung pada kerumitan pertanyaan. Kami menunjukkan bahwa metode kami meningkatkan efisiensi dan akurasi sistem QA, dibandingkan dengan metode lain yang ada.

Gambar adalah sebuah grafik yang membandingkan kinerja dan efisiensi berbagai pendekatan dalam peningkatan generasi pertanyaan-jawaban (QA) dengan menggunakan Model Bahasa Besar (LLMs). Grafik ini memiliki dua sumbu:

- Sumbu vertikal (Y) menunjukkan kinerja, diukur dengan metrik F1 Score, yang adalah rata-rata harmonik dari presisi dan recall dan sering digunakan untuk mengukur akurasi model pada tugas klasifikasi.
- Sumbu horizontal (X) menunjukkan waktu per pertanyaan (Time per Query), yang mengukur efisiensi model dalam hal waktu yang diperlukan untuk menjawab satu pertanyaan.

Empat metode yang dibandingkan adalah:

1. Adaptive-RAG (Ours): Ini adalah metode yang diajukan oleh penulis, ditandai dengan bintang biru. Ini menunjukkan skor F1 yang tinggi dengan waktu per pertanyaan yang cukup rendah, yang menunjukkan bahwa pendekatan ini efektif dan efisien.

2. Multi-step Approach: Ditandai dengan silang merah, pendekatan ini memiliki skor F1 yang paling tinggi, menunjukkan kinerja yang tinggi dalam hal akurasi, namun juga memiliki waktu per pertanyaan yang paling lama, yang menunjukkan efisiensi yang lebih rendah dibandingkan dengan Adaptive-RAG.

3. No Retrieval: Ditandai dengan silang biru muda, pendekatan ini memiliki waktu per pertanyaan yang paling rendah, menunjukkan efisiensi tinggi, tetapi skor F1 yang rendah, yang menunjukkan akurasi yang lebih rendah.

4. Adaptive Retrieval dan Single-step Approach: Kedua metode ini, ditandai dengan silang merah muda, memiliki waktu per pertanyaan dan skor F1 yang berada di antara Adaptive-RAG dan pendekatan lainnya.

Berdasarkan grafik ini, Adaptive-RAG yang diajukan oleh penulis tampaknya menawarkan keseimbangan terbaik antara efisiensi dan efektivitas. Pendekatan Multi-step memiliki efektivitas tertinggi namun efisiensinya rendah, sementara metode No Retrieval adalah yang paling efisien namun kurang efektif. Adaptive-RAG dan Single-step Approach menawarkan kompromi antara dua ekstrem tersebut.

GPT-3.5-Turbo-Instruct disebutkan sebagai LLM dasar yang digunakan untuk semua pendekatan tersebut.

Pengantar
Model Bahasa Besar terkini telah menunjukkan kinerja yang luar biasa dalam berbagai tugas, termasuk menjawab pertanyaan. Namun, mereka masih bisa menghasilkan jawaban yang salah karena pengetahuan mereka hanya bersumber dari memori internal. Di sisi lain, tidak mungkin bagi model ini untuk menghafal semua pengetahuan dunia yang terus berubah. Untuk mengatasi masalah ini, LLMs dengan bantuan pencarian, yang mengambil pengetahuan dari basis data eksternal, mendapatkan banyak perhatian. Model-model ini bisa tetap akurat dan terkini dengan pengetahuan dunia.

Aplikasi yang menonjol dari LLMs ini adalah dalam menangani tugas QA, terutama pertanyaan yang kompleks. Penelitian awal tentang LLMs ini lebih fokus pada pertanyaan single-hop, yang jawabannya bisa ditemukan dalam satu dokumen. Namun, ada juga pertanyaan yang memerlukan penggabungan informasi dari berbagai dokumen, yang tidak bisa dijawab hanya dengan satu langkah pencarian dan respons. Oleh karena itu, untuk menangani pertanyaan kompleks, penelitian terbaru lebih banyak berfokus pada QA multi-langkah, yang membutuhkan akses berulang kali ke LLMs dan pencarian, meskipun ini menyebabkan beban komputasi yang besar.

Bayangkan kita berada di sebuah perpustakaan raksasa dengan jutaan buku. Jika seseorang bertanya tentang fakta sederhana, seperti “Ibukota negara Prancis apa?”, mungkin hanya perlu melihat satu buku referensi cepat untuk menjawabnya. Ini seperti LLM tanpa pencarian. Tapi, jika pertanyaannya lebih kompleks, seperti “Mata uang apa yang digunakan di tempat kelahiran Billy Giles?”, kita mungkin perlu mencari melalui banyak buku dan menggabungkan informasi dari beberapa sumber untuk menemukan jawaban. Ini mirip dengan pendekatan multi-langkah yang memakan waktu dan sumber daya lebih banyak.

Di sinilah Adaptive-RAG kami masuk, bertindak seperti seorang pustakawan cerdas yang bisa memutuskan apakah cukup dengan melihat satu buku atau perlu mencari melalui banyak buku berdasarkan tingkat kerumitan pertanyaan yang diajukan. Classifier dalam sistem kami seperti sebuah sistem untuk menilai seberapa sulit sebuah pertanyaan, yang membantu pustakawan (dalam hal ini, model kami) memilih strategi terbaik untuk menemukan jawaban dengan cara yang paling efisien dan akurat.

Kami menguji Adaptive-RAG dengan menggunakan dataset QA domain terbuka yang meliputi berbagai tingkat kerumitan pertanyaan, dari single-hop hingga multi-hop. Hasilnya menunjukkan bahwa pendekatan kami meningkatkan akurasi dan efisiensi dibandingkan dengan strategi adaptif sebelumnya pada beberapa LLMs, seperti GPT-3.5 dan seri FLAN-T5.

Ringkasan kontribusi kami:
- Kami menyoroti bahwa pertanyaan di dunia nyata memiliki tingkat kerumitan yang bervariasi dan menemukan bahwa pendekatan generasi yang diperkuat dengan pencarian sebelumnya cenderung terlalu sederhana atau kompleks.
- Kami menyesuaikan LLMs yang diperkuat dengan pencarian ke kompleksitas pertanyaan yang dinilai oleh classifier, memungkinkan penggunaan pendekatan yang paling cocok untuk setiap pertanyaan.
- Kami menunjukkan bahwa Adaptive-RAG kami sangat efektif dan efisien, menyeimbangkan antara kerumitan dan kesederhanaan untuk berbagai pertanyaan.

Pekerjaan Terkait

QA Domain Terbuka
QA domain terbuka adalah tugas untuk menjawab pertanyaan dengan mencari dokumen yang relevan, kemudian menginterpretasikannya untuk memberikan jawaban. Proses ini umumnya melibatkan dua modul: pengambil dokumen (retriever) dan pembaca (reader). Dengan kemunculan Model Bahasa Besar (LLMs) yang memiliki kemampuan bernalar superior, sinergi antara LLMs dan pengambil dokumen telah membawa kemajuan signifikan. Integrasi ini telah terbukti meningkatkan QA domain terbuka dengan mengurangi masalah halusinasi dari LLMs melalui kemampuan bernalar yang diperkuat dari pembaca, serta menggunakan dokumen eksternal yang diambil.

QA Multi-langkah
QA multi-langkah adalah ekstensi dari QA domain terbuka, yang memerlukan sistem untuk mengumpulkan dan mengkontekstualisasikan informasi dari beberapa dokumen (sering kali secara berulang), untuk menjawab pertanyaan yang lebih kompleks. Dalam ranah QA multi-langkah, pendekatan untuk mengakses LLMs dan modul pengambilan secara berulang umumnya digunakan. Beberapa penelitian mengusulkan untuk pertama-tama mendekomposisi pertanyaan multi-langkah menjadi pertanyaan single-hop yang lebih sederhana, mengakses LLMs dan pengambil dokumen berulang kali untuk menyelesaikan sub-pertanyaan ini, dan menggabungkan solusi mereka untuk merumuskan jawaban yang lengkap.

Pengambilan Adaptif
Untuk menangani pertanyaan dengan berbagai kompleksitas, strategi pengambilan adaptif bertujuan untuk memutuskan secara dinamis apakah perlu mengambil dokumen atau tidak, berdasarkan kompleksitas setiap pertanyaan. Namun, pendekatan ini mungkin tidak cukup untuk pertanyaan yang lebih kompleks yang memerlukan beberapa langkah penalaran.

Metode
Kami mendeskripsikan pendekatan kami untuk menyesuaikan LLMs dengan bantuan pengambilan, dengan menentukan terlebih dahulu kompleksitas pertanyaan dan kemudian memilih strategi yang paling cocok untuk LLMs dengan bantuan pengambilan.

Pendahuluan
Kami memulai dengan pendahuluan, secara formal memperkenalkan strategi yang berbeda dari LLMs dengan bantuan pengambilan.

Non Retrieval untuk QA
Pertama, mari kita definisikan LLM sebagai model yang mengambil sekumpulan token sebagai input dan kemudian menghasilkan sekumpulan token sebagai output, yang diidealkan harus cocok dengan jawaban yang benar. Metode QA berbasis non-retrieval ini sangat efisien dan bisa menjadi pendekatan yang menjanjikan untuk menangani pertanyaan mudah.

Pendekatan Satu-langkah untuk QA
Untuk mengatasi skenario di mana LLM mungkin kesulitan dengan pertanyaan yang tidak dapat dijawab oleh LLM itu sendiri, kita dapat menggunakan pengetahuan eksternal yang termasuk informasi berguna untuk pertanyaan, yang diambil dari sumber pengetahuan eksternal.

Pendekatan Multi-langkah untuk QA
Meskipun pendekatan satu-langkah menawarkan peningkatan yang signifikan, ia menemui keterbatasan yang signifikan, terutama ketika menangani pertanyaan kompleks yang memerlukan sintesis informasi dari beberapa dokumen sumber dan penalaran atasnya.

— -

Bayangkan Anda sedang bermain video game dengan tingkat kesulitan yang bervariasi.

- Non Retrieval untuk QA mirip dengan memainkan level yang sangat mudah, di mana Anda bisa menyelesaikannya dengan pengetahuan dan alat yang Anda miliki sejak awal, tanpa perlu mencari petunjuk tambahan.

- Pendekatan Satu-langkah untuk QA seperti memainkan level menengah, di mana Anda mungkin perlu mencari petunjuk tertentu yang tersembunyi di satu tempat untuk melanjutkan, tetapi sekali Anda menemukannya, Anda bisa langsung menyelesaikan teka-teki.

- Pendekatan Multi-langkah untuk QA mirip dengan menghadapi level yang sangat sulit, di mana Anda perlu mengumpulkan banyak petunjuk dari berbagai tempat, menggabungkannya, dan mungkin bahkan kembali ke beberapa tempat yang sama untuk mendapatkan informasi lebih lanjut, sebelum Anda dapat menyelesaikan teka-teki tersebut.

Dalam permainan ini, Pengambilan Adaptif berperan sebagai sistem bantuan dalam game yang dapat secara otomatis menyesuaikan tingkat bantuan yang diberikan berdasarkan seberapa sulit teka-teki yang Anda hadapi. Untuk teka-teki sederhana, mungkin tidak memberikan bantuan sama sekali; untuk teka-teki menengah, mungkin menunjukkan di mana Anda dapat menemukan petunjuk; dan untuk yang paling sulit, ia bisa memberikan petunjuk tentang petunjuk mana yang perlu dikombinasikan.

Adaptive-RAG mengubah cara kita berinteraksi dengan Model Bahasa Besar (LLMs) yang ditingkatkan dengan pencarian, dengan beradaptasi terhadap kompleksitas pertanyaan. Mari kita analogikan ini dengan mengunjungi sebuah kota besar yang belum pernah kita kunjungi sebelumnya.

Non-Retrieval untuk QA
Bayangkan Anda ingin tahu nama walikota. Jika pertanyaan ini sangat sederhana dan Anda sudah memiliki sebuah buku panduan kota yang terbaru, Anda bisa langsung menemukan jawabannya di sana tanpa perlu bertanya kepada orang lain atau mencari informasi tambahan. Ini mirip dengan LLM yang menjawab pertanyaan sederhana tanpa mencari informasi tambahan.

Pendekatan Satu-langkah untuk QA
Sekarang, anggap Anda ingin tahu tentang restoran terbaik di kota. Anda mungkin perlu bertanya kepada seseorang atau melihat di peta online untuk mendapatkan rekomendasi. Ini membutuhkan satu langkah pencarian tambahan untuk mendapatkan jawaban, seperti LLM yang memerlukan satu langkah pencarian untuk menemukan informasi yang diperlukan.

Pendekatan Multi-langkah untuk QA
Namun, jika pertanyaannya lebih kompleks, misalnya, Anda ingin mengunjungi beberapa tempat wisata terkenal di kota tersebut dan ingin tahu urutan yang paling efisien untuk mengunjunginya berdasarkan lokasi dan waktu buka. Ini mungkin memerlukan beberapa langkah pencarian dan penalaran, seperti mengunjungi berbagai sumber informasi, merencanakan rute, dan mungkin bertanya kepada beberapa orang lokal atau menggunakan aplikasi perencanaan perjalanan. Ini serupa dengan LLM yang melakukan beberapa langkah pencarian dan penalaran untuk menjawab pertanyaan kompleks.

Adaptive-RAG: Navigasi Pintar di Kota Besar
Adaptive-RAG seperti memiliki pemandu pribadi yang sangat cerdas, yang bisa menilai seberapa rumit permintaan Anda dan memutuskan apakah cukup hanya dengan menggunakan buku panduan kota, perlu bertanya kepada beberapa orang, atau menggunakan serangkaian alat pencarian dan aplikasi untuk mendapatkan jawaban. Ini secara otomatis menyesuaikan strategi berdasarkan situasi:

- Untuk pertanyaan sederhana, pemandu langsung memberikan jawaban dari apa yang sudah diketahuinya.
- Untuk pertanyaan sedang, mungkin dia akan melihat cepat ke dalam buku panduan atau bertanya kepada seseorang di dekatnya.
- Untuk pertanyaan kompleks, dia akan merencanakan, menggunakan peta, memeriksa sumber online, bahkan mungkin menyusun rencana perjalanan lengkap dengan beberapa pilihan.

Pelatihan Adaptive-RAG
Mengembangkan sistem seperti Adaptive-RAG mirip dengan melatih pemandu wisata. Kita mulai dengan memberinya banyak situasi dan pertanyaan, lalu mengajarkannya bagaimana cara terbaik untuk menemukan jawaban — apakah itu melalui pengetahuan langsung, pencarian sederhana, atau penyelidikan mendalam. Seperti pemandu yang menjadi lebih baik seiring dengan banyaknya pengalaman, sistem kami belajar dari berbagai skenario untuk memperbaiki kemampuannya dalam menilai dan menangani berbagai jenis pertanyaan.

Gambar adalah sebuah tabel yang menunjukkan hasil rata-rata dari sejumlah dataset benchmark untuk tanya-jawab domain terbuka yang mencakup pertanyaan single-hop dan multi-hop, diuji pada berbagai Model Bahasa Besar (LLMs). Tabel ini membandingkan performa dari beberapa metode berbeda dengan menggunakan tiga ukuran LLM berbeda: FLAN-T5-XL (3B), FLAN-T5-XXL (11B), dan GPT-3.5 (Turbo).

Berikut adalah metrik yang digunakan dalam tabel:
- EM (Exact Match): Persentase jawaban yang cocok persis dengan jawaban benar.
- F1: Rata-rata harmonik dari presisi dan recall, menunjukkan seberapa akurat dan lengkap jawaban tersebut.
- Acc (Accuracy): Persentase jawaban yang secara semantik benar.
- Step: Rata-rata jumlah langkah yang diperlukan untuk menghasilkan jawaban.
- Time: Waktu rata-rata yang diperlukan untuk menjawab setiap pertanyaan, relatif terhadap pendekatan satu-langkah.

Metode yang dievaluasi meliputi:
- No Retrieval: Metode yang tidak menggunakan data eksternal untuk menjawab pertanyaan.
- Single-step Approach: Metode yang mengambil informasi dari satu dokumen eksternal untuk menjawab.
- Adaptive Retrieval: Metode yang menyesuaikan apakah akan melakukan pencarian berdasarkan kompleksitas pertanyaan.
- Self-RAG: Varian dari metode yang menggunakan model LLMa2 sebagai dasarnya.
- Adaptive-RAG (Ours): Pendekatan yang diusulkan oleh penulis dan ditandai dengan tebal, yang menyesuaikan antara tidak menggunakan pencarian, pencarian satu langkah, dan pendekatan multi-langkah berdasarkan kompleksitas pertanyaan.
- Multi-step Approach: Pendekatan yang melakukan beberapa iterasi pencarian dan penalaran untuk menjawab.
- Oracle Adaptive-RAG w/ Oracle: Performa ideal Adaptive-RAG jika diklasifikasikan dengan sempurna menggunakan classifier oracle.

Hasil yang ditandai dengan tebal adalah untuk menekankan hasil Adaptive-RAG yang diusulkan oleh penulis, untuk memudahkan perbandingan.

Dari tabel ini, kita dapat melihat bahwa Adaptive-RAG umumnya memberikan keseimbangan yang baik antara akurasi dan waktu respons, menunjukkan performa yang kuat pada metric EM dan F1, sementara juga mempertahankan waktu respons yang kompetitif dibandingkan dengan metode lainnya. Pendekatan multi-langkah menunjukkan EM dan F1 yang tinggi namun dengan jumlah step dan waktu yang lebih lama, menunjukkan bahwa sementara metode ini sangat akurat, ia juga yang paling lambat. Sebaliknya, metode No Retrieval sangat cepat tetapi kurang akurat dibandingkan dengan metode lainnya.

Kesimpulan
Dengan cara ini, Adaptive-RAG membawa kita dari hanya memiliki buku panduan kota statis atau harus selalu bergantung pada sumber informasi eksternal, menjadi memiliki asisten pribadi yang cekatan dan adaptif, siap memberikan informasi terbaik berdasarkan kebutuhan kita yang spesifik dan beragam.

Adaptive-RAG: Belajar Menyesuaikan Model Bahasa Besar dengan Bantuan Pencarian Berdasarkan Kerumitan Pertanyaan

Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question…

Retrieval-Augmented Large Language Models (LLMs), which incorporate the non-parametric knowledge from external…

Written by Kukuh T Wicaksono

No responses yet