Membuat chatbot tanya jawab bersumberkan data file PDF dan peluang passive income.

Kukuh T Wicaksono
4 min readApr 18, 2023

Pembaca sudah pernah tahu atau pernah lihat kan, chatbot yang melayani tanya jawab seperti chat GPT, akan tetapi data yang digunakan bersumber dari file PDF yang kita miliki. Kasus ini cocok untuk Perusahan, Bisnis, Lembaga sekolah, Lembaga Kursus atau siapapun yang menginginkan pelanggan, siswa dan pembacanya dapat memahami materi konten dengan cepat melalui proses tanya jawab, ketimbang mengharapkan mereka bersedia membaca materi konten PDF yang anda bagikan. Lalu apa hubungannya dengan passive income ? mari kita simak dari awal sampai akhir.

Konten PDF bisa berupa katalog produk, materi pengetahuan produk, materi pembelajaran tertentu, materi undang undang atau apapun. Dengan menggunakan tanya jawab, sepertinya pembaca dapat memahami lebih cepat. Diperlukan juga strategi khusus untuk menjaga, agar jawaban yang diberikan kepada pembaca tidak terlalu banyak, hanya menjawab inti dari pertanyaan mereka saja. Bila konten balasan yang diberikan terlalu jawab, biasanya pembaca akan sulit / malas membaca terlalu banyak.

Berikut adalah beberapa materi video yang membahas tentang bagaimana kita dapat membuat ChatGPT sendiri dengan data bersumber PDF

ini contoh menggunakan langchain

Pada video diatas, diceritkan urutan membaca file pdf, memilah text dengan ukuran kecil (chunk text), melewati proses embeding (memberikan nilai vektor numerik pada setiap kata), membuat semantik index, output berupa knowledge based yang nantinya akan digunakan untuk memberikan jawaban kepada user berdasarkan pertanyaan user.
Ketika user bertanya, query ini akan olah sebagai query embeding, yaitu menterjemahkan pertanyaan sebagai angka vektor numeriik yang nantinya akan dicocok-kan atau diranking berdasarkan perhitungan embeding pada knowledge based. Dengan ranking, maka model AI akan memprediksi jawaban yang tepat yang akan diberikan ke user.

Bagaimana kalau sumber file PDF nya ada banyak ? ada 3,5 atau 10 PDF ?
untuk kasus ini, kita membutuhkan API GPT-4, karena versi API GPT-4 dapat memproses 25,000 kata. 8 kali lebih banyak dari API GPT-3.

proses data dengan banyak file PDF

Strategi untuk banyak file PDF, kita musti dapat menentukan relevansi data, pada kasus ini, relevansi dokumen PDF dikaitkan dengan tahun. Karena PDF ini berupa laporan tahunan, jadi ketika user bertanya tentang laporan tahun 2020, maka model AI dapat menggali informasi pada dokumen tahun 2020.

Pada contoh kasus ini, vector index menggunakan platform Pinecone. Pinecone adalah layanan vector index search, sama seperti weaviate.

perbedaan pinecone dengan weaviate

Berikut ini adalah contoh membuat chatbot tanya jawab bersumber PDF menggunakan huggingface

Tech stack yang digunakan untuk kasus ini adalah langchain , Panel App dan Huggingface Space. Panel adalah library Python open source yang memungkinkan kita membuat aplikasi web interaktif dan dasbor khusus dengan menghubungkan widget yang ditentukan pengguna ke plot, gambar, tabel, atau teks. URL website Panel adalah https://panel.holoviz.org/

Aplikasi yang dibuat menggunakan Panel dapat di-deploy ke huggingface space. Hugging Face Space adalah sebuah platform online yang menyediakan akses ke berbagai model bahasa alami dan algoritma Machine Learning dari Hugging Face. Hugging Face merupakan sebuah perusahaan teknologi yang fokus pada pengembangan algoritma Machine Learning dan Natural Language Processing (NLP). Hugging Face Space memungkinkan pengguna untuk menjalankan, membagikan, dan mengakses model-model NLP yang sudah terlatih secara gratis. Pengguna dapat menjalankan model-model tersebut melalui antarmuka web yang user-friendly, dan juga dapat memodifikasi model dan melakukan fine-tuning untuk tujuan tertentu. Hugging Face Space juga menyediakan fitur untuk berkolaborasi dengan tim dan berbagi model.

Cara kerja apps ini adalah, admin/user upload file PDF, lalu define question dan answer. Hasil Output jawaban ditampilkan dalam panel object. Kemudian buat function yang nantinya akan ditriger dari tombol button oleh user. Function ini akan bertugas mencarikan jawaban yang cocok dari pertanyaan user. Step berikutnya adalah membuat layout , setelah itu hosting panel apps ke huggingface space.

Saya membuat hal serupa, yaitu chatbot yang melayani tanya jawab bersumber pada file PDF. Kasus berupa file PDF tentang RUU Kesehatan. Bisa disimak di video ini.

Chatbot tanya jawab tentang RUU Kesehatan

ini adalah hasil percobaan, berupa prototype, bukan merupakan real projek. Menggunakan API GPT 3.5 , bisa juga dijalankan menggunakan API GPT-4, karena saya sudah memiliki akses GPT-4. akan tetapi cost GPT-4 lebih tinggi 3 kali lipat dari GPT 3.5 , maka saya menggunakan API GPT 3.5, perbedaan adalah cara menjawab dan kecepatan dimana GPT 4 lebih bagus.

Bila anda punya materi file PDF berupa materi pembelajaran , materi cara beternak ikan koi, beternak lele, anda dapat membangun platform tanya jawab chatbot, di mana , nantinya anda dapat menarik bayaran kepada murid/siswa/anak didik/pelanggan anda. Rangkum semua pengetahuan anda / pengalaman anda pada file PDF, dan biarkan chatbot yang akan menjawab semua pertanyaan berkaitan dengan keahlian anda. salah satu cara passive income yang kelihatannya menjanjikan bukan ?

--

--