Pengembangan AI Agent Berbasis LLM dan RAG: Pinecone & OpenAI API vs PGVector, Ollama & Llama 3

Kukuh T Wicaksono
3 min readFeb 23, 2025

--

Dalam dunia pengembangan AI, pendekatan Retrieval-Augmented Generation (RAG) menjadi solusi utama untuk meningkatkan kemampuan Large Language Model (LLM) dalam menjawab pertanyaan berbasis data yang relevan. Artikel ini membahas dua pendekatan berbeda dalam membangun AI Agent berbasis RAG:

  1. Cloud-Based AI Agent: Menggunakan OpenAI API dan Pinecone.
  2. On-Premise AI Agent: Menggunakan PGVector, Ollama, dan Meta Llama 3 + DeepSeek R1, dengan opsi menjalankan GPU on-premise atau cloud GPU seperti RunPod.io dan Vast.ai.

Setiap pendekatan memiliki keunggulan dan tantangan masing-masing yang perlu dipertimbangkan sebelum diimplementasikan.

1. AI Agent Berbasis OpenAI API dan Pinecone (Cloud-Based Approach)

Teknologi yang Digunakan:

  • OpenAI API (GPT-4): Model AI yang menangani pertanyaan dan menghasilkan jawaban berbasis konteks.
  • Pinecone: Database vektor yang menyimpan dan mencari informasi relevan berdasarkan embedding.
  • FastAPI / Flask (Python): Framework backend untuk mengelola query pengguna.
  • MySQL / PostgreSQL: Penyimpanan metadata terkait query pengguna dan hasil pencarian.

Cara Kerja Sistem

  1. Input Query: Pengguna memasukkan pertanyaan ke dalam AI Agent.
  2. Vectorization: Query dikonversi ke embedding menggunakan OpenAI embedding model (text-embedding-ada-002).
  3. Search di Pinecone: Embedding query dibandingkan dengan data dalam Pinecone untuk menemukan informasi relevan.
  4. Augmented Context: Informasi yang ditemukan digabungkan dengan pertanyaan pengguna.
  5. Prompting ke OpenAI API: AI model (GPT-4) memproses informasi dan memberikan jawaban.
  6. Output ke User: Jawaban yang lebih akurat dan kontekstual dikirimkan ke pengguna.

Kelebihan dan Kekurangan

Keunggulan:

  • Performa tinggi dengan latensi rendah.
  • Mudah diimplementasikan karena berbasis API.
  • Tidak memerlukan pengelolaan server sendiri.

Kekurangan:

  • Biaya penggunaan API bisa meningkat seiring skala besar.
  • Ketergantungan pada layanan cloud (data dikirim ke OpenAI).
  • Kurang fleksibel dalam model kustomisasi.

2. AI Agent Berbasis PGVector, Ollama, dan Llama 3 (On-Premise Approach)

Teknologi yang Digunakan:

  • Ollama: Framework untuk menjalankan model LLM secara lokal.
  • PGVector (PostgreSQL + Vector Extension): Penyimpanan embedding berbasis PostgreSQL.
  • Meta Llama 3 + DeepSeek R1: Model AI open-source yang berjalan on-premise.
  • FastAPI / Flask (Python): Backend aplikasi AI Agent.
  • Docker & GPU Server: Infrastruktur untuk menjalankan model AI dengan performa tinggi.
  • Cloud GPU (Opsional): RunPod.io atau Vast.ai sebagai alternatif jika tidak memiliki GPU lokal.

Cara Kerja Sistem

  1. Input Query: Pengguna memasukkan pertanyaan ke dalam AI Agent.
  2. Vectorization: Query dikonversi ke embedding menggunakan model lokal (misalnya BGE atau DeepSeek R1).
  3. Search di PGVector: Vektor query dibandingkan dengan database untuk menemukan dokumen relevan.
  4. Augmented Context: Informasi yang ditemukan dikombinasikan dengan pertanyaan pengguna.
  5. Prompting ke Llama 3 / DeepSeek R1: Model AI on-premise memproses query tanpa mengandalkan cloud.
  6. Output ke User: Jawaban dikirimkan ke pengguna dengan latensi rendah dan tanpa biaya API eksternal.

Setup Ollama On-Premise

Persiapan Hardware:

Jika menggunakan server lokal, pastikan memiliki GPU dengan VRAM minimal 16 GB (idealnya A100, RTX 4090, atau setara).

Jika menggunakan cloud GPU, platform seperti RunPod.io atau Vast.ai dapat menjadi alternatif.

Instalasi Ollama & Model LLM:

curl -fsSL https://ollama.ai/install.sh | sh ollama pull meta-llama3 ollama pull deepseek-r1
  • Menjalankan LLM Secara Lokal:
ollama run meta-llama3

Integrasi dengan Backend (FastAPI / Flask):

  • Pastikan API endpoint dapat menerima query dari pengguna dan mengolahnya melalui Ollama.
  • Gunakan API lokal Ollama untuk memproses input dan menghasilkan output AI.

Kelebihan dan Kekurangan

Keunggulan:

  • Tidak ada biaya API eksternal.
  • Data tetap aman dalam infrastruktur sendiri.
  • Fleksibel untuk fine-tuning model dan pengembangan lebih lanjut.
  • Bisa menggunakan GPU cloud untuk menghindari investasi hardware mahal.

Kekurangan:

  • Memerlukan server dengan GPU yang memadai.
  • Instalasi dan konfigurasi lebih kompleks dibandingkan pendekatan cloud-based.
  • Pemeliharaan infrastruktur menjadi tanggung jawab tim internal.

Perbandingan Kedua Pendekatan

Jika Anda memerlukan solusi yang mudah diintegrasikan dan berbasis cloud, maka OpenAI API + Pinecone adalah pilihan terbaik. Namun, jika Anda ingin menghindari biaya API yang mahal, menjaga privasi data, dan memiliki kontrol penuh atas AI, maka PGVector + Ollama + Llama 3 adalah solusi yang lebih ideal dengan opsi GPU lokal atau cloud GPU seperti RunPod.io dan Vast.ai.

Dua pendekatan ini menawarkan solusi AI Agent berbasis LLM yang disesuaikan dengan kebutuhan bisnis dan teknis yang berbeda. Pemilihan teknologi bergantung pada faktor seperti biaya, keamanan data, dan fleksibilitas model.

Dengan pemahaman yang tepat, Anda dapat memilih pendekatan yang paling sesuai dengan kebutuhan proyek AI Anda!

--

--

No responses yet