Apa Itu Ollama? Panduan Lengkap Tentang LLM Lokal

8 min readFeb 18, 2025

Pengertian Ollama

Ollama adalah framework open-source yang memungkinkan pengguna untuk menjalankan model bahasa besar (LLM — Large Language Models) secara lokal tanpa perlu menggunakan layanan cloud seperti OpenAI atau Anthropic. Dengan Ollama, pengguna bisa menjalankan model AI langsung di komputer mereka, menjaga privasi, dan menghemat biaya.

Fungsi Ollama

Ollama dirancang untuk memudahkan pengelolaan dan eksekusi model bahasa besar secara lokal. Beberapa fungsinya meliputi:

Menjalankan model LLM secara offline
Mengunduh dan mengelola berbagai model AI open-source
Mengoptimalkan performa model agar dapat berjalan di CPU atau GPU
Menyediakan API lokal untuk mengintegrasikan LLM ke dalam aplikasi
Memungkinkan pengguna untuk melakukan fine-tuning model sesuai kebutuhan

Fitur Utama Ollama:

Menjalankan LLM Secara Lokal

Bisa menjalankan berbagai model AI, seperti Llama 2, Mistral, Gemma, Phi-2, dan model open-source lainnya.
Tidak perlu server cloud, sehingga lebih hemat biaya dan menjaga privasi data.

Mudah Digunakan & Diinstal

Bisa diinstal di macOS, Windows, dan Linux hanya dengan satu perintah.
Cukup gunakan CLI (Command Line Interface) untuk mengunduh dan menjalankan model AI.

Optimasi Performa

Menggunakan teknologi GGUF (GPTQ) untuk kompresi model AI agar berjalan lebih efisien di CPU atau GPU.
Bisa memanfaatkan GPU NVIDIA (CUDA) atau AMD (ROCm) untuk akselerasi.

Optimasi Performa Ollama dengan GGUF dan GPU Acceleration

Ollama mengoptimalkan performa model LLM (Large Language Model) agar bisa berjalan lebih efisien di komputer lokal, baik dengan CPU maupun GPU. Salah satu teknologi utama yang digunakan adalah GGUF (GPTQ-based Quantization Format) serta akselerasi GPU melalui CUDA (NVIDIA) dan ROCm (AMD).

1. Apa Itu GGUF?

(GPTQ-based Quantization Format)

GGUF (GPTQ Quantized Unified Format) adalah format model terkompresi yang digunakan oleh Ollama untuk mengurangi ukuran model AI tanpa mengorbankan performa secara signifikan.

🔹 Mengapa GGUF Penting?
✅ Mengurangi konsumsi RAM dan VRAM
✅ Mempercepat inferensi (proses menjalankan model AI)
✅ Memungkinkan model besar seperti LLaMA 2 atau Mistral dijalankan di perangkat dengan sumber daya terbatas

🔹 Bagaimana GGUF Bekerja?

Quantization (Pengkuantisasian) → Mengubah bobot model AI dari 32-bit floating point (FP32) menjadi 16-bit atau 8-bit sehingga lebih ringan tanpa kehilangan akurasi signifikan.
Optimasi GPU & CPU → Format ini dirancang agar model lebih efisien saat dijalankan di CPU atau GPU dengan Tensor Cores atau SIMD (Single Instruction, Multiple Data).

2. Akselerasi GPU (CUDA & ROCm) untuk Ollama

Selain GGUF, Ollama juga bisa memanfaatkan GPU untuk mempercepat inferensi model.

🔹 NVIDIA CUDA (Compute Unified Device Architecture)

Digunakan untuk GPU RTX 30xx, 40xx, A100, H100, dll.
Memanfaatkan Tensor Cores untuk mempercepat pemrosesan AI.
Mendukung CUDA 11 & 12, yang membuat model AI bisa berjalan lebih cepat dibanding hanya dengan CPU.
Untuk mengaktifkan CUDA di Ollama:

ollama run mistral --device cuda

GPU yang kompatibel: RTX 3060, 3070, 3080, 3090, 4060, 4070, 4080, 4090, A100, H100.

🔹 AMD ROCm (Radeon Open Compute Platform)

Digunakan untuk GPU Radeon RX 6000, 7000, MI200, MI300 series.
Alternatif CUDA untuk akselerasi model AI di GPU AMD.
Untuk pengguna Linux, ROCm bisa digunakan dengan PyTorch dan Ollama.

Menjalankan Ollama dengan ROCm di AMD GPU:

OLLAMA_USE_ROCM=1 ollama run mistral

3. Mana yang Lebih Baik: CPU vs GPU untuk Ollama?

4. Kesimpulan & Rekomendasi

Jika hanya memiliki CPU, gunakan GGUF untuk menjalankan model lebih ringan.
Jika punya GPU NVIDIA, gunakan CUDA untuk mendapatkan performa 10x lebih cepat dibanding CPU.
Jika punya GPU AMD, gunakan ROCm agar Ollama berjalan lebih optimal.
Untuk penggunaan maksimal, gunakan GPU RTX 4070 Ti ke atas atau A100 jika menggunakan server cloud.

🔹 Ingin menjalankan Ollama dengan lebih cepat? Pastikan menggunakan GGUF dan akselerasi GPU yang kompatibel! 🚀

API Lokal untuk Integrasi Aplikasi

Bisa digunakan dengan Python, JavaScript, dan bahasa lain untuk mengembangkan chatbot, aplikasi AI, atau NLP (Natural Language Processing).
Memungkinkan fine-tuning model untuk kebutuhan spesifik.

Manfaat Menggunakan Ollama

Menggunakan Ollama memiliki berbagai keuntungan dibandingkan dengan menggunakan layanan LLM berbasis cloud:

✅ Privasi Data Lebih Terjaga

Karena Ollama berjalan di perangkat lokal, data tidak dikirim ke server pihak ketiga, sehingga lebih aman.

✅ Bebas Biaya Langganan API

Tidak seperti layanan AI berbasis cloud yang memerlukan biaya, menggunakan Ollama tidak memerlukan langganan bulanan.

✅ Performa Lebih Cepat Tanpa Latensi Jaringan

Karena semua pemrosesan dilakukan secara lokal, tidak ada keterlambatan akibat koneksi internet.

✅ Bisa Digunakan Offline

Ideal untuk proyek yang membutuhkan AI tetapi memiliki keterbatasan akses internet.

✅ Dukungan untuk Berbagai Model Open-Source

Ollama mendukung berbagai model LLM seperti Llama 2, Mistral, Gemma, Phi-2, dan lainnya.

Daftar LLM Open-Source yang Bisa Dijalankan dengan Ollama

Ollama mendukung berbagai model Large Language Models (LLM) open-source yang dapat dijalankan secara lokal, baik untuk inferensi maupun eksperimen pengembangan AI. Berikut adalah beberapa LLM open-source yang kompatibel dengan Ollama:

1. Model dari Meta (Facebook)

LLaMA 2 (7B, 13B, 70B) — Model bahasa dari Meta yang sangat populer dan dioptimalkan untuk berbagai tugas NLP.
LLaMA 3 (Coming Soon) — Versi lanjutan dari LLaMA yang dikabarkan akan lebih kuat dan efisien.

2. Model dari Mistral AI

Mistral 7B — Model ringan dengan performa tinggi, cocok untuk inferensi cepat di perangkat lokal.
Mixtral 8x7B — Model berbasis Mixture of Experts (MoE), yang lebih efisien dan kuat dalam berbagai tugas.

3. Model dari Google

Gemma 2B & 7B — Model open-source dari Google, dirancang untuk efisiensi dalam berbagai tugas bahasa.

4. Model dari DeepSeek

DeepSeek R1 (6.7B & 67B) — Model bahasa canggih yang dirancang untuk tugas NLP yang lebih kompleks.

5. Model dari Microsoft

Phi-2 — Model bahasa yang dioptimalkan oleh Microsoft untuk tugas NLP ringan.

6. Model dari Falcon (Technology Innovation Institute)

Falcon 7B & 40B — Model dari TII yang menawarkan kinerja tinggi dalam pemrosesan bahasa alami.

7. Model dari Hugging Face

StarCoder — Model AI khusus untuk pemrograman dan kode generasi otomatis.

8. Model Alternatif Lainnya

Code Llama (Meta) — Model AI khusus untuk pemrograman dan coding assistance.
Dolly 2.0 (Databricks) — Model open-source yang dirancang untuk tugas percakapan dan NLP umum.
GPT-J 6B & GPT-NeoX 20B — Model yang dikembangkan oleh EleutherAI sebagai alternatif open-source GPT.
Replit Code LLM — Model untuk membantu dalam pengkodean otomatis.

Ollama mendukung berbagai model LLM open-source, mulai dari Llama 2, Mistral, Gemma, DeepSeek R1, hingga Falcon. Setiap model memiliki spesifikasi dan kegunaan yang berbeda tergantung pada kebutuhan, baik untuk chatbot, NLP, pemrograman, atau riset AI.

🔹 Mau mencoba model tertentu di Ollama? Bisa langsung jalankan perintah berikut:

ollama pull mistral
ollama run mistral

Atau ganti mistral dengan nama model lainnya.

Cara Kerja Ollama

Ollama bekerja dengan cara yang cukup sederhana:

Unduh dan Instal Ollama Pengguna menginstal Ollama dengan perintah sederhana sesuai sistem operasi mereka (Windows, macOS, atau Linux).

curl -fsSL https://ollama.ai/install.sh | sh

Menjalankan Model LLM Setelah instalasi, pengguna dapat langsung menjalankan model yang sudah tersedia atau mengunduh model lain.

ollama run mistral

Menggunakan API untuk Integrasi Ollama menyediakan API lokal yang dapat digunakan untuk menghubungkan model AI ke aplikasi lain.

curl -X POST http://localhost:11434/api/generate -d '{"model": "mistral", "prompt": "Apa itu AI?"}'

Siapa yang Menggunakan Ollama?

Ollama cocok digunakan oleh berbagai kalangan:

Peneliti AI dan Data Scientist — Untuk eksperimen dan pengembangan model bahasa besar secara lokal.
Pengembang Software — Untuk membangun aplikasi berbasis AI tanpa ketergantungan pada layanan cloud.
Startup dan Perusahaan — Untuk mengimplementasikan AI tanpa biaya langganan API.
Pengguna Umum — Yang ingin mencoba teknologi LLM tanpa harus membayar layanan cloud.

Hubungan Ollama dengan WebUI dan API

1. Ollama dan WebUI

Ollama dapat diintegrasikan dengan WebUI untuk memudahkan interaksi dengan model AI. Beberapa proyek WebUI yang mendukung Ollama antara lain:

LM Studio — Antarmuka grafis untuk menjalankan dan mengelola model LLM berbasis Ollama.
Text Generation WebUI — Web-based UI untuk mengoperasikan berbagai model LLM dengan tampilan interaktif.

Dengan WebUI, pengguna dapat menjalankan Ollama tanpa perlu menggunakan command line, sehingga lebih mudah bagi pemula.

2. Ollama dan API

Ollama menyediakan API lokal yang memungkinkan pengembang untuk menghubungkan model AI dengan aplikasi mereka. Contoh penggunaannya:

Membangun chatbot AI tanpa koneksi internet
Menggunakan Ollama sebagai backend NLP dalam aplikasi web atau mobile
Menghubungkan model AI dengan database untuk analisis data otomatis

Contoh panggilan API menggunakan Python:

import requests

data = {"model": "mistral", "prompt": "Apa itu kecerdasan buatan?"}
response = requests.post("http://localhost:11434/api/generate", json=data)
print(response.json())

Perkiraan Biaya Setup Ollama di Indonesia (Dalam Rupiah)

Untuk menjalankan Ollama secara optimal, spesifikasi komputer sangat berpengaruh, terutama jika ingin menjalankan model LLM seperti Llama 2, Mistral, Gemma, Phi-2, dan DeepSeek R1. Berikut adalah estimasi biaya berdasarkan kebutuhan hardware.

1. Spesifikasi dan Perkiraan Biaya Setup Ollama

🔹 Level Dasar (LLM Ringan — Mistral 7B, Gemma 2B, Phi-2)

Cocok untuk: Developer pemula, penggunaan AI ringan, chatbot kecil.
Model yang bisa dijalankan: Mistral 7B, Gemma 2B, Phi-2
Spesifikasi komputer:
Processor: Intel Core i5–12400F / AMD Ryzen 5 5600X
RAM: 16GB DDR4/DDR5
GPU: NVIDIA RTX 3060 12GB (VRAM minimal 8GB)
SSD: 512GB NVMe
OS: Ubuntu 22.04 / Windows 11
Perkiraan biaya: Rp 15–18 juta

🔹 Level Menengah (LLM Medium — Llama 2 13B, DeepSeek R1, Mistral 7B, Gemma 7B)

Cocok untuk: Pengembangan AI lebih kompleks, chatbot tingkat lanjut, eksperimen NLP.
Model yang bisa dijalankan: Llama 2 13B, DeepSeek R1, Mistral 7B, Gemma 7B
Spesifikasi komputer:
Processor: AMD Ryzen 7 7700X / Intel Core i7–13700K
RAM: 32GB DDR5
GPU: NVIDIA RTX 4070 Ti 12GB
SSD: 1TB NVMe
OS: Ubuntu 22.04 / Windows 11
Perkiraan biaya: Rp 25–30 juta

🔹 Level Tinggi (LLM Besar — Llama 2 70B, Mixtral, Falcon 40B, DeepSeek R1 untuk inferensi besar)

Cocok untuk: Riset AI, eksperimen skala besar, training dan inferensi LLM besar.
Model yang bisa dijalankan: Llama 2 70B, Mixtral, Falcon 40B, DeepSeek R1 (versi besar)
Spesifikasi komputer:
Processor: AMD Threadripper 3960X / Intel Core i9–13900K
RAM: 128GB DDR5
GPU: NVIDIA RTX 4090 24GB atau A100 40GB
SSD: 2TB NVMe
OS: Ubuntu 22.04
Perkiraan biaya: Rp 50–80 juta

2. Biaya Tambahan

3. Biaya Alternatif dengan Cloud GPU (Jika Tidak Ingin Beli PC Sendiri)

Jika tidak ingin membeli hardware mahal, bisa menyewa GPU berbasis cloud:

PC Rp 15 juta cukup untuk model kecil seperti Mistral 7B, Phi-2, dan Gemma 2B.
PC Rp 25 juta cocok untuk model Llama 2 13B, DeepSeek R1, dan Mistral 7B.
PC Rp 50 juta+ diperlukan untuk model besar seperti Llama 2 70B, Mixtral, atau Falcon 40B.
Alternatif Cloud GPU bisa menjadi solusi hemat jika tidak ingin membeli hardware sendiri.

Ollama adalah solusi ideal bagi siapa saja yang ingin menjalankan model AI secara lokal tanpa ketergantungan pada layanan cloud. Dengan keunggulan seperti privasi, efisiensi biaya, dan akses offline, Ollama menjadi pilihan utama bagi pengembang, peneliti, dan perusahaan yang ingin mengintegrasikan AI ke dalam aplikasi mereka.

Ingin mencoba Ollama? Unduh sekarang dan jalankan AI di perangkatmu sendiri! 🚀