Meta Merilis Llama-3.1: Model AI Open-Source Terkuat dengan Peningkatan Kapasitas dan Multilingualitas
Meta baru saja meluncurkan Llama-3.1, versi terbaru dari model bahasa Llama yang kini menjadi model LLM open-source terkuat dengan berbagai peningkatan signifikan. Llama-3.1 menawarkan model 405B, yang tidak hanya memecahkan rekor dalam benchmark seperti MMLU dan GSM8K tetapi juga mendukung context length hingga 128 ribu token, sebuah lompatan besar dari batas 8 ribu token pada versi sebelumnya.
Fitur Utama Llama-3.1
1. Model Terkuat Open-Source: Llama-3.1–405B menonjol sebagai model LLM open-source terkuat, mencetak skor 88,6% pada MMLU dan 96,8% pada GSM8K. Model ini dapat diunduh secara gratis dari Hub, menjadikannya alat yang sangat kuat dan mudah diakses bagi pengembang di seluruh dunia.
2. Peningkatan Context Length: Dukungan untuk context length hingga 128 ribu token memungkinkan Llama-3.1 untuk memproses teks yang jauh lebih panjang. Ini sangat bermanfaat untuk aplikasi seperti Retrieval-Augmented Generation (RAG) dan alur kerja agen yang membutuhkan memori lebih besar.
3. Multilingualitas yang Kuat: Dengan dataset yang lebih beragam, Llama-3.1 mendukung delapan bahasa, termasuk Inggris, Jerman, Prancis, Italia, Portugis, Hindi, Spanyol, dan Thailand. Ini memperluas jangkauan penggunaan model dalam tugas multibahasa.
4. Teknologi dan Inovasi Baru: Model 405B menggunakan FP8 quantization pada operator linear utama, seperti gate dan up and down projections untuk FFNs, mencakup 75% dari inference FLOPs. Dengan demikian, model ini efisien dalam penggunaan memori dan daya komputasi, meskipun untuk memaksimalkan context length penuh, dibutuhkan 8xH100 GPU.
5. Fitur Keamanan dan Lisensi: Meta juga memperkenalkan Llama Guard 3 dan Prompt Guard untuk mendeteksi konten yang tidak aman dan serangan injeksi prompt. Selain itu, Llama-3.1 memiliki lisensi yang memungkinkan penggunaan data output untuk melatih model lain, termasuk dalam distilasi.
Distilasi dalam konteks pembelajaran mesin, khususnya model bahasa besar (LLM), mengacu pada proses di mana pengetahuan dari model besar (disebut model “guru”) dipindahkan ke model yang lebih kecil dan lebih efisien (disebut model “siswa”). Tujuan dari distilasi adalah untuk menciptakan model yang lebih kecil yang dapat meniru perilaku model besar dengan kinerja yang mendekati, tetapi dengan kebutuhan komputasi yang lebih rendah.
Proses distilasi umumnya melibatkan langkah-langkah berikut:
1. Pelatihan Model Guru: Model besar (guru) dilatih dengan dataset yang komprehensif. Model ini biasanya memiliki kapasitas yang besar, dengan banyak parameter, sehingga bisa memahami dan menghasilkan informasi yang sangat kompleks.
2. Pengumpulan Output Model Guru: Setelah model guru dilatih, output atau prediksi model ini digunakan sebagai label baru untuk melatih model siswa. Dalam banyak kasus, model guru menghasilkan probabilitas yang lebih halus atau distribusi keyakinan untuk berbagai kelas atau kata-kata, yang lebih informatif daripada sekadar label kategoris.
3. Pelatihan Model Siswa: Model siswa yang lebih kecil dilatih menggunakan output dari model guru sebagai panduan. Model siswa mencoba meniru distribusi output dari model guru seakurat mungkin. Karena model siswa lebih kecil, proses ini menghasilkan model yang lebih efisien dalam hal memori dan kecepatan komputasi.
Distilasi memungkinkan pengguna untuk memanfaatkan manfaat dari model besar (guru) dalam bentuk yang lebih efisien, sehingga dapat diterapkan pada perangkat dengan keterbatasan sumber daya seperti ponsel atau perangkat edge.
MMLU (Massive Multitask Language Understanding) dan GSM8K (Grade School Math 8K) adalah dua benchmark yang digunakan untuk mengevaluasi kemampuan model bahasa besar (LLMs) dalam pemahaman dan pemrosesan bahasa alami, serta penyelesaian tugas matematika.
MMLU (Massive Multitask Language Understanding)
MMLU adalah benchmark yang menguji kemampuan model bahasa dalam berbagai tugas dan domain. Ini mencakup sejumlah besar soal pilihan ganda yang mencakup lebih dari 50 subjek yang berbeda, termasuk sejarah, biologi, seni, bisnis, dan banyak lagi. MMLU dirancang untuk mengevaluasi pemahaman kontekstual dan pengetahuan umum dari model bahasa, serta kemampuannya untuk mentransfer pengetahuan dari satu domain ke domain lain.
Skor pada MMLU menunjukkan seberapa baik model dapat menjawab pertanyaan dalam berbagai topik, dan menjadi indikator yang baik untuk mengukur kecerdasan umum dan fleksibilitas model bahasa.
GSM8K (Grade School Math 8K)
GSM8K adalah benchmark yang dirancang khusus untuk menguji kemampuan model bahasa dalam menyelesaikan masalah matematika tingkat dasar (grade school). Benchmark ini terdiri dari 8.000 soal matematika yang mencakup topik seperti aritmetika dasar, aljabar, dan pemecahan masalah sederhana yang biasanya diajarkan di sekolah dasar.
Model yang diuji dengan GSM8K harus mampu memahami teks soal, melakukan perhitungan yang diperlukan, dan memberikan jawaban yang benar. Skor yang tinggi pada GSM8K menunjukkan kemampuan model untuk menangani tugas-tugas matematika dengan akurasi yang tinggi, yang juga mencerminkan pemahaman numerik dan logika dasar.
Secara keseluruhan, kinerja pada MMLU dan GSM8K memberikan gambaran yang komprehensif tentang kemampuan model bahasa dalam menangani berbagai jenis tugas pemrosesan bahasa alami dan numerik.
FP8 Quantization
FP8 (Floating Point 8-bit) quantization adalah teknik yang digunakan untuk mengurangi ukuran model dan meningkatkan efisiensi komputasi dengan mengurangi presisi data numerik yang digunakan dalam komputasi. Dalam konteks model bahasa besar seperti Llama-3.1, ini berarti mengurangi jumlah bit yang digunakan untuk merepresentasikan angka-angka dalam model, dari biasanya 16-bit (FP16) atau 32-bit (FP32) menjadi hanya 8-bit.
Manfaat FP8 Quantization:
1. Pengurangan Memori: Dengan menggunakan hanya 8 bit per angka, ukuran total model yang disimpan dalam memori dapat dikurangi secara signifikan.
2. Kecepatan Pemrosesan: Karena ukuran data yang lebih kecil, operasi komputasi dapat dilakukan lebih cepat, yang meningkatkan kecepatan inferensi (proses menghasilkan output dari input model).
3. Pengurangan Konsumsi Daya: Lebih sedikit data untuk diproses berarti lebih sedikit energi yang dibutuhkan, yang penting dalam skenario di mana daya atau sumber daya komputasi terbatas.
Namun, penggunaan FP8 quantization memerlukan teknik khusus untuk memastikan bahwa pengurangan presisi tidak secara signifikan mengurangi akurasi atau kualitas hasil dari model.
Inference FLOPs (Floating Point Operations per Second)
FLOPs adalah ukuran kinerja komputasi yang mengacu pada jumlah operasi titik apung (floating point operations) yang dapat dilakukan per detik oleh sistem komputasi. Dalam konteks model bahasa besar, inference FLOPs mengukur jumlah operasi titik apung yang diperlukan untuk menghasilkan output dari model berdasarkan input yang diberikan.
Relevansi FLOPs dalam Model Bahasa:
1. Kompleksitas Model: Model dengan jumlah parameter yang lebih besar atau arsitektur yang lebih kompleks cenderung membutuhkan lebih banyak FLOPs untuk inferensi.
2. Efisiensi: Mengurangi FLOPs tanpa mengorbankan akurasi model adalah salah satu tujuan utama dalam optimasi model, karena ini dapat meningkatkan efisiensi dan mengurangi biaya komputasi.
3. Perbandingan Kinerja: FLOPs sering digunakan untuk membandingkan kinerja berbagai model atau implementasi, memberikan gambaran tentang efisiensi komputasi relatif mereka.
Dalam konteks Llama-3.1, FP8 quantization diterapkan pada operator linear utama seperti gate dan up and down projections dalam Feed-Forward Networks (FFNs), yang menyumbang 75% dari inference FLOPs. Ini menunjukkan bahwa sebagian besar komputasi dalam model ini dioptimalkan untuk efisiensi melalui quantization.
Integrasi dan Penerapan
Llama-3.1 telah terintegrasi dengan ekosistem Hugging Face, termasuk penggunaan dengan Transformers dan TGI, serta tersedia melalui API Inference Hugging Face. Ini memudahkan pengguna untuk mengimplementasikan model ini dalam berbagai aplikasi, mulai dari generasi teks hingga evaluasi dan klasifikasi.
TGI dalam konteks ini mengacu pada “Text Generation Inference.” Ini adalah pustaka atau kerangka kerja yang dikembangkan oleh Hugging Face untuk membantu dalam menjalankan inferensi teks generatif secara efisien, terutama untuk model bahasa besar (LLMs) seperti Llama-3.1.
Text Generation Inference (TGI) bertujuan untuk mengoptimalkan performa dan efisiensi saat menggunakan model bahasa besar untuk tugas-tugas generatif, seperti membuat teks, menjawab pertanyaan, atau menyelesaikan kalimat. Beberapa fitur kunci dari TGI termasuk:
1. Optimisasi Kinerja: TGI dirancang untuk mengoptimalkan penggunaan memori dan kecepatan eksekusi, memungkinkan model bahasa besar berjalan lebih efisien pada perangkat keras yang tersedia.
2. Dukungan untuk Model Besar: TGI dapat menangani model dengan jumlah parameter yang sangat besar, seperti Llama-3.1 dengan 405 miliar parameter. Ini mencakup optimisasi untuk memori dan komputasi, penting untuk menjalankan model dengan context length yang panjang.
3. Integrasi dengan Infrastruktur: TGI sering kali diintegrasikan dengan platform seperti API Hugging Face, yang memungkinkan pengembang dan peneliti untuk mengakses model generatif melalui antarmuka yang mudah digunakan.
Dengan TGI, pengguna dapat lebih mudah dan efisien menggunakan model-model besar untuk berbagai aplikasi teks generatif, seperti chatbots, summarization, translation, dan banyak lagi.
Peluncuran Llama-3.1 oleh Meta adalah langkah besar dalam dunia AI open-source, menawarkan kapasitas dan fleksibilitas yang lebih besar untuk penelitian dan aplikasi komersial. Dengan kemampuan multibahasa yang diperkuat dan lisensi yang fleksibel, Llama-3.1 memberikan alat yang lebih kuat bagi komunitas AI global untuk mengembangkan solusi yang lebih canggih dan inklusif. Terima kasih kepada Meta dan semua kontributor yang telah menjadikan peluncuran ini sukses besar!