Menyambut Meta Llama 3: Membangun Masa Depan AI dengan Keunggulan Baru dan Kemampuan yang Lebih Luas

Kukuh T Wicaksono
8 min readApr 19, 2024

--

Sumber: https://ai.meta.com/blog/meta-llama-3/

Meta AI baru saja meluncurkan Llama 3, sebuah model bahasa besar yang merupakan generasi terbaru dari teknologi canggih open source. Llama 3 menawarkan kemampuan luar biasa dalam berbagai skenario penggunaan, mulai dari penulisan kode hingga pemecahan masalah kompleks, dan kini tersedia dalam versi yang telah dilatih sebelumnya dengan kapasitas 8B dan 70B.

Meta Llama 3 adalah model bahasa besar sumber terbuka generasi terbaru yang telah diperkenalkan oleh Meta AI. Berikut adalah beberapa poin penting dan fitur dari Meta Llama 3:

1. Ketersediaan Platform: Llama 3 akan tersedia di berbagai platform cloud seperti AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, dan Snowflake. Ini menunjukkan integrasi yang luas dengan infrastruktur cloud utama yang memudahkan penggunaan dan aksesibilitas model bagi pengembang dan perusahaan.

2. Dukungan Perangkat Keras: Model ini juga akan didukung oleh platform perangkat keras dari AMD, AWS, Dell, Intel, NVIDIA, dan Qualcomm, menandakan bahwa Llama 3 dirancang untuk beroperasi dengan efisien di berbagai perangkat keras, meningkatkan fleksibilitas dan skala penggunaannya.

3. Pengembangan Bertanggung Jawab: Meta AI berkomitmen untuk mengembangkan Llama 3 dengan cara yang bertanggung jawab. Ini termasuk penyediaan berbagai sumber daya untuk membantu pengguna lain menggunakan model ini dengan cara yang bertanggung jawab. Alat kepercayaan dan keselamatan baru seperti Llama Guard 2, Code Shield, dan CyberSec Eval 2 telah diperkenalkan untuk meningkatkan keamanan dan keandalan model.

4. Peningkatan dan Kemampuan Baru: Dalam beberapa bulan ke depan, Meta AI berencana untuk memperkenalkan kapabilitas baru, jendela konteks yang lebih panjang, ukuran model tambahan, dan peningkatan kinerja. Ini akan memperluas fungsi dan aplikasi Llama 3 dalam berbagai skenario penggunaan.

5. Hasil Penelitian Llama 3: Meta AI juga berencana untuk membagikan hasil penelitian Llama 3 yang akan memberikan wawasan lebih mendalam tentang peningkatan teknis dan inovasi yang ada di dalam model baru ini.

6. Meta AI dengan Teknologi Llama 3: Dengan teknologi Llama 3, Meta AI sekarang menjadi salah satu asisten AI terdepan di dunia yang dapat meningkatkan kecerdasan pengguna dan membantu meringankan beban mereka. Meta AI membantu pengguna belajar, menyelesaikan tugas, menciptakan konten, dan terhubung dengan orang lain, meningkatkan produktivitas dan kreativitas.

Meta Llama 3 menjanjikan peningkatan besar dalam teknologi model bahasa dengan fokus pada aksesibilitas, kinerja, keamanan, dan penggunaan yang bertanggung jawab. Ini membuka potensi baru untuk inovasi di berbagai bidang dan industri.

Gambar dua tabel yang membandingkan kinerja berbagai model kecerdasan buatan (AI) berdasarkan beberapa metrik evaluasi. Di sini kita memiliki dua model Meta Llama — 8B dan 70B — yang kemungkinan mewakili jumlah parameter yang mereka miliki, dibandingkan dengan model lainnya. “8B” dan “70B” bisa merujuk pada miliaran parameter yang merupakan ukuran model ini. Kinerja diukur dalam skenario berbeda seperti MMLU, GPQA, HumanEval, GSM-8K, dan MATH.

Meta Llama 3 Instruct model performance comparison:

Kolom Pertama: Meta Llama 3 8B
- MMLU (5-shot): Model ini mencapai skor 68.4, yang merupakan metrik dari tugas multi-domain, di mana “5-shot” berarti model diberi lima contoh untuk “belajar” sebelum membuat prediksi.
- GPQA (0-shot): Dalam General Public Question Answering tanpa contoh sebelumnya (0-shot), skor model adalah 34.2.
- HumanEval (0-shot): Untuk evaluasi kemampuan model dalam memahami dan menyelesaikan masalah pemrograman manusia, skor yang didapat adalah 62.2.
- GSM-8K (8-shot, CoT): Di dalam tugas pemecahan masalah matematika dengan delapan contoh (8-shot) dan teknik Chain of Thought (CoT), skor yang diperoleh adalah 79.6.
- MATH (4-shot, CoT): Model ini mencetak 30.0 pada evaluasi kemampuan matematika dengan empat contoh dan CoT.

Kolom Kedua dan Ketiga: Model Kompetitor
Dua kolom berikutnya menunjukkan skor untuk model “Gemma 7B — It” dan “Mistral 7B Instruct”. Nilai-nilai ini menunjukkan kinerja masing-masing model dalam metrik yang sama seperti yang disebutkan di atas. Model ini memiliki skor yang bervariasi di setiap kategori, dengan beberapa menunjukkan keunggulan dalam area tertentu.

Kolom Keempat dan Kelima: Meta Llama 3 70B dan Kompetitor
Kolom keempat menunjukkan skor untuk Meta Llama 3 70B yang memiliki skor yang jauh lebih tinggi dibandingkan dengan model 8B-nya, menunjukkan peningkatan performa dengan skala model yang lebih besar.
- MMLU (5-shot): Skor 82.0
- GPQA (0-shot): Skor 39.5
- HumanEval (0-shot): Skor 81.7
- GSM-8K (8-shot, CoT): Skor sangat tinggi 93.0
- MATH (4-shot, CoT): Skor 50.4

Kolom kelima dan keenam membandingkan model 70B dengan dua model kompetitor lainnya, “Gemini Pro 1.5” dan “Claude 3 Sonnet”. Model-model ini juga diukur dengan metrik yang sama, dan skor mereka menunjukkan bagaimana kinerja mereka berbanding dengan model Meta Llama 3 70B.

Ringkasan dari gambar ini adalah bahwa Meta Llama 3, terutama versi 70B, menunjukkan performa yang sangat kuat dalam berbagai benchmark, menandakan kemampuan model besar ini dalam tugas-tugas seperti pemahaman pertanyaan, evaluasi kode, dan pemecahan masalah.

Pendekatan tingkat sistem terhadap tanggung jawab dalam pengembangan dan penerapan model AI seperti Meta Llama 3 adalah upaya Meta untuk memastikan model tersebut memberikan manfaat maksimal sambil menjaga prinsip tanggung jawab industri. Berikut adalah beberapa elemen kunci dari pendekatan tersebut:

Desain Model Llama 3

Model-model ini dirancang untuk menjadi sangat bermanfaat bagi pengembang, dengan menyediakan fondasi yang dapat mereka gunakan untuk mencapai tujuan akhir yang unik. Dalam pendekatan ini, pengembang memiliki kendali penuh dalam mengaplikasikan model AI sesuai dengan kebutuhan aplikasi spesifik mereka.

Penyesuaian Instruksi yang Teliti (Instruction Fine-Tuning)

Hal ini berperan penting dalam memastikan keamanan model. Model-model yang telah disesuaikan secara khusus ini telah melalui serangkaian uji keamanan (red teaming) untuk mengidentifikasi dan meminimalisir potensi respons yang bermasalah. Pengujian ini melibatkan manusia dan metode otomatisasi untuk menciptakan permintaan yang dirancang untuk mengeluarkan respon yang tidak diinginkan dari AI, seperti dalam kasus penyalahgunaan bahan kimia, biologi, dan keamanan siber.

Llama Guard dan Pengembangan Berkelanjutan

Model Llama Guard dirancang sebagai dasar untuk keamanan permintaan dan respons. Model-model ini dapat disesuaikan lebih lanjut untuk menciptakan taksonomi baru yang sesuai dengan kebutuhan aplikasi tertentu. Llama Guard 2, misalnya, menggunakan taksonomi MLCommons yang baru untuk mendukung pembentukan standar industri dalam hal keamanan AI.

CyberSecEval 2 dan Code Shield

CyberSecEval 2 memperluas kemampuan pendahulunya dengan menambahkan metrik baru yang menilai kemungkinan model AI untuk disalahgunakan, termasuk penggunaan kode yang merugikan dan kerentanan terhadap serangan injeksi prompt. Code Shield merupakan tambahan baru yang memberikan perlindungan tambahan saat inferensi dengan menyaring kode yang tidak aman yang dihasilkan oleh model AI, sehingga mengurangi risiko terkait saran kode yang tidak aman, penyalahgunaan interpreter kode, dan eksekusi perintah yang aman.

Panduan Penggunaan Bertanggung Jawab (Responsible Use Guide)

Sejalan dengan perkembangan pesat di ruang AI generatif, Meta memperbaharui Panduan Penggunaan Bertanggung Jawab (RUG) mereka, yang menyediakan panduan komprehensif untuk pengembangan yang bertanggung jawab dengan model bahasa besar (LLMs). RUG ini menekankan perlunya pemeriksaan dan penyaringan semua input dan output berdasarkan pedoman konten yang sesuai dengan aplikasi. Selain itu, Meta menyarankan pengembang untuk menggunakan API moderasi konten dan alat lain yang ditawarkan oleh penyedia layanan cloud untuk penyebaran yang bertanggung jawab.

Pendekatan terbuka dan kolaboratif ini ditujukan untuk menyatukan ekosistem AI dan mengurangi potensi bahaya, memastikan bahwa kemajuan dalam AI dapat dimanfaatkan dengan cara yang aman dan etis.

Gambar ua tabel yang menunjukkan skor untuk model kecerdasan buatan Meta Llama 3 dengan lebih dari 400 miliar parameter (400B+). Model ini sedang dalam proses pelatihan, seperti yang ditunjukkan oleh catatan “still training” dan “Checkpoint as of Apr 15, 2024”. Tabel-tabel tersebut memberikan skor pada berbagai benchmark yang menguji kemampuan model dalam tugas-tugas yang berbeda. Berikut adalah rincian dari masing-masing benchmark:

PRE-TRAINED (Pelatihan Awal)
Kolom pertama (kiri) menunjukkan performa model yang telah melalui pelatihan awal (pre-trained) tanpa penyesuaian khusus untuk tugas-tugas spesifik:
- MMLU 5-shot: Meta Llama 3 mendapat skor 84.8, menunjukkan kemampuan yang sangat baik dalam memahami dan menanggapi berbagai pertanyaan dengan memberikan lima contoh (5-shot) untuk membantu model ‘belajar’.
- AGI Eval English 3–5-shot: Skor 69.9, menunjukkan pengetahuan dalam bahasa Inggris dan kemampuan umum AI dengan memberikan 3 hingga 5 contoh.
- BIG-Bench Hard 3-shot, CoT: Skor yang sangat tinggi 85.3 untuk tugas-tugas yang sulit dengan tiga contoh dan menggunakan teknik Chain of Thought (CoT).
- ARC-Challenge 25-shot: Skor 96.0, menunjukkan kompetensi luar biasa dalam memecahkan pertanyaan-pertanyaan yang sangat menantang dengan banyak contoh (25-shot).
- DROP 3-shot, F1: Skor 83.5 pada tugas yang menguji pemahaman bacaan dan penalaran numerik dengan format F1 yang merupakan ukuran evaluasi.

INSTRUCT (Penyesuaian Instruksi)

Kolom kedua (kanan) menunjukkan skor setelah model telah di-tune atau disesuaikan khusus untuk mengikuti instruksi (instruct):
- MMLU 5-shot: Skor meningkat sedikit menjadi 86.1.
- GPQA 0-shot: Skor 48.0 menunjukkan penurunan dalam penanganan pertanyaan umum tanpa penyesuaian tambahan (0-shot).
- HumanEval 0-shot: Skor besar 84.1 pada pemahaman pemrograman dan penyelesaian masalah.
- GSM-8K 8-shot, CoT: Skor 94.1 menunjukkan peningkatan kinerja dengan penyesuaian untuk pendekatan Chain of Thought.
- MATH 4-shot, CoT: Skor 57.8, yang menunjukkan peningkatan kemampuan matematika meskipun lebih rendah dibandingkan dengan tugas-tugas lain.

Penyesuaian instruksi (instruct tuning) dapat mempengaruhi performa model pada tugas-tugas spesifik, dan bahwa model yang sangat besar seperti Meta Llama 3 dengan lebih dari 400B parameter mempunyai potensi yang signifikan dalam pemahaman dan generasi bahasa setelah pelatihan yang cukup.

Integrasi dengan Meta AI
Llama 3 telah diintegrasikan ke dalam Meta AI, asisten cerdas yang memperluas cara orang menyelesaikan tugas, menciptakan, dan terhubung. Penggunaan Meta AI memungkinkan pengguna untuk langsung merasakan kemampuan Llama 3 dalam berbagai tugas, termasuk penulisan kode dan pemecahan masalah yang efisien.

Kemampuan dan Aksesibilitas Llama 3
Llama 3 segera akan tersedia di platform seperti AWS, Databricks, Google Cloud, dan lainnya. Dengan dukungan dari platform perangkat keras seperti AMD dan NVIDIA, Llama 3 menjanjikan peningkatan performa dan fleksibilitas untuk pengembangan AI.

Kinerja Llama 3 yang Luar Biasa
Model Llama 3, dengan parameter 8B dan 70B, menetapkan standar baru untuk model LLM dengan skalanya. Berkat perbaikan dalam pra-pelatihan dan pasca-pelatihan, model ini menunjukkan peningkatan signifikan dalam kemampuan seperti penalaran, generasi kode, dan mengikuti instruksi.

Pengembangan yang Bertanggung Jawab
Meta AI berdedikasi untuk mengembangkan Llama 3 secara bertanggung jawab, menyediakan berbagai sumber daya untuk membantu penggunaan yang bertanggung jawab. Ini termasuk pengenalan alat kepercayaan dan keselamatan baru seperti Llama Guard 2 dan CyberSec Eval 2.

Fokus pada Komunitas dan Inovasi Terbuka
Meta berkomitmen pada pendekatan sumber terbuka, memungkinkan komunitas untuk mendapatkan akses ke model-model ini selagi masih dalam pengembangan. Visi ini mendorong inovasi lebih cepat dan lebih aman dalam AI, dengan berharap komunitas akan membangun aplikasi dan alat pengembang yang inovatif menggunakan Llama 3.

Llama 3 tidak hanya sebuah pencapaian teknologi tetapi juga sebuah platform yang memperkaya pengembang dengan alat yang diperlukan untuk menyelaraskan AI dengan kasus penggunaan yang relevan dan mengadopsi praktik terbaik dalam ekosistem terbuka. Dengan kemampuan baru dan performa yang ditingkatkan, Llama 3 siap untuk memainkan peran penting dalam membentuk masa depan AI yang berkelanjutan dan bertanggung jawab. Meta mengundang pengembang dan peneliti untuk bergabung dalam mengeksplorasi potensi penuh dari model ini dan berkontribusi pada inovasi berkelanjutan di bidang AI.

Dengan peluncuran Llama 3, Meta AI tidak hanya menunjukkan kemajuan teknologi tetapi juga komitmennya terhadap pengembangan AI yang bertanggung jawab dan inklusif, yang menjanjikan era baru dalam interaksi manusia dan mesin serta kolaborasi global di dalam ekosistem AI.

--

--