DBRX: Pembaruan Standar Industri oleh Model Bahasa Besar Sumber Terbuka

Kukuh T Wicaksono
4 min readMar 28, 2024

--

Penulis: Tim Riset Mosaic
Tanggal: 27 Maret 2024, Riset AI Mosaic

sumber:

https://www.wired.com/story/dbrx-inside-the-creation-of-the-worlds-most-powerful-open-source-ai-model/

Dalam sebuah langkah yang mengejutkan dunia teknologi dan kecerdasan buatan (AI), Databricks telah meluncurkan DBRX, model bahasa AI sumber terbuka terbaru yang menjanjikan untuk mengubah permainan. Pada sebuah pertemuan yang penuh antusiasme dan sorakan, tim insinyur dan eksekutif Databricks bersatu melalui Zoom, menunggu dengan napas yang terhenti hasil dari pengujian terakhir model inovatif ini. Setelah berbulan-bulan kerja keras dan investasi sebesar $10 juta, mereka akhirnya dapat menghela napas lega dan merayakan: DBRX telah melampaui semua ekspektasi, menetapkan standar baru dalam dunia AI.

Jonathan Frankle, arsitek jaringan neural utama di Databricks, tidak bisa menyembunyikan kegembiraannya saat mengumumkan bahwa DBRX tidak hanya unggul dalam serangkaian benchmark ketat, tapi juga mengalahkan model-model terkenal lainnya seperti Llama 2 dari Meta dan Mixtral. Bahkan, pada beberapa aspek, DBRX nyaris menyamai kecanggihan GPT-4 dari OpenAI, model yang sebelumnya dianggap sebagai puncak kecerdasan mesin.

Keputusan Databricks untuk merilis DBRX sebagai sumber terbuka bukanlah tanpa alasan. Di tengah maraknya perlombaan AI generatif yang cenderung tertutup dan eksklusif, Databricks ingin membawa angin segar dengan membagikan kreasi mereka kepada dunia. Ini bukan hanya tentang mengklaim supremasi teknologi, tapi juga tentang mendorong inovasi dan kolaborasi di antara peneliti, pengembang, dan industri yang lebih luas. Dengan berbagi DBRX, Databricks berharap untuk mempercepat adopsi AI dalam berbagai sektor, dari keuangan hingga kesehatan, sekaligus mengatasi kekhawatiran terkait privasi dan keamanan data.

Kisah di balik pembuatan DBRX juga layak mendapat sorotan. Dari keputusan strategis hingga malam-malam tanpa tidur, tim Databricks membuktikan bahwa membangun model AI terdepan tidak hanya membutuhkan kecanggihan teknologi, tapi juga dedikasi dan kerja tim yang luar biasa. Keterbukaan mereka dalam berbagi perjalanan ini menawarkan wawasan berharga tentang kompleksitas dan tantangan yang dihadapi, serta menunjukkan betapa inovasi di bidang AI dapat membawa manfaat yang lebih besar dengan biaya yang lebih rendah di masa depan.

Di saat dunia AI semakin tertutup dan kompetitif, DBRX dan Databricks menawarkan narasi alternatif: masa depan di mana kecerdasan buatan tidak hanya lebih canggih dan dapat diakses, tapi juga lebih inklusif dan transparan. Dengan langkah berani ini, Databricks tidak hanya menetapkan standar baru untuk model LLM sumber terbuka, tapi juga membuka pintu bagi kemungkinan-kemungkinan baru dalam penelitian, pengembangan, dan penerapan AI. Selamat datang di era baru kecerdasan buatan, di mana batas-batas inovasi terus diperluas dan kekuatan AI berada di tangan lebih banyak orang.

Databricks dengan bangga mengumumkan peluncuran DBRX, sebuah inovasi dalam dunia Large Language Model (LLM) sumber terbuka yang menetapkan standar baru dalam industri. DBRX tidak hanya mengungguli pendahulunya, GPT-3.5, dalam serangkaian benchmark standar tetapi juga memberi persaingan ketat pada Gemini 1.0 Pro, terutama di bidang pemrograman, dimana ia melampaui CodeLLaMA-70B, sebuah model khusus.

Keunggulan DBRX berasal dari peningkatan signifikan dalam efisiensi pelatihan dan inferensi, berkat arsitektur campuran pakar (MoE) yang canggih. Model ini menawarkan kecepatan inferensi hingga dua kali lebih cepat dibandingkan dengan model sejenis, dan ukurannya hanya 40% dari Grok-1, dengan tetap mempertahankan kualitas yang superior. Selain itu, pelatihan model DBRX menggunakan komputasi yang hampir empat kali lebih sedikit dibandingkan dengan metode pelatihan model konvensional.

Databricks menyediakan DBRX dalam dua versi: versi dasar dan versi yang telah di-finetune, keduanya tersedia di Hugging Face dengan lisensi terbuka. Penggunaan DBRX telah terintegrasi dalam berbagai aplikasi GenAI, termasuk SQL, dimana model ini menunjukkan performa yang mengagumkan.

DBRX merupakan model bahasa berbasis decoder dengan 132B parameter, dilatih dengan 12T token dari data teks dan kode, menggunakan teknik yang inovatif untuk memperbaiki kualitas model secara signifikan. Dengan arsitektur yang melibatkan 16 pakar dan pemilihan 4 di antaranya, DBRX menawarkan kemungkinan kombinasi yang luas, meningkatkan kualitas output model.

Tim Riset Mosaic telah mengatasi tantangan signifikan dalam pengembangan model campuran pakar ini, membangun sebuah pipeline pelatihan yang robust dan efisien, yang kini memungkinkan pelanggan untuk melatih model fondasi MoE kelas dunia dari awal.

DBRX telah menunjukkan keunggulannya dalam berbagai benchmark, melampaui model sumber terbuka lainnya dalam pemrograman, matematika, dan banyak lagi. Selain itu, DBRX juga bersaing ketat dengan model tertutup terkemuka, seperti Gemini 1.0 Pro dan Mistral Medium, dalam berbagai aspek.

Pada tugas konteks panjang dan generasi yang diperkuat pengambilan (RAG), DBRX menunjukkan kemampuan yang luar biasa, melebihi performa model-model terdahulu dalam banyak kasus. Ini membuktikan bahwa DBRX bukan hanya inovasi dalam efisiensi dan ukuran, tetapi juga dalam kualitas dan kemampuan adaptasi pada berbagai jenis tugas.

Dengan peluncuran DBRX, Databricks berharap untuk memberikan kontribusi signifikan pada komunitas sumber terbuka, memungkinkan lebih banyak perusahaan dan pengembang untuk memanfaatkan kemajuan terbaru dalam teknologi LLM.

--

--