xAI Memperkenalkan Grok-1, Model Bahasa Terbesar yang Kini Terbuka Untuk Semua

Kukuh T Wicaksono
6 min readMar 19, 2024

--

xAI Memperkenalkan Grok-1, Model Bahasa Terbesar yang Kini Terbuka Untuk Semua.

Dalam sebuah langkah yang mengejutkan dan menggembirakan dunia teknologi, xAI baru-baru ini mengumumkan keputusan mereka untuk membuka sumber Grok-1, menjadikannya model bahasa berbasis AI terbesar yang pernah dibuat yang kini dapat diakses oleh publik. Dengan 314 miliar parameter, Grok-1 mewakili puncak inovasi dalam teknologi pembelajaran mesin, menjanjikan peningkatan signifikan dalam pemahaman dan generasi bahasa.

Apa Itu Grok-1?
Grok-1 adalah sebuah pencapaian monumental dalam bidang kecerdasan buatan. Dengan struktur yang rumit dan 314 miliar parameter, Grok-1 menggunakan teknik canggih yang disebut ‘Mixture of Experts’ (MoE) untuk mengoptimalkan kinerjanya. Dalam praktiknya, model ini hanya menggunakan sekitar 86 miliar parameter aktif pada waktu tertentu, memungkinkan untuk pemrosesan data yang lebih efisien dan efektif.

Mixture of expert?
Bayangkan Anda sedang merencanakan sebuah pesta besar dengan berbagai jenis tamu yang datang, dan Anda ingin memastikan setiap orang mendapatkan makanan yang mereka sukai. Untuk melakukan ini, Anda memutuskan untuk mendatangkan beberapa koki ahli (experts), dengan setiap koki memiliki keahlian khusus dalam memasak jenis makanan tertentu.

Konsep Mixture of Experts (MoE):

- Koki Ahli (Experts): Ini adalah koki-koki Anda, dimana setiap koki ahli dalam membuat jenis makanan tertentu. Misalnya, satu koki mungkin ahli dalam masakan Italia, sementara yang lainnya ahli dalam masakan Jepang.

- Fungsi Pembobotan (Weighting/Gating Function): Bayangkan Anda memiliki sebuah komputer atau tablet yang berisi informasi tentang preferensi makanan setiap tamu. Komputer ini akan menentukan koki mana yang paling cocok untuk memasak makanan bagi tamu tertentu, berdasarkan keahlian masing-masing koki.

- Parameter: Ini adalah resep dan teknik yang digunakan oleh setiap koki untuk membuat hidangan spesialisasinya, serta algoritma yang digunakan komputer untuk menentukan koki mana yang terbaik untuk tamu tertentu.

Saat tamu datang dan memesan makanan, komputer akan menilai preferensi mereka dan memutuskan koki mana yang paling cocok untuk membuat makanan tersebut. Bukan semua koki yang akan memasak untuk setiap pesanan, hanya satu atau beberapa koki yang keahliannya paling relevan dengan permintaan tersebut.

Meta-Pi Network dan Adaptive Mixtures of Local Experts:

- Dalam Meta-Pi Network, pendekatan ini seperti menggabungkan kontribusi dari semua koki berdasarkan rekomendasi komputer untuk menciptakan hidangan yang paling cocok untuk tamu. Ini seperti membuat makanan yang memiliki sedikit sentuhan dari setiap koki, dengan proporsi yang ditentukan oleh seberapa relevan keahlian mereka dengan preferensi tamu.

- Untuk Adaptive Mixtures of Local Experts, bayangkan setiap koki memprediksi rasa dari hidangan yang mereka buat tanpa mengetahui preferensi tamu. Komputer kemudian menggunakan informasi ini untuk memutuskan siapa yang seharusnya memasak berdasarkan seberapa baik prediksi mereka cocok dengan apa yang diinginkan tamu.

Hierarchical MoE:

Bayangkan skenario di atas, tetapi dengan tambahan manajer section yang menentukan jenis makanan umum (misalnya, makanan Italia, Jepang, dll.) sebelum komputer memutuskan koki spesifik mana yang harus memasak. Ini menambahkan lapisan keputusan tambahan yang membantu menyaring pilihan sebelum sampai pada spesialis yang tepat.

Pelajaran Utama:

Dengan menggunakan MoE, Anda mencoba memanfaatkan keahlian spesifik dari masing-masing koki untuk situasi tertentu, mirip dengan bagaimana model AI menggunakan “koki” (experts) untuk menangani jenis masalah atau data yang berbeda dengan cara yang paling efektif. Melalui proses seleksi yang cerdas (gating), sistem dapat membuat keputusan tentang koki mana yang paling cocok untuk memenuhi kebutuhan spesifik setiap masukan (misalnya, preferensi tamu), menghasilkan solusi yang lebih disesuaikan dan efisien.

Mengapa Grok-1 Berbeda?
Berbeda dari model-model sebelumnya, Grok-1 memanfaatkan sesuatu yang disebut Rotary Embeddings. Ini berarti Grok-1 dapat menginterpretasikan data dengan lebih dinamis, tanpa terikat pada batasan posisional yang tetap, yang sering menjadi kendala bagi model tradisional. Ini memungkinkan Grok-1 untuk memahami konteks dan nuansa bahasa dengan cara yang lebih alami dan akurat.

Rotary embedding ?
Bayangkan Anda sedang berdiri di sebuah galeri seni yang luas dengan banyak lukisan yang tergantung di dinding. Setiap lukisan merepresentasikan sebuah “token” atau kata dalam kalimat, dan galeri itu sendiri adalah kalimat yang ingin dipahami oleh model AI seperti Grok-1.

Rotary Position Embedding (RoPE) bisa dibayangkan sebagai sistem pemandu unik yang Anda kenakan sebagai headset. Setiap kali Anda melihat ke arah lukisan tertentu, headset ini memberi tahu Anda bukan hanya tentang lukisan itu sendiri tetapi juga posisinya relatif terhadap lukisan lain di galeri.

- Enkoding Posisi Absolut dengan Matriks Rotasi: Ini seperti headset menggunakan kompas dan peta bintang untuk menentukan di mana Anda berdiri di dalam galeri dan arah Anda menghadap. Dengan cara ini, headset tidak hanya memberi informasi tentang lukisan yang Anda lihat tetapi juga tentang di mana lukisan itu berada dalam konteks keseluruhan galeri.

- Ketergantungan Posisi Relatif dalam Perumusan Perhatian Sendiri: Bayangkan jika headset ini juga bisa memberitahu Anda bagaimana lukisan di depan Anda berkaitan dengan lukisan di sebelahnya. Misalnya, jika dua lukisan adalah bagian dari seri yang sama, headset mungkin menyoroti hubungan antara keduanya, memberikan konteks tambahan yang memperkaya pengalaman Anda.

- Fleksibilitas untuk Panjang Sekuens Apapun dan Berkurangnya Ketergantungan Antar-Token dengan Bertambahnya Jarak Relatif: Seperti berjalan di galeri, Anda bisa mendekati atau menjauhi lukisan sebanyak yang Anda suka, dan headset akan menyesuaikan informasi yang diberikan berdasarkan jarak Anda terhadap lukisan tersebut. Ini memungkinkan pemahaman yang lebih dinamis tentang bagaimana setiap bagian dari kalimat (galeri) saling terkait, terlepas dari panjang kalimat itu sendiri.

- Kemampuan Membekali Perhatian Linier dengan Enkoding Posisi Relatif: Terakhir, ini seperti headset tidak hanya bisa bekerja dengan galeri besar dengan banyak lukisan tetapi juga dapat menyesuaikan informasinya dengan cepat dan efisien, bahkan saat Anda bergerak cepat melalui galeri atau melihat sekeliling dari satu lukisan ke lukisan lainnya.

Dengan demikian, RoPE memungkinkan model bahasa AI untuk memahami dan memproses bahasa dengan cara yang lebih alami dan intuitif, mirip dengan bagaimana kita sebagai manusia menavigasi dan memahami dunia di sekitar kita.

Spesifikasi Utama Grok-1:
- Parameters: Grok-1 memiliki 314 miliar parameter, dengan 25% berat aktif per token.
- Arsitektur: Model ini dirancang dengan campuran 8 pakar, menggunakan 2 per token.
- Lapisan: Terdapat 64 lapisan transformer yang mengintegrasikan perhatian multi-kepala dan blok padat.
- Tokenisasi: Menggunakan tokenizer SentencePiece, dengan ukuran vocab 131,072.
- Embedding dan Posisi Encoding: Ukuran embedding 6,144, sesuai dengan rotary positional embeddings.
- Attention heads / Perhatian: 48 kepala untuk query, 8 untuk kunci/nilai, masing-masing dengan ukuran 128.
- Panjang Konteks: Dapat memproses hingga 8,192 token dengan presisi bf16.

Attention heads dan ukuran embedding ?

Bayangkan Anda sedang membaca sebuah buku yang penuh dengan cerita menarik. Untuk memahami cerita tersebut, Anda perlu mengenali kata-kata dan memahami hubungan antara mereka. Dalam konteks ini, mari kita gunakan analogi untuk menjelaskan konsep “embedding size” dan “attention heads” dalam model bahasa AI seperti Grok-1.

Embedding Size

“Embedding size” bisa diibaratkan sebagai kedalaman pemahaman Anda tentang setiap kata. Misalnya, anggaplah setiap kata dalam buku adalah sebuah kota di peta, dan “embedding size” adalah jumlah detail yang Anda miliki tentang kota tersebut. Jika “embedding size” besar, seperti 6,144, ini berarti Anda memiliki banyak detail tentang kota tersebut — sejarahnya, tempat menarik, budaya, dan lain-lain. Dalam AI, “embedding size” yang besar memungkinkan model untuk menangkap nuansa yang lebih kaya dan pemahaman yang lebih dalam tentang kata-kata (atau token) yang sedang diproses.

Attention Heads

Sekarang, bayangkan ketika Anda membaca, Anda tidak hanya memperhatikan satu kata dalam satu waktu, tetapi juga hubungan antara kata-kata tersebut dalam kalimat. “Attention heads” berperan seperti berbagai “sorotan perhatian” yang Anda gunakan untuk melihat hubungan antara kata-kata tersebut. Jika model memiliki 48 “attention heads” untuk pertanyaan (queries), ini seperti memiliki 48 cara berbeda untuk memahami hubungan antara kata-kata ketika Anda bertanya tentang sesuatu. Untuk kunci (keys) dan nilai (values), memiliki 8 “attention heads” berarti ada 8 cara untuk menghubungkan dan membandingkan informasi tersebut dengan apa yang Anda cari.

Misalnya, saat Anda membaca tentang pertemuan antara dua karakter, beberapa “attention heads” mungkin fokus pada emosi karakter, beberapa pada konteks sejarah pertemuan itu, dan yang lain pada konsekuensi pertemuan tersebut bagi plot cerita. Cara ini memungkinkan model untuk memiliki pemahaman yang lebih komprehensif dan nuansa yang lebih kaya tentang teks yang sedang diproses, mirip dengan cara pembaca manusia menangkap berbagai aspek cerita dari berbagai sudut pandang.

Dengan menggabungkan “embedding size” yang besar dengan banyaknya “attention heads”, model seperti Grok-1 dapat menghasilkan pemahaman yang sangat detail dan multifaset tentang teks, mirip dengan seorang pembaca yang sangat teliti dan analitis.

Kinerja dan Implementasi:
Grok-1 telah menunjukkan kinerja yang superior dibandingkan dengan model lainnya seperti LLaMa 2 70B dan Mixtral 8x7B, mencapai skor MMLU 73%. Ini menandakan efisiensi dan akurasi yang tinggi dalam berbagai tes. Namun, penggunaan Grok-1 memerlukan sumber daya GPU yang signifikan, dengan implementasi lapisan MoE yang belum efisien sepenuhnya untuk memastikan keakuratan model.

Ketersediaan Sumber Terbuka:
Yang paling menggembirakan, Grok-1 sekarang tersedia sebagai sumber terbuka di bawah lisensi Apache 2.0. Ini berarti bahwa berat dan arsitektur model dapat diakses dan dikontribusikan oleh komunitas luas, membuka kemungkinan-kemungkinan baru dalam penelitian AI dan aplikasi praktisnya.
Dengan langkah berani xAI membuka sumber Grok-1, kita berada di ambang revolusi AI yang baru, di mana teknologi canggih ini tidak lagi hanya terbatas pada laboratorium penelitian tetapi dapat diakses oleh para pengembang, peneliti, dan bahkan hobiis di seluruh dunia. Kita hanya bisa membayangkan inovasi dan kemajuan yang akan muncul dari kolaborasi global ini.

--

--