Kukuh T Wicaksono
9 min readMay 29, 2024

Kecil tapi Perkasa: Model Bahasa Kecil Phi-3 dengan Potensi Besar

Kadang-kadang, cara terbaik untuk menyelesaikan masalah kompleks adalah dengan mengambil halaman dari buku anak-anak. Inilah pelajaran yang dipelajari oleh peneliti Microsoft ketika mereka menemukan cara untuk mengemas lebih banyak kekuatan dalam paket yang jauh lebih kecil.

Tahun lalu, setelah seharian memikirkan solusi potensial untuk teka-teki pembelajaran mesin, Ronen Eldan dari Microsoft membaca cerita pengantar tidur untuk putrinya ketika dia berpikir, “bagaimana dia mempelajari kata ini? Bagaimana dia tahu bagaimana menghubungkan kata-kata ini?”

Pemikiran itu membawa ahli pembelajaran mesin di Microsoft Research ini bertanya-tanya seberapa banyak model AI bisa belajar hanya dengan menggunakan kata-kata yang bisa dipahami oleh anak berusia 4 tahun — dan akhirnya mengarah pada pendekatan pelatihan inovatif yang menghasilkan kelas baru model bahasa kecil yang lebih mampu dan menjanjikan untuk membuat AI lebih mudah diakses oleh lebih banyak orang.

Model bahasa besar (LLM) telah menciptakan peluang baru yang menarik untuk menjadi lebih produktif dan kreatif menggunakan AI. Namun, ukuran mereka berarti mereka membutuhkan sumber daya komputasi yang signifikan untuk beroperasi.

Meskipun model tersebut akan tetap menjadi standar emas untuk menyelesaikan berbagai jenis tugas kompleks, Microsoft telah mengembangkan serangkaian model bahasa kecil (SLM) yang menawarkan banyak kemampuan yang sama seperti LLM tetapi lebih kecil dalam ukuran dan dilatih dengan jumlah data yang lebih kecil.

Perusahaan mengumumkan hari ini keluarga model terbuka Phi-3, model bahasa kecil paling mampu dan hemat biaya yang tersedia. Model Phi-3 mengungguli model dengan ukuran yang sama dan yang lebih besar dalam berbagai tolok ukur yang mengevaluasi kemampuan bahasa, pengkodean, dan matematika, berkat inovasi pelatihan yang dikembangkan oleh peneliti Microsoft.

Microsoft sekarang membuat yang pertama dari keluarga model bahasa kecil yang lebih kuat ini tersedia untuk umum: Phi-3-mini, dengan ukuran 3,8 miliar parameter, yang berkinerja lebih baik daripada model dua kali ukurannya, kata perusahaan itu.

Mulai hari ini, model ini akan tersedia di Microsoft Azure AI Model Catalog dan di Hugging Face, platform untuk model pembelajaran mesin, serta Ollama, kerangka ringan untuk menjalankan model di mesin lokal. Model ini juga akan tersedia sebagai layanan mikro NVIDIA NIM dengan antarmuka API standar yang dapat diterapkan di mana saja.

Microsoft juga mengumumkan model tambahan ke keluarga Phi-3 akan segera hadir untuk menawarkan lebih banyak pilihan dalam kualitas dan biaya. Phi-3-small (7 miliar parameter) dan Phi-3-medium (14 miliar parameter) akan tersedia di Azure AI Model Catalog dan taman model lainnya dalam waktu dekat.

Model Bahasa Kecil untuk Tugas Sederhana

Model bahasa kecil dirancang untuk berkinerja baik untuk tugas-tugas sederhana, lebih mudah diakses dan digunakan oleh organisasi dengan sumber daya terbatas, dan mereka dapat lebih mudah disesuaikan untuk memenuhi kebutuhan spesifik.

“Apa yang akan kita lihat adalah bukan pergeseran dari besar ke kecil, tetapi pergeseran dari kategori model tunggal ke portofolio model di mana pelanggan dapat memutuskan model mana yang terbaik untuk skenario mereka,” kata Sonali Yadav, manajer produk utama untuk Generative AI di Microsoft.

“Beberapa pelanggan mungkin hanya membutuhkan model kecil, beberapa akan membutuhkan model besar, dan banyak yang akan ingin menggabungkan keduanya dalam berbagai cara,” kata Luis Vargas, wakil presiden AI di Microsoft.

Memilih model bahasa yang tepat tergantung pada kebutuhan spesifik organisasi, kompleksitas tugas, dan sumber daya yang tersedia. Model bahasa kecil sangat cocok untuk organisasi yang ingin membangun aplikasi yang dapat berjalan secara lokal di perangkat (bukan di cloud) dan di mana tugas tidak memerlukan penalaran yang luas atau respons cepat diperlukan.

Model bahasa besar lebih cocok untuk aplikasi yang memerlukan orkestrasi tugas-tugas kompleks yang melibatkan penalaran tingkat lanjut, analisis data, dan pemahaman konteks.

Model bahasa kecil juga menawarkan solusi potensial untuk industri yang diatur dan sektor yang menghadapi situasi di mana mereka membutuhkan hasil berkualitas tinggi tetapi ingin menjaga data mereka di tempat mereka sendiri, kata Yadav.

Vargas dan Yadav sangat bersemangat tentang peluang untuk menempatkan SLM yang lebih mampu pada smartphone dan perangkat seluler lainnya yang beroperasi “di tepi,” tidak terhubung ke cloud. (Pikirkan komputer mobil, PC tanpa Wi-Fi, sistem lalu lintas, sensor pintar di lantai pabrik, kamera jarak jauh atau perangkat yang memantau kepatuhan lingkungan.) Dengan menjaga data dalam perangkat, pengguna dapat “meminimalkan latensi dan memaksimalkan privasi,” kata Vargas.

Latensi mengacu pada penundaan yang dapat terjadi ketika LLM berkomunikasi dengan cloud untuk mengambil informasi yang digunakan untuk menghasilkan jawaban atas permintaan pengguna. Dalam beberapa kasus, jawaban berkualitas tinggi layak ditunggu sementara dalam skenario lain kecepatan lebih penting untuk kepuasan pengguna.

Karena SLM dapat bekerja secara offline, lebih banyak orang akan dapat memanfaatkan AI dengan cara yang sebelumnya tidak mungkin, kata Vargas.

Misalnya, SLM juga dapat digunakan di daerah pedesaan yang tidak memiliki layanan seluler. Bayangkan seorang petani yang memeriksa tanaman menemukan tanda-tanda penyakit pada daun atau cabang. Dengan menggunakan SLM dengan kemampuan visual, petani tersebut dapat mengambil gambar tanaman yang bermasalah dan mendapatkan rekomendasi langsung tentang cara mengobati hama atau penyakit.

“Jika Anda berada di bagian dunia yang tidak memiliki jaringan yang baik,” kata Vargas, “Anda masih akan dapat memiliki pengalaman AI di perangkat Anda.”

Peran Data Berkualitas Tinggi

Seperti namanya, dibandingkan dengan LLM, SLM sangat kecil, setidaknya menurut standar AI. Phi-3-mini memiliki “hanya” 3,8 miliar parameter — satuan ukuran yang merujuk pada tombol algoritmik pada model yang membantu menentukan outputnya. Sebagai perbandingan, model bahasa besar terbesar berkali-kali lipat lebih besar.

Kemajuan besar dalam AI generatif yang dibawa oleh model bahasa besar sebagian besar dianggap dimungkinkan oleh ukuran mereka yang sangat besar. Tetapi tim Microsoft mampu mengembangkan model bahasa kecil yang dapat memberikan hasil yang luar biasa dalam paket kecil. Terobosan ini dimungkinkan oleh pendekatan yang sangat selektif terhadap data pelatihan — yang mana buku anak-anak berperan.

Hingga saat ini, cara standar untuk melatih model bahasa besar adalah menggunakan sejumlah besar data dari internet. Ini dianggap sebagai satu-satunya cara untuk memenuhi selera model jenis ini yang besar untuk konten, yang diperlukan untuk “belajar” memahami nuansa bahasa dan menghasilkan jawaban cerdas atas permintaan pengguna. Tetapi peneliti Microsoft memiliki ide berbeda.

“Alih-alih melatih pada data web mentah, mengapa Anda tidak mencari data yang memiliki kualitas sangat tinggi?” tanya Sebastien Bubeck, wakil presiden riset AI generatif Microsoft yang memimpin upaya perusahaan untuk mengembangkan model bahasa kecil yang lebih mampu. Tetapi fokusnya di mana?

Terinspirasi oleh ritual membaca malam Eldan dengan putrinya, peneliti Microsoft memutuskan untuk membuat dataset diskrit dimulai dengan 3.000 kata — termasuk sejumlah kata benda, kata kerja, dan kata sifat yang seimbang. Kemudian mereka meminta model bahasa besar untuk membuat cerita anak-anak menggunakan satu kata benda, satu kata kerja, dan satu kata sifat dari daftar tersebut — permintaan yang mereka ulangi jutaan kali selama beberapa hari, menghasilkan jutaan cerita anak-anak kecil.

Mereka menamai dataset yang dihasilkan “TinyStories” dan menggunakannya untuk melatih model bahasa kecil dengan sekitar 10 juta parameter. Yang mengejutkan mereka, ketika diminta untuk membuat ceritanya sendiri, model bahasa kecil yang dilatih pada TinyStories menghasilkan narasi yang lancar dengan tata bahasa yang sempurna.

Selanjutnya, mereka menaikkan tingkat eksperimen mereka. Kali ini sekelompok peneliti yang lebih besar menggunakan data publik yang dipilih dengan hati-hati berdasarkan nilai edukatif dan kualitas konten untuk melatih Phi-1. Setelah mengumpulkan informasi yang tersedia secara publik ke dalam dataset awal, mereka menggunakan formula prompting dan seeding yang terinspirasi oleh yang digunakan untuk TinyStories, tetapi dibawa satu langkah lebih jauh dan dibuat lebih canggih, sehingga menangkap cakupan data yang lebih luas. Untuk memastikan kualitas tinggi, mereka berulang kali menyaring konten yang dihasilkan sebelum memasukkannya kembali ke dalam LLM untuk lebih disintesis. Dengan cara ini, selama beberapa minggu, mereka membangun kumpulan data yang cukup besar untuk melatih SLM yang lebih mampu.

“Banyak perhatian yang diberikan dalam menghasilkan data sintetis ini,” kata Bubeck, merujuk pada data yang dihasilkan oleh AI, “melihatnya, memastikan itu masuk akal, menyaringnya. Kami tidak mengambil semua yang kami hasilkan.” Mereka menamai dataset ini “CodeTextbook.”

Peneliti lebih meningkatkan dataset dengan mendekati pemilihan data seperti guru yang memecah konsep sulit untuk siswa. “Karena membaca dari materi seperti buku teks, dari dokumen berkualitas yang menjelaskan hal-hal dengan sangat baik,” kata Bubeck, “Anda membuat tugas model bahasa untuk membaca dan memahami materi ini menjadi jauh lebih mudah.”

Membedakan antara informasi berkualitas tinggi dan rendah tidaklah sulit bagi manusia, tetapi menyaring lebih dari satu terabyte data yang ditentukan oleh peneliti Microsoft sebagai kebutuhan untuk melatih SLM mereka akan mustahil tanpa bantuan dari LLM.

“Kekuatan generasi saat ini dari

model bahasa besar benar-benar merupakan pemberdaya yang tidak kami miliki sebelumnya dalam hal generasi data sintetis,” kata Ece Kamar, wakil presiden Microsoft yang memimpin Lab AI Frontiers Microsoft Research, di mana pendekatan pelatihan baru ini dikembangkan.

Memulai dengan data yang dipilih dengan hati-hati membantu mengurangi kemungkinan model mengembalikan respons yang tidak diinginkan atau tidak pantas, tetapi tidak cukup untuk melindungi terhadap semua tantangan keselamatan potensial. Seperti semua pelepasan model AI generatif, tim produk dan AI yang bertanggung jawab di Microsoft menggunakan pendekatan berlapis-lapis untuk mengelola dan mengurangi risiko dalam mengembangkan model Phi-3.

Misalnya, setelah pelatihan awal mereka memberikan contoh tambahan dan umpan balik tentang bagaimana model harus merespons secara ideal, yang membangun lapisan keamanan tambahan dan membantu model menghasilkan hasil berkualitas tinggi. Setiap model juga menjalani penilaian, pengujian, dan red-teaming manual, di mana para ahli mengidentifikasi dan menangani potensi kerentanan.

Akhirnya, pengembang yang menggunakan keluarga model Phi-3 juga dapat memanfaatkan rangkaian alat yang tersedia di Azure AI untuk membantu mereka membangun aplikasi yang lebih aman dan lebih dapat dipercaya.

Memilih Model Bahasa yang Tepat untuk Tugas yang Tepat

Tetapi bahkan model bahasa kecil yang dilatih pada data berkualitas tinggi memiliki keterbatasan. Mereka tidak dirancang untuk pengambilan pengetahuan mendalam, di mana model bahasa besar unggul karena kapasitas mereka yang lebih besar dan pelatihan menggunakan dataset yang jauh lebih besar.

LLM lebih baik daripada SLM dalam penalaran kompleks atas sejumlah besar informasi karena ukuran dan kekuatan pemrosesan mereka. Itu adalah fungsi yang bisa relevan untuk penemuan obat, misalnya, dengan membantu meneliti banyak makalah ilmiah, menganalisis pola kompleks, dan memahami interaksi antara gen, protein, atau bahan kimia.

“Apa pun yang melibatkan hal-hal seperti perencanaan di mana Anda memiliki tugas, dan tugas itu cukup rumit sehingga Anda perlu mencari tahu bagaimana membagi tugas itu menjadi serangkaian sub-tugas, dan kadang-kadang sub-sub tugas, dan kemudian mengeksekusi semua itu untuk datang dengan jawaban akhir … benar-benar akan berada dalam domain model besar untuk sementara waktu,” kata Vargas.

Berdasarkan percakapan berkelanjutan dengan pelanggan, Vargas dan Yadav berharap untuk melihat beberapa perusahaan “memindahkan” beberapa tugas ke model kecil jika tugas tersebut tidak terlalu kompleks.

Misalnya, bisnis dapat menggunakan Phi-3 untuk merangkum poin-poin utama dari dokumen panjang atau mengekstrak wawasan relevan dan tren industri dari laporan riset pasar. Organisasi lain mungkin menggunakan Phi-3 untuk menghasilkan salinan, membantu membuat konten untuk tim pemasaran atau penjualan seperti deskripsi produk atau posting media sosial. Atau, perusahaan mungkin menggunakan Phi-3 untuk mendukung chatbot untuk menjawab pertanyaan dasar pelanggan tentang rencana mereka, atau peningkatan layanan.

Secara internal, Microsoft sudah menggunakan rangkaian model, di mana model bahasa besar berperan sebagai router, untuk mengarahkan kueri tertentu yang memerlukan daya komputasi lebih sedikit ke model bahasa kecil, sementara menangani permintaan lebih kompleks sendiri.

“Klaim di sini bukanlah bahwa SLM akan menggantikan atau menggantikan model bahasa besar,” kata Kamar. Sebaliknya, SLM “secara unik diposisikan untuk komputasi di tepi, komputasi di perangkat, komputasi di mana Anda tidak perlu pergi ke cloud untuk menyelesaikan sesuatu. Itulah mengapa penting bagi kami untuk memahami kekuatan dan kelemahan dari portofolio model ini.”

Dan ukuran membawa keuntungan penting. Masih ada kesenjangan antara model bahasa kecil dan tingkat kecerdasan yang bisa Anda dapatkan dari model besar di cloud, kata Bubeck. “Dan mungkin akan selalu ada kesenjangan karena Anda tahu — model besar akan terus berkembang.”

Summary SLM

Small language models (SLMs) adalah versi yang lebih ringkas dari model bahasa besar (large language models/LLMs). SLMs dirancang untuk menjalankan tugas pemrosesan bahasa alami (NLP) dengan efisiensi yang lebih tinggi, baik dari segi komputasi maupun penggunaan memori. Meskipun ukurannya lebih kecil, SLMs tetap mampu melakukan berbagai tugas seperti teks prediksi, klasifikasi, dan pemahaman bahasa dengan tingkat akurasi yang memadai.

Keuntungan utama SLMs termasuk:
- Kecepatan: Proses inferensi yang lebih cepat.
- Efisiensi: Penggunaan sumber daya yang lebih rendah.
- Portabilitas: Lebih mudah diintegrasikan ke dalam perangkat dengan keterbatasan sumber daya, seperti ponsel pintar dan perangkat IoT.

Namun, SLMs mungkin memiliki keterbatasan dalam hal kompleksitas dan kualitas output dibandingkan dengan LLMs, terutama dalam tugas-tugas yang membutuhkan pemahaman konteks yang sangat mendalam.

No responses yet