Eksplorasi Keajaiban AI: Bagaimana Model Bahasa Besar Menantang Batasan Statistik Klasik

Kukuh T Wicaksono
4 min readApr 23, 2024

sumber : https://www.technologyreview.com/2024/03/04/1089403/large-language-models-amazing-but-nobody-knows-why/

Pembelajaran mendalam telah menjadi teknologi yang mendefinisikan era kecerdasan buatan saat ini, namun misteri besar terus mengiringi teknologi ini. Salah satu fenomena yang paling membingungkan dan menarik dalam pembelajaran mendalam adalah kemampuan model bahasa besar, seperti GPT-4 dari OpenAI, untuk “menggeneralisasi” — yakni kemampuan untuk menangani tugas-tugas baru yang tidak pernah dilihat selama pelatihan.

Beberapa tahun terakhir, para peneliti telah mencatat fenomena yang disebut “grokking”, di mana model tiba-tiba memahami atau berhasil melakukan tugas setelah waktu pelatihan yang sangat lama, meskipun awalnya terlihat gagal. Ini menantang pemahaman kita tentang cara kerja pembelajaran mesin tradisional dan menunjukkan bahwa ada aspek-aspek dari pembelajaran mendalam yang masih belum kita pahami sepenuhnya.

Model pembelajaran mendalam dengan triliunan parameter, sering disebut sebagai model bahasa besar, menghadirkan fenomena yang sulit dijelaskan menggunakan pendekatan statistik klasik. Salah satu contoh fenomena ini adalah “double descent”, di mana performa model tidak mengikuti pola yang biasanya diharapkan berdasarkan teori statistik yang ada. Dalam pembelajaran mesin tradisional, kita mengharapkan bahwa saat model terus ditambah kompleksitasnya (misalnya, dengan menambah parameter), performanya akan meningkat hingga titik tertentu sebelum akhirnya menurun karena overfitting — keadaan di mana model terlalu sesuai dengan data pelatihan dan gagal generalisasi.

Namun, dalam model dengan triliunan parameter, pola yang diamati berbeda. Setelah fase awal di mana performa meningkat dan kemudian menurun (yang mencerminkan overfitting), performa model tersebut malah meningkat kembali. Ini adalah fenomena “double descent”. Dalam fase kedua penurunan kesalahan, model tampaknya menemukan cara untuk generalisasi yang lebih baik walaupun dengan peningkatan kompleksitas yang signifikan. Hal ini bertentangan dengan prinsip umum yang menyatakan bahwa peningkatan kompleksitas seharusnya mengarah pada overfitting yang lebih besar.

Selain itu, ada konsep “overfitting jinak” yang juga menarik. Dalam kebanyakan kasus, overfitting dianggap sebagai masalah karena model yang overfit biasanya memiliki performa yang buruk pada data yang belum pernah dilihat sebelumnya. Namun, pada beberapa kasus dengan model besar, walaupun model tersebut overfit terhadap data pelatihan, mereka masih bisa performa baik pada data baru. Ini menunjukkan bahwa tidak semua bentuk overfitting secara otomatis berdampak negatif terhadap kemampuan generalisasi model.

Bayangkan Anda sedang belajar memasak dan Anda memiliki buku resep favorit yang Anda ikuti dengan sangat teliti. Dalam banyak situasi, mempelajari dan mengikuti resep tersebut sampai detail terkecil dapat membuat Anda terlalu tergantung pada resep itu dan kesulitan jika diminta memasak hidangan baru tanpa panduan. Ini mirip dengan konsep “overfitting” dalam pembelajaran mesin, di mana model AI belajar dari data pelatihan dengan sangat detail sehingga ia hanya bisa mengenali situasi atau data yang sangat mirip dengan apa yang sudah ‘dipelajarinya’ dan gagal ketika menghadapi situasi yang berbeda.

Namun, ada situasi langka dalam pembelajaran mendalam di mana meskipun model AI ‘overfit’ atau terlalu pas dengan data pelatihannya, model tersebut masih mampu berkinerja baik saat diberikan data baru yang tidak pernah dilihat sebelumnya. Kembali ke analogi memasak, bayangkan jika seseorang yang belajar memasak dengan cara menghafal resep secara detail ternyata mampu menggunakan pengetahuan dari resep yang dipelajari untuk menciptakan hidangan baru yang lezat. Orang tersebut berhasil memodifikasi dan menyesuaikan bumbu dan tekniknya berdasarkan pengalaman memasak sebelumnya, meskipun pada awalnya hanya fokus pada resep spesifik.

Dalam kasus ini, ‘overfitting’ tidak selalu berdampak negatif. Ini menunjukkan bahwa model AI tersebut, meski terlalu spesifik pada data pelatihannya, masih memiliki kemampuan luar biasa untuk beradaptasi dan mengaplikasikan apa yang telah ‘dipelajari’ ke situasi atau data baru. Jadi, tidak semua bentuk overfitting membatasi kemampuan model untuk bekerja dengan baik di luar data latihannya. Ini membuka perspektif baru tentang bagaimana kita memahami dan mendekati pelatihan model AI besar.

Fenomena ini menantang pemahaman kita tentang kompleksitas dan kapasitas model. Mungkin terdapat karakteristik tertentu dalam data atau dalam struktur model yang memungkinkan model untuk terus belajar dan generalisasi yang efektif meskipun secara teori seharusnya tidak mampu. Hal ini membuka peluang untuk penelitian lebih lanjut tentang apa yang membedakan “overfitting jinak” dari overfitting tradisional.

Penemuan ini menggarisbawahi pentingnya melampaui teori statistik klasik dalam mencoba memahami dan memanfaatkan model pembelajaran mendalam. Mungkin kita perlu kerangka kerja teoritis baru yang dapat memperhitungkan fenomena unik yang dihadirkan oleh model skala besar ini, yang tidak hanya akan membantu kita dalam merancang AI yang lebih efektif tapi juga dalam memahami batasan dan potensi dari teknologi canggih ini.

Di sisi lain, penggunaan model bahasa besar telah menunjukkan kemajuan teknologi yang luar biasa, seperti kemampuan untuk menangani berbagai macam tugas dengan sedikit hingga tanpa pelatihan khusus untuk tugas-tugas tersebut. Misalnya, model yang dilatih untuk matematika dalam bahasa Inggris dapat mengadaptasi pengetahuannya untuk menyelesaikan masalah matematika dalam bahasa lain, seperti bahasa Prancis, sebuah kemampuan yang melampaui apa yang bisa dijelaskan oleh model statistik tradisional.

Namun, kemampuan mengejutkan ini juga menimbulkan pertanyaan tentang bagaimana memastikan keamanan dan efektivitas model AI di masa depan. Para peneliti, termasuk mereka yang bekerja di OpenAI dan universitas terkemuka, sedang berusaha membangun teori yang lebih baik untuk menggambarkan mengapa model-model ini bekerja dengan cara mereka. Pemahaman yang lebih mendalam ini tidak hanya penting untuk kemajuan AI, tetapi juga untuk mengelola risiko yang mungkin datang dengan teknologi yang semakin canggih.

Dalam perjalanan memahami AI, kita berada di titik yang menarik di mana setiap eksperimen baru bisa membawa kejutan dan pemahaman yang lebih dalam. Seperti ilmu pengetahuan pada umumnya, ilmu tentang kecerdasan buatan masih muda dan terus berkembang, membawa kita ke pertanyaan-pertanyaan baru dan penjelajahan lebih jauh ke dalam salah satu misteri terbesar zaman kita: bagaimana, tepatnya, pembelajaran mendalam bisa begitu efektif dan apa implikasi masa depannya bagi manusia.

--

--