GameNGen — Mesin Game Berbasis Model Neural Real-Time

6 min readSep 5, 2024

Teknologi dalam dunia pengembangan game terus berkembang, dan inovasi terbaru memperkenalkan pendekatan baru dengan menggunakan model neural untuk mensimulasikan lingkungan interaktif secara real-time. Salah satu terobosan utama dalam bidang ini adalah GameNGen, mesin game pertama yang sepenuhnya didukung oleh model neural. Artikel ini akan membahas apa itu GameNGen, bagaimana ia bekerja, dan dampaknya terhadap industri game.

Apa itu GameNGen?

GameNGen adalah mesin game yang memungkinkan interaksi real-time dengan lingkungan kompleks menggunakan model neural. Salah satu pencapaian terbesarnya adalah kemampuannya untuk mensimulasikan game klasik DOOM dengan kualitas visual yang mendekati game aslinya, berjalan pada 20 frame per detik di TPU tunggal. Dalam beberapa uji coba, pemain manusia kesulitan membedakan antara cuplikan game asli dan simulasi dari GameNGen, menunjukkan tingkat realistis yang tinggi dari simulasi ini.

Bagaimana GameNGen Bekerja?

Proses kerja GameNGen melibatkan dua fase utama:
1. Pelatihan Agen RL (Reinforcement Learning): Model dilatih untuk bermain game secara otomatis. Setiap sesi pelatihan direkam untuk membentuk dataset pelatihan.
2. Model Diffusion untuk Prediksi Frame Selanjutnya: Model dilatih untuk menghasilkan frame berikutnya berdasarkan urutan frame sebelumnya dan tindakan yang diambil dalam permainan. Teknik ini disebut auto-regressive generation, yang memungkinkan simulasi berlangsung secara berkelanjutan tanpa gangguan.

Dalam tahap pelatihan, agen berinteraksi dengan game untuk mengumpulkan data tentang tindakan dan observasi yang dilakukan, yang kemudian digunakan untuk melatih model neural agar dapat melakukan prediksi frame berikutnya dengan akurasi tinggi.

Gambar ini menunjukkan arsitektur proses pelatihan dalam model generatif GameNGen yang dibagi menjadi dua bagian utama:

1. Pengumpulan Data Melalui Agent Play (RL Training):
Di bagian kiri, kita melihat bahwa game dilatih menggunakan agen RL (Reinforcement Learning). Agen ini mengambil tindakan dalam lingkungan game berdasarkan observasi yang diterima serta reward dari sistem game. Selama proses ini, semua episode dari agen yang sedang bermain (termasuk frame dan tindakan) disimpan sebagai data pelatihan untuk tahap berikutnya.

2. Pelatihan Model Generatif (Generative Model Training):
Di bagian kanan, data yang dikumpulkan (frame sebelumnya dan tindakan yang dilakukan agen) dikodekan menjadi latens dan dimasukkan ke dalam Denoising Network. Jaringan ini bertugas menghasilkan prediksi frame berikutnya. Untuk menjaga stabilitas selama pelatihan, augmentasi noise ditambahkan pada latens yang dihasilkan sebelumnya.

- Denoising Network dilatih untuk meminimalkan diffusion loss, yang merupakan perbedaan antara frame yang dihasilkan dan frame ground truth.
— Cross-attention digunakan untuk menghubungkan fitur-fitur dari frame sebelumnya dengan embedding tindakan untuk menghasilkan prediksi yang lebih akurat.

Dengan proses ini, GameNGen dapat belajar mensimulasikan frame game secara real-time berdasarkan observasi dan tindakan yang diambil oleh agen RL.

Berikut penjelasan dari istilah-istilah yang disebutkan dalam arsitektur model generatif:

1. Latens (Latent Space/Representation):
— Pengertian: Latens mengacu pada representasi tersembunyi dari data yang telah diproses melalui model neural. Ini adalah versi yang lebih ringkas dan abstrak dari data asli (seperti gambar atau frame video) yang disimpan dalam ruang dimensi yang lebih rendah. Latens memungkinkan model untuk menangkap informasi inti atau fitur penting dari data input.
— Dalam Konteks Gambar: Ketika frame diubah menjadi latens, itu berarti gambar tersebut diubah menjadi representasi yang lebih sederhana yang masih mempertahankan fitur penting yang dibutuhkan untuk membuat prediksi selanjutnya.

2. Noise (Augmentasi Noise/Noise Augmentation):
— Pengertian: Noise di sini mengacu pada penambahan gangguan acak pada latens atau data lain selama proses pelatihan. Noise digunakan untuk meningkatkan ketahanan model, sehingga model dapat belajar untuk membuat prediksi yang lebih stabil dan akurat bahkan dalam kondisi yang tidak sempurna.
— Dalam Konteks Gambar: Augmentasi noise membantu mengurangi kesalahan akumulatif ketika model secara auto-regresif menghasilkan frame demi frame. Dengan menambahkan noise pada latens, model dilatih untuk memperbaiki kesalahan yang mungkin terjadi.

3. Cross-Attention:
— Pengertian: Cross-attention adalah mekanisme yang digunakan dalam model neural untuk “memperhatikan” elemen-elemen penting dari input sebelumnya (seperti tindakan yang diambil atau frame yang diamati) dan menggunakannya untuk membuat keputusan prediktif tentang langkah selanjutnya. Cross-attention memungkinkan model untuk memberikan fokus yang tepat pada bagian data yang relevan.
— Dalam Konteks Gambar: Fitur-fitur dari frame sebelumnya dan tindakan yang dilakukan (seperti menembak atau bergerak) dianalisis oleh model melalui cross-attention untuk membuat prediksi frame berikutnya yang lebih akurat.

4. Denoising Network:
— Pengertian: Jaringan denoising adalah bagian dari model yang bertugas membersihkan atau menghilangkan noise yang ada pada latens atau prediksi yang dihasilkan. Ini digunakan untuk menghasilkan output yang lebih bersih dan akurat dengan meminimalkan efek noise.
— Dalam Konteks Gambar: Setelah latens diberi noise untuk stabilitas pelatihan, jaringan denoising bekerja untuk memprediksi frame yang sebenarnya dengan menghilangkan noise tersebut, menghasilkan frame yang mendekati gambar asli yang diinginkan.

5. Diffusion Loss:
— Pengertian: Diffusion loss adalah fungsi kerugian (loss function) yang digunakan untuk mengukur perbedaan antara prediksi model dan data asli (ground truth). Tujuannya adalah meminimalkan nilai loss ini sehingga model dapat menghasilkan prediksi yang lebih akurat. Dalam model diffusion, prediksi yang dihasilkan dari latens diperbaiki secara bertahap untuk mencapai bentuk akhir yang mendekati data asli.
— Dalam Konteks Gambar: Model berusaha meminimalkan diffusion loss untuk menghasilkan frame berikutnya yang mirip dengan frame asli dalam urutan game, dengan mempertimbangkan gangguan noise yang telah ditambahkan selama proses pelatihan.

Kesimpulan:
- Latens: Representasi tersembunyi dari data input yang disederhanakan.
- Noise: Gangguan acak yang ditambahkan selama pelatihan untuk membuat model lebih tahan terhadap perubahan.
- Cross-Attention: Mekanisme yang memungkinkan model memperhatikan informasi relevan dari tindakan dan frame sebelumnya.
- Denoising Network: Jaringan yang bertugas membersihkan noise dari latens untuk menghasilkan prediksi yang lebih akurat.
- Diffusion Loss: Fungsi kerugian yang mengukur perbedaan antara prediksi dan data asli, yang dioptimalkan selama pelatihan model.

Istilah-istilah ini merupakan komponen penting dalam arsitektur generatif seperti GameNGen, memungkinkan simulasi game secara real-time dengan kualitas tinggi.

Tantangan dalam Simulasi Dunia Interaktif

Simulasi dunia interaktif dalam game seperti DOOM memerlukan lebih dari sekadar menghasilkan video dengan cepat. GameNGen harus mempertahankan keadaan game (seperti jumlah amunisi, musuh yang dikalahkan, dan objek yang dihancurkan) dan melakukan pembaruan logika game secara real-time. Salah satu tantangan besar dalam simulasi berbasis neural adalah ketidakstabilan saat melakukan prediksi auto-regressive, yang dapat menyebabkan hasil yang melenceng setelah beberapa langkah prediksi. Untuk mengatasi masalah ini, GameNGen menggunakan teknik augmentasi noise yang membantu menjaga kualitas simulasi dari waktu ke waktu.

Kualitas Simulasi dan Evaluasi Manusia

Dalam pengujian, GameNGen berhasil mensimulasikan game dengan tingkat kualitas yang sangat tinggi. Pada trajektori pendek, manusia hanya sedikit lebih baik dari acak dalam membedakan antara cuplikan game asli dan simulasi. Ini menunjukkan bahwa kualitas visual dan logika game yang dihasilkan sangat mendekati kenyataan.

Dalam hal metrik teknis, GameNGen mencapai nilai PSNR (Peak Signal-to-Noise Ratio) sebesar 29,43, yang setara dengan kompresi JPEG yang digunakan dalam banyak aplikasi multimedia. Selain itu, dalam evaluasi manusia, hanya sekitar 58–60% dari peserta yang mampu membedakan antara simulasi dan game asli, menggarisbawahi kesamaan kualitas antara keduanya.

GameNGen membuka jalan bagi paradigma baru dalam pengembangan game, di mana game tidak lagi diprogram sepenuhnya oleh manusia, tetapi dihasilkan oleh model neural. Dengan mesin seperti GameNGen, pengembangan game dapat menjadi lebih efisien dan lebih mudah diakses oleh banyak orang, memungkinkan lebih banyak kreativitas dan fleksibilitas dalam mendesain dan memainkan game. Masa depan pengembangan game interaktif mungkin akan lebih banyak melibatkan model-model seperti GameNGen, yang menawarkan simulasi realistis dengan interaktivitas tinggi.

Meski masih ada tantangan seperti keterbatasan memori dan ketidakstabilan dalam prediksi jangka panjang, GameNGen telah menunjukkan potensi besar dalam membentuk masa depan mesin game yang lebih canggih dan otomatis.

Masih bingung dengan penjelasan diatas ? mari kita simak lagi dengan bahasa sederhana.

Apa itu GameNGen?

Bayangkan kamu sedang bermain game, seperti DOOM, yang penuh aksi dan tantangan. Biasanya, game dibuat oleh para programmer yang menulis banyak kode untuk membuat game bisa dimainkan. Tapi, GameNGen itu berbeda. GameNGen adalah mesin yang menggunakan otak buatan (disebut model neural) untuk menjalankan game tanpa perlu banyak kode manual dari manusia.

Bagaimana GameNGen Bekerja?

- Belajar dari Bermain Game: Sebelum GameNGen bisa menjalankan game, pertama-tama ia menonton seorang agen atau robot bermain game. Robot ini dilatih untuk bermain game, seperti menembak musuh, membuka pintu, dan menghindari bahaya. Ketika robot bermain, GameNGen merekam semua gerakan, gambar, dan tindakan yang dilakukan.

- Membuat Prediksi Gambar Selanjutnya: Setelah robot belajar bermain game, GameNGen dilatih untuk menghasilkan gambar atau frame berikutnya berdasarkan apa yang terjadi di game sebelumnya. Ibaratnya, GameNGen menebak gambar apa yang akan muncul berikutnya di layar saat kamu bergerak atau bertindak di dalam game.

Apa yang Membuatnya Keren?

- Seperti Menonton dan Bermain: GameNGen bisa menjalankan game dengan sangat lancar, bahkan manusia yang menontonnya kadang tidak bisa membedakan apakah itu game asli atau hanya simulasi (tebakan pintar) dari GameNGen.

- Mesin yang Pintar: Mesin ini tidak hanya menebak gambar, tapi juga tahu bagaimana menjaga hitungan peluru, musuh yang sudah dikalahkan, atau pintu yang sudah dibuka — semuanya diingat oleh otaknya yang pintar!

Mengapa Ini Penting?

Biasanya, membuat game memerlukan banyak kode dan waktu. Tapi dengan GameNGen, game bisa dibuat dan dijalankan dengan cara baru yang lebih cepat dan lebih mudah. GameNGen membantu game terlihat sangat mirip dengan aslinya tanpa terlalu banyak campur tangan manusia. Di masa depan, mungkin game bisa dibuat hanya dengan menggunakan otak buatan seperti GameNGen ini.

Jadi, GameNGen adalah mesin super pintar yang bisa menjalankan game dengan sendirinya dan bahkan terlihat sangat mirip dengan game sungguhan!

GameNGen — Mesin Game Berbasis Model Neural Real-Time

Written by Kukuh T Wicaksono

No responses yet