OmniHuman: Teknologi AI yang Bikin Video Orang Gerak Sendiri Macem Hidup!

6 min readFeb 5, 2025

Sumber : https://omnihuman-lab.github.io/

Lo pernah liat video orang ngobrol sendiri dari foto doang? Atau video yang bisa gerak sesuai suara kayak boneka yang disulap? Nah, itu kerjaan teknologi animasi manusia pake AI! Dulu, bikin video kayak gitu susahnya minta ampun, tapi sekarang ada OmniHuman, model AI baru yang bisa bikin video manusia jadi makin real kayak beneran ngobrol dan gerak!

OmniHuman Itu Apaan?

Jadi begini, kalo teknologi AI buat animasi manusia dulu cuma bisa bikin gerak mulut doang, OmniHuman ini bisa lebih canggih lagi. Dia bisa:
✔️ Bikin video orang gerak dari suara doang (kayak orang lagi ngobrol atau nyanyi)
✔️ Bikin video dari video lain (jadi bisa niruin gerakan orang lain)
✔️ Campur semua sinyal input! (bisa pake suara, gerakan tubuh, bahkan teks buat ngontrol animasi)
✔️ Bisa bikin video dari foto apa aja (mau close-up muka, setengah badan, atau full-body)
✔️ Gerakan tangan & badan lebih alami, bisa pegang benda, bisa nari, bisa gaya bebas

Intinya, OmniHuman ini kayak tukang sulap digital yang bisa nyulap foto jadi video yang hidup, bukan sekadar gerak bibir doang!

OmniHuman Dibanding Teknologi Lama, Kayak Ngebengkel di Pinggir Jalan vs. di Bengkel Resmi

Dulu, teknologi animasi manusia kayak tukang bengkel pinggir jalan. Bisa nambal bocor dikit, tapi nggak bisa ngebenerin mesin gede. OmniHuman ini kayak bengkel resmi yang punya alat lengkap.

📌 Teknologi lama:
➡️ Cuma bisa gerakin muka atau bibir
➡️ Badan kaku, kayak boneka pajangan
➡️ Harus disetting lama buat bikin gerakannya pas

📌 OmniHuman:
✅ Bisa gerakin seluruh badan, bukan cuma muka doang
✅ Gerakan tangan lebih alami, kayak orang beneran
✅ Bisa jalan, nyanyi, bahkan interaksi sama benda lain

Jadi, bayangin OmniHuman ini kayak mobil listrik baru yang full otomatis. Lo masukin gambar dan suara, breeet! jadi video manusia yang geraknya mulus, nggak kaku kayak robot!

Cara Kerja OmniHuman: Kayak Tukang Jahit yang Bisa Bikin Baju dari Banyak Kain!

Nah, OmniHuman ini pake teknologi yang namanya Diffusion Transformer. Bingung? Oke, gue analogiin kayak tukang jahit.

➡️ Teknologi lama itu kayak tukang jahit yang cuma bisa jahit satu pola doang. Misalnya, dia cuma bisa bikin baju kemeja atau celana doang.

➡️ OmniHuman itu kayak tukang jahit yang bisa campur berbagai pola sekaligus. Dia bisa jahit kemeja, celana, jaket, semua bisa disesuaikan!

Dalam kasus OmniHuman, “polanya” itu adalah 3 jenis input buat bikin animasi yang lebih fleksibel:

Teks — kayak tukang pola, ngasih tahu situasi atau cerita video.
Audio — kayak bahan dasar kain, nentuin ritme gerakan.
Pose — kayak jarum jahit yang bikin bentuk jadi rapi dan enak diliat.

Campurin semua, jadi animasi yang geraknya lebih alami.

Cara Kerja Diffusion Transformer di OmniHuman

Jadi gini, bro… OmniHuman itu pake teknologi Diffusion Transformer buat bikin gambar diam jadi video manusia yang bisa gerak sendiri, kayak beneran hidup! Nah, cara kerjanya tuh mirip kayak lo lagi ngukir patung dari bongkahan batu, awalnya acak-acakan, tapi lama-lama jadi jelas bentuknya.

Step-Step Kerjanya OmniHuman

🌀 1. Ngeacakin Dulu (Proses Difusi)

AI ini pertama-tama nambahin noise (acak-acak gambar) ke video biar keliatan kayak si AI lagi belajar ngenalin pola.
Sama kayak lo kalau mau latihan gambar, awalnya lo coret-coret dulu, biar tau gimana bentuknya.

🔄 2. Ditiupin Pelan-Pelan (Reverse Diffusion)

Begitu udah paham, AI bakal balikin prosesnya, pelan-pelan ngehapus noise itu, sampe keluar video yang jernih dan mulus.
Ini kayak lo ngeliat kaca berembun, terus lo elap dikit-dikit sampe keliatan jelas lagi.

🤖 3. Transformer buat Ngasih Otak ke AI

OmniHuman ini gak asal bikin orang gerak, tapi ngerti konteksnya!
Transformer ini kayak sutradara yang ngatur gerakan manusia biar sinkron sama suara, pose, atau teks yang dimasukin.
Jadi kalo OmniHuman disuruh bikin video orang ngomong, gerakan mulut, tangan, bahkan ekspresi wajahnya bakal pas banget sama audionya.

Analogi Simpelnya: Kayak Lo Lagi Nyelup Roti ke Kopi!

🎨 Bayangin lo lagi makan roti kering, keras dan alot, tapi begitu dicelup ke kopi, roti itu jadi lebih lembut, enak, dan gampang dikunyah.

Nah, OmniHuman tuh awalnya kayak roti kering yang acak-acakan, terus dituangin teknologi Diffusion Transformer yang bikin dia makin halus dan sempurna jadi video yang realistis!

Gimana? Udah kebayang belum? OmniHuman ini emang teknologi AI yang gokil banget! 🚀🔥

Cara Kerja OmniHuman:

Nah, gambar ini tuh ngejelasin gimana caranya si OmniHuman ini bikin animasi manusia yang real kayak beneran pake teknologi Omni-Conditions Training dan Transformer. Gue rangkumin ya, bro, biar gampang paham:

1. Omni-Conditions Training (Bagian Kiri Gambar)

Ini proses latihan buat si OmniHuman dari nol sampe jadi pintar. Ada beberapa tahapannya:

a. Stage 0 — Pre-Training (Teks ke Video)

Di awal, si AI cuma dilatih pake teks doang.
Jadi dia belajar gimana cara bikin gerakan video dari cerita atau deskripsi yang ditulis.

b. Mixed Conditions Post-Training

Setelah pinter bikin video dari teks, dilatih lagi pake input tambahan:

Stage 1:
👉 Masukin teks + gambar. Jadi dia bisa tahu gimana bikin video yang mirip sama gambar referensinya.
Stage 2:
👉 Tambahin audio. Di sini dia belajar bikin gerakan yang sinkron sama suara, misalnya mulutnya pas ngomong.
Stage 3:
👉 Masukin pose. Nah, ini paling kuat. Model ini belajar bikin gerakan tubuh, kayak tangan, badan, atau gaya jalan biar makin real.

Catatan Penting:

Latihan pake teks sama gambar porsinya lebih banyak, soalnya lebih gampang dipahami.
Latihan pake audio sama pose porsinya lebih dikit biar AI-nya gak terlalu fokus di satu hal doang, jadi tetep fleksibel.

2. OmniHuman Model (Bagian Kanan Gambar)

Nah, bagian kanan ini tuh arsitekturnya, kayak daleman mesin si OmniHuman. Gini kerjanya:

a. Input Data

AI ini butuh beberapa jenis masukan:

Teks: Buat ceritain apa yang lagi kejadian di video.
Gambar: Jadi referensi buat muka, latar belakang, dan gaya visual.
Audio: Ngasih ritme, kayak pas ngomong atau nyanyi.
Pose: Panduan detail buat gerakan badan.

b. Proses di Transformer

Frame-Level Feature Extraction
👉 Gambar sama audio diproses frame per frame, terus dikasih noise buat mulai proses diffusion.
Heatmap Buat Pose
👉 Pose manusia dikonversi jadi heatmap, kayak peta yang nunjukin gerakan badan biar lebih pas.
Transformer Blocks
👉 Masukan dari teks, gambar, audio, dan pose diolah bareng-bareng di blok Transformer.
👉 Hasilnya, semua gerakan jadi sinkron, ekspresi wajah pas sama suara, dan pose badannya natural.

c. Output Prediction

Setelah semua diproses, keluarnya video manusia yang gerakannya halus, mukanya real, dan sesuai input yang lo kasih.

Si OmniHuman ini pinter karena dia belajarnya step by step. Awalnya cuma teks, lama-lama tambah gambar, audio, sampe pose.
Dalemannya pake Transformer, yang kayak sutradara, ngatur semua masukan biar sinkron.
Hasilnya? Video manusia yang real banget, gerakannya gak kaku, kayak orang beneran!

Keren kan? 😁🔥

Kelebihan OmniHuman: Kayak HP Flagship Dibanding HP Kentang!

Dibanding teknologi sebelumnya kayak SadTalker, Hallo-3, atau CyberHost, OmniHuman jauh lebih unggul, nih buktinya:

📌 Kualitas Video Lebih Jernih & Mulus
📌 Sinkronisasi Gerakan Bibir ke Suara Lebih Pas
📌 Gerakan Tangan & Badan Lebih Realistis
📌 Bisa Bikin Video dengan Ukuran Gambar Apapun (muka doang, setengah badan, sampe full-body)

Kalo teknologi lama itu kayak HP kentang yang jalannya lemot, OmniHuman ini kayak HP flagship yang bisa ngerjain banyak hal dengan kualitas tinggi!

Mau Coba Teknologi AI yang Bisa Nyulap Foto Jadi Video?

OmniHuman ini cocok banget buat:
🔹 Bikin avatar virtual buat ngobrol
🔹 Pembuatan konten digital otomatis (influencer virtual, film, game)
🔹 Asisten AI berbasis video

Penasaran kayak gimana hasilnya? Langsung cek demo videonya di OmniHuman Lab! Siapa tahu lo bisa bikin animasi digital sendiri pake AI ini! 🚀

Gimana? Udah lebih paham, kan? OmniHuman ini bakal bikin dunia animasi makin canggih dan gampang buat siapa aja. Lo cukup kasih foto dan suara, AI ini bakal ngurus sisanya! Mantap jiwa! 😎🔥