OpenAI Perkenalkan Model o3: Kemajuan Menuju AGI dengan Pendekatan Keamanan Baru
Sumber: https://openai.com/index/deliberative-alignment/
Pada hari terakhir dari acara “shipmas” selama 12 hari, OpenAI mengumumkan model terbaru mereka, o3. Model ini merupakan penerus dari model o1 “reasoning” yang dirilis awal tahun ini. Model o3 hadir sebagai sebuah keluarga model, termasuk o3 dan o3-mini, versi kecil yang disesuaikan untuk tugas tertentu.
Mengapa Dinamai o3, Bukan o2?
OpenAI melewatkan nama o2 untuk menghindari potensi konflik merek dagang dengan penyedia telekomunikasi Inggris, O2. CEO OpenAI, Sam Altman, mengonfirmasi hal ini dalam siaran langsung pagi ini.
Apa yang Membuat o3 Istimewa?
OpenAI mengklaim bahwa dalam kondisi tertentu, o3 mendekati AGI (Artificial General Intelligence), meskipun dengan banyak catatan penting. AGI mengacu pada AI yang mampu melakukan berbagai tugas seperti manusia. Menurut definisi OpenAI, AGI adalah sistem yang sangat otonom dan mengungguli manusia dalam sebagian besar pekerjaan yang bernilai ekonomi.
Kemampuan Reasoning yang Ditingkatkan
Model reasoning seperti o3 memiliki kemampuan untuk memverifikasi fakta secara mandiri, membantu menghindari kesalahan yang biasa terjadi pada model AI lain. Dengan menggunakan reinforcement learning, o3 dilatih untuk “berpikir” sebelum memberikan respons melalui proses yang disebut “private chain of thought”. Model ini mempertimbangkan beberapa kemungkinan terkait sebelum merumuskan jawaban yang dianggap paling akurat.
Fitur baru pada o3 dibandingkan o1 adalah kemampuan untuk menyesuaikan waktu pemrosesan reasoning. Pengguna dapat memilih tingkat komputasi rendah, sedang, atau tinggi, di mana tingkat komputasi yang lebih tinggi menghasilkan performa yang lebih baik.
Tantangan dan Keterbatasan
Meski reasoning dapat mengurangi kesalahan, model seperti o3 masih tidak sempurna. Misalnya, o1 terkadang salah dalam permainan tic-tac-toe, dan o3 juga belum mampu menghindari semua jebakan serupa.
Benchmark dan Klaim Menuju AGI
Dalam pengujian ARC-AGI, o3 mencapai skor 87,5% pada pengaturan komputasi tinggi. Namun, pengujian ini memakan biaya besar, hingga ribuan dolar per tantangan. Meski demikian, beberapa ahli seperti François Chollet mencatat bahwa o3 masih gagal pada tugas-tugas sederhana, menunjukkan perbedaan mendasar dari kecerdasan manusia.
Di pengujian lain, o3 mencetak skor luar biasa:
- 22,8 poin lebih tinggi dari o1 pada SWE-Bench Verified untuk tugas pemrograman.
- 96,7% pada 2024 American Invitational Mathematics Exam, hanya salah satu soal.
- Rekor baru pada Frontier Math benchmark EpochAI dengan menyelesaikan 25,2% masalah, jauh di atas model lain yang hanya mencapai 2%.
Gambar ini menggambarkan proses Reinforcement Learning from Human Feedback (RLHF), yang melibatkan dua tahap utama: Training Data Generation dan Inference Time. Berikut penjelasannya:
Training Data Generation
- Prompt: Model diberikan masukan berupa pertanyaan atau situasi (prompt).
- Content Policies: Kebijakan konten digunakan untuk memastikan bahwa data pelatihan sesuai dengan aturan dan pedoman.
- Human: Manusia memberikan tanggapan atau menentukan preferensi terhadap jawaban yang dihasilkan oleh model, berdasarkan kebijakan konten.
- Answer or Preference Data: Jawaban manusia atau data preferensi ini kemudian digunakan sebagai data pelatihan untuk melatih model AI agar memahami bagaimana memberikan respons yang sesuai dengan aturan.
Inference Time
- Prompt: Model yang telah dilatih menerima masukan berupa pertanyaan atau situasi.
- AI Model: Model AI memproses prompt berdasarkan data pelatihan dan kebijakan yang dipelajari sebelumnya.
- Answer: Model menghasilkan jawaban yang diharapkan sesuai dengan pedoman konten dan kebutuhan pengguna.
Proses ini bertujuan untuk meningkatkan kualitas dan keamanan tanggapan model AI dengan memanfaatkan umpan balik manusia selama fase pelatihan. RLHF membantu memastikan model memberikan jawaban yang relevan, etis, dan sesuai dengan konteks.
Gambar ini menunjukkan proses pelatihan model menggunakan metode Reinforcement Learning through AI Feedback (RLAIF), seperti yang diterapkan pada Constitutional AI. Berikut penjelasan dari diagram:
Training Data Generation
- Prompt: Model AI menerima masukan berupa pertanyaan atau situasi (prompt).
- Constitution: Sebuah “konstitusi” atau kumpulan aturan eksplisit digunakan untuk memberikan panduan tentang bagaimana model harus merespons. Aturan ini biasanya mencakup prinsip-prinsip keamanan, etika, dan relevansi.
- AI Model: Model AI menghasilkan jawaban berdasarkan konstitusi yang diberikan, bukan bergantung pada umpan balik manusia secara langsung.
- Answer or Preference Data: Jawaban atau preferensi yang dihasilkan oleh model dicatat dan digunakan sebagai data pelatihan. Proses ini mengurangi ketergantungan pada manusia untuk memberikan data pelatihan langsung.
Inference Time
- Prompt: Pada saat penggunaan (inference), model AI menerima masukan berupa pertanyaan atau situasi, seperti pada metode RLHF.
- Same as RLHF: Model memproses masukan dan menghasilkan jawaban berdasarkan pelatihan yang telah dilakukan. Tahapan inference di sini sama seperti pada RLHF.
Perbedaan Utama dengan RLHF
- Konstitusi (Constitution): Pada RLAIF, konstitusi menggantikan sebagian besar peran manusia dalam memberikan umpan balik selama pelatihan. Model belajar langsung dari aturan eksplisit yang telah dirancang sebelumnya.
- Efisiensi: Dengan mengandalkan konstitusi, metode ini mengurangi kebutuhan akan umpan balik manusia yang mahal dan memakan waktu.
- Konsistensi: Konstitusi memastikan model mematuhi aturan dengan cara yang lebih seragam, tanpa ketergantungan pada preferensi manusia yang mungkin bervariasi.
Metode ini ideal untuk situasi di mana aturan dapat didefinisikan dengan jelas, seperti memastikan keamanan atau kepatuhan terhadap kebijakan tertentu. Hal ini membantu menciptakan model yang lebih andal dan aman dalam penggunaannya.
Gambar ini menggambarkan Inference-time refinement techniques seperti Self-REFINE, yang merupakan pendekatan untuk meningkatkan kualitas jawaban model selama waktu inferensi (saat model digunakan). Berikut adalah penjelasan rinci tentang diagram ini:
Training Data Generation
Pada bagian ini, proses pelatihan sama seperti RLHF (Reinforcement Learning from Human Feedback). Artinya, model dilatih menggunakan data pelatihan yang melibatkan prompt, kebijakan konten, dan umpan balik manusia atau preferensi.
Namun, diagram ini menunjukkan bahwa fokus utamanya adalah pada Inference Time, di mana model memperbaiki jawabannya secara mandiri.
Inference Time (Waktu Inferensi)
- Prompt: Model menerima masukan berupa pertanyaan atau situasi.
- AI Model: Model menghasilkan jawaban awal berdasarkan pelatihan sebelumnya.
- Refining Prompts: Proses tambahan dimulai, di mana model menggunakan mekanisme refinement (penyempurnaan) untuk mengevaluasi jawaban awal. Proses ini melibatkan pembuatan prompt baru yang dirancang untuk memperbaiki atau menyempurnakan jawaban yang telah dihasilkan.
- Answer: Jawaban yang dihasilkan diperbarui melalui iterasi ini. Model mempertimbangkan jawaban awal, refining prompts, dan konteks yang relevan untuk menghasilkan jawaban akhir yang lebih baik.
- Iterasi: Jika diperlukan, proses ini dapat diulang beberapa kali untuk memastikan jawaban yang dihasilkan lebih sesuai dengan kebutuhan pengguna.
Keunggulan Pendekatan Self-REFINE
- Peningkatan Kualitas Jawaban: Dengan mekanisme evaluasi dan penyempurnaan pada waktu inferensi, model dapat memberikan jawaban yang lebih relevan dan akurat dibandingkan hanya mengandalkan respons awal.
- Adaptabilitas: Pendekatan ini memungkinkan model untuk memperbaiki respons secara dinamis berdasarkan konteks dan masukan yang dihasilkan sendiri.
- Mengurangi Kebutuhan Intervensi Eksternal: Tidak memerlukan umpan balik langsung dari manusia pada waktu inferensi, karena model dapat memperbaiki dirinya sendiri.
Perbedaan dengan Pendekatan Lain
- RLHF: Fokus pada pelatihan awal untuk menghasilkan jawaban yang sesuai, tanpa penyempurnaan lebih lanjut selama waktu inferensi.
- Self-REFINE: Menambahkan lapisan penyempurnaan selama waktu inferensi, memungkinkan model untuk memproses ulang dan memperbaiki jawaban secara iteratif.
Kesimpulan
Self-REFINE adalah teknik yang sangat berguna untuk meningkatkan performa model dalam situasi kompleks atau ketika jawaban awal kurang memadai. Proses iteratif ini membantu menghasilkan jawaban yang lebih baik tanpa memerlukan pelatihan ulang, menjadikannya pendekatan yang efisien untuk berbagai aplikasi AI.
Diagram ini menjelaskan pendekatan Deliberative Alignment, sebuah metode pelatihan dan inferensi yang mengintegrasikan reasoning (penalaran) untuk memastikan model memberikan jawaban yang aman, relevan, dan sesuai dengan spesifikasi keamanan. Berikut adalah penjelasan lengkapnya:
Training Data Generation (Pembuatan Data Pelatihan)
- Prompt: Model menerima masukan berupa pertanyaan atau tugas.
- Spec (Spesifikasi): Dokumen spesifikasi atau aturan eksplisit (misalnya, kebijakan keamanan atau prinsip etika) diberikan bersama dengan prompt untuk membantu model memahami konteks dan batasan.
- Reasoning Model: Model reasoning memproses prompt dan spesifikasi untuk menghasilkan respons.
- COT (Chain of Thought): Model menggunakan chain of thought (CoT) atau alur pemikiran yang transparan. CoT ini mencakup langkah-langkah reasoning yang model gunakan untuk sampai pada kesimpulan.
- Output: Respons akhir yang dihasilkan, bersama dengan CoT, disimpan sebagai data pelatihan. Data ini membantu melatih model agar dapat melakukan reasoning secara eksplisit pada waktu inferensi.
Inference Time (Waktu Inferensi)
- Prompt: Model menerima masukan berupa pertanyaan atau tugas dari pengguna.
- Reasoning Model: Model reasoning memproses prompt dengan menggunakan pendekatan chain of thought (CoT).
- COT (Chain of Thought): Model menghasilkan langkah-langkah reasoning yang transparan untuk menjelaskan proses pengambilan keputusannya.
- Answer: Setelah melalui proses reasoning, model memberikan jawaban akhir kepada pengguna.
Keunggulan Deliberative Alignment
- Reasoning Transparan: Dengan menghasilkan chain of thought, model dapat memberikan respons yang tidak hanya akurat tetapi juga dapat dijelaskan.
- Kepatuhan pada Spesifikasi: Pendekatan ini memastikan bahwa model memahami dan mematuhi spesifikasi atau aturan yang telah ditentukan.
- Peningkatan Keamanan: Dengan reasoning eksplisit, risiko kesalahan atau respons yang tidak aman dapat diminimalkan.
- Fleksibilitas Kontekstual: Model dapat beradaptasi dengan berbagai situasi karena memahami spesifikasi yang relevan untuk setiap konteks.
Perbedaan dengan Metode Lain
- RLHF: Tidak secara eksplisit mengintegrasikan reasoning ke dalam waktu inferensi. Respons bergantung pada pelatihan yang menggunakan umpan balik manusia.
- Self-REFINE: Menggunakan iterasi untuk memperbaiki respons, tetapi tidak selalu memanfaatkan reasoning eksplisit berbasis aturan.
- Deliberative Alignment: Secara unik menggabungkan reasoning berbasis spesifikasi ke dalam proses pelatihan dan inferensi, menjadikannya lebih andal dalam menangani skenario kompleks.
Deliberative Alignment adalah pendekatan inovatif yang memungkinkan model AI untuk tidak hanya menghasilkan jawaban yang aman dan relevan tetapi juga menjelaskan alasan di balik jawaban tersebut. Dengan memanfaatkan chain of thought dan spesifikasi eksplisit, pendekatan ini menawarkan cara yang lebih aman dan transparan dalam mengembangkan AI yang cerdas.
Keamanan dengan Pendekatan “Deliberative Alignment”
OpenAI memperkenalkan pendekatan “deliberative alignment” untuk melatih model seperti o3. Dengan pendekatan ini, model diajarkan spesifikasi keamanan secara langsung dan dilatih untuk melakukan reasoning eksplisit atas spesifikasi tersebut sebelum menjawab. Pendekatan ini meningkatkan kemampuan model untuk menolak permintaan berbahaya sambil tetap memberikan respons yang sesuai untuk permintaan yang aman.
Pendekatan ini melibatkan:
- Supervised Fine-Tuning (SFT): Model dilatih dengan data pasangan (prompt, jawaban) di mana reasoning merujuk pada spesifikasi keamanan.
- Reinforcement Learning (RL): Digunakan untuk mengoptimalkan penggunaan “chain-of-thought” dengan sinyal hadiah dari model reward yang memiliki akses ke spesifikasi keamanan.
Hasilnya, deliberative alignment memungkinkan model reasoning seperti o3 untuk memberikan respons yang lebih aman dan sesuai konteks.
Hasil dan Implikasi
Model o1 dan o3 memperbaiki keseimbangan antara menolak permintaan berbahaya dan tidak terlalu banyak menolak permintaan yang aman. Dibandingkan dengan model lain seperti GPT-4o dan Claude 3.5, o3 menunjukkan performa lebih baik di berbagai pengujian keamanan.
Namun, kemajuan ini juga membawa risiko besar. Semakin cerdas dan otonom model AI, semakin besar potensi kerusakan yang dapat disebabkan oleh ketidakselarasan atau penyalahgunaan. Penelitian di bidang keamanan AI tetap menjadi prioritas utama.
Kesimpulan
Model o3 adalah langkah maju yang signifikan dalam pengembangan AI reasoning dan upaya menuju AGI. Dengan deliberative alignment, OpenAI menunjukkan bahwa peningkatan kapabilitas AI dapat dimanfaatkan untuk meningkatkan keamanan. Meski begitu, tantangan dalam memastikan AI tetap selaras dengan nilai-nilai manusia terus menjadi fokus utama.
Dengan peluncuran o3 dan o3-mini yang dijadwalkan mulai akhir Januari, OpenAI memperlihatkan visi mereka untuk masa depan AI yang lebih aman dan andal.