Llama 3.2: Mengubah Lanskap Edge AI dan Vision dengan Model Terbuka yang Dapat Dikustomisasi
Sumber : https://ai.meta.com/blog/llama-3–2-connect-2024-vision-edge-mobile-devices/
Meta AI kembali membawa inovasi besar dengan merilis Llama 3.2, termasuk model vision LLM ukuran kecil dan menengah, serta model teks-only yang dirancang untuk perangkat edge dan mobile. Dengan dukungan ekosistem yang luas, Llama 3.2 hadir untuk mendukung inovasi AI di berbagai platform.
Hari ini, Meta AI meluncurkan Llama 3.2, yang mencakup model vision LLM berukuran kecil dan menengah (11B dan 90B), serta model ringan yang hanya memproses teks (1B dan 3B). Model ini dirancang untuk perangkat edge dan mobile, termasuk versi yang telah dilatih dan disetel untuk berbagai instruksi.
Llama 3.2 untuk Edge AI
Model Llama 3.2 berukuran 1B dan 3B mendukung panjang konteks hingga 128 ribu token dan menjadi standar baru untuk penggunaan di perangkat edge, seperti untuk tugas summarization, mengikuti instruksi, serta penulisan ulang teks secara lokal. Model ini kompatibel dengan hardware Qualcomm dan MediaTek sejak hari pertama, serta telah dioptimalkan untuk prosesor Arm, menjadikannya ideal untuk perangkat mobile dan edge.
Model vision Llama 3.2 berukuran 11B dan 90B mampu menggantikan model teks yang sepadan, sekaligus unggul dalam tugas-tugas pemahaman gambar dibandingkan dengan model tertutup seperti Claude 3 Haiku. Salah satu keunggulan Llama 3.2 adalah kemampuannya untuk disesuaikan dan disempurnakan untuk aplikasi spesifik menggunakan alat seperti torchtune dan dapat dideploy secara lokal menggunakan torchchat. Pengembang juga dapat mencoba Llama 3.2 melalui smart assistant, Meta AI.
Dukungan Ekosistem yang Luas
Llama 3.2 hadir dengan distribusi Llama Stack pertama yang akan memudahkan pengembang dalam menggunakan model Llama di berbagai lingkungan, mulai dari single-node, on-prem, cloud, hingga perangkat mobile. Meta AI telah berkolaborasi dengan perusahaan besar seperti AWS, Databricks, Dell Technologies, Fireworks, Infosys, hingga Together AI untuk menyediakan distribusi Llama Stack bagi klien enterprise mereka.
Distribusi perangkat edge dilakukan melalui PyTorch ExecuTorch, sedangkan distribusi single-node tersedia melalui Ollama.
Model Vision dan Performa Luar Biasa
Model vision Llama 3.2 berukuran 11B dan 90B dirancang khusus untuk tugas reasoning gambar, seperti memahami dokumen, mengidentifikasi grafik, captioning gambar, serta visual grounding. Misalnya, model ini dapat menjawab pertanyaan berdasarkan grafik penjualan atau memberi arahan terkait medan pada sebuah peta.
Adapun model teks-only yang lebih ringan, seperti 1B dan 3B, sangat cocok untuk aplikasi berbasis teks yang berjalan secara lokal di perangkat. Aplikasi tersebut mampu merangkum pesan, mengekstrak action items, hingga memanggil tools untuk mengirim undangan kalender secara otomatis — semuanya tanpa mengirim data ke cloud, sehingga privasi pengguna tetap terjaga.
Keunggulan Model yang Efisien
Dalam pengembangan Llama 3.2, Meta AI menggunakan dua metode utama untuk menciptakan model yang lebih efisien, yakni pruning dan distillation. Dengan pruning, ukuran model 1B dan 3B dapat dikurangi secara signifikan sambil mempertahankan performa aslinya. Sementara, distillation memungkinkan model kecil memperoleh pengetahuan dari model yang lebih besar, seperti Llama 3.1 8B, sehingga model kecil tetap memiliki performa tinggi.
Model 3B bahkan mampu mengungguli model lain di kelasnya, seperti Gemma 2 dan Phi 3.5-mini, dalam tugas-tugas seperti mengikuti instruksi, merangkum, menulis ulang prompt, dan menggunakan tools.
Distribusi Llama Stack dan Kesederhanaan Penggunaan
Dalam merilis Llama 3.2, Meta AI juga memperkenalkan Llama Stack API, sebuah antarmuka standar untuk komponen toolchain seperti fine-tuning dan synthetic data generation. API ini memungkinkan pengembang untuk mengkustomisasi model Llama dan membangun aplikasi agentic dengan lebih mudah.
Meta AI telah bekerja sama dengan berbagai mitra untuk menyediakan Llama Stack Distribution di cloud, on-prem, hingga perangkat edge. Misalnya, distribusi single-node tersedia melalui Ollama, sedangkan distribusi cloud tersedia melalui AWS dan Databricks. Selain itu, distribusi on-device untuk iOS telah diimplementasikan melalui PyTorch ExecuTorch, memberikan opsi yang lebih fleksibel bagi pengembang.
Keamanan Sistem dan Llama Guard 3
Sebagai bagian dari komitmen terhadap inovasi yang bertanggung jawab, Meta AI memperkenalkan Llama Guard 3 untuk mendukung kemampuan pemahaman gambar di Llama 3.2. Llama Guard 3 11B Vision dirancang untuk memfilter input gambar dan teks, serta respons teks dari input gambar. Selain itu, Llama Guard 3 1B yang telah dioptimalkan untuk penggunaan pada perangkat dengan lingkungan terbatas juga diperkenalkan, dengan ukuran model yang berhasil dikompresi dari 2.858 MB menjadi hanya 438 MB.
Masa Depan Llama 3.2
Dengan peluncuran Llama 3.2, Meta AI berharap dapat membawa teknologi ini ke lebih banyak pengembang di seluruh dunia. Melalui kolaborasi dengan komunitas open source dan mitra industri, Meta AI yakin bahwa keterbukaan dalam pengembangan AI adalah jalan terbaik untuk mendorong inovasi yang lebih luas dan bertanggung jawab.
Pengembang dan komunitas dapat mengakses model Llama 3.2 dan tools pendukungnya di llama.com dan Hugging Face, serta mulai membangun aplikasi dengan teknologi ini melalui berbagai platform mitra seperti AMD, AWS, Intel, Microsoft Azure, NVIDIA, hingga Oracle Cloud.
Gambar menggambarkan arsitektur “Llama Stack APIs,” yang mengatur berbagai lapisan API dan komponen yang digunakan dalam pengembangan dan penerapan AI. Berikut penjelasan setiap bagian dari diagram tersebut:
1. Aplikasi Agentic (End Applications)
— Deskripsi: Ini adalah lapisan teratas yang mewakili aplikasi akhir di mana agen (sistem atau alat AI) berinteraksi dengan pengguna atau melakukan tugas. Aplikasi ini bisa berorientasi pada pelanggan atau pengguna yang memanfaatkan AI untuk menyediakan fungsi tertentu.
2. Agentic System API (Orkestrasi Komponen Sistem)
— Deskripsi: Lapisan ini mengelola orkestrasi berbagai komponen dalam sistem AI. Beberapa subsistem yang tercakup adalah:
— PromptStore: Kemungkinan komponen untuk menyimpan prompt yang digunakan untuk berinteraksi dengan model bahasa.
— Assistant: Mungkin sistem inti untuk interaksi atau agen AI percakapan yang berkomunikasi dengan pengguna.
— Shields: Kemungkinan bertanggung jawab atas keamanan, keselamatan, dan kepatuhan dalam interaksi.
— Memory: Mengelola fungsi memori jangka panjang atau jangka pendek untuk agen AI agar dapat mengingat konteks dan riwayat pengguna.
— Orchestrator: Mengkoordinasikan aliran interaksi antara berbagai komponen, memastikan eksekusi tugas yang lancar.
3. Model Toolchain API (Alat Pengembangan & Produksi Model)
— Deskripsi: Lapisan ini mencakup alat dan API yang digunakan untuk mengembangkan, menyesuaikan, dan menjalankan model AI dalam produksi. Terdiri dari:
— Batch Inference: Menjalankan inferensi model dalam batch untuk efisiensi.
— Realtime Inference: Menyediakan respons instan dari model secara real-time.
— Quantized Inference: Inferensi yang dioptimalkan yang mengurangi presisi model untuk kinerja yang lebih cepat.
— Continual Pretraining: Pelatihan model yang berkelanjutan untuk memperbaruinya dengan data baru.
— Pretraining: Fase pelatihan awal model pada dataset besar.
— Evals: Alat evaluasi, termasuk metrik untuk harnessing, keamanan, dan evaluasi umum kinerja model.
— Reward Scoring: Mekanisme penilaian untuk mengukur dan menyesuaikan kinerja model berdasarkan sinyal reward.
— Finetuning: Menyesuaikan model yang telah dilatih sebelumnya agar lebih spesifik untuk tugas tertentu.
— Synthetic Data Generation: Alat untuk menghasilkan data sintetik untuk pelatihan atau pengujian lebih lanjut.
4. Data (Pretraining, Preference, Post-training)
— Deskripsi: Data adalah fondasi untuk pelatihan AI, termasuk data yang digunakan selama pretraining, pembelajaran preferensi, dan penyesuaian pasca-pelatihan. Data sangat penting untuk membuat model efektif dan andal.
5. Model (Inti, Keamanan, Kustomisasi)
— Deskripsi: Bagian ini merujuk pada model AI yang sebenarnya digunakan. Termasuk:
— Core (Inti): Model dasar yang digunakan untuk berbagai tugas.
— Safety (Keamanan): Model atau komponen yang berfokus pada memastikan respons dan interaksi yang aman.
— Customized (Kustomisasi): Model yang disesuaikan atau dikhususkan untuk aplikasi atau industri tertentu.
6. Hardware (GPU, Akselerator, Penyimpanan)
— Deskripsi: Lapisan dasar ini mencakup infrastruktur fisik yang diperlukan untuk menjalankan beban kerja AI, termasuk:
— GPU dan Akselerator: Untuk komputasi dan pelatihan model yang efisien.
— Penyimpanan: Diperlukan untuk menyimpan data dan model dalam jumlah besar.
Alur Arsitektur Secara Keseluruhan:
Arsitektur dimulai dari perangkat keras yang mendasari dan naik melalui data, model, rangkaian alat, dan sistem orkestrasi, hingga akhirnya mencapai aplikasi yang berinteraksi dengan pengguna. Pendekatan terstruktur ini memungkinkan pengembang membangun sistem AI yang skalabel, aman, dan efisien.
Perangkat edge
Perangkat edge adalah perangkat keras komputasi yang ditempatkan di lokasi fisik yang lebih dekat dengan sumber data atau pengguna akhir, sering kali di luar pusat data atau cloud tradisional. Tujuan utamanya adalah untuk memproses data secara lokal sebelum mengirimkannya ke pusat data atau cloud untuk pemrosesan lebih lanjut, atau untuk menjalankan aplikasi dan layanan langsung di perangkat itu sendiri.
Berikut adalah beberapa karakteristik dan contoh penggunaan perangkat edge:
Karakteristik Utama:
1. Pemrosesan Lokal: Perangkat edge memproses data secara lokal, mengurangi latensi (waktu tunda) karena tidak perlu mengirim semua data ke cloud atau pusat data untuk diproses.
2. Efisiensi Bandwidth: Karena data diproses di perangkat edge, hanya data yang diperlukan yang dikirim ke cloud atau pusat data, menghemat bandwidth dan biaya transmisi data.
3. Keandalan: Dalam beberapa skenario, perangkat edge memungkinkan sistem tetap berfungsi meskipun ada gangguan jaringan atau konektivitas yang buruk.
4. Keamanan: Dengan pemrosesan data yang lebih dekat ke sumbernya, perangkat edge dapat meningkatkan privasi dan keamanan, karena data sensitif tidak selalu dikirim ke cloud atau pihak ketiga.
5. Desentralisasi: Edge computing membantu mendesentralisasi beban komputasi dari cloud, yang memungkinkan skala yang lebih luas tanpa membebani infrastruktur cloud.
Contoh Penggunaan Perangkat Edge:
1. Internet of Things (IoT): Sensor IoT atau perangkat pintar yang berada di lokasi pabrik, rumah, atau lingkungan kota pintar adalah contoh perangkat edge. Data dari sensor-sensor ini sering diproses di perangkat edge sebelum dikirim ke cloud.
2. Kendaraan Otonom: Mobil tanpa pengemudi membutuhkan perangkat edge untuk memproses informasi dari sensor seperti kamera, lidar, radar, dan data lainnya secara real-time tanpa bergantung pada koneksi internet ke pusat data.
3. Jaringan 5G: Jaringan 5G banyak menggunakan perangkat edge untuk meningkatkan kecepatan pengiriman data dan mengurangi latensi bagi pengguna akhir di area dengan banyak perangkat yang terhubung.
4. Perangkat Wearable: Perangkat kesehatan yang dapat dikenakan, seperti jam tangan pintar, memproses data sensor tubuh pengguna di perangkat edge sebelum mengirim informasi ke cloud untuk analisis lebih lanjut.
5. Sistem Keamanan dan Kamera CCTV: Kamera pintar atau sistem pengenalan wajah sering kali menggunakan perangkat edge untuk menganalisis video secara lokal sebelum mengirim data ke server pusat.
Contoh Perangkat Edge:
- Raspberry Pi: Komputer kecil ini sering digunakan sebagai perangkat edge dalam proyek IoT dan pengolahan data lokal.
- Router atau Gateway IoT: Router atau gateway yang ditempatkan di lokasi fisik tertentu untuk menghubungkan perangkat IoT dan melakukan pemrosesan data awal.
- Edge Server: Server kecil yang ditempatkan di pinggiran jaringan, misalnya di gedung kantor atau di lokasi industri, untuk memproses dan menganalisis data secara lokal.
Kelebihan Penggunaan Perangkat Edge:
- Mengurangi Latensi: Data dapat diproses lebih cepat karena perangkat edge dekat dengan sumber data atau pengguna akhir.
- Penghematan Biaya: Pengiriman data ke cloud atau pusat data dapat dikurangi, sehingga menghemat biaya transmisi data.
- Meningkatkan Privasi dan Keamanan: Data sensitif dapat diproses secara lokal tanpa harus dikirim ke server eksternal, meningkatkan kontrol atas privasi.
Dengan meningkatnya penggunaan Internet of Things (IoT) dan kebutuhan akan pemrosesan data real-time, perangkat edge memainkan peran penting dalam infrastruktur komputasi modern.
Perbedaan utama antara perangkat edge dan on-premise
Perbedaan terletak pada lokasi dan tujuan penggunaan perangkat tersebut dalam arsitektur komputasi. Berikut adalah perbandingan rinci antara edge computing dan on-premise computing:
1. Lokasi dan Fungsi Utama:
— Edge Computing:
— Edge computing terjadi di perangkat yang berada di dekat sumber data atau pengguna akhir, sering kali jauh dari pusat data atau cloud.
— Edge devices menangani pemrosesan data di lokasi (di “edge” atau tepi jaringan) sebelum data dikirim ke cloud atau pusat data untuk pemrosesan lebih lanjut. Contoh: sensor IoT, gateway, atau perangkat wearable.
— Edge computing berfokus pada mengurangi latensi, menghemat bandwidth, dan mempercepat pemrosesan real-time untuk aplikasi yang membutuhkan respons cepat.
— On-Premise Computing:
— On-premise merujuk pada sistem atau server yang ditempatkan secara fisik di lokasi perusahaan atau organisasi. Sistem ini sepenuhnya dimiliki, dikelola, dan dijalankan oleh organisasi itu sendiri.
— On-premise biasanya digunakan untuk menyimpan data dan menjalankan aplikasi internal yang kritis bagi organisasi, dengan kontrol penuh atas infrastruktur dan data.
— Contoh: server database internal perusahaan, pusat data di kantor, atau server untuk aplikasi bisnis internal.
2. Infrastruktur dan Manajemen:
— Edge Computing:
— Infrastruktur terdesentralisasi: Beberapa perangkat edge tersebar di berbagai lokasi dan di luar pusat data tradisional.
— Pemeliharaan dan manajemen: Edge devices sering kali dirancang untuk bekerja secara mandiri dengan sedikit campur tangan manusia, karena sering ditempatkan di lokasi yang sulit dijangkau.
— Dikelola secara otomatis atau remote melalui jaringan yang lebih besar (seperti cloud atau pusat data).
- On-Premise Computing:
— Infrastruktur terpusat: Server atau sistem on-premise biasanya terletak di satu atau beberapa lokasi fisik yang dimiliki oleh organisasi.
— Pemeliharaan dan manajemen: Dikelola secara penuh oleh staf internal, baik untuk pemeliharaan perangkat keras maupun perangkat lunak.
— Membutuhkan sumber daya internal untuk pemeliharaan, pembaruan perangkat, dan keamanan.
3. Kapasitas Pemrosesan dan Penyimpanan:
— Edge Computing:
— Perangkat edge umumnya memiliki kapasitas pemrosesan terbatas, karena tujuan utamanya adalah memproses data dalam jumlah kecil secara real-time, sebelum mengirimnya ke cloud untuk pemrosesan lebih lanjut.
— Tidak dirancang untuk penyimpanan data besar atau tugas komputasi berat; sebagian besar beban berat dilakukan di cloud atau pusat data.
— On-Premise Computing:
— Sistem on-premise biasanya memiliki kapasitas pemrosesan yang jauh lebih besar dan sering kali digunakan untuk menangani beban kerja komputasi atau penyimpanan data dalam jumlah besar.
— Dirancang untuk menjalankan aplikasi yang kritis bagi perusahaan dan sering kali memiliki infrastruktur yang kuat untuk mendukung operasi bisnis jangka panjang.
4. Kegunaan Utama:
— Edge Computing:
— Digunakan untuk aplikasi yang memerlukan waktu respons sangat cepat dan pemrosesan data lokal, seperti pada IoT, autonomous vehicles, atau aplikasi yang tersebar di banyak lokasi.
— Fokusnya adalah pada mengurangi latensi dengan pemrosesan data di dekat sumbernya, seperti sensor IoT atau perangkat wearable.
— On-Premise Computing:
— Digunakan untuk menjalankan aplikasi internal yang sensitif dan penting bagi operasi bisnis, seperti ERP, CRM, atau sistem pengelolaan data internal.
— Sering digunakan oleh organisasi yang menginginkan kontrol penuh atas data, tanpa ketergantungan pada infrastruktur cloud atau pihak ketiga.
5. Keamanan dan Privasi:
— Edge Computing:
— Edge computing membantu meningkatkan privasi karena data bisa diproses secara lokal di perangkat tanpa harus dikirim ke cloud. Ini mengurangi risiko data sensitif jatuh ke tangan yang tidak diinginkan.
— Namun, perangkat edge bisa lebih rentan terhadap serangan fisik karena sering ditempatkan di lokasi yang tersebar dan mungkin kurang terlindungi secara fisik.
- On-Premise Computing:
— On-premise sering dianggap lebih aman oleh perusahaan karena data dan aplikasi sepenuhnya dikendalikan dan dikelola secara internal.
— Meski demikian, on-premise juga rentan terhadap serangan internal, misalnya dari karyawan atau pihak internal yang memiliki akses ke sistem.
6. Konektivitas:
— Edge Computing:
— Perangkat edge sering kali dapat beroperasi secara mandiri, bahkan dengan konektivitas yang minim atau dalam situasi di mana koneksi ke cloud terganggu.
— Ketika konektivitas pulih, data bisa dikirim ke pusat data untuk analisis lebih lanjut.
— On-Premise Computing:
— Koneksi ke jaringan internal perusahaan sangat penting untuk operasional sistem on-premise. Meskipun beberapa sistem dapat tetap berfungsi tanpa internet, mereka biasanya tetap terhubung ke jaringan internal yang stabil.
- Edge computing fokus pada pemrosesan data dekat dengan sumbernya, bertujuan untuk mengurangi latensi dan meningkatkan efisiensi dalam aplikasi real-time. Contoh penggunaan adalah pada perangkat IoT, sensor, dan aplikasi yang membutuhkan respons cepat.
- On-premise computing berfokus pada pengelolaan penuh data dan aplikasi di infrastruktur lokal organisasi, memberi kontrol yang lebih tinggi tetapi dengan tanggung jawab manajemen internal yang lebih besar. Ini lebih umum digunakan untuk aplikasi bisnis internal yang sensitif.
Kedua pendekatan ini bisa saling melengkapi, tergantung pada kebutuhan dan skenario bisnis tertentu.
Kunjungi situs Meta AI dan Hugging Face untuk informasi lebih lanjut.