Serverless GPU Inference: Revolusi AI dengan Cloudflare dan Hugging Face
https://huggingface.co/blog/cloudflare-workers-ai
Inferensi dalam konteks teknologi dan kecerdasan buatan (AI) merujuk pada proses menggunakan model yang telah dilatih untuk membuat prediksi atau keputusan berdasarkan data baru. Dalam pembelajaran mesin dan deep learning, proses ini umumnya terjadi setelah fase pelatihan model. Selama pelatihan, model ‘belajar’ dari kumpulan data pelatihan dengan menyesuaikan parameter internalnya untuk meminimalkan kesalahan dalam prediksinya. Setelah model tersebut terlatih dengan cukup baik, ia dapat digunakan untuk melakukan inferensi, yaitu menerapkan apa yang telah dipelajari ke data yang belum pernah dilihat sebelumnya untuk melakukan tugas-tugas seperti klasifikasi, regresi, atau deteksi objek.
Proses inferensi dapat digunakan dalam berbagai aplikasi AI, seperti mengenali objek dalam gambar, menerjemahkan teks dari satu bahasa ke bahasa lain, mengemudi otomatis dalam kendaraan, atau memberikan rekomendasi produk kepada pengguna. Dalam konteks ini, inferensi bertujuan untuk memanfaatkan model yang telah dilatih untuk memberikan output yang berguna dan akurat berdasarkan input spesifik.
Ada dua fase utama dalam siklus kehidupan model AI:
1. Pelatihan (Training): Di mana model belajar dari kumpulan data pelatihan dengan menyesuaikan bobot dan parameter internalnya. Tujuannya adalah untuk mengurangi perbedaan antara prediksi model dan hasil aktual dalam kumpulan data pelatihan.
2. Inferensi (Inference): Menggunakan model yang telah dilatih untuk membuat prediksi pada data baru. Fase ini memerlukan lebih sedikit sumber daya komputasi dibandingkan dengan pelatihan karena bobot dan parameter model sudah ditentukan dan tidak memerlukan penyesuaian lebih lanjut.
Pada umumnya, proses inferensi harus cepat dan efisien, terutama dalam aplikasi real-time, seperti dalam sistem rekomendasi online atau aplikasi pengenalan suara, di mana keputusan perlu dibuat dalam hitungan milidetik. Karena itu, optimasi untuk inferensi — seperti mengurangi ukuran model dan meningkatkan kecepatan pemrosesan — merupakan area penelitian yang aktif dalam komunitas AI.
Berikut pernyataan dari hugging face mengumumkan peluncuran sebuah integrasi baru pada Hugging Face Hub yang disebut “Deploy on Cloudflare Workers AI.” Integrasi ini memudahkan penggunaan model terbuka sebagai API serverless, yang didukung oleh GPU canggih yang ditempatkan di pusat data edge Cloudflare. Dengan dimulainya integrasi ini, beberapa model terbuka paling populer di Hugging Face akan diintegrasikan ke dalam Cloudflare Workers AI, didukung oleh solusi produksi mereka, seperti inferensi generasi teks. Ini berarti bahwa pengembang sekarang dapat lebih mudah mengintegrasikan dan menjalankan model-model AI canggih dengan skalabilitas dan efisiensi tinggi menggunakan infrastruktur Cloudflare, memanfaatkan kemampuan komputasi di tepi jaringan (edge computing) untuk mengurangi latensi dan meningkatkan performa aplikasi yang menggunakan AI.
========================
Tanggal 2 April 2024 menjadi hari yang bersejarah bagi kita semua di dunia pengembangan software, khususnya bagi yang terlibat langsung dalam pengembangan aplikasi Generative AI. Kami dari tim Hugging Face, bersama dengan kolaborator kami yang tak kalah hebat dari Cloudflare, dengan bangga mengumumkan peluncuran “Deploy on Cloudflare Workers AI.” Inisiatif ini adalah sebuah terobosan besar yang memungkinkan penggunaan model terbuka sebagai API serverless dengan dukungan GPU canggih di pusat data edge Cloudflare.
Pembuatan aplikasi Generative AI kini semakin mudah dan ekonomis. Bayangkan membangun aplikasi tanpa perlu pusing memikirkan infrastruktur GPU atau server, dan yang lebih menarik, Anda hanya perlu membayar sesuai dengan pemakaian komputasi yang Anda gunakan. Ya, tidak ada biaya untuk kapasitas yang tidak terpakai!
Generative AI Mudah dan Terjangkau untuk Pengembang
Perluasan dari kemitraan strategis kami tahun lalu ini bertujuan untuk mempermudah akses dan penerapan model Generative AI terbuka. Kami menyadari bahwa salah satu penghambat utama bagi pengembang dan organisasi adalah ketersediaan GPU yang terbatas dan biaya tetap dalam penyebaran server. Solusi serverless dari Deploy on Cloudflare Workers AI menawarkan jalan keluar dari kendala tersebut, memberikan akses ke model Hugging Face populer dengan model harga per-permintaan.
Sebagai ilustrasi, bayangkan Anda mengembangkan aplikasi RAG yang menerima sekitar 1000 permintaan per hari dengan input 1k token dan output 100 token menggunakan Meta Llama 2 7B. Biaya inferensi produksi LLM Anda hanya sekitar $1 sehari. Fantastis, bukan?
John Graham-Cumming, CTO Cloudflare, menyampaikan antusiasmenya, “Kami sangat bersemangat memperkenalkan integrasi ini. Dengan menggabungkan kekuatan jaringan global GPU serverless Cloudflare dan model sumber terbuka populer dari Hugging Face, kami membuka pintu untuk inovasi yang menarik oleh komunitas kami di seluruh dunia.”
Cara Mengaktifkannya
Menggunakan Model Hugging Face pada Cloudflare Workers AI sangatlah mudah. Kami menyediakan instruksi langkah demi langkah, seperti bagaimana menggunakan Hermes 2 Pro pada Mistral 7B, model terbaru dari Nous Research. Anda bisa menemukan semua model yang tersedia dalam koleksi Cloudflare ini.
Perlu diingat, Anda membutuhkan akses ke akun Cloudflare dan token API. Anda akan menemukan opsi Deploy on Cloudflare di halaman model yang tersedia, termasuk Llama, Gemma, atau Mistral. Cukup buka menu “Deploy” dan pilih “Cloudflare Workers AI”. Jika model yang ingin Anda gunakan belum mendukung opsi ini, jangan khawatir! Kami sedang bekerja keras bersama Cloudflare untuk memperluas ketersediaan model.
Integrasi ini bisa digunakan melalui dua opsi: REST API Workers AI atau langsung di Workers dengan SDK AI Cloudflare. Pilih opsi yang Anda preferensikan dan salin kode ke lingkungan Anda.
Awal Permulaan
Kerjasama dengan Cloudflare membuka banyak kemungkinan dalam membuat AI lebih mudah diakses oleh para pengembang. Kami berkomitmen untuk terus bekerja dengan tim Cloudflare untuk menyediakan lebih banyak model dan pengalaman baru untuk Anda!
Jadi, siap untuk revolusi AI yang lebih inklusif dan terjangkau? Mari bergabung dalam perjalanan inovasi ini bersama kami!