Belajar membuat model data sendiri pada ChatGPT dan Cohere
Pengetahuan ChatGPT memang terbatas, ChatGPT tidak memiliki data anda, data keahlian anda, data pengalaman kerja anda. Bagaimana memanfaatkan Large Lang Model GPT agar dapat mengetahui data pengalaman kerja anda ?, ya tentu saja Base Model GPT dapat digunakan untuk memberikan tugas berbeda, dapat mewakili anda dalam memberikan informasi latar belakang anda, keahlian dan pengalaman kerja anda. Pada video ini saya mendemokan , bagaimana anda dapat mengajari ChatGPT menjawab pertanyaan tentang anda. Anda perlu membuat beberapa baris statement tentang anda dalam bahasa apa saja, Chat GPT akan mempelajari text / corpus tentang anda dalam waktu singkat. Setelah itu, ChatGPT akan menjawab semua pertanyaan tentang anda.
ada source code yang bisa dipelajar untuk case ini di https://github.com/openai/openai-cookbook/blob/main/examples/Question_answering_using_embeddings.ipynb
Bila anda punya produk Properti atau mobil apapun, tentu saja , anda dapat menerapkan hal serupa seperti ini. Bila sebelumnya , kita akan memberikan pelajaran product knowledge kepada team sales, kali ini kita bisa mencoba memberikan materi product knowledge kepada ChatGPT, dan ChatGPT akan lincah menjawab pertanyaan dari calon pembeli, persis seperti gaya bicara manusia.
Sangat luas implementasi ChatGPT untuk digunakan pada perusahaan anda, memberikan informasi pengalaman projek yang pernah ditangani perusahaan, menjelaskan setiap produk yang dijual oleh perusahaan, Menjelaskan Terms of Condition pembelian suatu produk, Memberikan informasi harga, informasi syarat refund, retour barang, informasi apapun. Yang perlu dilakukan adalah membuat statement informasi, contoh pertanyaan dan contoh jawaban.
Teknologi seperti apa yang memungkinkan hal ini ? cara kerja seperti search engine, ketika user melakukan pertanyaan (disebut query), query ini akan diproses seperti berikut.
Semantic search adalah teknologi pencarian informasi yang menggunakan pemahaman bahasa alami untuk memahami maksud atau tujuan di balik sebuah query. Berikut adalah cara kerja dari semantic search:
Analisis query: Pertama, sistem semantic search akan menganalisis query yang diberikan untuk memahami kata kunci, struktur kalimat, dan konteks.
Ekstraksi informasi: Setelah memahami query, sistem akan mengekstrak informasi dari berbagai sumber, seperti basis data, website, dokumen, dan sumber informasi lainnya yang relevan dengan query tersebut.
Pemahaman bahasa alami: Kemudian, sistem akan menerapkan pemahaman bahasa alami untuk memahami maksud di balik query dan konteks penggunaan kata kunci. Ini dapat melibatkan analisis sintaksis, semantik, pragmatik, dan aspek lain dari bahasa.
Peringkat hasil: Sistem akan menggunakan algoritma peringkat untuk mengurutkan hasil pencarian berdasarkan relevansi dengan query. Ini dapat melibatkan berbagai faktor, seperti relevansi konten, otoritas situs web, keterkaitan topik, dan faktor lainnya.
Tampilkan hasil: Akhirnya, sistem akan menampilkan hasil pencarian yang diurutkan dengan baik dan relevan dengan query. Hasilnya dapat berupa teks, gambar, audio, video, atau format lainnya yang sesuai dengan query pengguna.
Dengan menggunakan teknologi semantic search, sistem dapat lebih memahami maksud pengguna dan memberikan hasil yang lebih relevan dan bermakna, yang meningkatkan kualitas dan efektivitas pencarian informasi
Vector search adalah teknologi pencarian yang memanfaatkan representasi numerik vektor untuk menggambarkan konten suatu dokumen atau objek, dan membandingkan vektor tersebut untuk menemukan dokumen atau objek yang serupa atau terkait. Berikut adalah cara kerja dari vector search:
Representasi vektor: Pertama, setiap dokumen atau objek diwakili sebagai vektor numerik di ruang multidimensi. Representasi ini dibuat dengan teknik pemrosesan bahasa alami atau analisis data lainnya yang mengubah fitur fitur dari dokumen atau objek menjadi nilai numerik yang terkait.
Pembuatan index: Setelah representasi vektor dibuat, index dibangun untuk mempercepat pencarian. Index ini berisi informasi tentang setiap vektor, seperti posisi dalam ruang multidimensi dan metrik yang digunakan untuk mengukur jarak antara vektor.
Query: Ketika pengguna mengirimkan query, query tersebut juga diwakili sebagai vektor numerik di ruang yang sama dengan representasi dokumen atau objek. Vektor query ini kemudian dibandingkan dengan vektor yang ada dalam index untuk menemukan dokumen atau objek yang paling mirip atau relevan dengan query.
Penghitungan kemiripan: Untuk menentukan kemiripan antara vektor query dan vektor dokumen atau objek, algoritma perhitungan jarak digunakan. Salah satu metode yang paling umum adalah cosine similarity, yang mengukur sudut antara vektor query dan dokumen atau objek.
Ranking hasil: Hasil pencarian kemudian diurutkan berdasarkan kemiripan atau relevansinya dengan query. Hasil terbaik kemudian ditampilkan pada pengguna.
Dengan menggunakan teknologi vector search, sistem dapat menemukan dokumen atau objek yang paling relevan dengan query pengguna dalam waktu yang lebih singkat, yang meningkatkan efisiensi dan akurasi pencarian informasi.
Semantic search dan vector search adalah teknologi pencarian informasi yang saling terkait dan dapat digunakan bersama-sama untuk meningkatkan efektivitas dan akurasi pencarian. Berikut adalah beberapa hubungan antara semantic search dan vector search:
Representasi vektor: Baik semantic search maupun vector search menggunakan representasi vektor untuk menggambarkan konten dokumen atau objek dalam bentuk angka numerik. Semantic search menghasilkan vektor dengan menerapkan pemahaman bahasa alami, sedangkan vector search menggunakan teknik analisis data.
Analisis konteks: Semantic search dan vector search keduanya dapat melakukan analisis konteks dalam pencarian informasi. Semantic search menggunakan pemahaman bahasa alami untuk memahami konteks query pengguna, sedangkan vector search menggunakan representasi vektor untuk memahami konten dokumen atau objek.
Perhitungan jarak: Dalam vector search, perhitungan jarak digunakan untuk membandingkan vektor query dan dokumen atau objek. Hal yang sama berlaku untuk semantic search, di mana jarak semantik atau semantik similarity dapat digunakan untuk membandingkan konsep atau makna dari query dan dokumen atau objek.
Algoritma peringkat: Keduanya menggunakan algoritma peringkat untuk mengurutkan hasil pencarian berdasarkan relevansi dengan query. Dalam vector search, hasil diurutkan berdasarkan kemiripan vektor, sedangkan di semantic search, hasil diurutkan berdasarkan relevansi semantik.
Dengan menggabungkan teknologi semantic search dan vector search, sistem pencarian informasi dapat memperoleh pemahaman yang lebih baik tentang maksud pengguna dan konten dokumen atau objek, serta meningkatkan akurasi dan efektivitas pencarian informasi.
Beberapa platform selain Open AI untuk kasus ini adalah Cohere. ChatGPT dan Cohere keduanya merupakan platform teknologi AI yang dapat menghasilkan representasi vektor dari kata-kata atau frasa dalam bentuk word embedding. Meskipun keduanya menggunakan pendekatan yang berbeda untuk menghasilkan word embedding, terdapat beberapa perbedaan yang mencolok di antara keduanya.
Arsitektur Model: ChatGPT menggunakan arsitektur transformer berbasis jaringan syaraf tiruan (neural network), sedangkan Cohere menggunakan pendekatan berbasis jaringan bayes. Karena arsitektur model yang berbeda, cara pengolahan data dan representasi vektor yang dihasilkan juga berbeda antara ChatGPT dan Cohere.
Pretraining: ChatGPT mengandalkan pretraining pada model bahasa besar untuk membuat representasi vektor yang lebih baik, sedangkan Cohere lebih bergantung pada metode unsupervised learning.
Performa: ChatGPT dikenal memiliki performa yang baik dalam tugas-tugas pengolahan bahasa alami seperti pemodelan bahasa, penerjemahan mesin, dan generasi teks. Sedangkan Cohere dianggap lebih unggul dalam tugas-tugas yang mengharuskan penggunaan pengetahuan khusus seperti pemrosesan data keuangan atau medis.
Skalabilitas: Cohere dikenal lebih mudah diimplementasikan dan skalabel daripada ChatGPT. Hal ini karena Cohere dapat dijalankan pada perangkat keras yang lebih sederhana dan lebih efisien dalam penggunaan sumber daya.
Secara keseluruhan, ChatGPT dan Cohere adalah platform teknologi AI yang berbeda dengan pendekatan yang berbeda dalam menghasilkan word embedding. Keduanya memiliki kelebihan dan kekurangan masing-masing dalam hal performa, skalabilitas, dan kemampuan pengolahan bahasa alami yang spesifik. Pilihan antara ChatGPT dan Cohere akan tergantung pada kebutuhan pengguna dan jenis tugas AI atau machine learning yang akan dijalankan.