Membangun Mesin Pencari Semantik Properti dengan GPT dan Pinecone: Tantangan, Solusi, dan Penggunaan Metadata

Kukuh T Wicaksono
3 min readOct 24, 2024

--

Dalam pengembangan mesin pencari semantik, teknologi GPT dan Pinecone telah menjadi pilihan utama untuk meningkatkan akurasi pencarian properti. Mesin pencari ini menggunakan model GPT text-embedding-ada dengan 1536 dimensi, di mana pencarian difokuskan pada pencocokan lokasi dan anggaran yang dipilih oleh pengguna. Namun, mengelola puluhan ribu data properti bukan tanpa tantangan. Selain itu, penggunaan metadata dalam Pinecone menjadi elemen penting untuk memperbaiki hasil pencarian. Berikut penjelasan lebih lanjut mengenai cara kerja embedding, tantangan yang dihadapi, solusi, serta fungsi metadata dalam Pinecone.

Cara Kerja Embedding Vector Database

Pada inti teknologi ini, ada konsep embedding teks, yaitu proses mengubah teks menjadi representasi numerik (vektor) yang memungkinkan komputer memahami hubungan semantik antara kata atau kalimat. Setiap deskripsi properti, seperti lokasi, harga, dan fitur, diubah menjadi vektor dengan 1536 dimensi oleh model GPT text-embedding-ada.

Setiap vektor ini disimpan dalam Pinecone vector database. Ketika pengguna memasukkan kriteria pencarian, seperti lokasi atau anggaran, kriteria tersebut diubah menjadi vektor juga. Pinecone akan mencocokkan vektor pencarian pengguna dengan vektor properti yang sudah ada di database, kemudian memberikan hasil pencarian berdasarkan tingkat kemiripan vektor tersebut. Dengan demikian, properti yang paling cocok akan ditampilkan terlebih dahulu.

Tantangan dalam Pencarian Properti

Meski embedding memberikan hasil yang akurat dalam banyak kasus, ada beberapa kendala, terutama dalam hal kecocokan anggaran. Pengguna sering kali mencari properti dengan anggaran yang sangat spesifik, dan embedding teks kadang kesulitan menangkap nuansa detail seperti ini, terutama ketika properti memiliki harga yang mendekati atau sedikit melewati anggaran pengguna.

Selain itu, dengan puluhan ribu data yang harus diolah, kecepatan dan efisiensi pencarian juga menjadi perhatian utama. Setiap permintaan pencarian harus dieksekusi dengan cepat tanpa mengorbankan kualitas hasil.

Penggunaan Metadata dalam Pinecone

Salah satu fitur penting yang digunakan untuk mengatasi beberapa tantangan ini adalah Metadata dalam Pinecone. Metadata adalah metadata yang ditambahkan ke setiap item (vektor) dalam database yang memberikan informasi tambahan tentang properti tersebut. Dalam konteks pencarian properti, metatags dapat mencakup:

- Harga properti: Informasi tentang harga yang lebih mudah diakses dan digunakan dalam filter pencarian.
- Lokasi properti: Propinisi, Kecamatan, Kelurahan atau nama area yang spesifik sehingga pencarian dapat lebih efisien dalam wilayah yang dicari pengguna.
- Tipe properti: Misalnya, rumah, apartemen, tanah, atau pabrik, yang memudahkan pengguna untuk mempersempit pencarian.

Dengan metadata ini, Pinecone dapat melakukan pencarian yang lebih cepat dan tepat. Saat pencarian dilakukan, selain menggunakan embedding vektor, Pinecone juga dapat menyaring hasil berdasarkan metadata yang relevan. Misalnya, jika seorang pengguna hanya ingin mencari properti dengan anggaran di bawah 1 miliar, Pinecone bisa langsung menyaring hasil berdasarkan metadata harga sebelum melakukan pencocokan vektor yang lebih kompleks. Ini tidak hanya meningkatkan kecepatan pencarian tetapi juga memastikan bahwa hasil yang ditampilkan relevan dengan kebutuhan spesifik pengguna.

Eksplorasi Dimensi Vektor yang Lebih Tinggi dan Meta LLaMA 3

Untuk mengatasi tantangan yang lebih kompleks, saya juga sedang mengeksplorasi penggunaan embedding dengan dimensi yang lebih tinggi, yakni 4096 dimensi. Dimensi yang lebih besar ini memungkinkan mesin pencari untuk menangkap lebih banyak detail dari deskripsi properti, sehingga diharapkan dapat memberikan hasil pencarian yang lebih presisi.

Selain itu, Meta LLaMA 3 juga menjadi alternatif yang menarik untuk dieksplorasi. Dengan model yang lebih canggih, Meta LLaMA 3 diharapkan dapat menghasilkan embedding teks yang lebih akurat dan memperbaiki performa pencarian, terutama untuk data properti dalam skala besar.

Mesin pencari semantik properti yang saya kembangkan berfokus pada penggunaan embedding vektor untuk mencocokkan kriteria pencarian pengguna dengan ribuan data properti yang tersedia. Tantangan seperti pencocokan anggaran dan lokasi menjadi area yang terus diperbaiki, salah satunya dengan penggunaan metadata di Pinecone yang memungkinkan pencarian lebih cepat dan akurat. Selain itu, peningkatan dimensi embedding dan eksplorasi model baru seperti Meta LLaMA 3 menjadi solusi masa depan yang menjanjikan untuk menghadirkan hasil pencarian properti yang lebih relevan dan sesuai dengan kebutuhan pengguna.

Silahkan dicoba,masih dalam tahap development https://kumpulproperti.com/searchengine/

--

--

No responses yet