Apa itu penyematan vektor? | Definisi dari TechTarget

Apa itu penyematan vektor? | Definisi dari TechTarget

Node Sumber: 3084305

Apa itu penyematan vektor?

Penyematan vektor adalah representasi numerik yang menangkap hubungan dan makna kata, frasa, dan tipe data lainnya. Melalui penyematan vektor, karakteristik atau fitur penting dari suatu objek diterjemahkan ke dalam rangkaian angka yang ringkas dan terorganisir, membantu komputer mengambil informasi dengan cepat. Titik data serupa dikelompokkan lebih berdekatan setelah diterjemahkan menjadi titik-titik dalam ruang multidimensi.

Digunakan dalam berbagai aplikasi, terutama dalam pemrosesan bahasa alami (NLP) dan pembelajaran mesin (ML), penyematan vektor membantu memanipulasi dan memproses data untuk tugas-tugas seperti perbandingan kesamaan, pengelompokan, dan klasifikasi. Misalnya saat melihat data teks, kata-kata seperti kucing dan celengan menyampaikan arti yang serupa meskipun terdapat perbedaan susunan hurufnya. Pencarian semantik yang efektif bergantung pada representasi tepat yang cukup menangkap kesamaan semantik antar istilah.

[Embedded content]

Apakah penyematan dan vektor adalah hal yang sama?

Istilah vektor dan pernikahan dapat digunakan secara bergantian dalam konteks penyematan vektor. Keduanya mengacu pada representasi data numerik di mana masing-masing titik data direpresentasikan sebagai vektor dalam ruang berdimensi tinggi.

Vektor mengacu pada deretan angka dengan dimensi tertentu, sedangkan penyematan vektor menggunakan vektor ini untuk mewakili titik data dalam ruang kontinu.

Artikel ini adalah bagian dari

Penyematan mengacu pada ekspresi data sebagai vektor untuk menangkap informasi penting, tautan semantik, kualitas kontekstual, atau representasi terorganisir dari data yang dipelajari melalui algoritme pelatihan atau model pembelajaran mesin.

Jenis penyematan vektor

Penyematan vektor hadir dalam berbagai bentuk, masing-masing dengan fungsi berbeda untuk mewakili jenis data yang berbeda. Berikut ini adalah beberapa jenis penyematan vektor yang umum:

  • Penyematan kata. Penyematan kata adalah representasi vektor dari setiap kata dalam ruang berkelanjutan. Mereka sering digunakan untuk menangkap hubungan semantik antar kata dalam tugas seperti analisis sentimen, terjemahan bahasa dan kesamaan kata.
  • Penyematan kalimat. Representasi vektor dari kalimat lengkap disebut penyematan kalimat. Mereka berguna untuk tugas-tugas termasuk analisis sentimen, kategorisasi teks, dan pengambilan informasi karena menangkap makna dan konteks kalimat.
  • Penyematan dokumen. Penyematan dokumen adalah representasi vektor dari keseluruhan dokumen, seperti artikel atau laporan. Biasanya digunakan dalam tugas-tugas seperti kesamaan dokumen, pengelompokan dan sistem rekomendasi, mereka menangkap makna umum dan isi dokumen.
  • Vektor profil pengguna. Ini adalah representasi vektor dari preferensi, tindakan, atau sifat pengguna. Mereka digunakan di segmentasi pelanggan, sistem rekomendasi yang dipersonalisasi dan iklan bertarget untuk mengumpulkan data spesifik pengguna.
  • Vektor gambar. Ini adalah representasi vektor dari item visual, seperti gambar atau bingkai video. Mereka digunakan dalam tugas-tugas seperti pengenalan objek, pencarian gambar dan sistem rekomendasi berbasis konten untuk menangkap fitur visual.
  • Vektor produk. Mewakili produk atau item sebagai vektor, ini digunakan dalam pencarian produk, klasifikasi produk, dan sistem rekomendasi untuk mengumpulkan fitur dan persamaan antar produk.
  • Vektor profil pengguna. Vektor profil pengguna mewakili preferensi, tindakan, atau sifat pengguna. Mereka digunakan dalam segmentasi pengguna, sistem rekomendasi yang dipersonalisasi, dan iklan bertarget untuk mengumpulkan data spesifik pengguna.

Bagaimana cara penyematan vektor dibuat?

Penyematan vektor dihasilkan menggunakan pendekatan ML yang melatih model untuk mengubah data menjadi vektor numerik. Biasanya, dalam jaringan saraf convolutional digunakan untuk melatih model jenis ini. Penyematan yang dihasilkan sering kali padat — semua nilainya bukan nol — dan berdimensi tinggi — hingga 2,000 dimensi. Model populer seperti Word2Vec, GLoVE dan BERTI mengonversi kata, frasa, atau paragraf menjadi penyematan vektor untuk data teks.

Langkah-langkah berikut biasanya terlibat dalam proses:

  1. Kumpulkan kumpulan data yang besar. Kumpulan data yang menangkap kategori data spesifik yang menjadi tujuan penyematan — baik yang berkaitan dengan teks atau gambar — dikumpulkan.
  2. Memproses data terlebih dahulu. Tergantung pada jenis data, pembersihan, persiapan dan pemrosesan awal data melibatkan menghilangkan noise, mengubah ukuran foto, menormalkan teks, dan melakukan operasi tambahan.
  3. Latih modelnya. Untuk mengidentifikasi hubungan dan pola dalam data, model dilatih menggunakan kumpulan data. Untuk mengurangi disparitas antara target dan vektor prediksi, parameter model yang telah dilatih sebelumnya diubah selama fase pelatihan.
  4. Hasilkan penyematan vektor. Setelah pelatihan, model dapat mengubah data baru menjadi vektor numerik, menyajikan representasi bermakna dan terstruktur yang secara efektif merangkum informasi semantik dari data asli.

Penyematan vektor dapat dibuat untuk berbagai tipe data, termasuk data deret waktu, teks, gambar, audio, model tiga dimensi (3D). dan video. Karena cara pembentukan embeddings, objek dengan semantik serupa akan memiliki vektor dalam ruang vektor yang berdekatan satu sama lain.

Di mana penyematan vektor disimpan?

Penyematan vektor disimpan di dalam database khusus yang dikenal sebagai database vektor. Basis data ini adalah representasi matematis berdimensi tinggi dari fitur data. Tidak seperti database berbasis skalar standar atau indeks vektor independen, database vektor memberikan efisiensi khusus untuk menyimpan dan mengambil penyematan vektor dalam skala besar. Mereka menawarkan kapasitas untuk menyimpan dan mengambil data dalam jumlah besar secara efektif untuk fungsi pencarian vektor.

Basis data vektor mencakup beberapa komponen utama, termasuk kinerja dan toleransi kesalahan. Untuk memastikan bahwa database vektor toleran terhadap kesalahan, replikasi dan sharding teknik digunakan. Replikasi adalah proses menghasilkan salinan data di banyak node, sedangkan sharding adalah proses mempartisi data di beberapa node. Hal ini memberikan toleransi kesalahan dan kinerja tanpa gangguan bahkan jika sebuah node gagal.

Basis data vektor efektif dalam pembelajaran mesin dan kecerdasan buatan (AI) aplikasi, karena mereka berspesialisasi dalam pengelolaan data tidak terstruktur dan semi terstruktur.

Penerapan penyematan vektor

Ada beberapa kegunaan penyematan vektor di berbagai industri. Aplikasi umum penyematan vektor meliputi yang berikut:

  • Sistem rekomendasi. Penyematan vektor memainkan peran penting dalam sistem rekomendasi raksasa industri, termasuk Netflix dan Amazon. Penyematan ini memungkinkan organisasi menghitung kesamaan antara pengguna dan item, menerjemahkan preferensi pengguna dan fitur item ke dalam vektor. Proses ini membantu penyampaian saran yang dipersonalisasi dan disesuaikan dengan selera masing-masing pengguna.
  • Mesin pencari. Mesin pencari menggunakan penyematan vektor secara ekstensif untuk meningkatkan efektivitas dan efisiensi pengambilan informasi. Karena penyematan vektor lebih dari sekadar pencocokan kata kunci, penyematan ini membantu mesin telusur menafsirkan arti kata dan kalimat. Bahkan ketika frasa yang tepat tidak cocok, mesin pencari masih dapat menemukan dan mengambil dokumen atau informasi lain yang relevan secara kontekstual dengan memodelkan kata-kata sebagai vektor dalam ruang semantik.
  • Chatbots dan sistem tanya jawab. Bantuan penyematan vektor chatbots dan sistem penjawab pertanyaan berbasis AI generatif dalam pemahaman dan produksi respons mirip manusia. Dengan menangkap konteks dan makna teks, penyematan membantu chatbot merespons pertanyaan pengguna dengan cara yang bermakna dan logis. Misalnya saja model bahasa dan chatbot AI, termasuk GPT-4 dan pengolah gambar seperti Dall-E2, telah mendapatkan popularitas luar biasa karena menghasilkan percakapan dan tanggapan yang mirip manusia.
  • Deteksi penipuan dan deteksi outlier. Penyematan vektor dapat digunakan untuk mendeteksi anomali atau aktivitas penipuan dengan menilai kesamaan antar vektor. Pola yang tidak umum diidentifikasi dengan mengevaluasi jarak antara penyematan dan penentuan pencilan.
  • Pemrosesan awal data. Untuk mengubah data yang belum diproses ke dalam format yang sesuai untuk ML dan model pembelajaran mendalam, penyematan digunakan dalam aktivitas prapemrosesan data. Penyematan kata, misalnya, digunakan untuk merepresentasikan kata sebagai vektor, yang memfasilitasi pemrosesan dan analisis data teks.
  • Pembelajaran one-shot dan zero-shot. Pembelajaran one-shot dan zero-shot adalah pendekatan penyematan vektor yang membantu model pembelajaran mesin memprediksi hasil untuk kelas baru, bahkan ketika diberikan data berlabel terbatas. Model dapat menggeneralisasi dan menghasilkan prediksi bahkan dengan sejumlah kecil contoh pelatihan dengan menggunakan informasi semantik yang disertakan dalam penyematan.
  • Kesamaan dan pengelompokan semantik. Penyematan vektor memudahkan untuk mengukur seberapa mirip dua objek dalam lingkungan berdimensi tinggi. Hal ini memungkinkan untuk melakukan operasi seperti menghitung kesamaan semantik, pengelompokan, dan perakitan hal-hal terkait berdasarkan penyematannya.
Image showing vector embedding in chatbots.
Penyematan memungkinkan chatbot merespons pertanyaan pengguna dengan cara yang bermakna dan logis.

Hal-hal apa saja yang bisa disematkan?

Berbagai jenis objek dan tipe data dapat direpresentasikan menggunakan penyematan vektor. Jenis hal umum yang dapat disematkan antara lain sebagai berikut:

Teks

Kata, frasa, atau dokumen direpresentasikan sebagai vektor menggunakan penyematan teks. Tugas NLP — termasuk analisis sentimen, pencarian semantik, dan terjemahan bahasa — sering kali menggunakan penyematan.

Universal Sentence Encoder adalah salah satu model penyematan sumber terbuka paling populer dan dapat secara efisien menyandikan kalimat individual dan seluruh potongan teks.

Images

Penyematan gambar menangkap dan mewakili karakteristik visual gambar sebagai vektor. Kasus penggunaannya meliputi identifikasi objek, klasifikasi gambar, dan pencarian gambar terbalik, yang sering dikenal sebagai cari berdasarkan gambar.

Penyematan gambar juga dapat digunakan untuk mengaktifkan kemampuan pencarian visual. Dengan mengekstraksi penyematan dari gambar database, pengguna dapat membandingkan penyematan gambar kueri dengan penyematan foto database untuk menemukan kecocokan yang mirip secara visual. Ini biasanya digunakan di e-commerce aplikasi, di mana pengguna dapat mencari barang dengan mengunggah foto produk serupa.

Google Lens adalah aplikasi pencarian gambar yang membandingkan foto kamera dengan produk yang serupa secara visual. Misalnya, dapat digunakan untuk mencocokkan produk internet yang serupa dengan sepasang sepatu kets atau pakaian.

Audio

Penyematan audio adalah representasi vektor dari sinyal audio. Penyematan vektor menangkap properti pendengaran, memungkinkan sistem menafsirkan data audio dengan lebih efektif. Misalnya, penyematan audio dapat digunakan untuk rekomendasi musik, klasifikasi genre, penelusuran kesamaan audio, pengenalan ucapan, dan verifikasi pembicara.

Meskipun AI digunakan untuk berbagai jenis penyematan, AI audio kurang mendapat perhatian dibandingkan AI teks atau gambar. Google Ucapan-ke-Teks dan OpenAI Whisper adalah aplikasi penyematan audio yang digunakan dalam organisasi seperti pusat panggilan, teknologi medis, aksesibilitas, dan aplikasi ucapan-ke-teks.

Grafik

Penyematan grafik menggunakan vektor untuk mewakili node dan tepi dalam grafik. Mereka digunakan dalam tugas yang terkait dengan analisis grafik seperti prediksi tautan, pengakuan komunitas, dan sistem rekomendasi.

Setiap node mewakili suatu entitas, seperti orang, halaman web, atau produk, dan setiap tepi melambangkan tautan atau koneksi yang ada di antara entitas tersebut. Penyematan vektor ini dapat mencapai segalanya mulai dari merekomendasikan teman sosial jaringan untuk mendeteksi masalah keamanan siber.

Data deret waktu dan model 3D

Penyematan rangkaian waktu menangkap pola temporal dalam data berurutan. Mereka digunakan di internet hal-hal aplikasi, data keuangan, dan data sensor untuk aktivitas termasuk deteksi anomali, peramalan seri waktu dan identifikasi pola.

Aspek geometris objek 3D juga dapat dinyatakan sebagai vektor menggunakan penyematan model 3D. Mereka diterapkan dalam tugas-tugas seperti rekonstruksi 3D, deteksi objek, dan pencocokan bentuk.

Molekul

Penyematan molekul mewakili senyawa kimia sebagai vektor. Mereka digunakan dalam penemuan obat, pencarian kemiripan kimia, dan prediksi sifat molekul. Penyematan ini juga digunakan dalam kimia komputasi dan pengembangan obat untuk menangkap fitur struktural dan kimia molekul.

Image showing vector embeddings of objects.
Kumpulan angka terstruktur digunakan sebagai penyematan vektor untuk objek.

Apa itu Word2Vec?

Word2Vec adalah pendekatan penyematan vektor kata NLP yang populer. Dibuat oleh Google, Word2Vec dirancang untuk merepresentasikan kata sebagai vektor padat dalam ruang vektor kontinu. Ini dapat mengenali konteks kata dalam dokumen dan biasanya digunakan dalam tugas NLP seperti kategorisasi teks, analisis sentimen, dan mesin penerjemah untuk membantu mesin memahami dan memproses bahasa alami dengan lebih efektif.

Word2Vec didasarkan pada prinsip bahwa kata-kata dengan makna serupa harus memiliki representasi vektor yang serupa, sehingga memungkinkan model menangkap hubungan semantik antar kata.

Word2Vec memiliki dua arsitektur dasar, CBOW (Kantong Kata Berkelanjutan) dan Skip-Gram:

  • CBOW. Arsitektur ini memprediksi kata target berdasarkan konteks kata. Model diberi konteks atau kata-kata di sekitarnya dan bertugas memprediksi kata sasaran yang berada di tengah. Misalnya, dalam kalimat, “Rubah coklat yang cepat melompati anjing yang malas”, CBOW menggunakan konteks atau kata-kata di sekitarnya untuk memprediksi rubah sebagai kata sasaran.
  • Lewati-Gram. Berbeda dengan CBOW, arsitektur Skip-Gram memprediksi kata konteks berdasarkan kata target. Model diberi kata sasaran dan diminta memprediksi istilah konteks sekitarnya. Mengambil contoh kalimat “Rubah coklat cepat melompati anjing malas” di atas, skip-gram akan mengambil kata target rubah dan temukan kata-kata konteks seperti “The,” “quick,” “coklat,” “melompat,” “over,” “the,” “lazy” dan “dog.”

Berbagai macam bisnis mulai menggunakan AI generatif, dan hal ini menunjukkan potensi disruptif yang dimilikinya. Meneliti bagaimana AI generatif berkembang, arah apa yang akan dituju ke depan dan tantangan apa saja yang mungkin muncul.

Stempel Waktu:

Lebih dari Agenda IoT