Εισαγωγή
Στο ταχέως εξελισσόμενο τοπίο της γενετικής τεχνητής νοημοσύνης, ο κεντρικός ρόλος των διανυσματικών βάσεων δεδομένων γίνεται όλο και πιο εμφανής. Αυτό το άρθρο εξετάζει τη δυναμική συνέργεια μεταξύ διανυσματικών βάσεων δεδομένων και λύσεων τεχνητής νοημοσύνης, διερευνώντας πώς αυτά τα τεχνολογικά θεμέλια διαμορφώνουν το μέλλον της δημιουργικότητας της τεχνητής νοημοσύνης. Ελάτε μαζί μας σε ένα ταξίδι στις περιπλοκές αυτής της ισχυρής συμμαχίας, ξεκλειδώνοντας πληροφορίες για τον μετασχηματιστικό αντίκτυπο που οι διανυσματικές βάσεις δεδομένων φέρνουν στο προσκήνιο των καινοτόμων λύσεων τεχνητής νοημοσύνης.
Στόχοι μάθησης
Αυτό το άρθρο σάς βοηθά να κατανοήσετε τις πτυχές της διανυσματικής βάσης δεδομένων παρακάτω.
- Σημασία των διανυσματικών βάσεων δεδομένων και των βασικών συστατικών τους
- Λεπτομερής μελέτη σύγκρισης βάσεων δεδομένων Vector με Παραδοσιακή βάση δεδομένων
- Εξερεύνηση διανυσματικών ενσωματώσεων από άποψη εφαρμογής
- Διάνυσμα κτίριο βάσης δεδομένων χρησιμοποιώντας Pincone
- Υλοποίηση βάσης δεδομένων Pinecone Vector με χρήση μοντέλου langchain LLM
Αυτό το άρθρο δημοσιεύθηκε ως μέρος του Data Science Blogathon.
Πίνακας περιεχομένων
Τι είναι η διανυσματική βάση δεδομένων;
Μια διανυσματική βάση δεδομένων είναι μια μορφή συλλογής δεδομένων που αποθηκεύεται στο διάστημα. Ακόμα, εδώ, αποθηκεύεται σε μαθηματικές αναπαραστάσεις, καθώς η μορφή που είναι αποθηκευμένη στις βάσεις δεδομένων διευκολύνει τα ανοιχτά μοντέλα τεχνητής νοημοσύνης να απομνημονεύουν τις εισόδους και επιτρέπει στην εφαρμογή ανοιχτής τεχνητής νοημοσύνης να χρησιμοποιεί γνωστική αναζήτηση, προτάσεις και δημιουργία κειμένου για περιπτώσεις διαφόρων χρήσεων τις ψηφιακά μετασχηματισμένες βιομηχανίες. Η αποθήκευση δεδομένων και η ανάκτηση ονομάζονται "Διανυσματικές ενσωματώσεις" ή "Ενσωματώσεις". Επιπλέον, αυτό αναπαρίσταται σε μορφή αριθμητικού πίνακα. Η αναζήτηση είναι πολύ πιο εύκολη από τις παραδοσιακές βάσεις δεδομένων που χρησιμοποιούνται για προοπτικές τεχνητής νοημοσύνης με τεράστιες, ευρετηριασμένες δυνατότητες.
Χαρακτηριστικά διανυσματικών βάσεων δεδομένων
- Αξιοποιεί τη δύναμη αυτών των διανυσματικών ενσωματώσεων, οδηγώντας σε ευρετηρίαση και αναζήτηση σε ένα τεράστιο σύνολο δεδομένων.
- Συμπιεστή με όλες τις μορφές δεδομένων (εικόνες, κείμενο ή δεδομένα).
- Δεδομένου ότι προσαρμόζει τεχνικές ενσωμάτωσης και χαρακτηριστικά με υψηλή ευρετηρίαση, μπορεί να προσφέρει μια ολοκληρωμένη λύση για τη διαχείριση δεδομένων και εισόδου για το συγκεκριμένο πρόβλημα.
- Μια διανυσματική βάση δεδομένων οργανώνει δεδομένα μέσω διανυσμάτων υψηλών διαστάσεων που περιέχουν εκατοντάδες διαστάσεις. Μπορούμε να τα διαμορφώσουμε πολύ γρήγορα.
- Κάθε διάσταση αντιστοιχεί σε ένα συγκεκριμένο χαρακτηριστικό ή ιδιότητα του αντικειμένου δεδομένων που αντιπροσωπεύει.
Παραδοσιακό Vs. Διανυσματική βάση δεδομένων
- Η εικόνα δείχνει την παραδοσιακή και διανυσματική βάση δεδομένων υψηλού επιπέδου ροής εργασίας
- Επίσημες αλληλεπιδράσεις βάσης δεδομένων πραγματοποιούνται μέσω SQL δηλώσεις και δεδομένα που αποθηκεύονται σε μορφή βάσης σειρών και σε μορφή πίνακα.
- Στη βάση δεδομένων Vector, οι αλληλεπιδράσεις πραγματοποιούνται μέσω απλού κειμένου (π.χ. αγγλικά) και δεδομένων που αποθηκεύονται σε μαθηματικές αναπαραστάσεις.
Ομοιότητα παραδοσιακών και διανυσματικών βάσεων δεδομένων
Πρέπει να εξετάσουμε πώς διαφέρουν οι Vector βάσεις δεδομένων από τις παραδοσιακές. Ας το συζητήσουμε αυτό εδώ. Μια γρήγορη διαφορά που μπορώ να δώσω είναι αυτή στις συμβατικές βάσεις δεδομένων. Τα δεδομένα αποθηκεύονται ακριβώς ως έχουν. Θα μπορούσαμε να προσθέσουμε κάποια επιχειρηματική λογική για να συντονίσουμε τα δεδομένα και να συγχωνεύσουμε ή να διαχωρίσουμε τα δεδομένα με βάση τις επιχειρηματικές απαιτήσεις ή απαιτήσεις. Ωστόσο, η διανυσματική βάση δεδομένων έχει έναν τεράστιο μετασχηματισμό και τα δεδομένα γίνονται μια σύνθετη διανυσματική αναπαράσταση.
Ακολουθεί ένας χάρτης για την κατανόησή σας και την προοπτική σαφήνειας σχεσιακές βάσεις δεδομένων έναντι διανυσματικών βάσεων δεδομένων. Η παρακάτω εικόνα είναι αυτονόητη για την κατανόηση διανυσματικών βάσεων δεδομένων με παραδοσιακές βάσεις δεδομένων. Εν ολίγοις, μπορούμε να εκτελέσουμε ένθετα και διαγραφές σε διανυσματικές βάσεις δεδομένων, όχι να ενημερώσουμε δηλώσεις.
Απλή αναλογία για την κατανόηση των διανυσματικών βάσεων δεδομένων
Τα δεδομένα ταξινομούνται αυτόματα χωρικά με βάση την ομοιότητα περιεχομένου στις αποθηκευμένες πληροφορίες. Ας εξετάσουμε λοιπόν το πολυκατάστημα για την αναλογία διανυσματικής βάσης δεδομένων. Όλα τα προϊόντα είναι τοποθετημένα στο ράφι με βάση τη φύση, τον σκοπό, την κατασκευή, τη χρήση και την ποσότητα. Σε παρόμοια συμπεριφορά, τα δεδομένα είναι
τακτοποιούνται αυτόματα στη διανυσματική βάση δεδομένων με παρόμοιο είδος, ακόμα κι αν το είδος δεν ήταν καλά καθορισμένο κατά την αποθήκευση ή την πρόσβαση στα δεδομένα.
Οι διανυσματικές βάσεις δεδομένων επιτρέπουν μια εμφανή ευαισθησία και διαστάσεις στις συγκεκριμένες ομοιότητες, έτσι ο πελάτης αναζητά το επιθυμητό προϊόν, τον κατασκευαστή και την ποσότητα και διατηρεί το προϊόν στο καλάθι. Η διανυσματική βάση δεδομένων αποθηκεύει όλα τα δεδομένα σε μια τέλεια δομή αποθήκευσης. Εδώ, οι μηχανικοί της Μηχανικής Μάθησης και της Τεχνητής Νοημοσύνης δεν χρειάζεται να επισημάνουν ή να επισημάνουν με μη αυτόματο τρόπο το αποθηκευμένο περιεχόμενο.
Βασικές θεωρίες πίσω από διανυσματικές βάσεις δεδομένων
- Διανυσματικές ενσωματώσεις και το εύρος τους
- Απαιτήσεις ευρετηρίασης
- Κατανόηση της σημασιολογικής και της ομοιότητας αναζήτησης
Vector Embedding και το πεδίο εφαρμογής τους
Μια ενσωμάτωση διανύσματος είναι μια διανυσματική αναπαράσταση ως προς τις αριθμητικές τιμές. Σε συμπιεσμένη μορφή, οι ενσωματώσεις καταγράφουν τις εγγενείς ιδιότητες και τις συσχετίσεις των αρχικών δεδομένων, καθιστώντας τις βασικό στοιχείο στις περιπτώσεις χρήσης Τεχνητής Νοημοσύνης και Μηχανικής Μάθησης. Ο σχεδιασμός ενσωματώσεων για την κωδικοποίηση σχετικών πληροφοριών σχετικά με τα αρχικά δεδομένα σε χώρο μικρότερης διάστασης εξασφαλίζει υψηλή ταχύτητα ανάκτησης, υπολογιστική απόδοση και αποτελεσματική αποθήκευση.
Η αποτύπωση της ουσίας των δεδομένων με πιο πανομοιότυπα δομημένο τρόπο είναι η διαδικασία ενσωμάτωσης διανυσμάτων, σχηματίζοντας ένα «Μοντέλο Ενσωμάτωσης». Τελικά, αυτά τα μοντέλα εξετάζουν όλα τα αντικείμενα δεδομένων, εξάγουν σημαντικά μοτίβα και σχέσεις μέσα στην πηγή δεδομένων και τα μετατρέπουν σε διανυσματικές ενσωματώσεις. Στη συνέχεια, οι αλγόριθμοι αξιοποιούν αυτές τις διανυσματικές ενσωματώσεις για να εκτελέσουν διάφορες εργασίες. Πολλά εξαιρετικά ανεπτυγμένα μοντέλα ενσωμάτωσης, διαθέσιμα στο διαδίκτυο είτε ως δωρεάν είτε ως pay-as-you-go, διευκολύνουν την ολοκλήρωση της ενσωμάτωσης διανυσμάτων.
Πεδίο εφαρμογής διανυσματικών ενσωματώσεων από άποψη εφαρμογής
Αυτές οι ενσωματώσεις είναι συμπαγείς, περιέχουν πολύπλοκες πληροφορίες, κληρονομούν σχέσεις μεταξύ των δεδομένων που είναι αποθηκευμένα σε μια διανυσματική βάση δεδομένων, επιτρέπουν μια αποτελεσματική ανάλυση επεξεργασίας δεδομένων για τη διευκόλυνση της κατανόησης και της λήψης αποφάσεων, και δυναμικά δημιουργούν διάφορα καινοτόμα προϊόντα δεδομένων σε οποιονδήποτε οργανισμό.
Οι τεχνικές ενσωμάτωσης διανυσμάτων είναι απαραίτητες για τη σύνδεση του χάσματος μεταξύ αναγνώσιμων δεδομένων και πολύπλοκων αλγορίθμων. Καθώς οι τύποι δεδομένων είναι αριθμητικά διανύσματα, μπορέσαμε να ξεκλειδώσουμε τη δυνατότητα για μια μεγάλη ποικιλία εφαρμογών Generative AI μαζί με διαθέσιμα μοντέλα Open AI.
Πολλαπλές εργασίες με διανυσματική ενσωμάτωση
Αυτή η ενσωμάτωση διανύσματος μας βοηθά να κάνουμε πολλές εργασίες:
- Ανάκτηση πληροφοριών: Με τη βοήθεια αυτών των ισχυρών τεχνικών, μπορούμε να δημιουργήσουμε μηχανές αναζήτησης με επιρροή που μπορούν να μας βοηθήσουν να βρούμε απαντήσεις με βάση τα ερωτήματα των χρηστών από αποθηκευμένα αρχεία, έγγραφα ή μέσα
- Λειτουργίες αναζήτησης ομοιότητας: Αυτό είναι καλά οργανωμένο και ευρετηριασμένο. μας βοηθά να βρούμε την ομοιότητα μεταξύ διαφορετικών εμφανίσεων στα διανυσματικά δεδομένα.
- Ταξινόμηση και ομαδοποίηση: Χρησιμοποιώντας αυτές τις τεχνικές ενσωμάτωσης, μπορούμε να εκτελέσουμε αυτά τα μοντέλα για να εκπαιδεύσουμε σχετικούς αλγόριθμους μηχανικής μάθησης και να τους ομαδοποιήσουμε και να τους ταξινομήσουμε.
- Συστήματα σύστασης: Δεδομένου ότι οι τεχνικές ενσωμάτωσης είναι οργανωμένες σωστά, οδηγεί σε συστήματα συστάσεων που συσχετίζουν με ακρίβεια προϊόντα, μέσα και άρθρα που βασίζονται σε ιστορικά δεδομένα.
- Ανάλυση συναισθημάτων: Αυτό το μοντέλο ενσωμάτωσης μας βοηθά να κατηγοριοποιήσουμε και να αντλήσουμε λύσεις συναισθημάτων.
Απαιτήσεις ευρετηρίασης
Όπως γνωρίζουμε, το ευρετήριο θα βελτιώσει τα δεδομένα αναζήτησης από τον πίνακα σε παραδοσιακές βάσεις δεδομένων, παρόμοια με τις διανυσματικές βάσεις δεδομένων, και θα παρέχει τα χαρακτηριστικά ευρετηρίασης.
Οι διανυσματικές βάσεις δεδομένων παρέχουν «Επίπεδους δείκτες», οι οποίοι είναι η άμεση αναπαράσταση της ενσωμάτωσης διανυσμάτων. Η δυνατότητα αναζήτησης είναι ολοκληρωμένη και δεν χρησιμοποιεί προεκπαιδευμένα συμπλέγματα. Εκτελεί το διάνυσμα ερωτήματος που εκτελείται σε κάθε μεμονωμένη ενσωμάτωση διανύσματος και οι αποστάσεις K υπολογίζονται για κάθε ζεύγος.
- Λόγω της ευκολίας αυτού του δείκτη, απαιτείται ελάχιστος υπολογισμός για τη δημιουργία των νέων δεικτών.
- Πράγματι, ένα επίπεδο ευρετήριο μπορεί να χειριστεί αποτελεσματικά τα ερωτήματα και να παρέχει γρήγορους χρόνους ανάκτησης.
Κατανόηση της σημασιολογικής και της ομοιότητας αναζήτησης
Εκτελούμε δύο διαφορετικές αναζητήσεις σε διανυσματικές βάσεις δεδομένων: σημασιολογικές και ομοιότητες.
- Σημασιολογική αναζήτηση: Κατά την αναζήτηση πληροφοριών, αντί να κάνετε αναζήτηση με λέξεις-κλειδιά, μπορείτε να τις βρείτε με βάση τη μεθοδολογία ουσιαστικής συνομιλίας. Η άμεση μηχανική παίζει ζωτικό ρόλο στη μετάδοση της εισόδου στο σύστημα. Αυτή η αναζήτηση επιτρέπει αναμφίβολα αναζήτηση και αποτελέσματα υψηλότερης ποιότητας που μπορούν να τροφοδοτηθούν για καινοτόμες εφαρμογές, SEO, δημιουργία κειμένου και σύνοψη.
- Αναζήτηση ομοιότητας: Πάντα στην ανάλυση δεδομένων, η αναζήτηση ομοιότητας επιτρέπει αδόμητα, πολύ καλύτερα δεδομένα σύνολα δεδομένων. Όσον αφορά τις διανυσματικές βάσεις δεδομένων, πρέπει να εξακριβώσουμε την εγγύτητα δύο διανυσμάτων και πώς μοιάζουν μεταξύ τους: πίνακες, κείμενο, έγγραφα, εικόνες, λέξεις και αρχεία ήχου. Στη διαδικασία κατανόησης, η ομοιότητα μεταξύ των διανυσμάτων αποκαλύπτεται ως η ομοιότητα μεταξύ των αντικειμένων δεδομένων στο δεδομένο σύνολο δεδομένων. Αυτή η άσκηση μας βοηθά να κατανοήσουμε την αλληλεπίδραση, να εντοπίσουμε μοτίβα, να εξάγουμε γνώσεις και να λάβουμε αποφάσεις από την οπτική γωνία της εφαρμογής. Η αναζήτηση Semantic and Similarity θα μας βοηθήσει να δημιουργήσουμε τις παρακάτω εφαρμογές για οφέλη του κλάδου.
- Ανάκτηση πληροφορίας: Χρησιμοποιώντας Open AI και Vector βάσεις δεδομένων, θα δημιουργούσαμε μηχανές αναζήτησης για ανάκτηση πληροφοριών χρησιμοποιώντας ερωτήματα επιχειρηματικών χρηστών ή τελικών χρηστών και ευρετηριασμένα έγγραφα μέσα στο vector DB.
- Ταξινόμηση και ομαδοποίηση:Η ταξινόμηση ή η ομαδοποίηση παρόμοιων σημείων δεδομένων ή ομάδων αντικειμένων περιλαμβάνει την ανάθεσή τους σε πολλαπλές κατηγορίες με βάση κοινά χαρακτηριστικά.
- Ανίχνευση ανωμαλιών: Ανακάλυψη ανωμαλιών από συνηθισμένα μοτίβα μετρώντας την ομοιότητα των σημείων δεδομένων και εντοπίζοντας ανωμαλίες.
Τύποι μετρήσεων ομοιότητας σε διανυσματικές βάσεις δεδομένων
Οι μέθοδοι μέτρησης εξαρτώνται από τη φύση των δεδομένων και τη συγκεκριμένη εφαρμογή. Συνήθως, τρεις μέθοδοι χρησιμοποιούνται για τη μέτρηση της ομοιότητας και της εξοικείωσης με τη Μηχανική Μάθηση.
Ευκλείδεια απόσταση
Με απλά λόγια, η απόσταση μεταξύ των δύο διανυσμάτων είναι η ευθύγραμμη απόσταση μεταξύ των δύο διανυσματικών σημείων που μετρούν το st.
Προϊόν Dot
Αυτό μας βοηθά να κατανοήσουμε την ευθυγράμμιση μεταξύ δύο διανυσμάτων, υποδεικνύοντας εάν δείχνουν προς την ίδια κατεύθυνση, αντίθετες κατευθύνσεις ή είναι κάθετα μεταξύ τους.
Ομοιότητα συνημιτόνου
Αξιολογεί την ομοιότητα δύο διανυσμάτων χρησιμοποιώντας τη γωνία μεταξύ τους, όπως φαίνεται στο σχήμα. Σε αυτή την περίπτωση, οι τιμές και το μέγεθος των διανυσμάτων είναι ασήμαντα και δεν επηρεάζουν τα αποτελέσματα. μόνο η γωνία λαμβάνεται υπόψη στον υπολογισμό.
Παραδοσιακές βάσεις δεδομένων Αναζητήστε ακριβείς αντιστοιχίσεις εντολών SQL και ανακτήστε τα δεδομένα σε μορφή πίνακα. Ταυτόχρονα, ασχολούμαστε με διανυσματικές βάσεις δεδομένων που αναζητούν το πιο παρόμοιο διάνυσμα με το ερώτημα εισόδου σε απλά αγγλικά χρησιμοποιώντας τεχνικές Prompt Engineering. Η βάση δεδομένων χρησιμοποιεί τον αλγόριθμο αναζήτησης Approximate Nearest Neighbour (ANN) για να βρει παρόμοια δεδομένα. Να παρέχετε πάντα εύλογα ακριβή αποτελέσματα σε υψηλή απόδοση, ακρίβεια και χρόνο απόκρισης.
Μηχανισμός εργασίας
- Οι διανυσματικές βάσεις δεδομένων μετατρέπουν πρώτα δεδομένα σε διανύσματα ενσωμάτωσης, τα αποθηκεύουν σε διανυσματικές βάσεις δεδομένων και δημιουργούν ευρετηρίαση για ταχύτερη αναζήτηση.
- Ένα ερώτημα από την εφαρμογή θα αλληλεπιδράσει με το διάνυσμα ενσωμάτωσης, αναζητώντας τον πλησιέστερο γείτονα ή παρόμοια δεδομένα στη διανυσματική βάση δεδομένων χρησιμοποιώντας ένα ευρετήριο και ανακτώντας τα αποτελέσματα που διαβιβάστηκαν στην εφαρμογή.
- Με βάση τις επιχειρηματικές απαιτήσεις, τα δεδομένα που ανακτώνται θα βελτιστοποιηθούν, θα μορφοποιηθούν και θα εμφανιστούν στην πλευρά του τελικού χρήστη ή στη ροή ερωτημάτων ή ενεργειών.
Δημιουργία διανυσματικής βάσης δεδομένων
Ας συνδεθούμε με το Pinecone.
Μπορείτε να συνδεθείτε στο Pinecone χρησιμοποιώντας το Google, το GitHub ή το Microsoft ID.
Δημιουργήστε μια νέα σύνδεση χρήστη για τη χρήση σας.
Μετά την επιτυχή είσοδο, θα προσγειωθείτε στη σελίδα Ευρετηρίου. μπορείτε να δημιουργήσετε ένα ευρετήριο για τους σκοπούς της Vector βάσης δεδομένων σας. Κάντε κλικ στο κουμπί Δημιουργία ευρετηρίου.
Δημιουργήστε το νέο σας ευρετήριο παρέχοντας το Όνομα και τις Διαστάσεις.
Σελίδα λίστας ευρετηρίου,
Λεπτομέρειες ευρετηρίου – Όνομα, Περιοχή και Περιβάλλον – Χρειαζόμαστε όλες αυτές τις λεπτομέρειες για να συνδέσουμε τη διανυσματική βάση δεδομένων μας από τον κώδικα κτιρίου του μοντέλου.
Λεπτομέρειες ρυθμίσεων έργου,
Μπορείτε να αναβαθμίσετε τις προτιμήσεις σας για πολλαπλά ευρετήρια και κλειδιά για σκοπούς έργου.
Μέχρι στιγμής, έχουμε συζητήσει τη δημιουργία του ευρετηρίου και των ρυθμίσεων διανυσματικής βάσης δεδομένων στο Pinecone.
Εφαρμογή διανυσματικής βάσης δεδομένων με χρήση Python
Ας κάνουμε λίγη κωδικοποίηση τώρα.
Εισαγωγή βιβλιοθηκών
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.llms import OpenAI
from langchain.vectorstores import Pinecone
from langchain.document_loaders import TextLoader
from langchain.chains.question_answering import load_qa_chain
from langchain.chat_models import ChatOpenAI
Παροχή κλειδιού API για βάση δεδομένων OpenAI και Vector
import os
os.environ["OPENAI_API_KEY"] = "xxxxxxxx"
PINECONE_API_KEY = os.environ.get('PINECONE_API_KEY', 'xxxxxxxxxxxxxxxxxxxxxxx')
PINECONE_API_ENV = os.environ.get('PINECONE_API_ENV', 'gcp-starter')
api_keys="xxxxxxxxxxxxxxxxxxxxxx"
llm = OpenAI(OpenAI=api_keys, temperature=0.1)
Έναρξη του LLM
llm=OpenAI(openai_api_key=os.environ["OPENAI_API_KEY"],temperature=0.6)
Έναρξη Pinecone
import pinecone
pinecone.init(
api_key=PINECONE_API_KEY,
environment=PINECONE_API_ENV
index_name = "demoindex"
Φόρτωση αρχείου .csv για δημιουργία διανυσματικής βάσης δεδομένων
from langchain.document_loaders.csv_loader import CSVLoader
loader = CSVLoader(file_path="/content/drive/My Drive/Colab_Notebooks/cereal.csv"
,source_column="name")
data = loader.load()
Διαχωρίστε το κείμενο σε Κομμάτια
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=20)
text_chunks = text_splitter.split_documents(data)
Εύρεση του κειμένου στο text_chunk
text_chunks
Παραγωγή
[Document(page_content='name: 100% Brannmfr: Nntype: Cnθερμίδες: 70nπρωτεΐνες: 4nfat: 1nνάτριο: 130nfiber: 10ncarbo: 5n σάκχαρα: 6n κάλιο: 280nnvitamins:25nfratn3. 1nσύσταση: Παιδιά, μεταδεδομένα={ 'source': '0.33% Bran', 'row': 68.402973}), , …..
Ενσωμάτωση κτιρίου
embeddings = OpenAIEmbeddings()
Δημιουργήστε μια παρουσία Pinecone για διανυσματική βάση δεδομένων από "δεδομένα"
vectordb = Pinecone.from_documents(text_chunks,embeddings,index_name="demoindex")
Δημιουργήστε ένα retriever για την υποβολή ερωτημάτων στη διανυσματική βάση δεδομένων.
retriever = vectordb.as_retriever(score_threshold = 0.7)
Ανάκτηση δεδομένων από διανυσματική βάση δεδομένων
rdocs = retriever.get_relevant_documents("Cocoa Puffs")
rdocs
Χρησιμοποιώντας το Prompt και ανακτήστε τα δεδομένα
from langchain.prompts import PromptTemplate
prompt_template = """Given the following context and a question,
generate an answer based on this context only.
,Please state "I don't know." Don't try to make up an answer.
CONTEXT: {context}
QUESTION: {question}"""
PROMPT = PromptTemplate(
template=prompt_template, input_variables=["context", "question"]
)
chain_type_kwargs = {"prompt": PROMPT}
from langchain.chains import RetrievalQA
chain = RetrievalQA.from_chain_type(llm=llm,
chain_type="stuff",
retriever=retriever,
input_key="query",
return_source_documents=True,
chain_type_kwargs=chain_type_kwargs)
Ας ρωτήσουμε τα δεδομένα.
chain('Can you please provide cereal recommendation for Kids?')
Έξοδος από Ερώτημα
{'query': 'Can you please provide cereal recommendation for Kids?',
'result': [Document(page_content='name: Crispixnmfr: Kntype: Cncalories: 110nprotein: 2nfat: 0nsodium: 220nfiber: 1ncarbo: 21nsugars: 3npotass: 30nvitamins: 25nshelf: 3nweight: 1ncups: 1nrating: 46.895644nrecommendation: Kids', metadata={'row': 21.0, 'source': '/content/drive/My Drive/Colab_Notebooks/cereal.csv'}), ..]
Συμπέρασμα
Ελπίζουμε ότι μπορείτε να κατανοήσετε πώς λειτουργούν οι διανυσματικές βάσεις δεδομένων, τα στοιχεία τους, η αρχιτεκτονική και τα χαρακτηριστικά των διανυσματικών βάσεων δεδομένων σε λύσεις γενετικής τεχνητής νοημοσύνης . Κατανοήστε πώς η διανυσματική βάση δεδομένων είναι διαφορετική από την παραδοσιακή βάση δεδομένων και σύγκριση με συμβατικά στοιχεία βάσης δεδομένων. Πράγματι, η αναλογία σας βοηθά να κατανοήσετε καλύτερα τη διανυσματική βάση δεδομένων. Τα βήματα της διανυσματικής βάσης δεδομένων Pinecone και τα βήματα ευρετηρίασης θα σας βοηθήσουν να δημιουργήσετε μια διανυσματική βάση δεδομένων και να φέρετε το κλειδί για την ακόλουθη υλοποίηση κώδικα.
Βασικές τακτικές
- Συμπαγές με δομημένα, αδόμητα και ημι-δομημένα δεδομένα.
- Προσαρμόζει τεχνικές ενσωμάτωσης και χαρακτηριστικά υψηλής ευρετηρίασης.
- Οι αλληλεπιδράσεις γίνονται μέσω απλού κειμένου χρησιμοποιώντας μια προτροπή (π.χ. αγγλικά). Και δεδομένα που αποθηκεύονται σε μαθηματικές αναπαραστάσεις.
- Η ομοιότητα βαθμονομείται σε διανυσματικές βάσεις δεδομένων μέσω – Ευκλείδειας Απόστασης, Ομοιότητας συνημιτονίου και Προϊόντος Τελειών.
Συχνές Ερωτήσεις
Α. Μια διανυσματική βάση δεδομένων αποθηκεύει μια συλλογή δεδομένων στο χώρο. Διατηρεί τα δεδομένα σε μαθηματικές αναπαραστάσεις. καθώς η μορφή που είναι αποθηκευμένη στις βάσεις δεδομένων διευκολύνει τα ανοιχτά μοντέλα τεχνητής νοημοσύνης να απομνημονεύουν τις προηγούμενες εισόδους και επιτρέπει στην ανοιχτή εφαρμογή τεχνητής νοημοσύνης να χρησιμοποιεί γνωστική αναζήτηση, προτάσεις και ακριβή δημιουργία κειμένου για διάφορες περιπτώσεις χρήσης σε ψηφιακά μετασχηματισμένες βιομηχανίες.
Α. Μερικά από τα χαρακτηριστικά είναι: 1. Αξιοποιεί τη δύναμη αυτών των διανυσματικών ενσωματώσεων, οδηγώντας σε ευρετηρίαση και αναζήτηση σε ένα τεράστιο σύνολο δεδομένων. 2. Συμπαγές με δομημένα, αδόμητα και ημι-δομημένα δεδομένα. 3. Μια διανυσματική βάση δεδομένων οργανώνει δεδομένα μέσω διανυσμάτων υψηλών διαστάσεων που περιέχουν εκατοντάδες διαστάσεις
Α. Βάση δεδομένων ==> Συλλογές
Πίνακας==> Διανυσματικός χώρος
Σειρά==>Κέκτορας
Στήλη==>Διάσταση
Η εισαγωγή και η διαγραφή είναι δυνατές σε Vector βάσεις δεδομένων, όπως και σε μια παραδοσιακή βάση δεδομένων.
Η ενημέρωση και η συμμετοχή δεν εμπίπτουν στο πεδίο εφαρμογής.
– Ανάκτηση πληροφοριών για μαζική συλλογή δεδομένων γρήγορα.
– Λειτουργίες Semantic and Similarity Search από τα τεράστια έγγραφα.
– Εφαρμογή Ταξινόμησης και Ομαδοποίησης.
– Συστήματα Ανάλυσης Συστάσεων και Συναισθημάτων.
A5: Ακολουθούν οι τρεις μέθοδοι για τη μέτρηση της ομοιότητας:
- Ευκλείδεια απόσταση
– Ομοιότητα συνημιτόνου
– Προϊόν Dot
Τα μέσα που εμφανίζονται σε αυτό το άρθρο δεν ανήκουν στο Analytics Vidhya και χρησιμοποιούνται κατά την κρίση του συγγραφέα.
Σχετικά:
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
- πηγή: https://www.analyticsvidhya.com/blog/2023/12/vector-databases-in-generative-ai-solutions/
- :έχει
- :είναι
- :δεν
- $UP
- 1
- 10
- 12
- 13
- 46
- 7
- 8
- 9
- a
- Ικανός
- Σχετικα
- πρόσβαση
- ακρίβεια
- ακριβής
- με ακρίβεια
- απέναντι
- προσαρμόζεται
- προσθέτω
- επηρεάζουν
- AI
- Μοντέλα AI
- αλγόριθμος
- αλγόριθμοι
- ευθυγραμμία
- Όλα
- Συμμαχία
- επιτρέπουν
- επιτρέπει
- κατά μήκος
- πάντοτε
- μεταξύ των
- an
- ανάλυση
- analytics
- Ανάλυση Vidhya
- και
- απάντηση
- κάθε
- api
- εμφανής
- Εφαρμογή
- συγκεκριμένη εφαρμογή
- εφαρμογές
- κατά προσέγγιση
- αρχιτεκτονική
- ΕΙΝΑΙ
- διατεταγμένα
- Παράταξη
- άρθρο
- εμπορεύματα
- τεχνητός
- τεχνητή νοημοσύνη
- Τεχνητή Νοημοσύνη και Εκμάθηση Μηχανών
- AS
- πτυχές
- εκτιμά
- ενώσεις
- At
- ήχου
- αυτομάτως
- διαθέσιμος
- βασίζονται
- BE
- γίνονται
- γίνεται
- συμπεριφορά
- πίσω
- είναι
- παρακάτω
- οφέλη
- Καλύτερα
- μεταξύ
- blogathon
- φέρω
- χτίζω
- Κτίριο
- επιχείρηση
- κουμπί
- by
- υπολογίζεται
- υπολογισμός
- που ονομάζεται
- CAN
- δυνατότητες
- ικανότητα
- πιάνω
- περίπτωση
- περιπτώσεις
- κατηγορίες
- αλυσίδα
- αλυσίδες
- χαρακτηριστικά
- σαφήνεια
- ταξινόμηση
- Ταξινόμηση
- κλικ
- ομαδοποίηση
- κωδικός
- Κωδικοποίηση
- γνωστική
- συλλογή
- συνήθως
- συμπαγής
- συγκρίνουν
- σύγκριση
- πλήρης
- συγκρότημα
- εξαρτήματα
- περιεκτικός
- υπολογισμός
- υπολογιστική
- Connect
- Συνδετικός
- Εξετάστε
- θεωρούνται
- περιέχουν
- περιεχόμενο
- συμφραζόμενα
- συμβατικός
- Συνομιλία
- μετατρέψετε
- αντιστοιχεί
- θα μπορούσε να
- δημιουργία
- δημιουργία
- δημιουργικότητα
- πελάτης
- ημερομηνία
- ανάλυση δεδομένων
- σημεία δεδομένων
- επεξεργασία δεδομένων
- βάση δεδομένων
- βάσεις δεδομένων
- σύνολα δεδομένων
- συμφωνία
- Λήψη Αποφάσεων
- αποφάσεις
- απαιτήσεις
- τάση
- σχέδιο
- επιθυμητή
- καθέκαστα
- Ανίχνευση
- αναπτύχθηκε
- διαφέρω
- διαφορά
- διαφορετικές
- ψηφιακά
- Διάσταση
- Διαστάσεις
- κατευθύνει
- κατεύθυνση
- κατευθύνσεις
- ανακαλύπτοντας
- διακριτικότητα
- συζητήσουν
- συζήτηση
- εκτεθειμένος
- απόσταση
- do
- έγγραφα
- κάνει
- Don
- DOT
- δυναμικός
- δυναμικά
- e
- κάθε
- ευκολία
- ευκολότερη
- αποτελεσματικά
- αποδοτικότητα
- αποτελεσματικός
- είτε
- στοιχεία
- ενσωμάτωση
- ενεργοποιήσετε
- τέλος
- Μηχανική
- Μηχανικοί
- Κινητήρες
- Αγγλικά
- εξασφαλίζει
- Περιβάλλον
- ουσία
- ουσιώδης
- Αιθέρας (ΕΤΗ)
- Even
- εξελίσσεται
- εκτελέσει
- Άσκηση
- Εξερευνώντας
- εκχύλισμα
- διευκολύνω
- Εξοικείωση
- μακριά
- Χαρακτηριστικό
- Χαρακτηριστικά
- Fed
- Εικόνα
- Αρχεία
- Αρχεία
- Εύρεση
- Όνομα
- ίσια
- Εξής
- Για
- Πρώτη γραμμή
- μορφή
- μορφή
- Δωρεάν
- από
- μελλοντικός
- χάσμα
- παράγουν
- γενεά
- γενετική
- Παραγωγική τεχνητή νοημοσύνη
- είδος
- GitHub
- Δώστε
- δεδομένου
- Group
- Ομάδα
- λαβή
- συμβαίνω
- Έχω
- βοήθεια
- βοηθά
- εδώ
- Ψηλά
- υψηλού επιπέδου
- υψηλά
- ιστορικών
- Πως
- Ωστόσο
- HTTPS
- τεράστιος
- Εκατοντάδες
- i
- ID
- προσδιορίσει
- if
- εικόνες
- Επίπτωση
- εκτέλεση
- εισαγωγή
- βελτίωση
- in
- όλο και περισσότερο
- ευρετήριο
- ευρετήριο
- δείκτες
- υποδεικνύοντας
- Δείκτες
- βιομηχανίες
- βιομηχανία
- Με επιρροή
- πληροφορίες
- συμφυής
- καινοτόμες
- εισαγωγή
- είσοδοι
- Ένθετα
- μέσα
- ιδέες
- παράδειγμα
- αντί
- Νοημοσύνη
- αλληλεπιδρούν
- αλληλεπίδραση
- αλληλεπιδράσεις
- σε
- περιπλοκές
- περιλαμβάνει
- IT
- ΤΟΥ
- Θέσεις εργασίας
- ενταχθούν
- Ελάτε μαζί μας
- ταξίδι
- μόλις
- Κλειδί
- πλήκτρα
- λέξεις-κλειδιά
- παιδιά
- Ξέρω
- επιγραφή
- Οικόπεδο
- τοπίο
- large
- που οδηγεί
- Οδηγεί
- μάθηση
- Μόχλευση
- μόχλευσης
- Μου αρέσει
- Λιστα
- φορτωτής
- λογική
- Σύνδεση
- μηχανή
- μάθηση μηχανής
- μεγάλες
- κάνω
- ΚΑΝΕΙ
- Κατασκευή
- διαχείριση
- τρόπος
- χειροκίνητα
- Κατασκευαστής
- χάρτη
- μαζική
- σπίρτα
- μαθηματικός
- νόημα
- μέτρο
- μέτρα
- μέτρησης
- μηχανισμός
- Εικόνες / Βίντεο
- πηγαίνω
- Μεθοδολογία
- μέθοδοι
- Microsoft
- ελάχιστος
- μοντέλο
- μοντέλα
- περισσότερο
- Εξάλλου
- πλέον
- πολύ
- πολλαπλούς
- πρέπει
- όνομα
- Φύση
- Ανάγκη
- Νέα
- τώρα
- πολυάριθμες
- αντικείμενο
- αντικειμένων
- of
- προσφορά
- on
- ONE
- αυτά
- διαδικτυακά (online)
- αποκλειστικά
- ανοίξτε
- OpenAI
- λειτουργίες
- απέναντι
- or
- οργάνωση
- Οργανωμένος
- οργανώνει
- πρωτότυπο
- OS
- ΑΛΛΑ
- δικός μας
- ανήκει
- σελίδα
- ζεύγος
- μέρος
- πέρασε
- Πέρασμα
- πρότυπα
- τέλειος
- εκτελέσει
- επίδοση
- εκτελούνται
- εκτελεί
- προοπτική
- προοπτικές
- εικόνα
- πιλοτικές
- Σκέτη
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- παίζει
- σας παρακαλούμε
- Σημείο
- σημεία
- δυνατός
- δυναμικού
- δύναμη
- ισχυρός
- Πρακτικός
- Πρακτικές Εφαρμογές
- ανάγκη
- ακριβώς
- προτιμήσεις
- προηγούμενος
- Πρόβλημα
- διαδικασια μας
- Προϊόν
- Προϊόντα
- σχέδιο
- διακεκριμένος
- προτρέπει
- δεόντως
- ιδιότητες
- περιουσία
- παρέχουν
- χορήγηση
- πρόβλεψη
- δημοσιεύθηκε
- Puffs
- σκοπός
- σκοποί
- ποσότητα
- ερωτήματα
- ερώτηση
- Γρήγορα
- Πιο γρήγορα
- γρήγορα
- ταχέως
- Σύσταση
- συστάσεις
- σχετικά με
- περιοχή
- συγγένειες
- Σχέσεις
- αντιπροσώπευση
- εκπροσωπούνται
- αντιπροσωπεύει
- απαιτείται
- απαιτήσεις
- απάντησης
- απαντήσεις
- αποτέλεσμα
- Αποτελέσματα
- Αποκαλυφθε'ντα
- Ρόλος
- ΣΕΙΡΑ
- s
- ίδιο
- Επιστήμη
- έκταση
- Αναζήτηση
- Οι μηχανές αναζήτησης
- αναζητήσεις
- αναζήτηση
- συναίσθημα
- SEO
- ρυθμίσεις
- Shape
- διάπλαση
- Shared
- Ράφι
- Κοντά
- παρουσιάζεται
- Δείχνει
- πλευρά
- παρόμοιες
- ομοιότητες
- Απλούς
- αφού
- ενιαίας
- Μέγεθος
- So
- λύση
- Λύσεις
- μερικοί
- Πηγή
- Χώρος
- συγκεκριμένες
- ταχύτητα
- διαίρεση
- κηλίδες
- SQL
- Κατάσταση
- Δήλωση
- δηλώσεις
- Βήματα
- Ακόμη
- χώρος στο δίσκο
- κατάστημα
- αποθηκεύονται
- καταστήματα
- δομή
- δομημένος
- Μελέτη
- Ακολούθως
- επιτυχής
- συνεργία
- σύστημα
- συστήματα
- T
- τραπέζι
- TAG
- εργασίες
- τεχνικές
- τεχνολογικός
- όροι
- κείμενο
- δημιουργία κειμένου
- από
- ότι
- Η
- Το μέλλον
- τους
- Τους
- Αυτοί
- αυτοί
- αυτό
- τρία
- Μέσω
- ώρα
- φορές
- προς την
- παραδοσιακός
- Τρένο
- Μεταμορφώστε
- Μεταμόρφωση
- μεταμορφωτικός
- μετασχηματίζεται
- προσπαθώ
- δύο
- τύποι
- τελικά
- καταλαβαίνω
- κατανόηση
- αναμφίβολα
- ξεκλειδώσετε
- ξεκλειδώματος
- Ενημέρωση
- αναβάθμισης
- us
- Χρήση
- χρήση
- μεταχειρισμένος
- Χρήστες
- χρησιμοποιεί
- χρησιμοποιώντας
- συνήθης
- Αξίες
- ποικιλία
- διάφορα
- πολύ
- ζωτικής σημασίας
- vs
- ήταν
- we
- webp
- καλά καθορισμένη
- ήταν
- Τι
- Τι είναι
- αν
- Ποιό
- ενώ
- θα
- με
- εντός
- λόγια
- Εργασία
- εργαζόμενος
- θα
- εσείς
- Σας
- zephyrnet