Το Cloudflare αφήνει την τεχνητή νοημοσύνη να χάσει την άκρη του δικτύου

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Τα μοντέλα γενετικής τεχνητής νοημοσύνης μπορεί να εκπαιδεύονται σε τεράστιες ομάδες GPU, αλλά το Cloudflare υποστηρίζει ότι το προφανές μέρος για την εκτέλεση τους δεν είναι μόνο στην άκρη αλλά στο ίδιο το δίκτυο.

Την Τετάρτη ο γίγαντας της παράδοσης ανακοίνωσε μια σουίτα υπηρεσιών τεχνητής νοημοσύνης που στοχεύει στην απομάκρυνση της πολυπλοκότητας της ανάπτυξης και της εκτέλεσης μοντέλων μεγάλων γλωσσών (LLM) και άλλων αλγορίθμων μηχανικής μάθησης (ML), επιτυγχάνοντας παράλληλα τη χαμηλότερη δυνατή καθυστέρηση.

Λοιπόν, στην πραγματικότητα, η χαμηλότερη δυνατή καθυστέρηση θα επιτυγχανόταν με την εκτέλεση του φόρτου εργασίας εξαγωγής συμπερασμάτων στη συσκευή του χρήστη. Η Intel έκανε πολλά για αυτό, touting την άνοδο της γενιάς AI PC, την περασμένη εβδομάδα στο Intel Innovation. Ωστόσο, ενώ αυτό μπορεί να έχει νόημα σε ορισμένες περιπτώσεις, το Cloudflare υποστηρίζει ότι οι τοπικές συσκευές δεν είναι ακόμη αρκετά ισχυρές.

«Αυτό κάνει το δίκτυο το χρυσό κλειδί του συμπερασματικού. Όχι πολύ μακριά, με επαρκή υπολογιστική ισχύ — ακριβώς σωστά», γράφει η biz.

Χωρίς διακομιστή για GPU

Η σουίτα AI περιλαμβάνει τρεις βασικές υπηρεσίες. Το πρώτο από αυτά είναι μια επέκταση της πλατφόρμας Workers χωρίς διακομιστή για την υποστήριξη φόρτου εργασίας με επιτάχυνση GPU. Με την επωνυμία Workers AI, η υπηρεσία έχει σχεδιαστεί για να απλοποιήσει τη διαδικασία ανάπτυξης προεκπαιδευμένων μοντέλων.

«Καμία τεχνογνωσία μηχανικής εκμάθησης, χωρίς ψάξιμο για GPU. Απλώς επιλέξτε ένα από τα παρεχόμενα μοντέλα και πηγαίνετε», ισχυρίζεται η Cloudflare.

Μας είπαν ότι η πλατφόρμα τρέχει πάνω από τις GPU της Nvidia, αν και το Cloudflare δεν μας έλεγε ποιες. «Η τεχνολογία που έχει κατασκευάσει το Cloudflare μπορεί να χωρίσει μια εργασία συμπερασμάτων σε πολλές διαφορετικές GPU, επειδή φροντίζουμε τον προγραμματισμό και το σύστημα και θα αποφασίσουμε ποιο τσιπ ή τσιπ είναι πιο λογικό να το παραδώσει», είπε. Το μητρώο σε μια δήλωση.

Για λόγους απλότητας, η πλατφόρμα δεν υποστηρίζει —τουλάχιστον όχι αρχικά— μοντέλα που παρέχονται από τους πελάτες. Μας είπαν ότι σχεδιάζει να το διαθέσει λειτουργικά στο μέλλον, αλλά, προς το παρόν, περιορίζεται σε έξι προεκπαιδευμένα μοντέλα, τα οποία περιλαμβάνουν:

Το Meta's Llama 2 7B Int8 για δημιουργία κειμένου
Το M2m100-1.2 της Meta για μετάφραση
Whisper του OpenAI για αναγνώριση ομιλίας
Hugging Face's Distilbert-sst-2-int8 για ταξινόμηση κειμένου
Το Resnet-50 της Microsoft για ταξινόμηση εικόνων
Το bge-base-en-v1.5 του Baai για ενσωματώσεις

Ωστόσο, η Cloudflare λέει ότι εργάζεται για να επεκτείνει αυτήν τη λίστα στο εγγύς μέλλον. Όπως πολλοί υποψήφιοι για τεχνητή νοημοσύνη, έχει παρακαλούνται τη βοήθεια του Hugging Face για τη βελτιστοποίηση πρόσθετων μοντέλων για την υπηρεσία.

Δεν είναι σαφές εάν υπάρχει όριο στο μέγεθος των μοντέλων που μπορεί να υποστηρίξει η πλατφόρμα, αλλά η αρχική λίστα προσφέρει ορισμένες ενδείξεις. Το Cloudflare καθιστά διαθέσιμη την παράμετρο Llama 2 LLM των επτά δισεκατομμυρίων της Meta που εκτελείται στο Int8, κάτι που θα απαιτούσε περίπου 7 GB μνήμης GPU. Η εταιρεία σημειώνει επίσης ότι «αν θέλετε να εκτελέσετε εκδόσεις μοντέλων εκατοντάδων δισεκατομμυρίων παραμέτρων, το κεντρικό cloud θα είναι καλύτερα κατάλληλο για τον φόρτο εργασίας σας».

Μόλις τεθεί σε λειτουργία, το Cloudflare λέει ότι οι πελάτες μπορούν να ενσωματώσουν την υπηρεσία στις εφαρμογές τους χρησιμοποιώντας REST API ή συνδέοντάς την στο frontend του ιστότοπού τους Pages.

Βάζοντας όλα μαζί

Επειδή το Workers AI υποστηρίζει εξαγωγή συμπερασμάτων μόνο σε προεκπαιδευμένα μοντέλα, η Cloudflare λέει ότι έχει αναπτύξει μια υπηρεσία διανυσματικής βάσης δεδομένων που ονομάζεται Vectorize για να διευκολύνει τα μοντέλα ML να μεταβιβάζουν δεδομένα πελατών στους χρήστες

Για παράδειγμα, για ένα chatbot, ένας πελάτης μπορεί να ανεβάσει τον κατάλογο προϊόντων του στη διανυσματική βάση δεδομένων, από την οποία το μοντέλο θα τον μετατρέψει σε ένα ενσωματωμένο στοιχείο.

Η ιδέα φαίνεται να είναι ότι, ενώ το μοντέλο Llama 2 που προσφέρεται από το Cloudflare μπορεί να μην έχει συγκεκριμένες γνώσεις για τα δεδομένα ενός πελάτη, το chatbot μπορεί ακόμα να εμφανίσει σχετικές πληροφορίες συνδέοντας στην υπηρεσία βάσης δεδομένων. Σύμφωνα με το Cloudflare, αυτή η προσέγγιση κάνει συμπερασματικά πιο προσιτά, γρηγορότερα και λιγότερο απαιτητικά σε πόρους, επειδή αποσυνδέει τα δεδομένα πελατών από το ίδιο το μοντέλο.

Παράλληλα με το Workers AI και το Vectorize, η σουίτα AI του Cloudflare περιλαμβάνει επίσης μια πλατφόρμα για παρακολούθηση, βελτιστοποίηση και διαχείριση φόρτου εργασίας εξαγωγής συμπερασμάτων σε κλίμακα.

Με την ονομασία AI Gateway, η υπηρεσία εφαρμόζει διάφορες λειτουργίες που συνήθως σχετίζονται με δίκτυα παράδοσης περιεχομένου και διακομιστές μεσολάβησης ιστού, όπως η προσωρινή αποθήκευση και ο περιορισμός ρυθμού, στην εξαγωγή συμπερασμάτων AI, προκειμένου να βοηθήσει τους πελάτες να ελέγξουν το κόστος.

«Με την προσωρινή αποθήκευση απαντήσεων τεχνητής νοημοσύνης που χρησιμοποιούνται συχνά, μειώνει τον λανθάνοντα χρόνο και ενισχύει την αξιοπιστία του συστήματος, ενώ ο περιορισμός ρυθμού εξασφαλίζει αποτελεσματική κατανομή πόρων, μετριάζοντας τις προκλήσεις του σπειροειδούς κόστους τεχνητής νοημοσύνης», εξηγεί η εταιρεία στην ανάρτηση ιστολογίου.

Τιμές και διαθεσιμότητα

Το Cloudflare σημειώνει ότι η υπηρεσία βρίσκεται ακόμα στα αρχικά στάδια ανάπτυξης, με επτά ιστότοπους σε απευθείας σύνδεση σήμερα. Ωστόσο, η εταιρεία αναπτύσσει GPU για να φέρει την υπηρεσία σε 100 σημεία παρουσίας μέχρι το τέλος του έτους και «σχεδόν παντού» μέχρι το τέλος του 2024.

Ως αποτέλεσμα αυτού, δεν συνιστά ακόμα την ανάπτυξη εφαρμογών παραγωγής στο Workers AI, περιγράφοντάς το ως "πρώιμη beta".

«Αυτό που κυκλοφόρησε σήμερα είναι απλώς μια μικρή προεπισκόπηση για να σας δώσουμε μια γεύση του τι έρχεται», αναφέρει η ανάρτηση ιστολογίου.

Ως συνήθως, το Cloudflare λέει ότι δεν θα χρεωθεί για την υπηρεσία την πρώτη ημέρα. Με αυτά τα λόγια, αναμένει να χρεώνει περίπου ένα σεντ για κάθε χίλιους «κανονικούς νευρώνες συστολής» και 0.125 $ για κάθε χίλιους «νευρώνες ταχείας συστολής». Η διαφορά μεταξύ των δύο είναι ότι ο τελευταίος δίνει προτεραιότητα στην εγγύτητα στον τελικό χρήστη, ενώ το λιγότερο ακριβό από τα δύο εκτελείται οπουδήποτε το Cloudflare έχει υπερβολική χωρητικότητα.

Οι νευρώνες είναι ένας τρόπος μέτρησης της εξόδου AI, εξήγησε η εταιρεία, προσθέτοντας ότι χίλιοι νευρώνες είναι καλοί για περίπου 130 αποκρίσεις LLM, 830 ταξινομήσεις εικόνων ή 1,250 ενσωματώσεις ®.