Cloudflare מאפשר לבינה מלאכותית להשתחרר מקצה הרשת

הועלה מחדש על ידי אפלטון

עוקב: 0

דגמי AI גנרטיביים עשויים להיות מאומנים באשכולות עצומים של GPUs, אבל Cloudflare טוען שהמקום הברור להפעיל אותם הוא לא רק בקצה אלא ברשת עצמה.

ביום רביעי ענקית המשלוחים הודיע חבילה של שירותי בינה מלאכותית שמטרתה להרחיק את המורכבות של פריסה והרצה של מודלים של שפות גדולות (LLMs) ואלגוריתמים אחרים של למידת מכונה (ML), תוך השגת השהיה הנמוכה ביותר האפשרית.

ובכן, למעשה, השהיה הנמוכה ביותר האפשרית תושג על ידי הפעלת עומס העבודה של ההסקת ההסקה על המכשיר של המשתמש. אינטל עשתה עניין גדול בעניין הזה, צופיות עליית דור ה-AI PC, בשבוע שעבר ב-Intel Innovation. אבל למרות שזה עשוי להיות הגיוני במקרים מסוימים, Cloudflare טוען שמכשירים מקומיים עדיין לא מספיק חזקים.

"זה הופך את הרשת לזהב של מסקנות. לא רחוק מדי, עם כוח חישוב מספיק - בדיוק", כותב ה-Biz.

ללא שרת עבור GPUs

חבילת הבינה המלאכותית כוללת שלושה שירותי ליבה. הראשון שבהם הוא הרחבה של פלטפורמת Workers ללא שרתים לתמיכה בעומסי עבודה מואצים של GPU. השירות, שמכונה Workers AI, נועד לייעל את תהליך פריסת המודלים שהוכשרו מראש.

"בלי מומחיות למידת מכונה, בלי חיטוטים אחר מעבדי GPU. פשוט בחר אחד מהדגמים שסופקו ותלך", טוען Cloudflare.

נאמר לנו שהפלטפורמה פועלת על גבי Nvidia GPUs, אם כי Cloudflare לא יגיד לנו אילו מהם. "הטכנולוגיה שבנתה Cloudflare יכולה לפצל משימת מסקנות על פני מספר GPUs שונים, כי אנחנו דואגים לתזמון ולמערכת, ונחליט איזה שבב או שבבים הכי הגיוניים לספק את זה", נכתב. הקופה בהצהרה.

למען הפשטות, הפלטפורמה לא - לפחות לא בהתחלה - תומכת בדגמים שסופקו על ידי הלקוח. נאמר לנו שהיא מתכננת להפיץ את זה באופן פונקציונלי בעתיד, אבל, לעת עתה, זה מוגבל לשישה דגמים מאומנים מראש, הכוללים:

Llama 2 7B Int8 של Meta ליצירת טקסט
ה-M2m100-1.2 של Meta לתרגום
Whisper של OpenAI לזיהוי דיבור
Distilbert-sst-2-int8 של Hugging Face לסיווג טקסט
Resnet-50 של מיקרוסופט לסיווג תמונות
bge-base-en-v1.5 של Baai להטמעות

עם זאת, Cloudflare אומרת שהיא פועלת להרחיב את הרשימה הזו בעתיד הקרוב. כמו רבים מביני הבינה המלאכותית, כך יש שוחרר בעזרת Hugging Face כדי לייעל דגמים נוספים לשירות.

לא ברור אם יש מגבלה לגודל הדגמים שבהם הפלטפורמה יכולה לתמוך, אבל הרשימה הראשונית מציעה כמה רמזים. Cloudflare הופכת את הפרמטר Lama 2 LLM של Meta בן שבעה מיליארדי זמין ב-Int8, מה שידרוש כ-7GB של זיכרון GPU. החברה גם מציינת כי "אם אתה מחפש להפעיל גרסאות של מאה מיליארד פרמטרים של דגמים, הענן המרכזי יתאים יותר לעומס העבודה שלך."

לאחר הפעלתו, Cloudflare אומר שלקוחות יכולים לשלב את השירות באפליקציות שלהם באמצעות ממשקי API של REST או על ידי קשירתו לחזית האתר של Pages שלהם.

לשים את הכל ביחד

מכיוון ש-Workers AI תומך רק בהסקת מסקנות על מודלים שהוכשרו מראש, Cloudflare אומרת שהיא פיתחה שירות מסד נתונים וקטור בשם Vectorize כדי להקל על מודלים של ML להעביר נתוני לקוחות למשתמשים

לדוגמה, עבור צ'אטבוט, לקוח עשוי להעלות את קטלוג המוצרים שלו למסד הנתונים הווקטורי, שממנו המודל ימיר אותו לנכס מוטבע.

נראה שהרעיון הוא שבעוד שלמודל ה-Llama 2 שמציע Cloudflare אין ידע ספציפי בנתונים של לקוח, הצ'אטבוט עדיין יכול להציג מידע רלוונטי על ידי קשירה לשירות מסד הנתונים. לפי Cloudflare, גישה זו עושה הסקת מסקנות נגישה יותר, מהירה יותר ופחות אינטנסיבית במשאבים מכיוון שהיא מנתקת נתוני לקוחות מהמודל עצמו.

לצד Workers AI ו-Vectorize, חבילת הבינה המלאכותית של Cloudflare כוללת גם פלטפורמה לניטור, אופטימיזציה וניהול עומסי עבודה מסקנות בקנה מידה.

השירות מכונה AI Gateway, השירות מיישם מספר תכונות הקשורות בדרך כלל לרשתות אספקת תוכן ופרוקסי אינטרנט, כמו שמירה במטמון והגבלת קצב, על הסקת AI על מנת לעזור ללקוחות לשלוט בעלויות.

"על ידי שמירה במטמון של תגובות בינה מלאכותית בשימוש תכוף, זה מפחית את זמן ההשהיה ומחזק את אמינות המערכת, בעוד הגבלת קצב מבטיחה הקצאת משאבים יעילה, ומפחיתה את האתגרים של עלויות בינה מלאכותית", מסבירה החברה בפוסט בבלוג.

תמחור וזמינות

Cloudflare מציינת כי השירות נמצא עדיין בשלבי פריסה מוקדמים, עם שבעה אתרים מקוונים כיום. עם זאת, החברה פורסת GPUs כדי להביא את השירות ל-100 נקודות נוכחות עד סוף השנה ו"כמעט בכל מקום" עד סוף 2024.

כתוצאה מכך, היא עדיין לא ממליצה לפרוס אפליקציות ייצור ב-Workers AI, ומתארת זאת כ"בטא מוקדמת".

"מה שפרסמנו היום הוא רק תצוגה מקדימה קטנה כדי לתת לכם טעימה ממה שמגיע", נכתב בפוסט בבלוג.

כרגיל, Cloudflare אומרת שהיא לא תחייב את השירות ביום הראשון. עם זאת, היא מצפה לגבות בערך סנט עבור כל אלף "נוירונים עוויתיים רגילים" ו-$0.125 עבור כל אלף "נוירונים עווית מהירים". ההבדל בין השניים הוא שהאחרון נותן עדיפות לקרבה למשתמש הקצה, בעוד שהפחות יקר מבין השניים פועל בכל מקום שבו יש ל-Cloudflare קיבולת עודפת.

נוירונים הם דרך למדוד תפוקת AI, הסבירה החברה, והוסיפה כי אלף נוירונים טובים לכ-130 תגובות LLM, 830 סיווגי תמונות או 1,250 הטמעות ®.