חוסן ממלא תפקיד מרכזי בפיתוח של כל עומס עבודה, וכן AI ייצור עומסי העבודה אינם שונים. ישנם שיקולים ייחודיים בעת הנדסת עומסי עבודה בינה מלאכותית באמצעות עדשת חוסן. הבנה ותעדוף של חוסן חיוניים לעומסי עבודה של בינה מלאכותית כדי לעמוד בדרישות זמינות ארגונית והמשכיות עסקית. בפוסט זה, אנו דנים בערימות השונות של עומס עבודה AI יצירתי ומה השיקולים הללו צריכים להיות.
AI מחולל מחסנית מלאה
למרות שהרבה מההתרגשות סביב AI גנרטיבי מתמקדת במודלים, פתרון מלא כולל אנשים, מיומנויות וכלים מכמה תחומים. שקול את התמונה הבאה, שהיא תצוגת AWS של ערימת האפליקציות המתהווה a16z עבור מודלים של שפה גדולה (LLMs).
בהשוואה לפתרון מסורתי יותר שנבנה סביב בינה מלאכותית ולמידת מכונה (ML), פתרון בינה מלאכותית גנרטיבית כוללת כעת את הדברים הבאים:
- תפקידים חדשים - אתה צריך לשקול מכווני דגמים כמו גם בוני דגמים ומשלבי דגמים
- כלים חדשים - ערימת ה-MLOps המסורתית אינה משתרעת על מנת לכסות את סוג המעקב או צפיות הניסויים הנחוצים להנדסה מיידית או סוכנים המעוררים כלים לאינטראקציה עם מערכות אחרות
נימוק הסוכן
שלא כמו מודלים מסורתיים של AI, Retrieval Augmented Generation (RAG) מאפשר לקבל תגובות מדויקות יותר ורלוונטיות להקשר על ידי שילוב מקורות ידע חיצוניים. להלן כמה שיקולים בעת שימוש ב- RAG:
- הגדרת זמני זמן מתאימים חשובה לחוויית הלקוח. שום דבר לא אומר חווית משתמש גרועה יותר מאשר להיות באמצע צ'אט ולהתנתק.
- הקפד לאמת נתוני קלט הנחיה וגודל קלט הנחיה עבור מגבלות תווים שהוקצו המוגדרות על ידי המודל שלך.
- אם אתה מבצע הנדסה מהירה, עליך להתמיד בהנחיות שלך למאגר נתונים אמין. זה ישמור על ההנחיות שלך במקרה של אובדן מקרי או כחלק מאסטרטגיית ההתאוששות שלך מאסון.
צינורות נתונים
במקרים שבהם אתה צריך לספק נתונים הקשריים למודל הבסיס באמצעות דפוס RAG, אתה צריך צינור נתונים שיכול להטמיע את נתוני המקור, להמיר אותם לוקטורים הטבעה ולאחסן את הוקטורים ההטמעים במסד נתונים וקטור. צינור זה יכול להיות צינור אצווה אם אתה מכין נתונים הקשריים מראש, או צינור עם אחזור נמוך אם אתה משלב נתונים הקשריים חדשים תוך כדי תנועה. במקרה האצווה, ישנם כמה אתגרים בהשוואה לצינורות נתונים טיפוסיים.
מקורות הנתונים עשויים להיות מסמכי PDF על מערכת קבצים, נתונים ממערכת תוכנה כשירות (SaaS) כמו כלי CRM, או נתונים מ-wiki או מבסיס ידע קיים. הטמעה ממקורות אלה שונה ממקורות נתונים טיפוסיים כמו נתוני יומן ב-an שירות אחסון פשוט של אמזון (Amazon S3) דלי או נתונים מובנים ממסד נתונים יחסי. רמת ההקבלה שאתה יכול להשיג עשויה להיות מוגבלת על ידי מערכת המקור, אז אתה צריך לקחת בחשבון את המצערת ולהשתמש בטכניקות גיבוי. חלק ממערכות המקור עשויות להיות שבירות, לכן עליך לבנות טיפול בשגיאות ולנסות לוגיקה חוזרת.
מודל ההטמעה יכול להוות צוואר בקבוק בביצועים, ללא קשר אם אתה מפעיל אותו באופן מקומי בצנרת או קורא למודל חיצוני. דגמי הטבעה הם דגמי יסוד הפועלים על מעבדי GPU ואין להם קיבולת בלתי מוגבלת. אם המודל פועל באופן מקומי, עליך להקצות עבודה על סמך קיבולת GPU. אם הדגם פועל חיצונית, עליך לוודא שאינך מרווה את הדגם החיצוני. בכל מקרה, רמת המקביליות שתוכל להשיג תוכתב על ידי מודל ההטמעה ולא על ידי כמות המעבד וה-RAM הזמינים לך במערכת עיבוד האצווה.
במקרה של חביון נמוך, עליך לקחת בחשבון את הזמן שלוקח ליצירת וקטורי הטבעה. היישום המתקשר צריך להפעיל את הצינור באופן אסינכרוני.
מסדי נתונים וקטוריים
למסד נתונים וקטור יש שתי פונקציות: לאחסן וקטורים להטמע, ולהריץ חיפוש דמיון כדי למצוא את הקרוב ביותר k מתאים לוקטור חדש. ישנם שלושה סוגים כלליים של מסדי נתונים וקטוריים:
- אפשרויות SaaS ייעודיות כמו Pinecone.
- תכונות מסד נתונים וקטוריות מובנות בשירותים אחרים. זה כולל שירותי AWS מקוריים כמו שירות חיפוש פתוח של אמזון ו אמזון אורורה.
- אפשרויות בזיכרון שיכולות לשמש עבור נתונים חולפים בתרחישים עם אחזור נמוך.
אנחנו לא מכסים את יכולות חיפוש הדמיון בפירוט בפוסט זה. למרות שהם חשובים, הם מהווים היבט פונקציונלי של המערכת ואינם משפיעים ישירות על החוסן. במקום זאת, אנו מתמקדים בהיבטי החוסן של מסד נתונים וקטורי כמערכת אחסון:
- חֶבִיוֹן – האם מסד הנתונים הווקטוריים יכול להתפקד היטב מול עומס גבוה או בלתי צפוי? אם לא, האפליקציה המתקשרת צריכה לטפל בהגבלת תעריפים ובחזרה ולנסות שוב.
- בקרת מערכות ותקשורת - כמה וקטורים המערכת יכולה להחזיק? אם אתה חורג מהקיבולת של מסד הנתונים הווקטוריים, תצטרך לבחון ריסוק או פתרונות אחרים.
- זמינות גבוהה והתאוששות מאסון - הטבעת וקטורים הם נתונים יקרי ערך, ויצירתם מחדש עשויה להיות יקרה. האם מסד הנתונים הוקטורים שלך זמין מאוד באזור AWS יחיד? האם יש לו את היכולת לשכפל נתונים לאזור אחר למטרות התאוששות מאסון?
שכבת יישום
ישנם שלושה שיקולים ייחודיים עבור רובד היישום בעת שילוב פתרונות AI גנרטיביים:
- זמן אחזור פוטנציאלי גבוה - דגמי יסוד פועלים לרוב על מופעי GPU גדולים ועשויים להיות בעלי קיבולת סופית. הקפד להשתמש בשיטות מומלצות להגבלת תעריפים, השבתה וניסיון חוזר והורדת עומסים. השתמש בעיצובים אסינכרוניים כדי שהשהייה גבוהה לא תפריע לממשק הראשי של היישום.
- תנוחת אבטחה – אם אתה משתמש בסוכנים, כלים, תוספים או שיטות אחרות לחיבור דגם למערכות אחרות, שימו לב במיוחד לתנוחת האבטחה שלכם. מודלים עשויים לנסות ליצור אינטראקציה עם מערכות אלו בדרכים בלתי צפויות. פעל לפי הנוהג הרגיל של גישה בעלת הרשאות מינימליות, למשל הגבלת הודעות נכנסות ממערכות אחרות.
- מסגרות המתפתחות במהירות – מסגרות קוד פתוח כמו LangChain מתפתחות במהירות. השתמש בגישת microservices כדי לבודד רכיבים אחרים מהמסגרות הפחות בוגרות אלה.
קיבולת
אנו יכולים לחשוב על קיבולת בשני הקשרים: מסקנות וצינורות נתונים של מודל אימון. יכולת היא שיקול כאשר ארגונים בונים צינורות משלהם. דרישות מעבד וזיכרון הן שתיים מהדרישות הגדולות ביותר בעת בחירת מופעים להפעלת עומסי העבודה שלך.
מופעים שיכולים לתמוך בעומסי עבודה גנרטיביים של AI יכולים להיות קשים יותר להשגה מאשר סוג המופע הממוצע למטרות כלליות. גמישות מופע יכולה לעזור בתכנון קיבולת וקיבולת. תלוי באיזה אזור AWS אתה מפעיל את עומס העבודה שלך, סוגי מופעים שונים זמינים.
עבור מסעות המשתמשים הקריטיים, ארגונים ירצו לשקול הזמנה או הקצאת מופעים מראש כדי להבטיח זמינות בעת הצורך. דפוס זה משיג ארכיטקטורה יציבה סטטית, שהיא פרקטיקה מומלצת של גמישות. למידע נוסף על יציבות סטטית בעמוד האמינות של AWS Well-Architected Framework, עיין ב השתמש ביציבות סטטית כדי למנוע התנהגות בי-מודאלית.
נצפות
מלבד מדדי המשאבים שאתה אוסף בדרך כלל, כמו ניצול מעבד וזיכרון RAM, עליך לעקוב מקרוב אחר ניצול ה-GPU אם אתה מארח דגם ב- אמזון SageMaker or ענן מחשוב אלסטי של אמזון (אמזון EC2). ניצול ה-GPU יכול להשתנות באופן בלתי צפוי אם מודל הבסיס או נתוני הקלט משתנים, וגמר זיכרון ה-GPU עלול להכניס את המערכת למצב לא יציב.
גבוה יותר בערימה, תרצו גם לעקוב אחר זרימת השיחות דרך המערכת, וללכוד את האינטראקציות בין סוכנים וכלים. מכיוון שהממשק בין סוכנים וכלים מוגדר פחות רשמית מאשר חוזה API, עליך לנטר את העקבות הללו לא רק לביצועים אלא גם כדי ללכוד תרחישי שגיאה חדשים. כדי לפקח על המודל או הסוכן לאיתור סיכוני אבטחה ואיומים, אתה יכול להשתמש בכלים כמו משמר אמזון.
עליך גם ללכוד קווי בסיס של הטבעת וקטורים, הנחיות, הקשר ופלט, ואת האינטראקציות ביניהם. אם אלה משתנים עם הזמן, זה עשוי להצביע על כך שמשתמשים משתמשים במערכת בדרכים חדשות, שנתוני ההתייחסות אינם מכסים את מרחב השאלות באותו אופן, או שהפלט של המודל שונה פתאום.
התאוששות מאסון
תוכנית המשכיות עסקית עם אסטרטגיית התאוששות מאסון היא חובה לכל עומס עבודה. עומסי עבודה גנרטיביים של AI אינם שונים. הבנת מצבי הכשל החלים על עומס העבודה שלך תעזור להנחות את האסטרטגיה שלך. אם אתה משתמש בשירותים מנוהלים של AWS עבור עומס העבודה שלך, כגון סלע אמזון ו- SageMaker, ודא שהשירות זמין באזור AWS השחזור שלך. נכון לכתיבת שורות אלה, שירותי AWS אלה אינם תומכים בשכפול נתונים בין אזורי AWS באופן מקורי, כך שאתה צריך לחשוב על אסטרטגיות ניהול הנתונים שלך להתאוששות מאסון, וייתכן שתצטרך לכוונן עדין במספר אזורי AWS.
סיכום
פוסט זה תיאר כיצד לקחת בחשבון את החוסן בעת בניית פתרונות AI גנרטיביים. למרות שלאפליקציות בינה מלאכותית יש כמה ניואנסים מעניינים, דפוסי החוסן והשיטות המומלצות הקיימים עדיין חלים. זה רק עניין של הערכה של כל חלק של יישום AI מחולל ויישום השיטות המומלצות הרלוונטיות.
למידע נוסף על AI גנרטיבי והשימוש בו עם שירותי AWS, עיין במשאבים הבאים:
על הכותבים
ג'ניפר מורן הוא ארכיטקט פתרונות חוסן בכיר ב-AWS שבסיסו בעיר ניו יורק. יש לה רקע מגוון, לאחר שעבדה בדיסציפלינות טכניות רבות, כולל פיתוח תוכנה, מנהיגות זריזה ו-DevOps, והיא תומכת לנשים בטכנולוגיה. היא נהנית לעזור ללקוחות לעצב פתרונות גמישים לשיפור תנוחת החוסן ומדברת בפומבי על כל הנושאים הקשורים לחוסן.
רנדי דפאו הוא אדריכל פתרונות בכיר ב-AWS. הוא בעל תואר MSEE מאוניברסיטת מישיגן, שם עבד על ראייה ממוחשבת עבור כלי רכב אוטונומיים. הוא גם בעל תואר MBA מאוניברסיטת קולורדו סטייט. רנדי מילא מגוון תפקידים בתחום הטכנולוגיה, החל מהנדסת תוכנה ועד לניהול מוצר. הוא נכנס לתחום הביג דאטה ב-2013 וממשיך לחקור את התחום הזה. הוא עובד באופן פעיל על פרויקטים בתחום ה-ML והציג בכנסים רבים, כולל Strata ו-GlueCon.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/designing-generative-ai-workloads-for-resilience/
- :יש ל
- :הוא
- :לֹא
- :איפה
- $ למעלה
- 100
- 2013
- 90
- a
- a16z
- יכולת
- אודות
- גישה
- מקרי
- חֶשְׁבּוֹן
- מדויק
- להשיג
- משיגה
- לרוחב
- באופן פעיל
- לקדם
- עו"ד
- להשפיע על
- נגד
- סוֹכֵן
- סוכנים
- זריז
- AI
- דגמי AI
- תעשיות
- מוּקצֶה
- מאפשר
- גם
- למרות
- אמזון בעברית
- אמזון
- אמזון שירותי אינטרנט
- an
- ו
- אחר
- כל
- API
- האפליקציה
- ישים
- בקשה
- יישומים
- החל
- מריחה
- גישה
- מתאים
- ארכיטקטורה
- ARE
- AREA
- סביב
- AS
- אספקט
- היבטים
- At
- תשומת לב
- מוגבר
- אוטונומי
- כלי רכב אוטונומיים
- זמינות
- זמין
- מְמוּצָע
- AWS
- רקע
- רע
- בסיס
- מבוסס
- BE
- כי
- להיות
- הטוב ביותר
- שיטות עבודה מומלצות
- בֵּין
- גָדוֹל
- נתונים גדולים
- הגדול ביותר
- צַוַאר הַבַּקבּוּק
- לִבנוֹת
- בוני
- בִּניָן
- נבנה
- עסקים
- רציפות עסקית
- אבל
- by
- שיחה
- קוראים
- שיחות
- CAN
- יכולות
- קיבולת
- ללכוד
- לכידה
- מקרה
- מקרים
- האתגרים
- שינוי
- שינויים
- אופי
- צ'אט
- בחירה
- עִיר
- מקרוב
- לגבות
- קולורדו
- לעומת
- להשלים
- רכיבים
- לחשב
- המחשב
- ראייה ממוחשבת
- כנסים
- מקשר
- לשקול
- התחשבות
- שיקולים
- הקשר
- הקשרים
- קשר
- ממשיך
- המשכיות
- חוזה
- להמיר
- יכול
- זוג
- לכסות
- כיסוי
- CPU
- קריטי
- CRM
- מכריע
- לקוח
- חווית לקוח
- לקוחות
- נתונים
- ניהול נתונים
- מסד נתונים
- מאגרי מידע
- מוגדר
- תלוי
- מְתוּאָר
- עיצוב
- תכנון
- עיצובים
- פרט
- צעצועי התפתחות
- דופים
- הכתיב
- אחר
- קשה
- ישירות
- אסון
- דיסציפלינות
- מנותק
- לדון
- שונה
- do
- מסמכים
- עושה
- לא
- תחומים
- לא
- כל אחד
- או
- הטבעה
- מתעורר
- הנדסה
- לְהַבטִיחַ
- נכנס
- שגיאה
- Ether (ETH)
- הערכה
- מתפתח
- דוגמה
- עולה על
- התרגשות
- קיימים
- יקר
- ניסיון
- לְנַסוֹת
- לחקור
- להאריך
- חיצוני
- מבחינה חיצונית
- נוסף
- כשלון
- תכונות
- שלח
- גמישות
- תזרים
- להתמקד
- מתמקד
- לעקוב
- הבא
- בעד
- רשמית
- קרן
- מסגרת
- מסגרות
- החל מ-
- פונקציונלי
- פונקציות
- כללי
- מטרה כללית
- ליצור
- דור
- גנרטטיבית
- AI Generative
- מקבל
- GPU
- GPUs
- מדריך
- לטפל
- טיפול
- יש
- יש
- he
- הוחזק
- לעזור
- עזרה
- גָבוֹהַ
- מאוד
- להחזיק
- מחזיק
- המארח
- איך
- איך
- HTML
- http
- HTTPS
- if
- חשוב
- לשפר
- in
- כולל
- כולל
- נכנס
- שילוב
- להצביע
- מידע
- קלט
- למשל
- מקרים
- במקום
- שילוב
- אינטראקציה
- יחסי גומלין
- מעניין
- מִמְשָׁק
- מפריע
- אל תוך
- כרוך
- IT
- מסעות
- רק
- ידע
- שפה
- גָדוֹל
- חֶבִיוֹן
- מנהיגות
- לִלמוֹד
- למידה
- Lens
- פחות
- רמה
- כמו
- מוגבל
- מגביל
- גבולות
- LLM
- לִטעוֹן
- באופן מקומי
- היכנס
- הגיון
- נראה
- את
- מגרש
- מכונה
- למידת מכונה
- ראשי
- לעשות
- הצליח
- ניהול
- רב
- גפרורים
- דבר
- בוגר
- מאי..
- MBA
- לִפְגוֹשׁ
- זכרון
- שיטות
- מדדים
- מישיגן
- מיקרו
- אמצע
- ML
- MLOps
- מודל
- מודלים
- מצבי
- צג
- יותר
- הרבה
- מספר
- צריך
- יליד
- במקור
- הכרחי
- צורך
- נחוץ
- צרכי
- חדש
- ניו יורק
- ניו יורק
- לא
- נוֹרמָלִי
- שום דבר
- עַכשָׁיו
- ניואנסים
- רב
- להשיג
- of
- לעתים קרובות
- on
- רק
- לפתוח
- קוד פתוח
- אפשרויות
- or
- אִרְגוּנִי
- ארגונים
- אחר
- הַחוּצָה
- תפוקה
- יותר
- מקיף
- שֶׁלוֹ
- חלק
- תבנית
- דפוסי
- תשלום
- אֲנָשִׁים
- לבצע
- ביצועים
- ביצוע
- תמונה
- עַמוּד
- צינור
- מכריע
- תכנית
- תכנון
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- משחק
- תוספים
- עמדות
- הודעה
- תרגול
- פרקטיקות
- להכין
- מוצג
- למנוע
- מנהל
- סדר עדיפויות
- תהליך
- המוצר
- ניהול מוצר
- פרויקטים
- הנחיות
- לספק
- בפומבי
- למטרות
- גם
- שאלה
- סמרטוט
- RAM
- טִוּוּחַ
- מהר
- ציון
- במקום
- התאוששות
- להתייחס
- הפניה
- ללא קשר
- באזור
- אזורים
- קָשׁוּר
- רלוונטי
- אמינות
- אָמִין
- שכפול
- דרישות
- כושר התאוששות
- מִתאוֹשֵׁשׁ מַהֵר
- משאב
- משאבים
- תגובות
- מגביל
- שליפה
- סיכונים
- תפקיד
- הפעלה
- ריצה
- פועל
- SaaS
- בעל חכמים
- אותו
- אומר
- תרחישים
- חיפוש
- חיפוש
- אבטחה
- סיכוני אבטחה
- לחצני מצוקה לפנסיונרים
- שרות
- שירותים
- כמה
- sharding
- היא
- נְשִׁירָה
- צריך
- פָּשׁוּט
- יחיד
- מידה
- מיומנויות
- So
- תוכנה
- תוכנה כשירות
- פיתוח תוכנה
- הנדסת תוכנה
- פִּתָרוֹן
- פתרונות
- כמה
- מָקוֹר
- מקורות
- מֶרחָב
- מדבר
- מומחה
- יציבות
- יציב
- לערום
- ערימות
- מדינה
- עוד
- אחסון
- חנות
- אסטרטגיות
- אִסטרָטֶגִיָה
- מובנה
- כזה
- תמיכה
- בטוח
- מערכת
- מערכות
- לקחת
- לוקח
- טקסונומיה
- טק
- טכני
- טכניקות
- טכנולוגיה
- מֵאֲשֶׁר
- זֶה
- השמיים
- המקור
- שֶׁלָהֶם
- אותם
- שם.
- אלה
- הֵם
- לחשוב
- זֶה
- אלה
- איומים
- שְׁלוֹשָׁה
- דרך
- נִדבָּך
- זמן
- ל
- כלי
- כלים
- נושאים
- להתחקות
- מעקב
- מסורתי
- הדרכה
- לנסות
- שתיים
- סוג
- סוגים
- טיפוסי
- בדרך כלל
- הבנה
- לא צפוי
- ייחודי
- אוניברסיטה
- אוניברסיטת מישיגן
- בלתי מוגבל
- בלתי צפוי
- להשתמש
- מְשׁוּמָשׁ
- משתמש
- חוויית משתמש
- משתמשים
- באמצעות
- לְאַמֵת
- בעל ערך
- מגוון
- כלי רכב
- לצפיה
- חזון
- רוצה
- דֶרֶך..
- דרכים
- we
- אינטרנט
- שירותי אינטרנט
- טוֹב
- מה
- מתי
- אם
- אשר
- יצטרך
- עם
- נשים
- נשים בתחום הטכנולוגיה
- תיק עבודות
- עבד
- עובד
- כתיבה
- york
- אתה
- זפירנט