השתמש ב-Amazon DocumentDB כדי לבנות פתרונות למידת מכונה ללא קוד ב-Amazon SageMaker Canvas | שירותי האינטרנט של אמזון

השתמש ב-Amazon DocumentDB כדי לבנות פתרונות למידת מכונה ללא קוד ב-Amazon SageMaker Canvas | שירותי האינטרנט של אמזון

צומת המקור: 3020313

אנו נרגשים להכריז על השקת Amazon DocumentDB (עם תאימות MongoDB) אינטגרציה עם אמזון SageMaker Canvas, המאפשר ללקוחות Amazon DocumentDB לבנות ולהשתמש בפתרונות בינה מלאכותית ולמידת מכונה (ML) בלי לכתוב קוד. Amazon DocumentDB הוא מסד נתונים מקורי של JSON מנוהל במלואו, שהופך אותו לפשוט וחסכוני להפעיל עומסי עבודה קריטיים של מסמכים כמעט בכל קנה מידה ללא ניהול תשתית. Amazon SageMaker Canvas הוא סביבת עבודה ML ללא קוד המציעה מודלים מוכנים לשימוש, כולל מודלים בסיסיים, ויכולת להכין נתונים ולבנות ולפרוס מודלים מותאמים אישית.

בפוסט זה, אנו דנים כיצד להביא נתונים המאוחסנים באמזון DocumentDB לתוך SageMaker Canvas ולהשתמש בנתונים אלה כדי לבנות מודלים של ML לניתוח חזוי. מבלי ליצור ולתחזק צינורות נתונים, תוכל להפעיל מודלים של ML עם הנתונים הלא מובנים שלך המאוחסנים ב- Amazon DocumentDB.

סקירת פתרונות

בואו ניקח את התפקיד של אנליסט עסקי עבור חברת משלוחי מזון. האפליקציה לנייד שלך מאחסנת מידע על מסעדות באמזון DocumentDB בגלל המדרגיות ויכולות הסכימה הגמישות שלה. אתה רוצה לאסוף תובנות על הנתונים האלה ולבנות מודל ML כדי לחזות כיצד מסעדות חדשות ידורגו, אבל מוצאים את זה מאתגר לבצע ניתוח נתונים לא מובנים. אתה נתקל בצווארי בקבוק מכיוון שאתה צריך להסתמך על צוותי הנדסת נתונים ומדעי נתונים כדי להשיג את המטרות הללו.

האינטגרציה החדשה הזו פותרת את הבעיות הללו על ידי כך שזה פשוט להכניס נתונים של אמזון DocumentDB לתוך SageMaker Canvas ולהתחיל מיד להכין ולנתח נתונים עבור ML. בנוסף, SageMaker Canvas מסיר את התלות במומחיות ML כדי לבנות מודלים באיכות גבוהה וליצור תחזיות.

אנו מדגימים כיצד להשתמש בנתוני Amazon DocumentDB כדי לבנות מודלים של ML ב- SageMaker Canvas בשלבים הבאים:

  1. צור מחבר Amazon DocumentDB ב- SageMaker Canvas.
  2. ניתוח נתונים באמצעות AI גנרטיבי.
  3. הכן נתונים ללמידת מכונה.
  4. בנה מודל והפק תחזיות.

תנאים מוקדמים

כדי ליישם פתרון זה, השלם את התנאים המוקדמים הבאים:

  1. יש גישה למנהל מערכת של AWS Cloud עם א AWS זהות וניהול גישה (אני) המשתמש עם הרשאות הנדרשות להשלמת השילוב.
  2. השלם את הגדרת הסביבה באמצעות AWS CloudFormation דרך אחת מהאפשרויות הבאות:
    1. פרוס תבנית CloudFormation לתוך VPC חדש - אפשרות זו בונה סביבת AWS חדשה המורכבת מה-VPC, רשתות משנה פרטיות, קבוצות אבטחה, תפקידי ביצוע של IAM, אמזון ענן9, נקודות קצה נדרשות של VPC, ו תחום SageMaker. לאחר מכן הוא פורס את Amazon DocumentDB לתוך ה-VPC החדש הזה. הורד את תבנית או הפעל במהירות את ערימת CloudFormation על ידי בחירה השקת ערימה:
      הפעל את ערימת CloudFormation
    2. פרוס תבנית CloudFormation ב-VPC קיים – אפשרות זו יוצרת את נקודות הקצה הנדרשות של VPC, תפקידי ביצוע של IAM ותחום SageMaker ב-VPC קיים עם רשתות משנה פרטיות. הורד את תבנית או הפעל במהירות את ערימת CloudFormation על ידי בחירה השקת ערימה:
      הפעל את ערימת CloudFormation

שים לב שאם אתה יוצר דומיין חדש של SageMaker, עליך להגדיר את הדומיין להיות ב-VPC פרטי ללא גישה לאינטרנט כדי שתוכל להוסיף את המחבר לאמזון DocumentDB. למידע נוסף, עיין ב הגדר את Amazon SageMaker Canvas ב-VPC ללא גישה לאינטרנט.

  1. עקוב הדרכה כדי לטעון נתוני מסעדות לדוגמה לתוך Amazon DocumentDB.
  2. הוסף גישה ל- Amazon Bedrock ולדגם האנתרופי של קלוד בתוכו. למידע נוסף, ראה הוסף גישה לדגם.

צור מחבר Amazon DocumentDB ב- SageMaker Canvas

לאחר יצירת הדומיין של SageMaker, בצע את השלבים הבאים:

  1. במסוף אמזון DocumentDB, בחר למידת מכונה ללא קוד בחלונית הניווט.
  2. תַחַת בחר דומיין ופרופיל¸ בחר את דומיין SageMaker ואת פרופיל המשתמש שלך.
  3. בחרו הפעל את Canvas כדי להשיק את SageMaker Canvas בכרטיסייה חדשה.

כאשר SageMaker Canvas מסיים לטעון, אתה תנחת על זרימת נתונים TAB.

  1. בחרו צור כדי ליצור זרימת נתונים חדשה.
  2. הזן שם עבור זרימת הנתונים שלך ובחר צור.
  3. הוסף חיבור חדש של Amazon DocumentDB על ידי בחירה ייבא נתונים, ואז לבחור טבלאי ל סוג מערך הנתונים.
  4. על ייבא נתונים עמוד, עבור מקור מידע, בחר DocumentDB ו הוסף חיבור.
  5. הזן שם חיבור כגון הדגמה ובחר באשכול ה-Amazon DocumentDB הרצוי.

שים לב ש- SageMaker Canvas יאכלס מראש את התפריט הנפתח עם אשכולות באותו VPC כמו תחום SageMaker שלך.

  1. הזן שם משתמש, סיסמה ושם מסד נתונים.
  2. לבסוף, בחר את העדפת הקריאה שלך.

כדי להגן על הביצועים של מופעים ראשיים, SageMaker Canvas כברירת מחדל המשני, כלומר הוא יקרא רק ממופעים משניים. כאשר העדפת קריאה היא עדיפות משנית, SageMaker Canvas קורא ממופעים משניים זמינים, אך יקרא מהמופע הראשי אם מופע משני אינו זמין. למידע נוסף על אופן התצורה של חיבור אמזון DocumentDB, עיין ב התחבר למסד נתונים המאוחסן ב-AWS.

  1. בחרו הוסף חיבור.

אם החיבור הצליח, תראה אוספים במסד הנתונים של Amazon DocumentDB שלך מוצגים כטבלאות.

  1. גרור את הטבלה הרצויה שלך אל הקנבס הריק. עבור פוסט זה, אנו מוסיפים את נתוני המסעדות שלנו.

100 השורות הראשונות מוצגות כתצוגה מקדימה.

  1. כדי להתחיל לנתח ולהכין את הנתונים שלך, בחר ייבא נתונים.
  2. הזן שם מערך נתונים ובחר ייבא נתונים.

ניתוח נתונים באמצעות AI גנרטיבי

לאחר מכן, אנו רוצים לקבל כמה תובנות על הנתונים שלנו ולחפש דפוסים. SageMaker Canvas מספק ממשק שפה טבעית לניתוח והכנת נתונים. כאשר נתונים הכרטיסייה נטענת, אתה יכול להתחיל לשוחח בצ'אט עם הנתונים שלך עם השלבים הבאים:

  1. בחרו צ'אט להכנת נתונים.
  2. אסוף תובנות לגבי הנתונים שלך על ידי שאילת שאלות כמו הדוגמאות המוצגות בצילומי המסך הבאים.

למידע נוסף על אופן השימוש בשפה טבעית כדי לחקור ולהכין נתונים, עיין ב השתמש בשפה טבעית כדי לחקור ולהכין נתונים עם יכולת חדשה של Amazon SageMaker Canvas.

בואו לקבל תחושה עמוקה יותר של איכות הנתונים שלנו על ידי שימוש בדוח איכות הנתונים והתובנות של SageMaker Canvas, אשר מעריך אוטומטית את איכות הנתונים ומזהה חריגות.

  1. על מנתח בחר, בחר דוח איכות נתונים ותובנות.
  2. בחרו rating כעמודת היעד ו נסיגה כסוג הבעיה ולאחר מכן בחר צור.

זה ידמה אימון מודלים ויספק תובנות כיצד נוכל לשפר את הנתונים שלנו ללמידת מכונה. הדוח המלא מופק תוך מספר דקות.

הדוח שלנו מראה של-2.47% מהשורות ביעד שלנו יש ערכים חסרים - נתייחס לזה בשלב הבא. בנוסף, הניתוח מראה כי address line 2, name, ו type_of_food לתכונות יש את עוצמת החיזוי הגדולה ביותר בנתונים שלנו. זה מצביע על כך שלמידע בסיסי על המסעדה כמו מיקום ומטבח עשויה להיות השפעה גדולה על הדירוגים.

הכן נתונים ללמידת מכונה

SageMaker Canvas מציע יותר מ-300 טרנספורמציות מובנות להכנת הנתונים המיובאים שלך. למידע נוסף על תכונות הטרנספורמציה של SageMaker Canvas, עיין ב הכן נתונים עם טרנספורמציות מתקדמות. בואו נוסיף כמה טרנספורמציות כדי להכין את הנתונים שלנו לאימון מודל ML.

  1. נווט חזרה אל זרימת נתונים דף על ידי בחירת השם של זרימת הנתונים שלך בראש הדף.
  2. בחר את סימן הפלוס שליד סוגי מידע ולבחור הוסף טרנספורמציה.
  3. בחרו הוסף שלב.
  4. בואו נשנה את שם ה address line 2 טור אל cities.
    1. בחרו נהל עמודות.
    2. בחרו שנה את שם העמודה ל לשנות.
    3. בחרו address line 2 ל עמודת קלט, להיכנס cities ל שם חדש, ולבחור להוסיף.
  5. בנוסף, בואו נשאיר כמה עמודות מיותרות.
    1. הוסף טרנספורמציה חדשה.
    2. בעד לשנות, בחר זרוק טור.
    3. בעד עמודות להורדה, בחר URL ו restaurant_id.
    4. בחרו להוסיף.
      [
  6. את העתיד rating בעמודת התכונות חסרים כמה ערכים, אז בואו נמלא את השורות האלה בערך הממוצע של העמודה הזו.
    1. הוסף טרנספורמציה חדשה.
    2. בעד לשנות, בחר זקוף.
    3. בעד סוג עמודה, בחר מספרי.
    4. בעד עמודות קלט, בחר את rating עמודה.
    5. בעד אסטרטגיית זקיפה, בחר ממוצע.
    6. בעד עמודת פלט, להיכנס rating_avg_filled.
    7. בחרו להוסיף.
  7. אנחנו יכולים להפיל את rating עמודה כי יש לנו עמודה חדשה עם ערכים מלאים.
  8. כי type_of_food הוא קטגורי באופיו, נרצה לקודד אותו מספרית. בוא נקודד תכונה זו באמצעות טכניקת הקידוד החם אחד.
    1. הוסף טרנספורמציה חדשה.
    2. בעד לשנות, בחר קידוד חם אחד.
    3. עבור עמודות קלט, בחר type_of_food.
    4. בעד אסטרטגיית טיפול לא חוקיתבחר שמור.
    5. בעד סגנון פלטבחר עמודות.
    6. בעד עמודת פלט, להיכנס encoded.
    7. בחרו להוסיף.

בנה מודל והפק תחזיות

כעת, לאחר ששינינו את הנתונים שלנו, בואו נאמן מודל ML מספרי לחזות את הדירוגים של מסעדות.

  1. בחרו צור מודל.
  2. בעד שם ערכת נתונים, הזן שם לייצוא מערך הנתונים.
  3. בחרו יצוא והמתן לייצוא הנתונים שעברו שינוי.
  4. בחר את צור מודל קישור בפינה השמאלית התחתונה של העמוד.

אתה יכול גם לבחור את מערך הנתונים מהתכונה Data Wrangler בצד שמאל של הדף.

  1. הזן שם דגם.
  2. בחרו ניתוח חיזוי, ואז לבחור צור.
  3. בחרו rating_avg_filled בתור עמודת היעד.

SageMaker Canvas בוחר אוטומטית סוג דגם מתאים.

  1. בחרו דגם תצוגה מקדימה כדי להבטיח שאין בעיות באיכות הנתונים.
  2. בחרו בנייה מהירה לבנות את המודל.

יצירת הדגם תימשך כ-2-15 דקות.

אתה יכול לראות את מצב הדגם לאחר שהדגם מסיים את האימון. למודל שלנו יש RSME של 0.422, כלומר המודל מנבא לעתים קרובות דירוג של מסעדה בתוך +/- 0.422 מהערך האמיתי, קירוב מוצק לסולם הדירוג של 1-6.

  1. לבסוף, אתה יכול ליצור תחזיות לדוגמה על ידי ניווט אל לחזות TAB.

לנקות את

כדי להימנע מחיובים עתידיים, מחק את המשאבים שיצרת תוך כדי מעקב אחר פוסט זה. SageMaker Canvas מחייב אותך למשך ההפעלה, ואנו ממליצים לצאת מ- SageMaker Canvas כאשר אינך משתמש בו. מתייחס יציאה מאמזון SageMaker Canvas לקבלת פרטים נוספים.

סיכום

בפוסט זה, דנו כיצד ניתן להשתמש ב- SageMaker Canvas עבור AI ו-ML גנרטיביים עם נתונים המאוחסנים ב- Amazon DocumentDB. בדוגמה שלנו, הראינו כיצד אנליסט יכול לבנות במהירות מודל ML באיכות גבוהה באמצעות מערך נתונים לדוגמה של מסעדה.

הראנו את השלבים ליישום הפתרון, מייבוא ​​נתונים מאמזון DocumentDB ועד לבניית מודל ML ב- SageMaker Canvas. התהליך כולו הושלם באמצעות ממשק ויזואלי מבלי לכתוב שורת קוד אחת.

כדי להתחיל במסע ML עם קוד נמוך/ללא קוד, עיין ב אמזון SageMaker Canvas.


על המחברים

אדלק קוקר הוא אדריכל פתרונות גלובלי עם AWS. הוא עובד עם לקוחות ברחבי העולם כדי לספק הדרכה וסיוע טכני בפריסת עומסי ייצור בקנה מידה ב-AWS. בזמנו הפנוי הוא נהנה ללמוד, לקרוא, לשחק ולצפות באירועי ספורט.

Gururaj S Bayari הוא אדריכל בכיר בפתרונות פתרונות DocumentDB ב-AWS. הוא נהנה לעזור ללקוחות לאמץ את מסדי הנתונים הייעודיים של אמזון. הוא עוזר ללקוחות לעצב, להעריך ולבצע אופטימיזציה של קנה המידה האינטרנטי שלהם ועומסי עבודה בעלי ביצועים גבוהים המופעלים על ידי NoSQL ו/או מסדי נתונים יחסיים.

טים פוסאטרי הוא מנהל מוצר בכיר ב-AWS שם הוא עובד על Amazon SageMaker Canvas. המטרה שלו היא לעזור ללקוחות להפיק במהירות ערך מ-AI/ML. מחוץ לעבודה, הוא אוהב להיות בחוץ, לנגן בגיטרה, לראות מוזיקה חיה ולבלות עם משפחה וחברים.

פראטיק דאס הוא מנהל מוצר ב-AWS. הוא נהנה לעבוד עם לקוחות המעוניינים לבנות עומסי עבודה עמידים ויסודות נתונים חזקים בענן. הוא מביא מומחיות בעבודה עם ארגונים על יוזמות מודרניזציה, אנליטיות ושינוי נתונים.

ורמה גוטמוקלה הוא ארכיטקט בכיר בפתרונות פתרונות מסדי נתונים ב-AWS המבוסס מדאלאס פורט וורת'. Varma עובדת עם הלקוחות על אסטרטגיית מסד הנתונים שלהם ומעצבת את עומסי העבודה שלהם באמצעות מסדי נתונים ייעודיים של AWS. לפני שהצטרף ל-AWS, הוא עבד רבות עם מסדי נתונים יחסיים, מסדי נתונים של NOSQL ושפות תכנות מרובות במשך 22 השנים האחרונות.

בול זמן:

עוד מ למידת מכונות AWS