בעידן זה של ביג דאטה, ארגונים ברחבי העולם מחפשים כל הזמן דרכים חדשניות להפיק ערך ותובנות ממערכי הנתונים העצומים שלהם. אפאצ 'י ספארק מציע את המדרגיות והמהירות הדרושים לעיבוד כמויות גדולות של נתונים ביעילות.
אמזון EMR הוא פתרון ה-Big Data בענן המוביל בתעשייה לעיבוד נתונים בקנה מידה פטה-בייט, ניתוח אינטראקטיבי ולמידת מכונה (ML) תוך שימוש במסגרות קוד פתוח כגון Apache Spark, כוורת אפאצ'י, ו פרסטו. Amazon EMR הוא המקום הטוב ביותר להפעיל את Apache Spark. אתה יכול ליצור במהירות וללא מאמץ אשכולות Spark מנוהלים מה- קונסולת הניהול של AWS, ממשק שורת הפקודה של AWS (AWS CLI), או Amazon EMR API. אתה יכול גם להשתמש בתכונות נוספות של אמזון EMR, כולל מהיר שירות אחסון פשוט של אמזון קישוריות (Amazon S3) באמצעות מערכת הקבצים של אמזון EMR (EMRFS), אינטגרציה עם אמזון EC2 ספוט השוק וה דבק AWS קטלוג נתונים, ו-EMR Managed Scaling כדי להוסיף או להסיר מופעים מהאשכול שלך. סטודיו EMR של אמזון היא סביבת פיתוח משולבת (IDE) שמאפשרת למדעני נתונים ומהנדסי נתונים פשוטים לפתח, להמחיש ולבצע ניפוי באגים ביישומי הנדסת נתונים ומדעי נתונים שנכתבו ב-R, Python, Scala ו-PySpark. EMR Studio מספק מחברות Jupyter המנוהלות במלואן, וכלים כמו Spark UI ו-YARN Timeline Service כדי לפשט את ניפוי הבאגים.
כדי לפתוח את הפוטנציאל החבוי בתוך מאגרי הנתונים, חיוני ללכת מעבר לניתוח המסורתי. היכנסו ל-AI גנרטיבי, טכנולוגיה חדשנית המשלבת ML עם יצירתיות כדי ליצור טקסט, אמנות ואפילו קוד דמוי אדם. סלע אמזון היא הדרך הפשוטה ביותר לבנות ולהרחיב יישומי AI מחוללים עם מודלים בסיסיים (FMs). Amazon Bedrock הוא שירות מנוהל במלואו שהופך FMs מאמזון וחברות AI מובילות לזמינות באמצעות API, כך שתוכל להתנסות במהירות במגוון FMs במגרש המשחקים, ולהשתמש ב-API יחיד להסקת מסקנות ללא קשר לדגמים שתבחר, מה שמאפשר לך את הגמישות להשתמש במכשירי FM מספקים שונים ולהתעדכן בגרסאות הדגמים העדכניות ביותר עם שינויי קוד מינימליים.
בפוסט זה, אנו חוקרים כיצד תוכל להטעין את ניתוח הנתונים שלך עם AI יצירתי באמצעות Amazon EMR, Amazon Bedrock וה- pyspark-ai סִפְרִיָה. ספריית pyspark-ai היא SDK באנגלית עבור Apache Spark. זה לוקח הוראות בשפה האנגלית ומרכיב אותן לאובייקטים של PySpark כמו DataFrames. זה מקל על העבודה עם Spark, ומאפשר לך להתמקד בהפקת ערך מהנתונים שלך.
סקירת פתרונות
התרשים הבא ממחיש את הארכיטקטורה לשימוש בבינה מלאכותית גנרטיבית עם Amazon EMR ו- Amazon Bedrock.
EMR Studio הוא IDE מבוסס אינטרנט עבור מחברות Jupyter המנוהלות במלואן הפועלות על אשכולות EMR. אנו מקיימים אינטראקציה עם EMR Studio Workspaces המחוברים לאשכול EMR פועל ומפעילים את המחברת שסופקה כחלק מהפוסט הזה. אנו משתמשים ב- מונית ניו יורק נתונים כדי לקבל תובנות לגבי נסיעות שונות במוניות שמשתמשים ביצעו. אנו שואלים את השאלות בשפה טבעית על גבי הנתונים הטעונים ב-Spark DataFrame. לאחר מכן, ספריית pyspark-ai משתמשת ב- Amazon Titan Text FM מ- Amazon Bedrock כדי ליצור שאילתת SQL המבוססת על שאלת השפה הטבעית. ספריית pyspark-ai לוקחת את שאילתת SQL, מפעילה אותה באמצעות Spark SQL, ומספקת תוצאות בחזרה למשתמש.
בפתרון זה, אתה יכול ליצור ולהגדיר את המשאבים הנדרשים בחשבון AWS שלך עם א AWS CloudFormation תבנית. התבנית יוצרת את דבק AWS מסד נתונים וטבלאות, דלי S3, VPC ועוד AWS זהות וניהול גישה משאבים (IAM) המשמשים בפתרון.
התבנית נועדה להדגים כיצד להשתמש ב-EMR Studio עם חבילת pyspark-ai ו-Amazon Bedrock, ואינה מיועדת לשימוש בהפקה ללא שינוי. בנוסף, התבנית משתמשת ב- us-east-1
אזור וייתכן שלא יפעלו באזורים אחרים ללא שינוי. התבנית יוצרת משאבים הכרוכים בעלויות בזמן שהם בשימוש. עקוב אחר שלבי הניקוי בסוף פוסט זה כדי למחוק את המשאבים ולהימנע מחיובים מיותרים.
תנאים מוקדמים
לפני שתפעיל את ערימת CloudFormation, ודא שיש לך את הדברים הבאים:
- חשבון AWS המספק גישה לשירותי AWS
- משתמש IAM עם מפתח גישה ומפתח סודי כדי להגדיר את AWS CLI, והרשאות ליצור תפקיד IAM, מדיניות IAM וערימות ב-AWS CloudFormation
- דגם ה-Titan Text G1 – Express נמצא כעת בתצוגה מקדימה, כך שתצטרך לקבל גישת תצוגה מקדימה כדי להשתמש בו כחלק מהפוסט הזה
צור משאבים עם AWS CloudFormation
CloudFormation יוצר את משאבי ה-AWS הבאים:
- ערימת VPC עם רשתות משנה פרטיות וציבוריות לשימוש עם EMR Studio, טבלאות מסלול ושער NAT.
- אשכול EMR עם Python 3.9 מותקן. אנו משתמשים בפעולת bootstrap להתקנת Python 3.9 וחבילות רלוונטיות אחרות כמו pyspark-ai ו-Amazon Bedrock תלויות. (למידע נוסף, עיין ב סקריפט אתחול.)
- דלי S3 עבור סביבת העבודה של EMR Studio ואחסון מחברת.
- תפקידים ומדיניות IAM עבור הגדרת EMR Studio, גישה ל-Amazon Bedrock והפעלת מחברות
כדי להתחיל, בצע את הצעדים הבאים:
ערימת CloudFormation לוקחת בערך 20-30 דקות להשלמתו. אתה יכול לעקוב אחר ההתקדמות שלו במסוף AWS CloudFormation. כשהסטטוס שלו קורא CREATE_COMPLETE
, לחשבון AWS שלך יהיו המשאבים הדרושים ליישום פתרון זה.
צור EMR Studio
כעת אתה יכול ליצור סטודיו EMR ומרחב עבודה לעבודה עם קוד המחברת. השלם את השלבים הבאים:
- במסוף EMR Studio, בחר צור סטודיו.
- הזן שם הסטודיו as
GenAI-EMR-Studio
ולספק תיאור. - ב רשת ואבטחה סעיף, ציין את הדברים הבאים:
- בעד VPC, בחר את ה-VPC שיצרת כחלק מחסנית CloudFormation שפרסת. קבל את מזהה VPC באמצעות פלטי CloudFormation עבור מפתח VPCID.
- בעד רשתות משנה, בחר את כל ארבע רשתות המשנה.
- בעד אבטחה וגישה, בחר קבוצת אבטחה מותאמת אישית.
- בעד קבוצת אבטחת אשכול/נקודת קצה, בחר
EMRSparkAI-Cluster-Endpoint-SG
. - בעד קבוצת אבטחת סביבת עבודה, בחר
EMRSparkAI-Workspace-SG
.
- ב תפקיד שירות סטודיו סעיף, ציין את הדברים הבאים:
- בעד אימות, בחר AWS זהות וניהול גישה (IAM).
- בעד תפקיד שירות AWS IAM, בחר
EMRSparkAI-StudioServiceRole
.
- ב אחסון סביבת עבודה סעיף, עיין ובחר את דלי S3 לאחסון החל מ
emr-sparkai-<account-id>
. - בחרו צור סטודיו.
- כאשר סטודיו EMR נוצר, בחר בקישור מתחת כתובת האתר של גישה לסטודיו כדי לגשת לאולפן.
- כשאתה בסטודיו, בחר צור סביבת עבודה.
- להוסיף
emr-genai
כשם עבור סביבת העבודה ובחר צור סביבת עבודה. - כאשר סביבת העבודה נוצרת, בחר את שמו כדי להפעיל את סביבת העבודה (ודא שהשבתת חוסמי חלונות קופצים).
ניתוח נתונים גדולים באמצעות Apache Spark עם Amazon EMR ובינה מלאכותית מחוללת
כעת, לאחר שהשלמנו את ההגדרה הנדרשת, אנו יכולים להתחיל לבצע ניתוח ביג דאטה באמצעות Apache Spark עם Amazon EMR ובינה מלאכותית.
כשלב ראשון, אנו טוענים מחברת שיש בה את הקוד והדוגמאות הנדרשות לעבודה עם מקרה השימוש. אנו משתמשים במערך הנתונים של NY Taxi, המכיל פרטים על נסיעות במונית.
- הורד את קובץ המחברת NYTaxi.ipynb והעלה אותו לסביבת העבודה שלך על ידי בחירה בסמל ההעלאה.
- לאחר ייבוא המחברת, פתח את המחברת ובחר
PySpark
כגרעין.
PySpark AI כברירת מחדל משתמש ב-ChatGPT4.0 של OpenAI כדגם ה-LLM, אבל אתה יכול גם לחבר דגמים מ-Amazon Bedrock, אמזון SageMaker JumpStart, ודגמים אחרים של צד שלישי. עבור פוסט זה, אנו מראים כיצד לשלב את מודל Amazon Bedrock Titan ליצירת שאילתות SQL ולהפעיל אותו עם Apache Spark ב- Amazon EMR.
- כדי להתחיל עם המחברת, עליך לשייך את סביבת העבודה לשכבת מחשוב. כדי לעשות זאת, בחר את לחשב סמל בחלונית הניווט ובחר באשכול EMR שנוצר על ידי מחסנית CloudFormation.
- הגדר את הפרמטרים של Python לשימוש בחבילת Python 3.9 המעודכנת עם Amazon EMR:
- ייבא את הספריות הדרושות:
- לאחר ייבוא הספריות, תוכלו להגדיר את מודל ה-LLM מ-Amazon Bedrock. במקרה זה, אנו משתמשים ב-amazon.titan-text-express-v1. עליך להזין את כתובת האתר של אזור ונקודת הקצה של Amazon Bedrock בהתבסס על גישת התצוגה המקדימה שלך עבור דגם Titan Text G1 – Express.
- חבר את Spark AI למודל Amazon Bedrock LLM ליצירת שאילתות SQL המבוסס על שאלות בשפה טבעית:
כאן, אתחלנו את Spark AI עם verbose=False; אתה יכול גם להגדיר verbose=True כדי לראות פרטים נוספים.
עכשיו אתה יכול לקרוא את נתוני המוניות של NYC ב-Spark DataFrame ולהשתמש בכוח של AI מחולל ב-Spark.
- לדוגמה, אתה יכול לשאול את הספירה של מספר הרשומות במערך הנתונים:
אנו מקבלים את התגובה הבאה:
Spark AI משתמש פנימי LangChain ושרשרת SQL, שמסתירות את המורכבות ממשתמשי קצה העובדים עם שאילתות ב-Spark.
למחברת יש עוד כמה תרחישים לדוגמה כדי לחקור את הכוח של AI יצירתי עם Apache Spark ו- Amazon EMR.
לנקות את
רוקן את תכולת הדלי S3 emr-sparkai-<account-id>
, מחק את סביבת העבודה של EMR Studio שנוצרה כחלק מהפוסט הזה, ולאחר מכן מחק את מחסנית CloudFormation שפרסת.
סיכום
פוסט זה הראה כיצד אתה יכול להטעין את ניתוח הביג דאטה שלך בעזרת Apache Spark עם Amazon EMR ו- Amazon Bedrock. חבילת PySpark AI מאפשרת לך להפיק תובנות משמעותיות מהנתונים שלך. זה עוזר להפחית את זמן הפיתוח והניתוח, מפחית את הזמן לכתיבת שאילתות ידניות ומאפשר לך להתמקד במקרה השימוש העסקי שלך.
על הכותבים
סאורבה בוטיאני הוא ארכיטקט פתרונות מומחה לניתוח ראשי ב-AWS. הוא נלהב מטכנולוגיות חדשות. הוא הצטרף ל-AWS ב-2019 ועובד עם לקוחות כדי לספק הדרכה ארכיטקטונית להפעלת מקרי שימוש בינה מלאכותית, פתרונות ניתוח ניתנים להרחבה וארכיטקטורות רשת נתונים באמצעות שירותי AWS כמו Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation, ואמזון DataZone.
ורשהאן הוא אדריכל פתרונות בכיר של AWS, המתמחה באנליטיקה. יש לו למעלה מ-8 שנות ניסיון בעבודה בתחום הביג דאטה ומדעי הנתונים. הוא נלהב לעזור ללקוחות לאמץ שיטות עבודה מומלצות ולגלות תובנות מהנתונים שלהם.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/
- :יש ל
- :הוא
- :לֹא
- $ למעלה
- 1
- 10
- 100
- 107
- 11
- 20
- 200
- 2019
- 320
- 500
- 521
- 7
- 8
- 9
- 990
- a
- אודות
- גישה
- ניהול גישה
- חֶשְׁבּוֹן
- הודה
- פעולה
- להוסיף
- נוסף
- בנוסף
- לְאַמֵץ
- AI
- מקרי שימוש
- תעשיות
- מאפשר
- מאפשר
- גם
- אמזון בעברית
- אמזונה אתנה
- אמזון EMR
- אמזון SageMaker
- אמזון שירותי אינטרנט
- כמויות
- an
- אנליזה
- ניתוח
- ו
- לענות
- כל
- אַפָּשׁ
- אפאצ 'י ספארק
- API
- יישומים
- בערך
- אדריכלי
- ארכיטקטורה
- ARE
- אמנות
- AS
- לשאול
- עמית
- At
- זמין
- לְהִמָנַע
- AWS
- AWS CloudFormation
- דבק AWS
- תצורת אגם AWS
- בחזרה
- מבוסס
- הטוב ביותר
- שיטות עבודה מומלצות
- מעבר
- גָדוֹל
- נתונים גדולים
- אוזן נעל
- לִבנוֹת
- עסקים
- אבל
- לַחְצָן
- by
- CAN
- מקרה
- מקרים
- קטלוג
- שרשרת
- שינויים
- חיובים
- בחרו
- בחירה
- עִיר
- ענן
- ענן ביג דאטה
- אשכול
- קוד
- משלב
- חברות
- להשלים
- השלמת
- מורכבות
- לחשב
- מחובר
- קישוריות
- קונסול
- תמיד
- מכיל
- תוכן
- עלויות
- לִיצוֹר
- נוצר
- יוצר
- יצירתיות
- כיום
- לקוחות
- שיא הטכנולוגיה
- נתונים
- ניתוח נתונים
- עיבוד נתונים
- מדע נתונים
- מסד נתונים
- מערכי נתונים
- תַאֲרִיך
- בְּרִירַת מֶחדָל
- לְהַגדִיר
- להפגין
- תלות
- פרס
- לגזור
- תיאור
- מעוצב
- פרטים
- לפתח
- צעצועי התפתחות
- אחר
- נכה
- לגלות
- do
- יעילות
- ללא מאמץ
- סוף
- נקודת קצה
- הנדסה
- מהנדסים
- אנגלית
- לְהַבטִיחַ
- זן
- הזנת
- סביבה
- תקופה
- חיוני
- Ether (ETH)
- אֲפִילוּ
- דוגמה
- דוגמאות
- ניסיון
- לְנַסוֹת
- לחקור
- אקספרס
- תמצית
- מהר
- תכונות
- מעטים
- שדה
- שלח
- סופי
- ראשון
- גמישות
- להתמקד
- לעקוב
- הבא
- בעד
- התהוות
- קרן
- ארבע
- מסגרות
- החל מ-
- לגמרי
- g1
- גארנר
- שער כניסה
- ליצור
- דור
- גנרטטיבית
- AI Generative
- לקבל
- נתינה
- Go
- הדרכה
- יש
- he
- לעזור
- עזרה
- עוזר
- מוּסתָר
- הסתר
- איך
- איך
- http
- HTTPS
- i
- IAM
- ICON
- ID
- זהות
- ניהול זהות וגישה
- מדגים
- ליישם
- לייבא
- in
- באחר
- כולל
- מובילים בתעשייה
- מידע
- חדשני
- קלט
- תובנות
- להתקין
- מקרים
- הוראות
- לשלב
- משולב
- השתלבות
- התכוון
- אינטראקציה
- אינטראקטיבי
- כלפי פנים
- אל תוך
- IT
- שֶׁלָה
- הצטרף
- jpg
- שמור
- מפתח
- לדעת
- אגם
- שפה
- גָדוֹל
- האחרון
- לשגר
- שכבה
- מוביל
- למידה
- ספריות
- סִפְרִיָה
- כמו
- קו
- קשר
- לִטעוֹן
- מכונה
- למידת מכונה
- לעשות
- עושה
- הצליח
- ניהול
- מדריך ל
- שוק
- מאי..
- משמעותי
- רשת
- מינימלי
- דקות
- ML
- מודל
- מודלים
- צג
- יותר
- רוב
- שם
- טבעי
- שפה טבעית
- ניווט
- הכרחי
- צורך
- נחוץ
- רשתות
- חדש
- טכנולוגיות חדשות
- מחברה
- מחשבים ניידים
- עַכשָׁיו
- מספר
- NY
- ניו יורק
- אובייקטים
- תצפית
- of
- המיוחדות שלנו
- on
- לפתוח
- קוד פתוח
- or
- ארגונים
- אחר
- פלטים
- יותר
- סקירה
- חבילה
- חבילות
- זגוגית
- פרמטרים
- חלק
- לוהט
- ביצוע
- הרשאות
- מקום
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- גן שעשועים
- תקע
- מדיניות
- מוקפץ
- הודעה
- פוטנציאל
- כּוֹחַ
- פרקטיקות
- תצוגה מקדימה
- מנהל
- פְּרָטִי
- תהליך
- תהליך
- הפקה
- התקדמות
- לספק
- ובלבד
- ספקים
- מספק
- ציבורי
- פיתון
- שאילתות
- שאלה
- שאלות
- מהירות
- R
- חומר עיוני
- רשום
- להפחית
- הפחתה
- להתייחס
- ללא קשר
- באזור
- אזורים
- רלוונטי
- להסיר
- נדרש
- משאבים
- תגובה
- תוצאות
- רוכב
- תפקיד
- תפקידים
- מסלול
- הפעלה
- ריצה
- פועל
- בעל חכמים
- סולם
- בקרת מערכות ותקשורת
- להרחבה
- סולם
- דרוג
- תרחישים
- מדע
- מדענים
- Sdk
- חיפוש
- סוד
- אבטחה
- לִרְאוֹת
- בחר
- לחצני מצוקה לפנסיונרים
- שרות
- שירותים
- סט
- התקנה
- לְהַצִיג
- הראה
- פָּשׁוּט
- לפשט
- יחיד
- So
- פִּתָרוֹן
- פתרונות
- מָקוֹר
- לעורר
- מומחה
- מתמחה
- מְהִירוּת
- SQL
- לערום
- ערימות
- התחלה
- החל
- החל
- מצב
- שלב
- צעדים
- אחסון
- פשוט
- סטודיו
- רשתות משנה
- כזה
- לְגַדֵשׁ
- בטוח
- מערכת
- שולחן
- משימות
- לוקח
- טכנולוגיות
- טכנולוגיה
- תבנית
- טֶקסט
- זֶה
- השמיים
- שֶׁלָהֶם
- אותם
- אז
- הֵם
- צד שלישי
- זֶה
- מחשבה
- דרך
- זמן
- ציר זמן
- עֲנָק
- ל
- כלים
- חלק עליון
- מסורתי
- ui
- תחת
- לפתוח
- מְעוּדכָּן
- כתובת האתר
- להשתמש
- במקרה להשתמש
- מְשׁוּמָשׁ
- משתמש
- משתמשים
- שימושים
- באמצעות
- ערך
- מגוון
- שונים
- Vast
- לחזות
- דֶרֶך..
- דרכים
- we
- אינטרנט
- שירותי אינטרנט
- המבוסס על האינטרנט
- מתי
- אשר
- בזמן
- יצטרך
- עם
- בתוך
- לְלֹא
- תיק עבודות
- עובד
- עובד
- עולמי
- לכתוב
- כתוב
- שנים
- york
- אתה
- זפירנט