בעידן הדיגיטלי של היום, נתונים הם לב ליבה של הצלחתו של כל ארגון. אחד הפורמטים הנפוצים ביותר להחלפת נתונים הוא XML. ניתוח קבצי XML חיוני מכמה סיבות. ראשית, קבצי XML משמשים בתעשיות רבות, כולל פיננסים, שירותי בריאות וממשל. ניתוח קובצי XML יכול לעזור לארגונים לקבל תובנות לגבי הנתונים שלהם, ולאפשר להם לקבל החלטות טובות יותר ולשפר את התפעול שלהם. ניתוח קובצי XML יכול גם לסייע בשילוב נתונים, מכיוון שיישומים ומערכות רבות משתמשות ב-XML כפורמט נתונים סטנדרטי. על ידי ניתוח קובצי XML, ארגונים יכולים לשלב בקלות נתונים ממקורות שונים ולהבטיח עקביות בין המערכות שלהם, עם זאת, קובצי XML מכילים נתונים חצי מובנים ומקוננים מאוד, מה שמקשה על גישה וניתוח מידע, במיוחד אם הקובץ גדול ויש לו סכימה מורכבת ומקוננת מאוד.
קובצי XML מתאימים היטב ליישומים, אך ייתכן שהם אינם אופטימליים עבור מנועי ניתוח. על מנת לשפר את ביצועי השאילתות ולאפשר גישה קלה במנועי ניתוח במורד הזרם כגון אמזונה אתנה, חיוני לעבד מראש קובצי XML לפורמט עמודות כמו Parquet. טרנספורמציה זו מאפשרת שיפור היעילות והשימושיות בתהליכי עבודה אנליטיים. בפוסט זה, אנו מראים כיצד לעבד נתוני XML באמצעות דבק AWS ואתנה.
סקירת פתרונות
אנו בוחנים שתי טכניקות שונות שיכולות לייעל את זרימת העבודה של עיבוד קבצי ה-XML שלך:
- טכניקה 1: השתמש בסורק AWS Glue ובעורך החזותי של AWS Glue - אתה יכול להשתמש בממשק המשתמש של AWS Glue בשילוב עם סורק כדי להגדיר את מבנה הטבלה עבור קובצי ה-XML שלך. גישה זו מספקת ממשק ידידותי למשתמש ומתאימה במיוחד לאנשים המעדיפים גישה גרפית לניהול הנתונים שלהם.
- טכניקה 2: השתמש ב-AWS Glue DynamicFrames עם סכימות מסקנות וקבועות – לסורק יש מגבלה בכל הנוגע לעיבוד שורה בודדת בקבצי XML גדולים מ 1 MB. כדי להתגבר על מגבלה זו, אנו משתמשים במחברת AWS Glue לבניית AWS Glue
DynamicFrames
, תוך שימוש בסכימות מוסקות וקבועות כאחד. שיטה זו מבטיחה טיפול יעיל בקובצי XML עם שורות שגודלן עולה על 1 MB.
בשתי הגישות, המטרה הסופית שלנו היא להמיר קבצי XML לפורמט Apache Parquet, מה שהופך אותם לזמינים לשאילתות באמצעות Athena. בעזרת טכניקות אלו, אתה יכול לשפר את מהירות העיבוד והנגישות של נתוני ה-XML שלך, מה שמאפשר לך להפיק תובנות חשובות בקלות.
תנאים מוקדמים
לפני שתתחיל במדריך זה, השלם את התנאים המוקדמים הבאים (אלה חלים על שתי הטכניקות):
- הורד את קבצי ה-XML technique1.xml ו technique2.xml.
- העלה את הקבצים ל- an שירות אחסון פשוט של אמזון דלי (Amazon S3). אתה יכול להעלות אותם לאותו דלי S3 בתיקיות שונות או לדלי S3 שונים.
- צור AWS זהות וניהול גישה תפקיד (IAM) עבור עבודת ה-ETL או המחברת שלך לפי ההוראות ב הגדר הרשאות IAM עבור AWS Glue Studio.
- הוסף מדיניות מוטבעת לתפקיד שלך עם כבר: PassRole פעולה:
- הוסף מדיניות הרשאות לתפקיד עם גישה לדלי S3 שלך.
כעת, לאחר שסיימנו עם התנאים המוקדמים, בואו נעבור ליישום הטכניקה הראשונה.
טכניקה 1: השתמש בסורק AWS Glue ובעורך החזותי
התרשים הבא ממחיש את הארכיטקטורה הפשוטה שבה אתה יכול להשתמש כדי ליישם את הפתרון.
כדי לנתח קבצי XML המאוחסנים באמזון S3 באמצעות AWS Glue ו- Athena, אנו משלימים את השלבים ברמה גבוהה:
- צור סורק AWS Glue כדי לחלץ מטא נתונים של XML וליצור טבלה בקטלוג הנתונים של AWS Glue Data.
- עבד והמר נתוני XML לפורמט (כמו פרקט) המתאים לאטהנה באמצעות עבודת AWS Glue לחלץ, לשנות ולטעון (ETL).
- הגדר והפעל עבודת דבק של AWS דרך קונסולת הדבק של AWS או באמצעות ממשק שורת הפקודה של AWS (AWS CLI).
- השתמש בנתונים המעובדים (בפורמט Parquet) עם טבלאות Athena, המאפשרות שאילתות SQL.
- השתמש בממשק הידידותי למשתמש באתנה כדי לנתח את נתוני ה-XML עם שאילתות SQL על הנתונים שלך המאוחסנים באמזון S3.
ארכיטקטורה זו היא פתרון ניתן להרחבה וחסכוני לניתוח נתוני XML ב-Amazon S3 באמצעות AWS Glue ואתנה. אתה יכול לנתח מערכי נתונים גדולים ללא ניהול תשתית מורכב.
אנו משתמשים בסורק AWS Glue כדי לחלץ מטא נתונים של קבצי XML. אתה יכול לבחור את ברירת המחדל של AWS Glue מסווג לסיווג XML לשימוש כללי. הוא מזהה אוטומטית את מבנה הנתונים והסכימה של XML, דבר שימושי עבור פורמטים נפוצים.
אנו משתמשים גם במסווג XML מותאם אישית בפתרון זה. זה תוכנן עבור סכימות או פורמטים ספציפיים של XML, המאפשר חילוץ מטא נתונים מדויק. זה אידיאלי עבור פורמטים לא סטנדרטיים של XML או כאשר אתה זקוק לשליטה מפורטת בסיווג. מסווג מותאם אישית מבטיח שרק מטא-נתונים נחוצים ייחלצו, מה שמפשט את משימות העיבוד והניתוח במורד הזרם. גישה זו מייעלת את השימוש בקבצי ה-XML שלך.
צילום המסך הבא מציג דוגמה לקובץ XML עם תגים.
צור סיווג מותאם אישית
בשלב זה, אתה יוצר מסווג AWS Glue מותאם אישית כדי לחלץ מטא נתונים מקובץ XML. השלם את השלבים הבאים:
- על קונסולת הדבק AWS, מתחת סורקים בחלונית הניווט, בחר סיווגים.
- בחרו הוסף מסווג.
- בחר XML כסוג המסווגן.
- הזן שם למסווג, כגון
blog-glue-xml-contact
. - בעד תג שורה, הזן את השם של תג השורש שמכיל את המטא נתונים (לדוגמה,
metadata
). - בחרו צור.
צור AWS Glue Crawler כדי לסרוק קובץ XML
בסעיף זה, אנו יוצרים דבק סורק כדי לחלץ את המטא נתונים מקובץ XML באמצעות מיון הלקוחות שנוצר בשלב הקודם.
צור מסד נתונים
- עבור אל קונסולת דבק AWS, בחר מאגרי מידע בחלונית הניווט.
- לחץ על הוסף מסד נתונים.
- תן שם כגון
blog_glue_xml
- בחרו צור מסד נתונים
צור סורק
השלם את השלבים הבאים כדי ליצור את הסורק הראשון שלך:
- במסוף הדבק של AWS בחר סורקים בחלונית הניווט.
- בחרו צור סורק.
- על הגדר מאפייני סורק עמוד, ספק שם עבור הסורק החדש (כגון
blog-glue-parquet
), אז תבחר הַבָּא. - על בחר מקורות נתונים ומסווגים , בחר עדיין לא תחת תצורת מקור נתונים.
- בחרו הוסף חנות נתונים.
- בעד נתיב S3, עיין אל
s3://${BUCKET_NAME}/input/geologicalsurvey/
.
ודא שאתה בוחר את תיקיית ה-XML ולא את הקובץ שבתוך התיקיה.
- השאר את שאר האפשרויות כברירת מחדל ובחר הוסף מקור נתונים S3.
- לְהַרְחִיב מסווגים מותאמים אישית - אופציונלי, בחר blog-glue-xml-contact ולאחר מכן בחר הַבָּא ושמור את שאר האפשרויות כברירת מחדל.
- בחר את תפקיד IAM שלך או בחר צור תפקיד IAM חדש, הוסף את הסיומת
glue-xml-contact
(לדוגמה,AWSGlueServiceNotebookRoleBlog
), ובחר הַבָּא. - על הגדר פלט ותזמון עמוד, מתחת תצורת פלט, בחר
blog_glue_xml
ל מסד נתונים יעד. - זן
console_
בתור הקידומת שנוספה לטבלאות (אופציונלי) ומטה לוח זמנים של סורק, שמור על התדר המוגדר ל לפי דרישה. - בחרו הַבָּא.
- בדוק את כל הפרמטרים ובחר צור סורק.
הפעל את ה-Crawler
לאחר יצירת הסורק, השלם את השלבים הבאים כדי להפעיל אותו:
- במסוף הדבק של AWS בחר סורקים בחלונית הניווט.
- פתח את הסורק שיצרת ובחר הפעלה.
ייקח 1-2 דקות להשלמת הסורק.
- כאשר הסורק הושלם, בחר מאגרי מידע בחלונית הניווט.
- בחר את מסד הנתונים שצירפת ובחר את שם הטבלה כדי לראות את הסכימה שחולצה על ידי הסורק.
צור עבודת דבק של AWS כדי להמיר את ה-XML לפורמט פרקט
בשלב זה, אתה יוצר עבודה של AWS Glue Studio כדי להמיר את קובץ ה-XML לקובץ Parquet. השלם את השלבים הבאים:
- במסוף הדבק של AWS בחר מקומות תעסוקה בחלונית הניווט.
- תַחַת צור עבודה, בחר ויזואלי עם קנבס ריק.
- בחרו צור.
- שנה את שם המשרה ל
blog_glue_xml_job
.
עכשיו יש לך עורך עבודה חזותי של AWS Glue Studio ריק. בחלק העליון של העורך נמצאות הכרטיסיות לתצוגות שונות.
- בחר את תסריט לשונית כדי לראות מעטפת ריקה של סקריפט AWS Glue ETL.
ככל שאנו מוסיפים שלבים חדשים בעורך החזותי, התסריט יתעדכן אוטומטית.
- בחר את פרטי עבודה לשונית כדי לראות את כל תצורות העבודה.
- בעד תפקיד IAM, בחר
AWSGlueServiceNotebookRoleBlog
. - בעד גרסת דבק, בחר דבק 4.0 - תומך ב-Spark 3.3, Scala 2, Python 3.
- לקבוע מספר עובדים מבוקש אל 2.
- לקבוע מספר ניסיונות חוזרים אל 0.
- בחר את חזותי לשונית כדי לחזור לעורך החזותי.
- על מָקוֹר התפריט הנפתח, בחר קטלוג נתוני דבק של AWS.
- על מאפייני מקור נתונים - קטלוג נתונים בכרטיסייה, ספק את המידע הבא:
- בעד מסד נתונים, בחר
blog_glue_xml
. - בעד טבלתי, בחר את הטבלה שמתחילה בשם console_ שהסורק יצר (לדוגמה,
console_geologicalsurvey
).
- בעד מסד נתונים, בחר
- על מאפייני צומת בכרטיסייה, ספק את המידע הבא:
- שינוי שם ל
geologicalsurvey
מערך נתונים. - בחרו פעולה והטרנספורמציה שנה סכימה (החל מיפוי).
- בחרו מאפייני צומת ושנה את שם ההמרה משינוי סכמה (החל מיפוי) ל
ApplyMapping
. - על יעד בתפריט, בחר S3.
- שינוי שם ל
- על מאפייני מקור נתונים - S3 בכרטיסייה, ספק את המידע הבא:
- בעד פוּרמָט, בחר פרקט.
- בעד סוג דחיסה, בחר לא דחוס.
- בעד סוג מקור S3, בחר מיקום S3.
- בעד כתובת אתר S3, להיכנס
s3://${BUCKET_NAME}/output/parquet/
. - בחרו מאפייני צומת ולשנות את השם ל
Output
.
- בחרו שמור כדי להציל את העבודה.
- בחרו הפעלה לנהל את העבודה.
צילום המסך הבא מציג את העבודה בעורך החזותי.
צור AWS Gue Crawler כדי לסרוק את קובץ הפרקט
בשלב זה, אתה יוצר סורק AWS Glue כדי לחלץ מטא נתונים מקובץ הפרקט שיצרת באמצעות עבודה של AWS Glue Studio. הפעם, אתה משתמש במסווג ברירת המחדל. השלם את השלבים הבאים:
- במסוף הדבק של AWS בחר סורקים בחלונית הניווט.
- בחרו צור סורק.
- על הגדר מאפייני סורק עמוד, ספק שם לסורק החדש, כגון בלוג-דבק-פרקט-צור קשר, ולאחר מכן בחר הַבָּא.
- על בחר מקורות נתונים ומסווגים , בחר עדיין לא ל תצורת מקור נתונים.
- בחרו הוסף חנות נתונים.
- בעד נתיב S3, עיין אל
s3://${BUCKET_NAME}/output/parquet/
.
ודא שאתה בוחר את parquet
תיקייה במקום הקובץ שבתיקיה.
- בחר את תפקיד ה-IAM שלך שנוצר במהלך הסעיף הדרוש או בחר צור תפקיד IAM חדש (לדוגמה,
AWSGlueServiceNotebookRoleBlog
), ובחר הַבָּא. - על הגדר פלט ותזמון עמוד, מתחת תצורת פלט, בחר
blog_glue_xml
ל מסד נתונים. - זן
parquet_
בתור הקידומת שנוספה לטבלאות (אופציונלי) ומטה לוח זמנים של סורק, שמור על התדר המוגדר ל לפי דרישה. - בחרו הַבָּא.
- בדוק את כל הפרמטרים ובחר צור סורק.
כעת אתה יכול להפעיל את הסורק, שלוקח 1-2 דקות להשלמתו.
ניתן לצפות בתצוגה מקדימה של הסכימה החדשה שנוצרה עבור קובץ ה-Parquet ב-AWS Glue Data Catalog, הדומה לסכימה של קובץ ה-XML.
כעת יש לנו נתונים שמתאימים לשימוש עם Athena. בסעיף הבא, אנו מבצעים שאילתות נתונים באמצעות Athena.
שאילתה על קובץ הפרקט באמצעות Athena
Athena לא תומכת בשאילתה של פורמט קובץ XML, וזו הסיבה שהמרת את קובץ ה-XML ל-Parquet לצורך שאילתת נתונים ושימוש יעילים יותר סימון נקודה לשאילתות על סוגים מורכבים ומבנים מקוננים.
הקוד לדוגמה הבא משתמש בסימון נקודות כדי לבצע שאילתות לנתונים מקוננים:
כעת, לאחר שסיימנו את טכניקה 1, בואו נמשיך ללמוד על טכניקה 2.
טכניקה 2: השתמש ב-AWS Glue DynamicFrames עם סכימות מסקנות וקבועות
בסעיף הקודם כיסינו את תהליך הטיפול בקובץ XML קטן באמצעות סורק AWS Glue ליצירת טבלה, עבודת AWS Glue להמרת הקובץ לפורמט פרקט, ואתנה כדי לגשת לנתוני הפרקט. עם זאת, הסורק נתקל במגבלות בכל הנוגע לעיבוד קבצי XML החורגים 1 מגה-בייט בגודל. בחלק זה, אנו מתעמקים בנושא של עיבוד אצווה של קבצי XML גדולים יותר, המחייבים ניתוח נוסף כדי לחלץ אירועים בודדים ולערוך ניתוח באמצעות Athena.
הגישה שלנו כוללת קריאת קבצי ה-XML דרך AWS Glue DynamicFrames, תוך שימוש בסכימות מוסקות וקבועות כאחד. לאחר מכן אנו מחלצים את האירועים הבודדים בפורמט פרקט באמצעות ליצור יחסים טרנספורמציה, המאפשרת לנו לבצע שאילתות ולנתח אותם בצורה חלקה באמצעות Athena.
כדי ליישם פתרון זה, אתה משלים את השלבים הבאים ברמה גבוהה:
- צור מחברת AWS Glue כדי לקרוא ולנתח את קובץ ה-XML.
- השתמש
DynamicFrames
עםInferSchema
כדי לקרוא את קובץ ה-XML. - השתמש בפונקציית ה-relationalize כדי להסיר מערכים כלשהם.
- המר את הנתונים לפורמט פרקט.
- שאילתה על נתוני הפרקט באמצעות Athena.
- חזור על השלבים הקודמים, אבל הפעם העבר סכימה ל
DynamicFrames
במקום להשתמשInferSchema
.
לקובץ ה-XML של אוכלוסיית הרכב החשמלי יש א response
תג ברמת השורש שלו. תג זה מכיל מערך של row
תגים, המקוננים בתוכו. תג השורה הוא מערך המכיל קבוצה של תגיות שורה נוספת, המספקים מידע על רכב, לרבות המותג, הדגם שלו ופרטים רלוונטיים נוספים. צילום המסך הבא מציג דוגמה.
צור מחברת דבק AWS
כדי ליצור מחברת AWS Glue, בצע את השלבים הבאים:
- פתח את סטודיו דבק AWS קונסולה, בחר מקומות תעסוקה בחלונית הניווט.
- בחר מחברת צדק ולבחור צור.
- הזן שם עבור עבודת הדבק שלך ב-AWS, כגון
blog_glue_xml_job_Jupyter
. - בחר את התפקיד שיצרת בדרישות המוקדמות (
AWSGlueServiceNotebookRoleBlog
).
מחברת AWS Glue מגיעה עם דוגמה קיימת שמדגימה כיצד לבצע שאילתות במסד נתונים ולכתוב את הפלט לאמזון S3.
- התאם את פסק הזמן (בדקות) כפי שמוצג בצילום המסך הבא והפעל את התא כדי ליצור את הפגישה האינטראקטיבית של AWS Glue.
צור משתנים בסיסיים
לאחר יצירת ההפעלה האינטראקטיבית, בסוף המחברת, צור תא חדש עם המשתנים הבאים (ספק שם דלי משלך):
קרא את קובץ ה-XML המסיק את הסכימה
אם לא תעביר סכימה ל- DynamicFrame
, זה יסיק את הסכימה של הקבצים. כדי לקרוא את הנתונים באמצעות מסגרת דינמית, אתה יכול להשתמש בפקודה הבאה:
הדפס את סכמת DynamicFrame
הדפס את הסכימה עם הקוד הבא:
הסכימה מציגה מבנה מקונן עם a row
מערך המכיל מספר אלמנטים. כדי להסיר את המבנה הזה לקווים, אתה יכול להשתמש ב-AWS Glue ליצור יחסים טרנספורמציה:
אנו מעוניינים רק במידע הכלול במערך השורות, ונוכל להציג את הסכימה באמצעות הפקודה הבאה:
שמות העמודות מכילים row.row
, התואמים למבנה המערך ולעמודת המערך במערך הנתונים. אנחנו לא משנים את שמות העמודות בפוסט הזה; להנחיות לעשות זאת, עיין ב אוטומציה של מיפוי דינמי ושינוי שמות של שמות עמודות בקבצי נתונים באמצעות AWS Glue: חלק 1. לאחר מכן תוכל להמיר את הנתונים לפורמט פרקט וליצור את טבלת הדבק של AWS באמצעות הפקודה הבאה:
דבק AWS DynamicFrame
מספק תכונות שבהן תוכל להשתמש בסקריפט ה-ETL שלך כדי ליצור ולעדכן סכימה בקטלוג הנתונים. אנו משתמשים ב- updateBehavior
פרמטר ליצירת הטבלה ישירות בקטלוג הנתונים. עם גישה זו, איננו צריכים להפעיל סורק AWS Glue לאחר סיום עבודת ה-AWS Glue.
קרא את קובץ ה-XML על ידי הגדרת סכימה
דרך חלופית לקרוא את הקובץ היא על ידי הגדרה מראש של סכימה. כדי לעשות זאת, בצע את השלבים הבאים:
- ייבא את סוגי הנתונים של AWS Glue:
- צור סכימה עבור קובץ ה-XML:
- העבר את הסכימה בעת קריאת קובץ ה-XML:
- בטל את קן מערך הנתונים כמו קודם:
- המר את מערך הנתונים לפרקט וצור את טבלת הדבק של AWS:
שאל את הטבלאות באמצעות Athena
כעת, לאחר שיצרנו את שתי הטבלאות, אנו יכולים לבצע שאילתות על הטבלאות באמצעות Athena. לדוגמה, אנו יכולים להשתמש בשאילתה הבאה:
ניקוי
בפוסט זה, יצרנו תפקיד של IAM, מחברת AWS Glue Jupyter ושתי טבלאות בקטלוג הנתונים של AWS Glue Data. העלינו גם כמה קבצים ל-S3 bucket. כדי לנקות חפצים אלה, בצע את השלבים הבאים:
- במסוף IAM, מחק את התפקיד שיצרת.
- במסוף AWS Glue Studio, מחק את המיון המותאם אישית, הסורק, משימות ה-ETL ומחברת Jupyter.
- נווט אל AWS Glue Data Catalog ומחק את הטבלאות שיצרת.
- בקונסולת Amazon S3, נווט אל הדלי שיצרת ומחק את התיקיות ששמו
temp
,infer_schema
, וno_infer_schema
.
המנות העיקריות
ב-AWS Glue, יש תכונה שנקראת InferSchema
ב-AWS Glue DynamicFrames
. הוא מגלה באופן אוטומטי את המבנה של מסגרת נתונים על סמך הנתונים שהיא מכילה. לעומת זאת, הגדרת סכמה פירושה קביעה מפורשת כיצד מבנה מסגרת הנתונים צריך להיות לפני טעינת הנתונים.
XML, בהיותו פורמט מבוסס טקסט, אינו מגביל את סוגי הנתונים של העמודות שלו. זה יכול לגרום לבעיות בפונקציית InferSchema. לדוגמה, בהפעלה הראשונה, קובץ עם עמודה A בעלת ערך 2 מביא לקובץ Parquet עם עמודה A כמספר שלם. בריצה השנייה, לקובץ חדש יש עמודה A עם הערך C, מה שמוביל לקובץ Parquet עם עמודה A כמחרוזת. כעת ישנם שני קבצים ב-S3, כל אחד עם עמודה A של סוגי נתונים שונים, מה שעלול ליצור בעיות במורד הזרם.
אותו הדבר קורה עם סוגי נתונים מורכבים כמו מבנים מקוננים או מערכים. לדוגמה, אם לקובץ יש ערך תג אחד שנקרא transaction
, זה מסתכם כמבנה. אבל אם לקובץ אחר יש את אותו תג, הוא מסתכם כמערך
למרות בעיות מסוג הנתונים הללו, InferSchema
שימושי כאשר אינך מכיר את הסכימה או הגדרה ידנית אינה מעשית. עם זאת, זה לא אידיאלי עבור מערכי נתונים גדולים או המשתנים כל הזמן. הגדרת סכימה היא מדויקת יותר, במיוחד עם סוגי נתונים מורכבים, אך יש לה בעיות משלה, כמו דרישת מאמץ ידני וחוסר גמישות לשינויי נתונים.
InferSchema
יש מגבלות, כמו הסקת נתונים שגויים ובעיות בטיפול בערכי null. להגדרת סכימה יש גם מגבלות, כמו מאמץ ידני ושגיאות אפשריות.
הבחירה בין הסקה לבין הגדרת סכמה תלויה בצרכי הפרויקט. InferSchema מצוינת לחקירה מהירה של מערכי נתונים קטנים, בעוד שהגדרת סכימה טובה יותר עבור מערכי נתונים גדולים ומורכבים הדורשים דיוק ועקביות. שקול את הפשרות והאילוצים של כל שיטה כדי לבחור מה המתאים ביותר לפרויקט שלך.
סיכום
בפוסט זה, חקרנו שתי טכניקות לניהול נתוני XML באמצעות AWS Glue, כל אחת מותאמת לתת מענה לצרכים ואתגרים ספציפיים שאתה עלול להיתקל בהם.
טכניקה 1 מציעה נתיב ידידותי למשתמש למי שמעדיף ממשק גרפי. אתה יכול להשתמש בסורק AWS Glue ובעורך החזותי כדי להגדיר ללא מאמץ את מבנה הטבלה עבור קובצי ה-XML שלך. גישה זו מפשטת את תהליך ניהול הנתונים ומושכת במיוחד למי שמחפש דרך פשוטה לטפל בנתונים שלהם.
עם זאת, אנו מכירים בכך שלסורק יש את המגבלות שלו, במיוחד כאשר עוסקים בקובצי XML בעלי שורות גדולות מ-1 MB. זה המקום שבו טכניקה 2 באה להציל. על ידי רתימת דבק AWS DynamicFrames
עם סכימות משוערות וקבועות, ושימוש במחברת AWS Glue, אתה יכול לטפל ביעילות בקובצי XML בכל גודל. שיטה זו מספקת פתרון חזק המבטיח עיבוד חלק גם עבור קובצי XML עם שורות החורגות ממגבלה של 1 MB.
כשאתה מנווט בעולם של ניהול נתונים, הטכניקות האלה בערכת הכלים שלך מעצימה אותך לקבל החלטות מושכלות על סמך הדרישות הספציפיות של הפרויקט שלך. בין אם אתה מעדיף את הפשטות של טכניקה 1 או את יכולת ההרחבה של טכניקה 2, AWS Glue מספק את הגמישות הדרושה לך כדי לטפל בנתוני XML ביעילות.
על הכותבים
נונית שוקלהמשמש כארכיטקט פתרונות מומחה AWS עם התמקדות באנליטיקס. יש לו התלהבות חזקה לסייע ללקוחות בגילוי תובנות חשובות מהנתונים שלהם. באמצעות המומחיות שלו, הוא בונה פתרונות חדשניים המעצימים לעסקים להגיע לבחירות מושכלות, מונעות נתונים. ראוי לציין כי נונית שוקלה היא המחברת המוכשרת של הספר שכותרתו "התגוששות נתונים על AWS.
פטריק מולר עובד כאדריכל בכיר במעבדת נתונים ב-AWS. האחריות העיקרית שלו היא לסייע ללקוחות להפוך את הרעיונות שלהם למוצר נתונים מוכן לייצור. בזמנו הפנוי, פטריק נהנה לשחק כדורגל, לצפות בסרטים ולטייל.
אמוג גאיקוואד הוא מפתח פתרונות בכיר בחברת Amazon Web Services. הוא עוזר ללקוחות גלובליים לבנות ולפרוס פתרונות AI/ML ב-AWS. עבודתו מתמקדת בעיקר בראייה ממוחשבת, ועיבוד שפה טבעית וסיוע ללקוחות לייעל את עומסי העבודה של AI/ML לקיימות. אמוג קיבל תואר שני במדעי המחשב בהתמחות בלמידת מכונה.
שילה סונונה הוא אדריכל תושב בכיר ב-AWS. היא עוזרת ללקוחות AWS לעשות בחירות מושכלות ולהתפשר על האצת הנתונים, הניתוחים ועומסי העבודה וההטמעות של AI/ML שלהם. בזמנה הפנוי היא נהנית לבלות עם משפחתה - בדרך כלל על מגרשי טניס.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://aws.amazon.com/blogs/big-data/process-and-analyze-highly-nested-and-large-xml-files-using-aws-glue-and-amazon-athena/
- :יש ל
- :הוא
- :לֹא
- :איפה
- $ למעלה
- 1
- 10
- 100
- 12
- 121
- 13
- 14
- 1994
- 250
- 26
- 53
- 7
- 8
- 9
- a
- אודות
- תקציר
- מאיצה
- גישה
- נגישות
- מושלם
- דיוק
- לרוחב
- פעולה
- להוסיף
- הוסיף
- נוסף
- כתובת
- לאחר
- גיל
- AI / ML
- תעשיות
- להתיר
- מאפשר
- מאפשר
- גם
- חלופה
- אמזון בעברית
- אמזונה אתנה
- אמזון שירותי אינטרנט
- an
- אנליזה
- ניתוח
- לנתח
- ניתוח
- ו
- אחר
- כל
- אַפָּשׁ
- מושך
- יישומים
- החל
- גישה
- גישות
- ארכיטקטורה
- ARE
- מערך
- AS
- לעזור
- סיוע
- At
- מחבר
- באופן אוטומטי
- זמין
- AWS
- דבק AWS
- בחזרה
- מבוסס
- בסיסי
- BE
- כי
- לפני
- להתחיל
- להיות
- הטוב ביותר
- מוטב
- בֵּין
- ריק
- ספר
- שניהם
- לִבנוֹת
- עסקים
- אבל
- by
- נקרא
- CAN
- קטלוג
- לגרום
- תא
- האתגרים
- שינוי
- שינויים
- משתנה
- בחירות
- בחרו
- עִיר
- מיון
- לקוחות
- קוד
- טור
- עמודות
- COM
- מגיע
- Common
- בדרך כלל
- להשלים
- השלמת
- מורכב
- המחשב
- מדעי מחשב
- ראייה ממוחשבת
- מצב
- לנהל
- יחד
- לשקול
- קונסול
- תמיד
- אילוצים
- לבנות
- להכיל
- הכלול
- מכיל
- לעומת זאת
- לִשְׁלוֹט
- להמיר
- הומר
- עלות תועלת
- פתרון חסכוני
- מחוז
- בתי משפט
- מכוסה
- הסורק
- לִיצוֹר
- נוצר
- יוצרים
- מכריע
- מנהג
- לקוח
- לקוחות
- נתונים
- שילוב נתונים
- ניהול נתונים
- נתונים מונחים
- מסד נתונים
- מערכי נתונים
- התמודדות
- החלטות
- בְּרִירַת מֶחדָל
- לְהַגדִיר
- הגדרה
- להתעמק
- מדגים
- תלוי
- לפרוס
- מעוצב
- מְפוֹרָט
- פרטים
- מפתח
- אחר
- קשה
- דיגיטלי
- עידן דיגיטלי
- ישירות
- מגלה
- מובהק
- do
- לא
- עשה
- לא
- נקודה
- בְּמַהֲלָך
- דינמי
- כל אחד
- להקל
- בקלות
- קל
- עורך
- השפעה
- יעילות
- יְעִילוּת
- יעיל
- יעילות
- מאמץ
- ללא מאמץ
- חשמלי
- רכב חשמלי
- אלמנטים
- העסקת
- להסמיך
- מעצים
- ריק
- לאפשר
- מה שמאפשר
- פְּגִישָׁה
- סוף
- מנועים
- להגביר את
- לְהַבטִיחַ
- מבטיח
- זן
- התלהבות
- כניסה
- שגיאות
- במיוחד
- Ether (ETH)
- אֲפִילוּ
- אירועים
- כל
- דוגמה
- עולה על
- מחליפים
- מומחיות
- חקירה
- לחקור
- חקר
- תמצית
- הוֹצָאָה
- משפחה
- מאפיין
- תכונות
- דמויות
- שלח
- קבצים
- לממן
- ראשון
- קבוע
- גמישות
- להתמקד
- מרוכז
- הבא
- בעד
- פוּרמָט
- מסגרת
- חופשי
- תדר
- החל מ-
- פונקציה
- לְהַשִׂיג
- מטרה כללית
- ליצור
- גלוֹבָּלִי
- Go
- מטרה
- ממשלה
- גדול
- לטפל
- טיפול
- קורה
- רתימה
- יש
- יש
- he
- בריאות
- לֵב
- לעזור
- עזרה
- עוזר
- לה
- ברמה גבוהה
- מאוד
- שֶׁלוֹ
- איך
- איך
- אולם
- HTML
- http
- HTTPS
- IAM
- אידאל
- רעיונות
- זהות
- if
- מדגים
- ליישם
- יישומים
- יישום
- לייבא
- לשפר
- משופר
- in
- כולל
- בנפרד
- אנשים
- תעשיות
- מידע
- הודעה
- תשתית
- חדשני
- בתוך
- תובנות
- במקום
- הוראות
- לשלב
- השתלבות
- אינטראקטיבי
- מעוניין
- מִמְשָׁק
- אל תוך
- כרוך
- בעיות
- IT
- שֶׁלָה
- עבודה
- מקומות תעסוקה
- jpg
- ג'סון
- מחברת צדק
- שמור
- לדעת
- מעבדה
- שפה
- גָדוֹל
- גדול יותר
- מוביל
- לִלמוֹד
- למידה
- רמה
- כמו
- להגביל
- הגבלה
- מגבלות
- קו
- קווים
- לִטעוֹן
- טוען
- הגיון
- הסתכלות
- מכונה
- למידת מכונה
- ראשי
- בעיקר
- לעשות
- עשייה
- ניהול
- ניהול
- מדריך ל
- באופן ידני
- רב
- מיפוי
- מאסטר
- מאי..
- אומר
- תפריט
- מידע נוסף
- שיטה
- דקות
- מודל
- יותר
- יותר יעיל
- רוב
- המהלך
- סרטים
- מספר
- שם
- שם
- שמות
- טבעי
- שפה טבעית
- עיבוד שפה טבעית
- נווט
- ניווט
- הכרחי
- צורך
- צרכי
- חדש
- חדש
- הבא
- בייחוד
- מחברה
- עַכשָׁיו
- מספר
- אובייקטים
- of
- המיוחדות שלנו
- on
- ONE
- רק
- תפעול
- אופטימלי
- מטב
- מייעל
- אפשרויות
- or
- להזמין
- ארגונים
- מָקוֹר
- אחר
- שלנו
- הַחוּצָה
- תפוקה
- יותר
- להתגבר על
- שֶׁלוֹ
- עמוד
- זגוגית
- פרמטר
- פרמטרים
- חלק
- במיוחד
- לעבור
- נתיב
- פטריק
- לבצע
- ביצועים
- הרשאות
- לבחור
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- משחק
- מדיניות
- אוכלוסייה
- להחזיק
- הודעה
- פוטנציאל
- צורך
- לְהַעֲדִיף
- תנאים מוקדמים
- תצוגה מקדימה
- קודם
- בעיות
- תהליך
- מעובד
- תהליך
- המוצר
- פּרוֹיֶקט
- פרויקטים
- נכסים
- לספק
- מספק
- לפרסם
- מטרה
- פיתון
- שאילתות
- מָהִיר
- במקום
- חומר עיוני
- לְלֹא קוֹשִׁי
- קריאה
- סיבות
- קיבלו
- להכיר
- להתייחס
- רלוונטי
- דרישות
- להציל
- משאב
- תגובה
- אחריות
- REST
- לְהַגבִּיל
- הגבלה
- תוצאות
- חָסוֹן
- תפקיד
- שורש
- שׁוּרָה
- הפעלה
- אותו
- שמור
- סולם
- בקרת מערכות ותקשורת
- להרחבה
- מדע
- תסריט
- בצורה חלקה
- בצורה חלקה
- שְׁנִיָה
- סעיף
- לִרְאוֹת
- לחצני מצוקה לפנסיונרים
- שירותים
- מושב
- סט
- הצבה
- כמה
- היא
- פָּגָז
- צריך
- לְהַצִיג
- הראה
- הופעות
- דומה
- פָּשׁוּט
- פשטות
- מפשט
- יחיד
- מידה
- קטן
- So
- כדורגל
- פִּתָרוֹן
- פתרונות
- כמה
- מָקוֹר
- מקורות
- לעורר
- מומחה
- מתמחה
- ספציפי
- במיוחד
- מְהִירוּת
- הוצאה
- SQL
- תֶקֶן
- התחלות
- מדינה
- הצהרה
- לפי
- שלב
- צעדים
- אחסון
- מאוחסן
- פשוט
- לייעל
- מחרוזת
- חזק
- מִבְנֶה
- מבנים
- סטודיו
- הצלחה
- כזה
- מַתְאִים
- תמיכה
- בטוח
- קיימות
- מערכות
- שולחן
- תָג
- מותאם
- לקחת
- לוקח
- משימות
- טכניקות
- טֶנִיס
- מֵאֲשֶׁר
- זֶה
- השמיים
- המידע
- העולם
- שֶׁלָהֶם
- אותם
- אז
- שם.
- אלה
- הֵם
- זֶה
- אלה
- דרך
- זמן
- כותרת
- שכותרתו
- ל
- של היום
- ארגז כלים
- חלק עליון
- נושא
- לשנות
- טרנספורמציה
- נסיעה
- פנייה
- הדרכה
- שתיים
- סוג
- סוגים
- האולטימטיבי
- תחת
- עדכון
- מְעוּדכָּן
- נטען
- us
- שמישות
- להשתמש
- מְשׁוּמָשׁ
- משתמש
- ממשק משתמש
- ידידותי למשתמש
- שימושים
- באמצעות
- בְּדֶרֶך כְּלַל
- ניצול
- בעל ערך
- ערך
- ערכים
- רכב
- גרסה
- באמצעות
- לצפיה
- נופים
- חזון
- צופה
- דֶרֶך..
- we
- אינטרנט
- שירותי אינטרנט
- מה
- מתי
- ואילו
- אם
- אשר
- מי
- למה
- יצטרך
- עם
- בתוך
- לְלֹא
- תיק עבודות
- זרימת עבודה
- זרימות עבודה
- עובד
- עוֹלָם
- לכתוב
- XML
- אתה
- זפירנט