האדום של אמזון הוא מחסן נתונים בענן מהיר ומנוהל במלואו בקנה מידה פטה-בייט, שהופך את זה לפשוט וחסכוני לנתח את כל הנתונים שלך באמצעות SQL סטנדרטי וכלי בינה עסקית (BI) הקיימים שלך. עשרות אלפי לקוחות משתמשים היום באמזון Redshift כדי לנתח אקסבייטים של נתונים ולהפעיל שאילתות אנליטיות, מה שהופך אותו למחסן הנתונים בענן הנפוץ ביותר. Amazon Redshift זמין גם בתצורות ללא שרת וגם בתצורות מסודרות.
Amazon Redshift מאפשר לך לגשת ישירות לנתונים המאוחסנים ב שירות אחסון פשוט של אמזון (Amazon S3) באמצעות שאילתות SQL והצטרפות נתונים ברחבי מחסן הנתונים ואגם הנתונים שלך. עם Amazon Redshift, אתה יכול לשאול את הנתונים באגם הנתונים S3 שלך באמצעות מרכזי דבק AWS metastore ממחסן הנתונים Redshift שלך.
Amazon Redshift תומכת בשאילתות במגוון רחב של פורמטי נתונים, כגון CSV, JSON, Parquet ו-ORC, ופורמטים של טבלאות כמו Apache Hudi ו-Delta. Amazon Redshift תומכת גם בשאילתת נתונים מקוננים עם סוגי נתונים מורכבים כגון struct, array ומפה.
עם יכולת זו, Amazon Redshift מרחיבה את מחסן הנתונים שלך בקנה מידה פטה-בתים לאגם נתונים בקנה מידה של אמזון S3 באופן חסכוני.
Apache Iceberg הוא פורמט הטבלה האחרון שנתמך כעת בתצוגה מקדימה על ידי Amazon Redshift. בפוסט זה, אנו מראים לך כיצד לבצע שאילתות על טבלאות Iceberg באמצעות Amazon Redshift, ולחקור את התמיכה והאפשרויות של Iceberg.
סקירת פתרונות
אפאצ'י קרח הוא פורמט טבלה פתוח עבור מערכי נתונים אנליטיים גדולים מאוד בקנה מידה פטה. Iceberg מנהל אוספים גדולים של קבצים כטבלאות, והוא תומך בפעולות אגם נתונים אנליטיות מודרניות כגון הכנסה, עדכון, מחיקה ושאילתות מסע בזמן ברמת שיא. מפרט Iceberg מאפשר אבולוציה חלקה של טבלה כמו התפתחות סכימה ומחיצות, והעיצוב שלו מותאם לשימוש ב-Amazon S3.
Iceberg מאחסן את מצביע המטא נתונים עבור כל קבצי המטא נתונים. כאשר שאילתת SELECT קוראת טבלת Iceberg, מנוע השאילתה עובר תחילה לקטלוג Iceberg, ולאחר מכן מאחזר את הזנת המיקום של קובץ המטא-נתונים האחרון, כפי שמוצג בתרשים הבא.
Amazon Redshift מספקת כעת תמיכה בטבלאות Apache Iceberg, המאפשרת ללקוחות אגם הנתונים להריץ שאילתות ניתוח לקריאה בלבד בצורה עקבית מבחינה עסקית. זה מאפשר לך לנהל ולתחזק בקלות את הטבלאות שלך על אגמי נתונים עסקה.
Amazon Redshift תומכת ביכולות הסכימה והאבולוציה של המחיצות המקוריות של Apache Iceberg באמצעות קטלוג נתוני דבק של AWS, ביטול הצורך לשנות הגדרות טבלה כדי להוסיף מחיצות חדשות או להעביר ולעבד כמויות גדולות של נתונים כדי לשנות את הסכימה של טבלת אגם נתונים קיימת. Amazon Redshift משתמש בסטטיסטיקות העמודות המאוחסנות במטא נתונים של טבלת Apache Iceberg כדי לייעל את תוכניות השאילתות שלה ולהפחית את סריקות הקבצים הנדרשות להפעלת שאילתות.
בפוסט זה אנו משתמשים ב- מערך מידע ציבורי של מוניות צהוב מ-NYC Taxi & Limousine Commission כנתוני המקור שלנו. מערך הנתונים מכיל קבצי נתונים ב אפאצ'י פרקט פורמט באמזון S3. אנו משתמשים אמזונה אתנה כדי להמיר את מערך הנתונים הזה של פרקט ולאחר מכן להשתמש ספקטרום אדום שיפט כדי לבצע שאילתות ולהצטרף לטבלה מקומית של Redshift, לבצע מחיקות ועדכונים ברמת השורה והתפתחות מחיצות, הכל מתואם באמצעות קטלוג הנתונים של AWS Glue Data באגם נתונים S3.
תנאים מוקדמים
אתה צריך להיות בעל הדרישות המוקדמות הבאות:
המרת נתוני פרקט לשולחן אייסברג
עבור הפוסט הזה, אתה צריך את נתונים ציבוריים של מוניות צהובות מ-NYC Taxi & Limousine Commission זמין בפורמט אייסברג. אתה יכול להוריד את הקבצים ולאחר מכן להשתמש ב- Athena כדי להמיר את מערך הנתונים של Parquet לטבלת Iceberg, או להתייחס אליו בנה אגם נתונים של Apache Iceberg באמצעות Amazon Athena, Amazon EMR ו-AWS Glue פוסט בבלוג ליצירת שולחן אייסברג.
בפוסט זה, אנו משתמשים באתנה כדי להמיר את הנתונים. השלם את השלבים הבאים:
- הורד את הקבצים באמצעות הקישור הקודם או השתמש ב- ממשק שורת הפקודה של AWS (AWS CLI) כדי להעתיק את הקבצים מדלי S3 הציבורי לשנת 2020 ו-2021 לדלי S3 שלך באמצעות הפקודה הבאה:
למידע נוסף עיין ב הגדרת ה-CLI של Amazon Redshift.
- צור מסד נתונים
Icebergdb
וצור טבלה באמצעות Athena המצביעה על הקבצים בפורמט Parquet באמצעות ההצהרה הבאה: - אמת את הנתונים בטבלת פרקטים באמצעות ה-SQL הבא:
- צור טבלת אייסברג באתנה עם הקוד הבא. תוכל לראות את מאפייני סוג הטבלה כשולחן אייסברג עם פורמט פרקט ודחיסה מהירה בהמשך
create table
הַצהָרָה. עליך לעדכן את מיקום S3 לפני הפעלת ה-SQL. שים לב גם ששולחן אייסברג מחולק עםYear
מַפְתֵחַ. - לאחר יצירת הטבלה, טען את הנתונים לטבלת Iceberg באמצעות טבלת הפרקט שנטענה קודם לכן
nyc_taxi_yellow_parquet
עם ה-SQL הבא: - כאשר הצהרת SQL הושלמה, אמת את הנתונים בטבלת Iceberg
nyc_taxi_yellow_iceberg
. שלב זה נדרש לפני המעבר לשלב הבא. - אתה יכול לאמת שהטבלה nyc_taxi_yellow_iceberg היא בטבלה בפורמט Iceberg ומחולקת בעמודה Year באמצעות הפקודה הבאה:
צור סכמה חיצונית באמזון Redshift
בחלק זה, אנו מדגימים כיצד ליצור סכימה חיצונית באמזון Redshift המצביע על מסד הנתונים של AWS Glue icebergdb
כדי לשאול את טבלת Iceberg nyc_taxi_yellow_iceberg
שראינו בסעיף הקודם באמצעות אתנה.
היכנס להיסט לאדום באמצעות עורך שאילתות v2 או לקוח SQL והפעל את הפקודה הבאה (שים לב שמסד הנתונים של AWS Glue icebergdb
ומידע אזור נמצא בשימוש):
כדי ללמוד על יצירת סכמות חיצוניות באמזון Redshift, עיין ב ליצור סכמה חיצונית
לאחר יצירת הסכימה החיצונית spectrum_iceberg_schema
, אתה יכול לשאול את טבלת Iceberg באמזון Redshift.
שאילתה בטבלת Iceberg באמזון לאדום
הפעל את השאילתה הבאה ב-Query Editor v2. ציין זאת spectrum_iceberg_schema
הוא השם של הסכמה החיצונית שנוצרה באמזון Redshift ו nyc_taxi_yellow_iceberg
היא הטבלה במסד הנתונים של AWS Glue המשמשת בשאילתה:
פלט נתוני השאילתה בצילום המסך הבא מראה שטבלת הדבק של AWS בפורמט Iceberg ניתנת לשאילתה באמצעות Redshift Spectrum.
בדוק את תוכנית ההסבר של שאילתה בטבלת Iceberg
אתה יכול להשתמש בשאילתה הבאה כדי לקבל את הפלט להסביר את התוכנית, שמראה את הפורמט הוא ICEBERG
:
אמת עדכונים לעקביות הנתונים
לאחר השלמת העדכון בטבלת Iceberg, תוכל לבצע שאילתה של Amazon Redshift כדי לראות את התצוגה העקבית של הנתונים. בואו נריץ שאילתה על ידי בחירה ב-a vendorid
ולגבי איסוף והחזרה מסוימים:
לאחר מכן, עדכן את הערך של passenger_count
ל- 4 ו- trip_distance
ל -9.4 עבור א vendorid
ותאריכי איסוף והחזרה מסוימים באתנה:
לבסוף, הפעל את השאילתה הבאה ב-Query Editor v2 כדי לראות את הערך המעודכן של passenger_count
ו trip_distance
:
כפי שמוצג בצילום המסך הבא, פעולות העדכון בטבלת Iceberg זמינות באמזון Redshift.
צור תצוגה מאוחדת של הטבלה המקומית והנתונים ההיסטוריים באמזון Redshift
כאסטרטגיית ארכיטקטורת נתונים מודרנית, אתה יכול לארגן נתונים היסטוריים או נתונים שנגישים אליהם בתדירות נמוכה יותר באגם הנתונים ולשמור נתונים שניגשים אליהם לעתים קרובות במחסן הנתונים של Redshift. זה מספק את הגמישות לנהל ניתוח בקנה מידה ולמצוא את פתרון הארכיטקטורה החסכוני ביותר.
בדוגמה זו, אנו טוענים נתונים של שנתיים בטבלה לאדום; שאר הנתונים נשארים באגם הנתונים של S2 כי הנתונים האלה נשאלים בתדירות נמוכה יותר.
- השתמש בקוד הבא כדי לטעון שנתיים של נתונים ב-
nyc_taxi_yellow_recent
שולחן באמזון לאדום, מקור משולחן אייסברג: - לאחר מכן, אתה יכול להסיר את 2 השנים האחרונות של נתונים מטבלת Iceberg באמצעות הפקודה הבאה ב- Athena מכיוון שטענת את הנתונים לטבלת Redshift בשלב הקודם:
לאחר שתשלים את השלבים האלה, לטבלת ה-Redshift יש שנתיים של הנתונים ושאר הנתונים נמצאים בטבלת Iceberg באמזון S2.
- צור תצוגה באמצעות ה
nyc_taxi_yellow_iceberg
שולחן אייסברג וnyc_taxi_yellow_recent
טבלה באמזון לאדום: - כעת שאל את התצוגה, בהתאם לתנאי המסנן, Redshift Spectrum יסרוק את נתוני Iceberg, את טבלת ההיסט לאדום או את שניהם. השאילתה לדוגמה הבאה מחזירה מספר רשומות מכל אחת מטבלאות המקור על ידי סריקת שתי הטבלאות:
אבולוציה של מחיצה
אייסברג משתמש חלוקה נסתרת, כלומר אינך צריך להוסיף ידנית מחיצות עבור טבלאות Apache Iceberg שלך. ערכי מחיצה חדשים או מפרט מחיצה חדש (הוסף או הסרה של עמודות מחיצה) בטבלאות Apache Iceberg מזוהים אוטומטית על ידי Amazon Redshift ואין צורך בפעולה ידנית כדי לעדכן מחיצות בהגדרת הטבלה. הדוגמה הבאה מדגימה זאת.
בדוגמה שלנו, אם טבלת אייסברג nyc_taxi_yellow_iceberg
במקור היה מחולק לפי שנה ומאוחר יותר העמוד vendorid
נוספה כעמודת מחיצה נוספת, אז Amazon Redshift יכולה לבצע שאילתות חלקה בטבלת Iceberg nyc_taxi_yellow_iceberg
עם שתי ערכות מחיצות שונות על פני תקופה של זמן.
שיקולים בעת ביצוע שאילתות לטבלאות Iceberg באמצעות Amazon Redshift
במהלך תקופת התצוגה המקדימה, שקול את הדברים הבאים בעת שימוש באמזון Redshift עם טבלאות Iceberg:
- רק טבלאות Iceberg המוגדרות בקטלוג נתוני הדבק של AWS נתמכות.
- פקודות טבלה חיצוניות CREATE או ALTER אינן נתמכות, מה שאומר שטבלת Iceberg כבר צריכה להתקיים במסד נתונים של AWS Glue.
- שאילתות מסע בזמן אינן נתמכות.
- אייסברג גרסאות 1 ו-2 נתמכות. לפרטים נוספים על גרסאות פורמט Iceberg, עיין ב עיצוב גרסאות.
- לרשימה של סוגי נתונים נתמכים עם טבלאות Iceberg, עיין ב סוגי נתונים נתמכים עם טבלאות Apache Iceberg (תצוגה מקדימה).
- תמחור עבור שאילתה לטבלת Iceberg זהה לגישה לכל פורמט נתונים אחר באמצעות Amazon Redshift.
לפרטים נוספים על שיקולים לתצוגה מקדימה של טבלאות בפורמט Iceberg, עיין שימוש בטבלאות Apache Iceberg עם אמזון Redshift (תצוגה מקדימה).
משוב לקוחות
"Tinuiti, חברת שיווק הביצועים העצמאית הגדולה ביותר, מטפלת בכמויות גדולות של נתונים על בסיס יומי וחייבת להיות בעלת אסטרטגיית מידע איתנה ואסטרטגיית מחסני נתונים כדי שצוותי מודיעין השוק שלנו יאחסנו וינתחו את כל נתוני הלקוחות שלנו בצורה קלה, נוחה ומאובטחת. ובדרך חזקה", אומר ג'סטין מאנוס, מנהל טכנולוגיה ראשי ב-Tinuiti. "התמיכה של Amazon Redshift בטבלאות Apache Iceberg באגם הנתונים שלנו, שהוא מקור האמת היחיד, נותנת מענה לאתגר קריטי באופטימיזציה של ביצועים ונגישות ומפשטת עוד יותר את צינורות אינטגרציית הנתונים שלנו כדי לגשת לכל הנתונים שנקלטו ממקורות שונים וכדי להפעיל את פוטנציאל המותג של הלקוחות".
סיכום
בפוסט הזה, הראינו לכם דוגמה לשאילתה של טבלת Iceberg ב-Redshift באמצעות קבצים המאוחסנים ב-Amazon S3, מקוטלגים כטבלה בקטלוג הנתונים של דבק AWS, והדגמנו כמה מהתכונות המרכזיות כמו עדכון ומחיקה יעילים ברמת השורה, וחוויית התפתחות הסכימה למשתמשים כדי לפתוח את הכוח של ביג דאטה באמצעות Athena.
אתה יכול להשתמש באמזון Redshift כדי להפעיל שאילתות על טבלאות אגם נתונים בקבצים ובפורמטים שונים של טבלאות, כגון אפאצ'י הודי ו אגם דלתא, ועכשיו עם Apache Iceberg (תצוגה מקדימה), המספק אפשרויות נוספות לצרכי ארכיטקטורת הנתונים המודרניים שלך.
אנו מקווים שזה ייתן לך נקודת התחלה מצוינת לשאילתת טבלאות Iceberg באמזון Redshift.
על הכותבים
רוהיט בנסל הוא אדריכל פתרונות מומחה ב-Analytics ב-AWS. הוא מתמחה באמזון Redshift ועובד עם לקוחות כדי לבנות פתרונות אנליטיקה מהדור הבא באמצעות שירותי AWS Analytics אחרים.
סתיש סתיה הוא מהנדס מוצר בכיר באמזון רדשיפט. הוא חובב ביג דאטה נלהב שמשתף פעולה עם לקוחות ברחבי העולם כדי להשיג הצלחה ולענות על צרכי אחסון הנתונים והארכיטקטורה שלהם.
רנג'אן בורמן הוא אדריכל פתרונות מומחה ב-Analytics ב-AWS. הוא מתמחה באמזון Redshift ועוזר ללקוחות לבנות פתרונות אנליטיים ניתנים להרחבה. יש לו יותר מ-16 שנות ניסיון בטכנולוגיות שונות של מסדי נתונים ואחסון נתונים. הוא נלהב מאוטומציה ופתרון בעיות של לקוחות עם פתרונות ענן.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. רכב / רכבים חשמליים, פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- ChartPrime. הרם את משחק המסחר שלך עם ChartPrime. גישה כאן.
- BlockOffsets. מודרניזציה של בעלות על קיזוז סביבתי. גישה כאן.
- מקור: https://aws.amazon.com/blogs/big-data/query-your-iceberg-tables-in-data-lake-using-amazon-redshift-preview/
- :יש ל
- :הוא
- :לֹא
- :איפה
- $ למעלה
- 1
- 10
- 100
- 16
- 17
- 2020
- 2021
- 22
- 26
- 28
- 30
- 385
- 46
- 500
- 53
- 7
- 8
- 9
- a
- אודות
- גישה
- נצפה
- נגישות
- גישה
- להשיג
- לרוחב
- להוסיף
- הוסיף
- נוסף
- כתובות
- מחיר סביר
- תעשיות
- מאפשר
- כְּבָר
- גם
- אמזון בעברית
- אמזונה אתנה
- אמזון EMR
- אמזון שירותי אינטרנט
- כמויות
- an
- אנליטי
- אנליטית
- ניתוח
- לנתח
- ו
- כל
- אַפָּשׁ
- ארכיטקטורה
- ARE
- סביב
- מערך
- AS
- At
- באופן אוטומטי
- אוטומציה
- זמין
- AWS
- דבק AWS
- בסיס
- כי
- לפני
- להיות
- גָדוֹל
- נתונים גדולים
- כריכה
- בלוג
- שניהם
- מותג
- לִבנוֹת
- עסקים
- מודיעין עסקי
- by
- CAN
- יכולות
- יכולת
- קטלוג
- מֶרכָּזִי
- מסוים
- לאתגר
- שינוי
- רֹאשׁ
- מנהל טכנולוגיה ראשי
- לקוחות
- ענן
- קוד
- אוספים
- טור
- עמודות
- להשלים
- מורכב
- תנאים
- לשקול
- שיקולים
- עִקבִי
- מכיל
- להמיר
- מתואם
- עלות תועלת
- לִיצוֹר
- נוצר
- יוצרים
- קריטי
- לקוח
- נתוני לקוחות
- לקוחות
- יומי
- נתונים
- שילוב נתונים
- אגם דאטה
- מחסן נתונים
- מסד נתונים
- מערכי נתונים
- תאריכים
- בְּרִירַת מֶחדָל
- מוגדר
- הגדרה
- הגדרות
- דלתא
- להפגין
- מופגן
- מדגים
- תלוי
- עיצוב
- פרטים
- זוהה
- dev
- אחר
- ישירות
- לא
- לְהַכפִּיל
- להורדה
- כל אחד
- בקלות
- קל
- עורך
- יעיל
- או
- חיסול
- מאפשר
- מנוע
- מהנדס
- נלהב
- כניסה
- Ether (ETH)
- אבולוציה
- דוגמה
- להתקיים
- קיימים
- ניסיון
- להסביר
- לחקור
- משתרע
- חיצוני
- נוסף
- מהר
- תכונות
- שלח
- קבצים
- לסנן
- פירמה
- ראשון
- גמישות
- הבא
- בעד
- פוּרמָט
- בתדירות גבוהה
- החל מ-
- לגמרי
- נוסף
- לקבל
- נותן
- כדור הארץ
- Goes
- גדול
- קְבוּצָה
- מטפל
- יש
- he
- עוזר
- היסטורי
- לקוות
- איך
- איך
- HTML
- http
- HTTPS
- if
- in
- עצמאי
- מידע
- השתלבות
- מוֹדִיעִין
- אל תוך
- IT
- שֶׁלָה
- להצטרף
- jpg
- ג'סון
- ג'סטין
- שמור
- מפתח
- אגם
- גָדוֹל
- הגדול ביותר
- אחרון
- מאוחר יותר
- האחרון
- לִלמוֹד
- פחות
- כמו
- להגביל
- קו
- קשר
- רשימה
- לִטעוֹן
- מקומי
- מיקום
- לתחזק
- עושה
- עשייה
- לנהל
- הצליח
- מצליח
- דרך
- מדריך ל
- באופן ידני
- מַפָּה
- שוק
- שיווק
- אומר
- לִפְגוֹשׁ
- מידע נוסף
- מודרני
- יותר
- רוב
- המהלך
- נע
- צריך
- שם
- יליד
- צורך
- נחוץ
- צרכי
- חדש
- הבא
- הדור הבא
- לא
- הערות
- עַכשָׁיו
- מספר
- ניו יורק
- of
- קָצִין
- on
- לפתוח
- מבצע
- תפעול
- מטב
- אופטימיזציה
- מיטוב
- אפשרויות
- or
- בְּמָקוֹר
- אחר
- שלנו
- תפוקה
- יותר
- עמוד
- לוהט
- לבצע
- ביצועים
- תקופה
- תכנית
- תוכניות
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- נקודה
- הודעה
- פוטנציאל
- כּוֹחַ
- תנאים מוקדמים
- תצוגה מקדימה
- קודם
- קוֹדֶם
- בעיות
- תהליך
- המוצר
- נכסים
- מספק
- ציבורי
- שאילתות
- קריאה
- רשום
- להפחית
- באזור
- להסיר
- להחליף
- נדרש
- REST
- החזרות
- חָסוֹן
- הפעלה
- ריצה
- אותו
- ראה
- אומר
- להרחבה
- סולם
- סריקה
- סריקה
- סריקות
- תוכניות
- בצורה חלקה
- בצורה חלקה
- סעיף
- לבטח
- לִרְאוֹת
- לחצני מצוקה לפנסיונרים
- ללא שרת
- שירותים
- סט
- צריך
- לְהַצִיג
- הראה
- הראה
- הופעות
- פָּשׁוּט
- יחיד
- פִּתָרוֹן
- פתרונות
- פותר
- כמה
- מָקוֹר
- מקורות
- המקור
- מומחה
- מתמחה
- מפרט
- מפרט טכני
- ספֵּקטרוּם
- SQL
- תֶקֶן
- החל
- הצהרה
- סטטיסטיקה
- שלב
- צעדים
- אחסון
- חנות
- מאוחסן
- חנויות
- אִסטרָטֶגִיָה
- מחרוזת
- הצלחה
- כזה
- תמיכה
- נתמך
- תומך
- שולחן
- צוותי
- טכנולוגיות
- טכנולוגיה
- עשרות
- מֵאֲשֶׁר
- זֶה
- השמיים
- המקור
- שֶׁלָהֶם
- אז
- אלה
- זֶה
- אלפים
- דרך
- זמן
- זמן הנסיעה
- חותם
- ל
- היום
- כלים
- טרנזקציות
- נסיעות
- אמת
- שתיים
- סוג
- סוגים
- מאוחד
- התאחדות
- לפתוח
- עדכון
- מְעוּדכָּן
- עדכונים
- נוֹהָג
- להשתמש
- מְשׁוּמָשׁ
- משתמשים
- שימושים
- באמצעות
- לְאַמֵת
- ערך
- ערכים
- מגוון
- שונים
- מאוד
- באמצעות
- לצפיה
- כרכים
- מחסן
- אחסון
- היה
- דֶרֶך..
- we
- אינטרנט
- שירותי אינטרנט
- מתי
- אשר
- מי
- רָחָב
- באופן נרחב
- יצטרך
- עם
- עובד
- שנה
- שנים
- אתה
- זפירנט