עם אמזון EMR 6.15, השקנו תצורת אגם AWS בקרות גישה עדינות (FGAC) מבוססות על פורמטים של טבלה פתוחה (OTFs), כולל Apache Hudi, Apache Iceberg ואגם Delta. זה מאפשר לך לפשט את האבטחה והניהול אגמי נתונים עסקיים על ידי מתן בקרות גישה בהרשאות ברמת הטבלה, העמודה והשורה עם עבודות Apache Spark שלך. חברות ארגוניות גדולות רבות מבקשות להשתמש באגם הנתונים העסקאות שלהן כדי לקבל תובנות ולשפר את קבלת ההחלטות. אתה יכול לבנות ארכיטקטורה של בית אגם באמצעות Amazon EMR המשולב עם Lake Formation עבור FGAC. שילוב זה של שירותים מאפשר לך לבצע ניתוח נתונים על אגם הנתונים העסקאות שלך תוך הבטחת גישה מאובטחת ומבוקרת.
רכיב שרת הרשומות של Amazon EMR תומך בפונקציונליות סינון נתונים ברמת טבלה, עמודות, שורה, תא ומקוננות. הוא מרחיב את התמיכה לפורמטים של Hive, Apache Hudi, Apache Iceberg ו-Delta lake הן לקריאה (כולל מסע בזמן ושאילתה מצטברת) והן לפעולות כתיבה (על הצהרות DML כגון INSERT). בנוסף, עם גרסה 6.15, אמזון EMR מציגה הגנת בקרת גישה עבור ממשק האינטרנט של האפליקציה שלה, כגון שרת Spark History ב-Cluster, שרת ציר הזמן של Yarn וממשק המשתמש של מנהל משאבי חוט.
בפוסט זה, אנו מדגימים כיצד ליישם FGAC על אפאצ'י הודי טבלאות באמצעות Amazon EMR משולבת עם Lake Formation.
מקרה שימוש באגם נתוני עסקאות
לקוחות אמזון EMR משתמשים לעתים קרובות בפורמטים פתוחים של טבלה כדי לתמוך בעסקאות ה-ACID שלהם ובצורכי הנסיעה בזמן באגם נתונים. על ידי שימור גרסאות היסטוריות, מסע בזמן נתונים אגם מספק יתרונות כמו ביקורת ותאימות, שחזור נתונים והחזרה, ניתוח שניתן לשחזור וחקר נתונים בנקודות זמן שונות.
מקרה פופולרי נוסף לשימוש באגם נתוני עסקאות הוא שאילתה מצטברת. שאילתה מצטברת מתייחסת לאסטרטגיית שאילתה המתמקדת בעיבוד וניתוח רק של הנתונים החדשים או המעודכנים בתוך אגם נתונים מאז השאילתה האחרונה. הרעיון המרכזי מאחורי שאילתות מצטברות הוא להשתמש במטא נתונים או לשנות מנגנוני מעקב כדי לזהות את הנתונים החדשים או שהשתנו מאז השאילתה האחרונה. על ידי זיהוי השינויים הללו, מנוע השאילתות יכול לייעל את השאילתה לעיבוד הנתונים הרלוונטיים בלבד, ולצמצם משמעותית את זמן העיבוד ואת דרישות המשאבים.
סקירת פתרונות
בפוסט זה, אנו מדגימים כיצד ליישם FGAC בטבלאות Apache Hudi באמצעות Amazon EMR ענן מחשוב אלסטי של אמזון (Amazon EC2) משולב עם Lake Formation. Apache Hudi היא מסגרת קוד פתוח ל-transactional data lake המפשטת מאוד עיבוד נתונים מצטבר ופיתוח צינורות נתונים. תכונת FGAC חדשה זו תומכת בכל ה-OTF. מלבד הדגמה עם Hudi כאן, אנו נעקוב אחר טבלאות OTF אחרות עם בלוגים אחרים. אנו משתמשים מחשבים ניידים in סטודיו SageMaker של אמזון לקרוא ולכתוב נתוני Hudi באמצעות הרשאות גישה שונות למשתמש דרך אשכול EMR. זה משקף תרחישי גישה לנתונים מהעולם האמיתי - לדוגמה, אם משתמש הנדסי זקוק לגישה מלאה לנתונים כדי לפתור בעיות בפלטפורמת נתונים, בעוד שמנתחי נתונים עשויים להזדקק לגשת רק לקבוצת משנה של הנתונים האלה שאינה מכילה מידע אישי מזהה (PII ). שילוב עם Lake Formation דרך ה תפקיד זמן ריצה של אמזון EMR עוד יותר מאפשר לך לשפר את עמדת אבטחת הנתונים שלך ומפשט את ניהול בקרת הנתונים עבור עומסי העבודה של Amazon EMR. פתרון זה מבטיח סביבה מאובטחת ומבוקרת לגישה לנתונים, העונה על הצרכים המגוונים ודרישות האבטחה של משתמשים ותפקידים שונים בארגון.
התרשים הבא ממחיש את ארכיטקטורת הפתרונות.
אנו עורכים תהליך קליטת נתונים כדי להעלות (לעדכן ולהכניס) מערך נתונים של Hudi ל- שירות אחסון פשוט של אמזון (Amazon S3) דלי, ולהתמיד או לעדכן את סכימת הטבלה ב- דבק AWS קטלוג נתונים. עם אפס תנועת נתונים, אנו יכולים לבצע שאילתות בטבלת ההודי המנוהלת על ידי Lake Formation באמצעות שירותי AWS שונים, כגון אמזונה אתנה, אמזון EMR, ו אמזון SageMaker.
כאשר משתמשים שולחים עבודת Spark דרך כל נקודת קצה של אשכול EMR (EMR Steps, Livy, EMR Studio ו- SageMaker), Lake Formation מאמת את ההרשאות שלהם ומנחה את אשכול EMR לסנן נתונים רגישים כגון נתוני PII.
לפתרון זה יש שלושה סוגים שונים של משתמשים עם רמות שונות של הרשאות לגשת לנתוני Hudi:
- hudi-db-creator-rolle - זה משמש את מנהל אגם הנתונים שיש לו הרשאות לבצע פעולות DDL כגון יצירה, שינוי ומחיקה של אובייקטי מסד נתונים. הם יכולים להגדיר כללי סינון נתונים ב-Lake Formation עבור בקרת גישה לנתונים ברמת השורה וברמת העמודה. כללי FGAC אלה מבטיחים שאגם הנתונים מאובטח ומקיים את תקנות פרטיות הנתונים הנדרשות.
- hudi-table-pii-תפקיד - זה משמש על ידי משתמשים הנדסיים. המשתמשים ההנדסיים מסוגלים לבצע מסע בזמן ושאילתות מצטברות הן ב-Copy-on-Write (CoW) והן ב-Merge-on-Read (MoR). יש להם גם הרשאות לגשת לנתוני PII בהתבסס על חותמות זמן כלשהן.
- hudi-table-non-pii-תפקיד - זה משמש מנתחי נתונים. זכויות הגישה לנתונים של מנתחי נתונים נשלטות על ידי כללים מורשים של FGAC הנשלטים על ידי מנהלי אגם נתונים. אין להם חשיפה בעמודות המכילות נתוני PII כמו שמות וכתובות. בנוסף, הם לא יכולים לגשת לשורות נתונים שלא עומדות בתנאים מסוימים. לדוגמה, המשתמשים יכולים לגשת רק לשורות נתונים השייכות למדינה שלהם.
תנאים מוקדמים
אתה יכול להוריד את שלושת המחברות המשמשות בפוסט זה מה- GitHub ריפו.
לפני פריסת הפתרון, ודא שיש לך את הדברים הבאים:
בצע את השלבים הבאים כדי להגדיר את ההרשאות שלך:
- היכנס לחשבון ה-AWS שלך עם משתמש IAM המנהל שלך.
ודא שאתה נמצא בus-east-1
אזור.
- צור דלי S3 ב-
us-east-1
אזור (לדוגמה,emr-fgac-hudi-us-east-1-<ACCOUNT ID>
).
לאחר מכן, אנו מאפשרים את Lake Formation על ידי שינוי מודל ההרשאות המוגדר כברירת מחדל.
- היכנס למסוף של Lake Formation כמשתמש המנהל.
- בחרו הגדרות קטלוג נתונים תחת אדמינסטרציה בחלונית הניווט.
- תַחַת הרשאות ברירת מחדל עבור מסדי נתונים וטבלאות שנוצרו לאחרונה, בטל את הבחירה השתמש רק בקרת גישה של IAM עבור מסדי נתונים חדשים ו השתמש רק בבקרת גישה של IAM לטבלאות חדשות בבסיסי נתונים חדשים.
- בחרו שמור.
לחלופין, עליך לבטל את IAMAllowedPrincipals על משאבים (מסדי נתונים וטבלאות) שנוצרו אם התחלת את Lake Formation עם אפשרות ברירת המחדל.
לבסוף, אנו יוצרים זוג מפתחות עבור אמזון EMR.
- בקונסולת אמזון EC2, בחר זוגות מפתח בחלונית הניווט.
- בחרו צור זוג מפתחות.
- בעד שם, הזן שם (לדוגמה
emr-fgac-hudi-keypair
). - בחרו צור זוג מפתחות.
צמד המפתחות שנוצר (עבור פוסט זה, emr-fgac-hudi-keypair.pem
) ישמור במחשב המקומי שלך.
לאחר מכן, אנו יוצרים AWS Cloud9 סביבת פיתוח אינטראקטיבית (IDE).
- במסוף AWS Cloud9, בחר סביבות בחלונית הניווט.
- בחרו צור סביבה.
- בעד שם¸ הזן שם (למשל,
emr-fgac-hudi-env
). - שמור את ההגדרות האחרות כברירת מחדל.
- בחרו צור.
- כאשר ה-IDE מוכן, בחר להרחיב לפתוח אותו.
- ב-AWS Cloud9 IDE, ב- שלח בתפריט, בחר העלה קבצים מקומיים.
- העלה את קובץ זוג המפתחות (
emr-fgac-hudi-keypair.pem
). - בחר את סימן הפלוס ובחר טרמינל חדש.
- בטרמינל, הזן את שורות הפקודה הבאות:
שים לב שהקוד לדוגמה הוא הוכחה לקונספט למטרות הדגמה בלבד. עבור מערכות ייצור, השתמש ברשות אישורים מהימנה (CA) כדי להנפיק אישורים. מתייחס מתן אישורים להצפנת נתונים במעבר עם הצפנת אמזון EMR לקבלת פרטים.
פרוס את הפתרון באמצעות AWS CloudFormation
אנו מספקים AWS CloudFormation תבנית שמגדירה באופן אוטומטי את השירותים והרכיבים הבאים:
- דלי S3 לאגם הנתונים. הוא מכיל את מערך הנתונים לדוגמה של TPC-DS.
- אשכול EMR עם תצורת אבטחה ו-DNS ציבורי מופעל.
- תפקידי IAM בזמן ריצה של EMR עם הרשאות מעודנות של Lake Formation:
- -הודי-db-יוצר-תפקיד - תפקיד זה משמש ליצירת מסד נתונים וטבלאות של Apache Hudi.
- -הודי-טבלה-pii-תפקיד – תפקיד זה מספק הרשאה לבצע שאילתות בכל העמודות של טבלאות Hudi, כולל עמודות עם PII.
- -הודי-טבלה-לא-pii-תפקיד - תפקיד זה מספק הרשאה לבצע שאילתות על טבלאות Hudi שסינו עמודות PII על ידי Lake Formation.
- תפקידי ביצוע של SageMaker Studio המאפשרים למשתמשים לקבל את תפקידי זמן הריצה המתאימים להם EMR.
- משאבי רשת כגון VPC, רשתות משנה וקבוצות אבטחה.
השלם את השלבים הבאים כדי לפרוס את המשאבים:
- בחרו יצירת ערימה מהירה כדי להפעיל את ערימת CloudFormation.
- בעד שם ערימה, הזן שם מחסנית (לדוגמה,
rsv2-emr-hudi-blog
). - בעד Ec2KeyPair, הזן את השם של זוג המפתחות שלך.
- בעד IdleTimeout, הזן פסק זמן סרק עבור אשכול EMR כדי להימנע מתשלום עבור האשכול כאשר הוא אינו בשימוש.
- בעד InitS3Bucket, הזן את שם הדלי S3 שיצרת כדי לשמור את קובץ ההצפנה של Amazon EMR .zip.
- בעד S3CertsZip, הזן את S3 URI של קובץ ה-.zip של אישור ההצפנה של Amazon EMR.
- בחר אני מאשר ש- AWS CloudFormation עשוי ליצור משאבי IAM עם שמות מותאמים אישית.
- בחרו צור ערימה.
פריסת המחסנית של CloudFormation אורכת בערך 10 דקות.
הגדר את Lake Formation לאינטגרציה של Amazon EMR
השלם את השלבים הבאים כדי להגדיר את Lake Formation:
- בקונסולת Lake Lake, בחר הגדרות שילוב אפליקציות תחת אדמינסטרציה בחלונית הניווט.
- בחר אפשר למנועים חיצוניים לסנן נתונים במיקומי Amazon S3 הרשומים ב-Lake Formation.
- בחרו אמזון EMR ל ערכי תג הפעלה.
- הזן את מזהה חשבון AWS שלך עבור מזהי חשבון AWS.
- בחרו שמור.
- בחרו מאגרי מידע תחת קטלוג נתונים בחלונית הניווט.
- בחרו צור בסיס נתונים.
- בעד שם, הזן ברירת מחדל.
- בחרו צור בסיס נתונים.
- בחרו הרשאות אגם נתונים תחת הרשאות בחלונית הניווט.
- בחרו להעניק.
- בחר משתמשים ותפקידי IAM.
- בחר את תפקידי IAM שלך.
- בעד מאגרי מידע, בחר ברירת מחדל.
- בעד הרשאות מסד נתונים, בחר לתאר.
- בחרו להעניק.
העתק את קובץ Hudi JAR לאמזון EMR HDFS
ל השתמש בהודי עם מחברות Jupyter, עליך להשלים את השלבים הבאים עבור אשכול ה-EMR, הכולל העתקת קובץ Hudi JAR מהספרייה המקומית של אמזון EMR לאחסון ה-HDFS שלו, כדי שתוכל להגדיר הפעלת Spark לשימוש בהודי:
- אישור תעבורת SSH נכנסת (יציאה 22).
- העתק את הערך עבור DNS ציבורי של צומת ראשי (לדוגמה, ec2-XXX-XXX-XXX-XXX.compute-1.amazonaws.com) מאשכול EMR <br> סיכום סָעִיף.
- חזור למסוף AWS Cloud9 הקודם שבו השתמשת ליצירת צמד המפתחות EC2.
- הפעל את הפקודה הבאה ל-SSH לתוך הצומת הראשי של EMR. החלף את מציין המיקום בשם המארח של EMR DNS שלך:
- הפעל את הפקודה הבאה כדי להעתיק את קובץ Hudi JAR ל- HDFS:
צור את מסד הנתונים והטבלאות של Hudi ב- Lake Formation
כעת אנו מוכנים ליצור את מסד הנתונים והטבלאות של Hudi עם FGAC מופעל על ידי תפקיד זמן הריצה של EMR. ה תפקיד בזמן ריצה של EMR הוא תפקיד IAM שאתה יכול לציין כאשר אתה שולח עבודה או שאילתה לאשכול EMR.
הענק הרשאה ליוצר מסד נתונים
ראשית, בואו נעניק הרשאה ליוצר מסד הנתונים של Lake Formation<STACK-NAME>-hudi-db-creator-role
:
- היכנס לחשבון AWS שלך כמנהל מערכת.
- בקונסולת Lake Lake, בחר תפקידים ומשימות אדמיניסטרטיביות תחת אדמינסטרציה בחלונית הניווט.
- אשר שמשתמש ההתחברות שלך ל-AWS התווסף כמנהל אגם נתונים.
- ב יוצר מסדי נתונים סעיף, בחר להעניק.
- בעד משתמשים ותפקידי IAM, בחר
<STACK-NAME>-hudi-db-creator-role
. - בעד הרשאות קטלוג, בחר צור בסיס נתונים.
- בחרו להעניק.
רשום את מיקום אגם הנתונים
לאחר מכן, בואו נרשום את מיקום אגם הנתונים של S3 ב-Lake Formation:
- בקונסולת Lake Lake, בחר מיקומי אגם נתונים תחת אדמינסטרציה בחלונית הניווט.
- בחרו רשום מיקום.
- בעד נתיב S3 של אמזון, בחר לְדַפדֵף ובחר את דלי S3 Data Lake. (
<STACK_NAME>s3bucket-XXXXXXX
) נוצר מחסנית CloudFormation. - בעד תפקיד IAM, בחר
<STACK-NAME>-hudi-db-creator-role
. - בעד מצב הרשאה, בחר תצורת אגם.
- בחרו רשום מיקום.
הענק הרשאת מיקום נתונים
בשלב הבא, אנחנו צריכים להעניק<STACK-NAME>-hudi-db-creator-role
הרשאת מיקום הנתונים:
- בקונסולת Lake Lake, בחר מיקומי נתונים תחת הרשאות בחלונית הניווט.
- בחרו להעניק.
- בעד משתמשים ותפקידי IAM, בחר
<STACK-NAME>-hudi-db-creator-role
. - בעד מיקומי אחסון, היכנס לדלי S3 (
<STACK_NAME>-s3bucket-XXXXXXX
). - בחרו להעניק.
התחבר לאשכול EMR
כעת, בואו נשתמש במחברת Jupyter ב-SageMaker Studio כדי להתחבר לאשכול ה-EMR עם תפקיד זמן הריצה של יוצר מסד הנתונים EMR:
- במסוף SageMaker בחר תחומים בחלונית הניווט.
- בחר את הדומיין
<STACK-NAME>-Studio-EMR-LF-Hudi
. - על לשגר תפריט לצד פרופיל המשתמש
<STACK-NAME>-hudi-db-creator
, בחר סטודיו.
- הורד את המחברת rsv2-hudi-db-creator-notebook.
- בחר את סמל ההעלאה.
- בחר את מחברת Jupyter שהורדת ובחר להרחיב.
- פתח את המחברת שהועלתה.
- בעד תמונה, בחר SparkMagic.
- בעד גַרעִין, בחר PySpark.
- השאר את שאר התצורות כברירת מחדל ובחר בחר.
- בחרו אשכול כדי להתחבר לאשכול EMR.
- בחר את ה-EMR באשכול EC2 (
<STACK-NAME>-EMR-Cluster
) נוצר עם ערימת CloudFormation. - בחרו לְחַבֵּר.
- בעד תפקיד ביצוע EMR, בחר
<STACK-NAME>-hudi-db-creator-role
. - בחרו לְחַבֵּר.
צור מסד נתונים וטבלאות
כעת תוכל לבצע את השלבים במחברת ליצירת מסד הנתונים והטבלאות של Hudi. השלבים העיקריים הם כדלקמן:
- כאשר אתה מפעיל את המחברת, הגדר
“spark.sql.catalog.spark_catalog.lf.managed":"true"
להודיע ל-Spark ש-spark_catalog מוגן על ידי Lake Formation. - צור טבלאות Hudi באמצעות Spark SQL הבא.
- הכנס נתונים מטבלת המקור לטבלאות ההודי.
- הכנס נתונים שוב לטבלאות ההודי.
שאילתה בטבלאות Hudi דרך Lake Formation עם FGAC
לאחר שתיצור את מסד הנתונים והטבלאות של Hudi, אתה מוכן לבצע שאילתות על הטבלאות באמצעות בקרת גישה עדינה עם Lake Formation. יצרנו שני סוגים של טבלאות Hudi: Copy-On-Write (COW) ו-Morge-On-Read (MOR). טבלת COW מאחסנת נתונים בפורמט עמודות (Parquet), וכל עדכון יוצר גרסה חדשה של קבצים במהלך כתיבה. המשמעות היא שלכל עדכון, Hudi משכתבת את כל הקובץ, מה שיכול להיות עתיר משאבים אך מספק ביצועי קריאה מהירים יותר. MOR, לעומת זאת, מוצג עבור מקרים שבהם COW עשוי להיות לא אופטימלי, במיוחד עבור עומסי עבודה כבדים בכתיבה או בשינוי. בטבלת MOR, בכל פעם שיש עדכון, Hudi כותב רק את השורה עבור הרשומה שהשתנתה, מה שמפחית את העלות ומאפשר כתיבה עם אחביות נמוכה. עם זאת, ביצועי הקריאה עשויים להיות איטיים יותר בהשוואה לטבלאות COW.
הענק הרשאת גישה לשולחן
אנו משתמשים בתפקיד IAM<STACK-NAME>-hudi-table-pii-role
לשאילתה של Hudi COW ו-MOR המכילים עמודות PII. תחילה אנו מעניקים לשולחן הרשאת גישה דרך Lake Formation:
- בקונסולת Lake Lake, בחר הרשאות אגם נתונים תחת הרשאות בחלונית הניווט.
- בחרו להעניק.
- בחרו
<STACK-NAME>-hudi-table-pii-role
ל משתמשים ותפקידי IAM. - בחר את
rsv2_blog_hudi_db_1
מסד נתונים עבור מאגרי מידע. - בעד לוחות, בחר את ארבעת הטבלאות Hudi שיצרת במחברת Jupyter.
- בעד הרשאות טבלה, בחר בחר.
- בחרו להעניק.
שאילתות PII
כעת אתה מוכן להפעיל את המחברת כדי לבצע שאילתות בטבלאות Hudi. בואו נבצע שלבים דומים לסעיף הקודם כדי להפעיל את המחברת ב-SageMaker Studio:
- במסוף SageMaker, נווט אל
<STACK-NAME>-Studio-EMR-LF-Hudi
תחום. - על לשגר תפריט ליד
<STACK-NAME>-hudi-table-reader
פרופיל משתמש, בחר סטודיו. - העלה את המחברת שהורדת rsv2-hudi-table-pii-reader-notebook.
- פתח את המחברת שהועלתה.
- חזור על שלבי הגדרת המחברת והתחבר לאותו אשכול EMR, אך השתמש בתפקיד
<STACK-NAME>-hudi-table-pii-role
.
בשלב הנוכחי, אשכול EMR התומך ב-FGAC צריך לבצע שאילתות בעמודת ה-commit time של Hudi לביצוע שאילתות מצטברות ומסע בזמן. הוא אינו תומך בתחביר "חותמת הזמן נכון לתאריך" של Spark ו Spark.read()
. אנו עובדים באופן פעיל על שילוב תמיכה עבור שתי הפעולות במהדורות עתידיות של אמזון EMR עם FGAC מופעל.
כעת תוכל לבצע את השלבים במחברת. להלן כמה שלבים מודגשים:
- הפעל שאילתת תמונת מצב.
- הפעל שאילתה מצטברת.
- הפעל שאילתת מסע בזמן.
- הפעל שאילתות טבלה עם אופטימיזציה לקריאה של MOR ובזמן אמת.
בצע שאילתות בטבלאות Hudi עם מסנני נתונים ברמת העמודה וברמת השורה
אנו משתמשים בתפקיד IAM<STACK-NAME>-hudi-table-non-pii-role
כדי לשאול טבלאות Hudi. תפקיד זה אינו רשאי לבצע שאילתות בעמודות המכילות PII. אנו משתמשים במסנני הנתונים של Lake Formation ברמת העמודה וברמת השורה כדי ליישם בקרת גישה עדינה:
- בקונסולת Lake Lake, בחר מסנני נתונים תחת קטלוג נתונים בחלונית הניווט.
- בחרו צור מסנן חדש.
- בעד שם מסנן נתונים, להיכנס
customer-pii-filter
. - בחרו
rsv2_blog_hudi_db_1
ל מסד נתונים יעד. - בחרו
rsv2_blog_hudi_mor_sql_dl_customer_1
ל טבלת יעד. - בחר אל תכלול עמודות ולבחור את
c_customer_id
,c_email_address
, וc_last_name
עמודות. - זן
c_birth_country != 'HONG KONG'
ל ביטוי מסנן שורה. - בחרו צור מסנן.
- בחרו הרשאות אגם נתונים תחת הרשאות בחלונית הניווט.
- בחרו להעניק.
- בחרו
<STACK-NAME>-hudi-table-non-pii-role
ל משתמשים ותפקידי IAM. - בחרו
rsv2_blog_hudi_db_1
ל מאגרי מידע. - בחרו
rsv2_blog_hudi_mor_sql_dl_tpc_customer_1
ל לוחות. - בחרו
customer-pii-filter
ל מסנני נתונים. - בעד הרשאות סינון נתונים, בחר בחר.
- בחרו להעניק.
בואו נבצע שלבים דומים להפעלת המחברת ב-SageMaker Studio:
- במסוף SageMaker, נווט אל הדומיין
Studio-EMR-LF-Hudi
. - על לשגר תפריט עבור
hudi-table-reader
פרופיל משתמש, בחר סטודיו. - העלה את המחברת שהורדת rsv2-hudi-table-non-pii-reader-notebook ולבחור להרחיב.
- חזור על שלבי הגדרת המחברת והתחבר לאותו אשכול EMR, אך בחר את התפקיד
<STACK-NAME>-hudi-table-non-pii-role
.
כעת תוכל לבצע את השלבים במחברת. מתוצאות השאילתה, אתה יכול לראות ש-FGAC דרך מסנן הנתונים של Lake Formation הוחל. התפקיד לא יכול לראות את העמודות PIIc_customer_id
,c_last_name
, וc_email_address
. כמו כן, השורות מHONG KONG
סוננו.
לנקות את
לאחר שתסיים להתנסות בפתרון, אנו ממליצים לנקות משאבים באמצעות השלבים הבאים כדי למנוע עלויות בלתי צפויות:
- כבה את אפליקציות SageMaker Studio עבור פרופילי המשתמש.
אשכול ה-EMR יימחק אוטומטית לאחר ערך הזמן הקצוב של פסק זמן סרק.
- מחק מערכת הקבצים של אמזון אלסטית נפח (Amazon EFS) נוצר עבור הדומיין.
- רוקן את הדליים של S3 נוצר על ידי מחסנית CloudFormation.
- במסוף AWS CloudFormation, מחק את הערימה.
סיכום
בפוסט זה, השתמשנו ב- Apachi Hudi, סוג אחד של טבלאות OTF, כדי להדגים את התכונה החדשה הזו כדי לאכוף בקרת גישה עדינה ב- Amazon EMR. אתה יכול להגדיר הרשאות פרטניות ב-Lake Formation עבור טבלאות OTF ולהחיל אותן באמצעות שאילתות Spark SQL באשכולות EMR. אתה גם יכול להשתמש בתכונות אגם נתונים עסקאות כגון הפעלת שאילתות תמונת מצב, שאילתות מצטברות, מסע בזמן ושאילתת DML. שימו לב שתכונה חדשה זו מכסה את כל טבלאות ה-OTF.
תכונה זו מושקת החל מגרסה 6.15 של Amazon EMR בסך הכל אזורים איפה אמזון EMR זמין. עם האינטגרציה של Amazon EMR עם Lake Formation, אתה יכול לנהל ולעבד ביג דאטה בביטחון, לפתוח תובנות ולהקל על קבלת החלטות מושכלת תוך שמירה על אבטחת מידע וממשל.
למידע נוסף, עיין ב אפשר יצירת אגם עם אמזון EMR ואל תהסס לפנות ל-AWS Solutions Architects שלך, שיוכלו לסייע לצד מסע הנתונים שלך.
על המחבר
ריימונד לאי הוא אדריכל פתרונות בכיר המתמחה במתן מענה לצרכים של לקוחות ארגוניים גדולים. המומחיות שלו טמונה בסיוע ללקוחות בהעברת מערכות ארגוניות ומסדי נתונים מורכבים ל-AWS, בניית פלטפורמות מחסני נתונים ארגוניות ופלטפורמות אגם נתונים. ריימונד מצטיין בזיהוי ועיצוב פתרונות עבור מקרי שימוש ב-AI/ML, והוא מתמקד במיוחד בפתרונות AWS Serverless ותכנון ארכיטקטורה מונעת אירועים.
בן וואנג, PhD, הוא ארכיטקט פתרונות מומחה אנליטי בכיר ב-AWS, המתגאה בלמעלה מ-12 שנות ניסיון בתעשיית ה-ML, עם התמקדות מיוחדת בפרסום. יש לו מומחיות בעיבוד שפה טבעית (NLP), מערכות ממליצים, אלגוריתמי ML מגוונים ופעולות ML. הוא נלהב מאוד מיישום ML/DL וטכניקות ביג דאטה כדי לפתור בעיות בעולם האמיתי.
אדיטיה שאה הוא מהנדס פיתוח תוכנה ב-AWS. הוא מתעניין במסדי נתונים ובמנועי מחסני נתונים ועבד על אופטימיזציות של ביצועים, תאימות לאבטחה ותאימות ACID עבור מנועים כמו Apache Hive ו- Apache Spark.
מלודי יאנג הוא ארכיטקט בכיר לפתרונות Big Data עבור Amazon EMR ב-AWS. היא מובילת ניתוח מנוסה שעובדת עם לקוחות AWS כדי לספק הנחיות לשיטות עבודה מומלצות וייעוץ טכני על מנת לסייע להצלחתם בטרנספורמציה של נתונים. תחומי העניין שלה הם מסגרות קוד פתוח ואוטומציה, הנדסת נתונים ו-DataOps.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://aws.amazon.com/blogs/big-data/enforce-fine-grained-access-control-on-open-table-formats-via-amazon-emr-integrated-with-aws-lake-formation/
- :יש ל
- :הוא
- :לֹא
- :איפה
- $ למעלה
- 1
- 10
- 100
- 11
- 12
- 130
- 15%
- 16
- 17
- 20
- 22
- 400
- 7
- 8
- 9
- a
- אודות
- גישה
- חֶשְׁבּוֹן
- הודה
- פעולות
- באופן פעיל
- הוסיף
- בנוסף
- כתובות
- מנהל
- מנהלים
- פרסום
- עצה
- לאחר
- שוב
- AI / ML
- אלגוריתמים
- תעשיות
- להתיר
- מותר
- מאפשר
- בַּצַד
- גם
- אמזון בעברית
- אמזון
- אמזון EMR
- אמזון שירותי אינטרנט
- an
- אנליזה
- אנליסטים
- אנליטי
- ניתוח
- ניתוח
- ו
- כל
- אַפָּשׁ
- אפאצ 'י ספארק
- בקשה
- יישומית
- החל
- מריחה
- אדריכלים
- ארכיטקטורה
- ARE
- אזורים
- סביב
- AS
- לעזור
- סיוע
- סיוע
- לְהַנִיחַ
- At
- ביקורת
- סמכות
- מורשה
- באופן אוטומטי
- אוטומציה
- זמין
- לְהִמָנַע
- AWS
- AWS Cloud9
- AWS CloudFormation
- תצורת אגם AWS
- בחזרה
- מבוסס
- BE
- היה
- מאחור
- להיות
- הטבות
- מלבד
- הטוב ביותר
- גָדוֹל
- נתונים גדולים
- בלוגים
- הִתפָּאֲרוּת
- שניהם
- לִבנוֹת
- אבל
- by
- CA
- CAN
- מסוגל
- לשאת
- נושאת
- מקרה
- מקרים
- קטלוג
- קייטרינג
- מסוים
- תעודה
- תעודות
- תעודה
- שינוי
- השתנה
- שינויים
- סין
- בחרו
- ניקוי
- Cloud9
- אשכול
- קוד
- טור
- עמודות
- COM
- שילוב
- לבצע
- חברות
- לעומת
- להשלים
- הענות
- רְכִיב
- רכיבים
- לחשב
- המחשב
- מושג
- תנאים
- לנהל
- בביטחון
- תְצוּרָה
- לְחַבֵּר
- קונסול
- בנייה
- צור קשר
- להכיל
- מכיל
- לִשְׁלוֹט
- נשלט
- בקרות
- הַעתָקָה
- תוֹאֵם
- עלות
- עלויות
- מדינה
- מכסה
- לִיצוֹר
- נוצר
- יוצר
- יוצרים
- יוצר
- נוֹכְחִי
- מנהג
- לקוחות
- נתונים
- גישה למידע
- ניתוח נתונים
- אגם דאטה
- פלטפורמת נתונים
- פרטיות מידע
- עיבוד נתונים
- אבטחת מידע
- מחסן נתונים
- מסד נתונים
- מאגרי מידע
- קבלת החלטות
- באופן מעמיק
- בְּרִירַת מֶחדָל
- לְהַגדִיר
- דלתא
- להפגין
- הפגנה
- לפרוס
- פריסה
- עיצוב
- תכנון
- פרטים
- צעצועי התפתחות
- אחר
- מובהק
- שונה
- DNS
- do
- עושה
- לא
- תחום
- עשה
- לא
- מטה
- להורדה
- מונע
- בְּמַהֲלָך
- כל אחד
- אחר
- לאפשר
- מופעל
- מאפשר
- הצף
- סוף
- נקודות קצה
- לאכוף
- מנוע
- מהנדס
- הנדסה
- מנועים
- לְהַבטִיחַ
- מבטיח
- הבטחתי
- זן
- מִפְעָל
- לקוחות ארגוניים
- שלם
- סביבה
- Ether (ETH)
- אירוע
- כל
- דוגמה
- הוצאת להורג
- קיים
- ניסיון
- מנוסה
- מומחיות
- חקירה
- משתרע
- חיצוני
- הקלה
- מהר יותר
- מאפיין
- תכונות
- להרגיש
- שלח
- קבצים
- לסנן
- סינון
- מסננים
- ראשון
- להתמקד
- מתמקד
- לעקוב
- הבא
- כדלקמן
- בעד
- פוּרמָט
- התהוות
- ארבע
- מסגרת
- מסגרות
- חופשי
- החל מ-
- הגשמה
- מלא
- פונקציונלי
- נוסף
- עתיד
- לְהַשִׂיג
- נוצר
- ממשל
- נשלט
- להעניק
- מאוד
- קְבוּצָה
- קבוצה
- הדרכה
- יד
- יש
- he
- לה
- כאן
- מודגש
- שֶׁלוֹ
- היסטורי
- היסטוריה
- כוורת
- הונג
- הונג קונג
- בית
- איך
- איך
- אולם
- HTML
- http
- HTTPS
- IAM
- ICON
- ID
- רעיון
- לזהות
- זיהוי
- להתבטל
- if
- מדגים
- ליישם
- לשפר
- in
- כולל
- כולל
- שילוב
- מצטבר
- הודו
- תעשייה
- לְהוֹדִיעַ
- מידע
- הודעה
- קלט
- תובנות
- משולב
- שילוב
- השתלבות
- אינטראקטיבי
- מעוניין
- אינטרסים
- מִמְשָׁק
- פנימי
- אל תוך
- מוּרכָּב
- הציג
- מציג
- סוגיה
- IT
- שֶׁלָה
- עבודה
- מקומות תעסוקה
- מסע
- jpg
- מחברת צדק
- מפתח
- קונג
- אגם
- שפה
- גָדוֹל
- אחרון
- לשגר
- הושק
- מנהיג
- לִלמוֹד
- רמות
- שקרים
- כמו
- להגביל
- קווים
- מקומי
- מיקום
- מקומות
- התחבר
- גדול
- לעשות
- לנהל
- הצליח
- ניהול
- מנהל
- רב
- מאי..
- אומר
- מנגנוני
- מפגש
- תפריט
- מידע נוסף
- יכול
- נודד
- דקות
- ML
- אלגוריתמים של ML
- שונים
- יותר
- תנועה
- שם
- שמות
- טבעי
- שפה טבעית
- עיבוד שפה טבעית
- נווט
- ניווט
- צורך
- צרכי
- חדש
- תכונה חדשה
- חדש
- הבא
- NLP
- צומת
- הערות
- מחברה
- מחשבים ניידים
- עַכשָׁיו
- אובייקטים
- of
- לעתים קרובות
- on
- ONE
- רק
- לפתוח
- קוד פתוח
- OpenSSL
- תפעול
- אופטימלי
- מטב
- אפשרות
- אפשרויות
- or
- להזמין
- ארגון
- אחר
- הַחוּצָה
- יותר
- זוג
- זגוגית
- מסוים
- במיוחד
- לוהט
- משלם
- ביצועים
- ביצוע
- רשות
- הרשאות
- אישית
- דוקטורט
- pii
- מציין מיקום
- פלטפורמה
- פלטפורמות
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- אנא
- ועוד
- נקודות
- פופולרי
- בעל
- הודעה
- תרגול
- מִשׁמֶרֶת
- קודם
- יְסוֹדִי
- פְּרָטִיוּת
- זְכוּת
- הרשאות
- בעיות
- תהליך
- תהליך
- הפקה
- פּרוֹפִיל
- פרופילים
- הוכחה
- הוכחה של רעיון או תאוריה
- מוּגָן
- .
- לספק
- מספק
- מתן
- ציבורי
- למטרות
- שאילתות
- חומר עיוני
- קריאה
- מוכן
- עולם אמיתי
- זמן אמת
- להמליץ
- שיא
- התאוששות
- מפחית
- הפחתה
- להתייחס
- מתייחס
- משקף
- באזור
- הירשם
- רשום
- תקנון
- לשחרר
- עיתונות
- רלוונטי
- להחליף
- נדרש
- דרישות
- משאב
- עתירת משאבים
- משאבים
- תוצאה
- תוצאות
- זכויות
- תפקיד
- תפקידים
- שׁוּרָה
- RSA
- כללי
- הפעלה
- ריצה
- בעל חכמים
- אותו
- שמור
- סעיף
- לבטח
- מְאוּבטָח
- אבטחה
- לִרְאוֹת
- לחפש
- בחר
- לחצני מצוקה לפנסיונרים
- רגיש
- שרת
- ללא שרת
- שירותים
- מושב
- סט
- סטים
- הגדרות
- התקנה
- היא
- סִימָן
- באופן משמעותי
- דומה
- פָּשׁוּט
- מפשט
- לפשט
- since
- תמונת בזק
- So
- תוכנה
- פיתוח תוכנה
- פִּתָרוֹן
- פתרונות
- לפתור
- כמה
- מָקוֹר
- לעורר
- מומחה
- מתמחה
- SQL
- לערום
- התמחות
- התחלה
- החל
- החל
- הצהרות
- צעדים
- אחסון
- חנויות
- אִסטרָטֶגִיָה
- מחרוזת
- סטודיו
- להגיש
- רשתות משנה
- הצלחה
- כזה
- סיכום
- תמיכה
- תומך
- בטוח
- תחביר
- מערכות
- שולחן
- תָג
- לוקח
- טכני
- טכניקות
- תבנית
- מסוף
- זֶה
- השמיים
- המקור
- שֶׁלָהֶם
- אותם
- אז
- שם.
- אלה
- הֵם
- זֶה
- שְׁלוֹשָׁה
- דרך
- זמן
- זמן הנסיעה
- ציר זמן
- ל
- מעקב
- עסקה
- טרנזקציות
- טרנספורמציה
- מעבר
- נסיעות
- נָכוֹן
- מהימן
- Ts
- שתיים
- סוג
- סוגים
- ui
- תחת
- לא צפוי
- לא ידוע
- נעילה
- עדכון
- מְעוּדכָּן
- מקיים
- נטען
- URI
- להשתמש
- במקרה להשתמש
- מְשׁוּמָשׁ
- משתמש
- משתמשים
- באמצעות
- מאמת
- ערך
- שונים
- גרסה
- באמצעות
- ראות
- כֶּרֶך
- מחסן
- אחסון
- we
- אינטרנט
- שירותי אינטרנט
- מתי
- ואילו
- אשר
- בזמן
- מי
- יצטרך
- עם
- בתוך
- עבד
- עובד
- לכתוב
- שנים
- אתה
- זפירנט
- אפס
- רוכסן