שינוי קנה מידה של ניהול נתונים באמצעות Apache Gobblin

שינוי קנה מידה של ניהול נתונים באמצעות Apache Gobblin

צומת המקור: 1911501

בעולם המודרני, רוב העסקים מסתמכים על הכוח של ביג דאטה ואנליטיקס כדי לתדלק את הצמיחה, ההשקעות האסטרטגיות ומעורבות הלקוחות שלהם. ביג דאטה הוא הקבוע הבסיסי בפרסומת הממוקדת, שיווק מותאם אישית, המלצות למוצרים, יצירת תובנות, אופטימיזציות של מחירים, ניתוח סנטימנטים, ניתוח חזוי ועוד ועוד. 

נתונים נאספים לעתים קרובות ממקורות מרובים, עוברים טרנספורמציה, מאוחסנים ומעובדים באגמי נתונים במקום או בענן. בעוד שהקלטת הנתונים הראשונית היא טריוויאלית יחסית וניתן להשיגה באמצעות סקריפטים מותאמים אישית שפותחו בבית או בכלים מסורתיים של ETL (Extract Transform Load), הבעיה הופכת במהרה למורכבת עד בלתי אפשרית ויקרה לפתרון מכיוון שהחברות צריכות:

  1. נהל את מחזור החיים המלא של הנתונים - למטרות ניקיון ותאימות 
  2. מטב את האחסון - כדי להפחית את העלויות הנלוות 
  3. פשט את האדריכלות - באמצעות שימוש חוזר בתשתית מחשוב 
  4. מעבד נתונים בהדרגה - באמצעות ניהול מדינה רב עוצמה 
  5. החל את אותה מדיניות על נתוני אצווה וזרימה - ללא כפל מאמץ
  6. העבר בין On-Prem לענן - במינימום מאמץ  

זה איפה אפאצ'י גובלין, נכנסת מערכת ניהול נתונים ואינטגרציה בקוד פתוח. Apache Gobblin מספקת יכולות חסרות תקדים שניתן להשתמש בהן בשלמותן או בחלקן בהתאם לצרכי העסק. 

בחלק זה, נעמיק ביכולות השונות של Apache Gobblin המסייעות להתמודד עם האתגרים שפורטו קודם לכן.

ניהול מחזור חיים מלא של נתונים

Apache Gobblin מספקת מגוון של יכולות לבניית צינורות נתונים התומכים בחבילה המלאה של פעולות מחזור חיים של נתונים על מערכי נתונים. 

  1. הטמעת נתונים - ממקורות מרובים ועד ל-Sinks החל מבסיסי נתונים, Rest APIs, שרתי FTP/SFTP, Filers, CRMs כמו Salesforce ו- Dynamics, ועוד. 
  2. שכפול נתונים - בין מספר אגמי נתונים עם יכולות מיוחדות עבור Hadoop Distributed File System באמצעות Distcp-NG. 
  3. טיהור נתונים - שימוש במדיניות שמירה כמו מבוסס-זמן, הכי חדש, K, גרסה או שילוב של מדיניות. 

הצינור הלוגי של גובלין מורכב מ'מקור' שקובע את חלוקת העבודה ויוצר 'Workunits'. 'Workunits' אלה נאספים לאחר מכן לביצוע כ'משימות', הכוללות חילוץ, המרה, בדיקת איכות וכתיבת נתונים ליעד. השלב האחרון, 'פרסום נתונים', מאמת את הביצוע המוצלח של הצינור ומחייב את נתוני הפלט באופן אטומי, אם היעד תומך בכך.
 

שינוי קנה מידה של ניהול נתונים באמצעות Apache Gobblin
תמונה מאת המחבר

בצע אופטימיזציה של אחסון

Apache Gobblin יכולה לעזור להפחית את כמות האחסון הדרושה לנתונים באמצעות עיבוד נתונים לאחר הקלטה או שכפול באמצעות דחיסה או המרת פורמט. 

  1. דחיסה - עיבוד לאחר עיבוד נתונים לביטול כפילות על סמך כל השדות או שדות המפתח של הרשומות, חיתוך הנתונים כדי לשמור רק רשומה אחת עם חותמת הזמן העדכנית ביותר עם אותו מפתח.
  2. Avro ל-ORC - כמנגנון המרת פורמטים מיוחד להמרת פורמט Avro הפופולרי מבוסס-שורות לפורמט ORC מבוסס-עמודות מותאם במיוחד. 

 

שינוי קנה מידה של ניהול נתונים באמצעות Apache Gobblin
תמונה מאת המחבר

פשט את האדריכלות 

בהתאם לשלב של החברה (סטארט-אפ לארגון), דרישות קנה המידה והארכיטקטורה שלהן, חברות מעדיפות להקים או לפתח את תשתית הנתונים שלהן. Apache Gobblin גמיש מאוד ותומך במספר דגמי ביצוע.

  1. מצב עצמאי - לפעול כתהליך עצמאי על קופסת מתכת חשופה, כלומר מארח יחיד עבור מקרי שימוש פשוטים ומצבים בעלי דרישה נמוכה. 
  2. מצב MapReduce - לפעול כעבודת MapReduce על תשתית Hadoop עבור מקרי ביג דאטה לטיפול במערכי נתונים הנעים בקנה מידה של Petabytes. 
  3. מצב אשכול: עצמאי - לפעול כאשכול המגובה על ידי Apache Helix ו-Apache Zookeeper על סט של מכונות מתכת חשופות או מארחים לטיפול בקנה מידה גדול ללא תלות במסגרת Hadoop MR.
  4. מצב Cluster: Yarn - לפעול כאשכול על Yarn מקורי ללא המסגרת של Hadoop MR. 
  5. מצב אשכולות: AWS – לפעול כאשכול בהיצע הענן הציבורי של אמזון, כלומר. AWS לתשתיות המתארחות ב-AWS. 

 

שינוי קנה מידה של ניהול נתונים באמצעות Apache Gobblin
תמונה מאת המחבר

מעבד נתונים בהדרגה 

בקנה מידה משמעותי עם צינורות נתונים מרובים ונפח גבוה, יש לעבד נתונים באצוות ולאורך זמן. לכן, זה מחייב בדיקה כדי שצינורות הנתונים יוכלו להתחדש מהמקום שבו הפסיקו בפעם הקודמת ולהמשיך הלאה. Apache Gobblin תומך בסימני מים נמוכים וגבוהים ותומך בסמנטיקה חזקה של ניהול מצבים באמצעות State Store ב-HDFS, AWS S3, MySQL ועוד באופן שקוף. 

 

שינוי קנה מידה של ניהול נתונים באמצעות Apache Gobblin
תמונה מאת המחבר

אותה מדיניות לגבי נתוני אצווה וזרם

רוב צינורות הנתונים כיום צריכים להיכתב פעמיים, פעם אחת עבור נתוני אצווה ושוב עבור נתונים קרובים לקו או זרימה. זה מכפיל את המאמץ ומציג חוסר עקביות במדיניות ובאלגוריתמים המיושמים על סוגים שונים של צינורות. Apache Gobblin פותר זאת על ידי מתן אפשרות למשתמשים ליצור צינור פעם אחת ולהריץ אותו על נתוני אצווה וזרימה אם משתמשים במצב Gobblin Cluster, Gobblin במצב AWS או Gobblin on Yarn.  

העבר בין On-Prem לענן 

בשל המצבים הרב-תכליתיים שלו שיכולים לפעול ב-Prem על קופסה בודדת, על אשכול צמתים או על הענן - ניתן לפרוס את Apache Gobblin ולהשתמש ב-Prem ובענן. לכן, לאפשר למשתמשים לכתוב את צינורות הנתונים שלהם פעם אחת ולהעביר אותם יחד עם פריסות Gobblin בקלות בין On-Prem לענן, בהתבסס על צרכים ספציפיים. 

בשל הארכיטקטורה הגמישה ביותר שלה, התכונות החזקות וההיקף הקיצוני של נפחי נתונים שהוא יכול לתמוך ולעבד, Apache Gobblin משמש בתשתית הייצור של חברות טכנולוגיה גדולות והוא הכרחי עבור כל פריסת תשתית ביג דאטה כיום.

פרטים נוספים על Apache Gobblin וכיצד להשתמש בו ניתן למצוא בכתובת https://gobblin.apache.org
 
 
אבישק טיווארי הוא מנהל בכיר בלינקדאין, המוביל את ארגון Big Data Pipelines של החברה. הוא גם סגן נשיא Apache Gobblin בקרן Apache Software ועמית באגודת המחשבים הבריטית.
 

בול זמן:

עוד מ KDnuggets