הסבר על בית האגמים הסמנטי

הסבר על בית האגמים הסמנטי

צומת המקור: 1995005

אגמי נתונים ו שכבות סמנטיות קיימים כבר זמן רב - כל אחד חי בגנים מוקפים חומה שלו, מחוברים הדוק למקרי שימוש צרים למדי. כאשר תשתית נתונים וניתוח עוברת לענן, רבים מאתגרים כיצד מרכיבי הטכנולוגיה הבסיסיים הללו משתלבים בערימת הנתונים והניתוח המודרנית. במאמר זה, נצלול לאופן שבו בית אגם נתונים ושכבה סמנטית משפרים יחד את הקשר המסורתי בין אגמי נתונים ותשתית ניתוח. נלמד כיצד בית אגם סמנטי יכול לפשט באופן דרמטי ארכיטקטורות נתונים בענן, בטל תנועת נתונים מיותרת, וצמצם את זמן הערך ואת עלויות הענן.

ארכיטקטורת הנתונים והאנליטיקה המסורתית

בשנת 2006, אמזון הציגה את שירותי האינטרנט של אמזון (AWS) כדרך חדשה להוריד את מרכז הנתונים המקומי לענן. שירות ליבה של AWS היה מאגר נתוני הקבצים שלו ועם זה נולד אגם הנתונים בענן הראשון, Amazon S3. ספקי ענן אחרים יציגו גרסאות משלהם של תשתית אגם נתונים בענן לאחר מכן.

במשך רוב חייו, אגם הנתונים בענן נדחק לתפקיד של טיפש, זול אחסון נתוניםבימוי אזור לנתונים גולמיים, עד שניתן יהיה לעבד נתונים למשהו שימושי. עבור ניתוח, אגם הנתונים שימש עט החזקה לנתונים עד שניתן היה להעתיקם ולהטעין אותם לפלטפורמת ניתוח אופטימלית, בדרך כלל מחסן נתונים ענן יחסי המזין קוביות OLAP, תמציות נתונים של כלי בינה עסקית (BI) קניינית כמו Tableau Hyper או Power BI Premium, או כל האמור לעיל. כתוצאה מדפוס עיבוד זה, היה צורך לאחסן נתונים לפחות פעמיים, פעם אחת בצורתם הגולמית ופעם אחת בצורה "האופטימלית לניתוח". 

באופן לא מפתיע, רוב ארכיטקטורות ניתוח הענן המסורתיות נראות כמו התרשים שלהלן:

תמונה 1: ערימת נתונים ואנליטיקס מסורתיים

כפי שאתה יכול לראות, "מחסן האנליטיקה" אחראי לרוב הפונקציות המספקות אנליטיקה לצרכנים. הבעיה בארכיטקטורה זו היא כדלקמן:

  1. הנתונים מאוחסנים פעמיים, מה שמגדיל עלויות ויוצר מורכבות תפעולית.
  2. הנתונים במחסן האנליטיקס הם תמונת מצב, כלומר הנתונים מיושנים באופן מיידי.
  3. הנתונים במחסן הניתוח הם בדרך כלל תת-קבוצה של הנתונים באגם הנתונים, מה שמגביל את השאלות שצרכנים יכולים לשאול.
  4. מחסן האנליטיקה מתרחב בנפרד ושונה מפלטפורמת הנתונים בענן, ומציג עלויות נוספות, חששות אבטחה ומורכבות תפעולית.

בהתחשב בחסרונות האלה, אתה עשוי לשאול "מדוע שאדריכלי נתונים בענן יבחרו בדפוס העיצוב הזה?" התשובה טמונה בדרישות של צרכני האנליטיקה. בעוד שאגם הנתונים יכול תיאורטית לשרת שאילתות אנליטיות ישירות לצרכנים, בפועל, אגם הנתונים איטי מדי ואינו תואם לכלי ניתוח פופולריים. 

אילו רק אגם הנתונים היה יכול לספק את היתרונות של מחסן ניתוח והיינו יכולים להימנע מאחסון נתונים פעמיים!

הולדתו של דאטה לייקאוס

המונח "Lakehouse" ראה את הופעת הבכורה שלו בשנת 2020 עם הספר הלבן המכובד של Databricks "מה זה לייקאוס?" מאת בן לוריצה, מייקל ארמברוסט, ריינולד שין, מאטי זהריה ועלי גודסי. המחברים הציגו את הרעיון שאגם הנתונים יכול לשמש כמנוע לאספקת ניתוח, לא רק חנות קבצים סטטית.

ספקי Data Lakehouse הביאו את החזון שלהם על ידי הצגת מנועי שאילתות ניתנים להרחבה במהירות גבוהה שעובדים על קבצי נתונים גולמיים באגם הנתונים וחושפים ממשק SQL סטנדרטי של ANSI. עם החידוש המרכזי הזה, תומכי הארכיטקטורה הזו טוענים שאגמי נתונים יכולים להתנהג כמו מחסן ניתוח, ללא צורך בשכפול נתונים.

עם זאת, מסתבר שמחסן האנליטיקס מבצע פונקציות חיוניות אחרות שאינן מסופקות על ידי ארכיטקטורת אגם הנתונים בלבד, כולל:

  1. אספקת שאילתות "מהירות מחשבה" (שאילתות תוך פחות מ-2 שניות) באופן עקבי על פני מגוון רחב של שאילתות.
  2. הצגת שכבה סמנטית ידידותית לעסק המאפשרת לצרכנים לשאול שאלות ללא צורך בכתיבת SQL.
  3. החלת ממשל ואבטחה של נתונים בזמן שאילתה.

אז, כדי שאגם נתונים יחליף באמת את מחסן הניתוח, אנחנו צריכים משהו אחר.

תפקידה של השכבה הסמנטית

כתבתי הרבה על התפקיד של שכבה סמנטית בערימת הנתונים המודרנית. לסיכום, שכבה סמנטית היא השקפה הגיונית של נתונים עסקיים הממנפת את טכנולוגיית הווירטואליזציה של נתונים כדי לתרגם נתונים פיזיים לנתונים ידידותיים לעסק בזמן שאילתה. 

על ידי הוספת פלטפורמת שכבה סמנטית על גבי אגם נתונים, נוכל לבטל לחלוטין את פונקציות מחסן האנליטיקה מכיוון שפלטפורמת השכבות הסמנטיות:

  1. מספק "שאילתות מהירות מחשבה" על אגם הנתונים באמצעות וירטואליזציה של נתונים וכוונון אוטומטי של ביצועי שאילתות.
  2. מספק שכבה סמנטית ידידותית לעסק שמחליפה את התצוגות הסמנטיות הקנייניות המוטמעות בתוך כל כלי BI ומאפשרת למשתמשים עסקיים לשאול שאלות ללא צורך בכתיבת שאילתות SQL.
  3. מספק ניהול נתונים ואבטחה בזמן שאילתה.

פלטפורמת שכבה סמנטית מספקת את החלקים החסרים שחסרים לאגם הנתונים. על ידי שילוב של שכבה סמנטית עם אגם נתונים, ארגונים יכולים:

  1. הסר עותקי נתונים ופשט את צינורות הנתונים.
  2. איחוד ממשל נתונים ואבטחה.
  3. לספק "מקור יחיד של אמת" עבור מדדים עסקיים.
  4. צמצם את המורכבות התפעולית על ידי שמירת הנתונים באגם הנתונים.
  5. ספק גישה ליותר נתונים ונתונים בזמן יותר לצרכני ניתוח.
תמונה 2: סטימת נתונים חדשה של Lakehouse עם שכבה סמנטית 

The Smantic Lakehouse: כולם מנצחים

כולם מנצחים עם הארכיטקטורה הזו. צרכנים מקבלים גישה לנתונים עדינים יותר ללא השהייה. לצוותי IT והנדסת נתונים יש פחות נתונים להעביר ולשנות. פיננסים מוציאים פחות כסף על עלויות תשתית ענן. 

כפי שאתה יכול לראות, על ידי שילוב של שכבה סמנטית עם אגם נתונים, ארגונים יכולים לפשט את פעולות הנתונים והניתוח שלהם, ולספק יותר נתונים, מהר יותר, ליותר צרכנים, בעלות נמוכה יותר.

בול זמן:

עוד מ קושי