אגמי נתונים ו שכבות סמנטיות קיימים כבר זמן רב - כל אחד חי בגנים מוקפים חומה שלו, מחוברים הדוק למקרי שימוש צרים למדי. כאשר תשתית נתונים וניתוח עוברת לענן, רבים מאתגרים כיצד מרכיבי הטכנולוגיה הבסיסיים הללו משתלבים בערימת הנתונים והניתוח המודרנית. במאמר זה, נצלול לאופן שבו בית אגם נתונים ושכבה סמנטית משפרים יחד את הקשר המסורתי בין אגמי נתונים ותשתית ניתוח. נלמד כיצד בית אגם סמנטי יכול לפשט באופן דרמטי ארכיטקטורות נתונים בענן, בטל תנועת נתונים מיותרת, וצמצם את זמן הערך ואת עלויות הענן.
ארכיטקטורת הנתונים והאנליטיקה המסורתית
בשנת 2006, אמזון הציגה את שירותי האינטרנט של אמזון (AWS) כדרך חדשה להוריד את מרכז הנתונים המקומי לענן. שירות ליבה של AWS היה מאגר נתוני הקבצים שלו ועם זה נולד אגם הנתונים בענן הראשון, Amazon S3. ספקי ענן אחרים יציגו גרסאות משלהם של תשתית אגם נתונים בענן לאחר מכן.
במשך רוב חייו, אגם הנתונים בענן נדחק לתפקיד של טיפש, זול אחסון נתונים - בימוי אזור לנתונים גולמיים, עד שניתן יהיה לעבד נתונים למשהו שימושי. עבור ניתוח, אגם הנתונים שימש עט החזקה לנתונים עד שניתן היה להעתיקם ולהטעין אותם לפלטפורמת ניתוח אופטימלית, בדרך כלל מחסן נתונים ענן יחסי המזין קוביות OLAP, תמציות נתונים של כלי בינה עסקית (BI) קניינית כמו Tableau Hyper או Power BI Premium, או כל האמור לעיל. כתוצאה מדפוס עיבוד זה, היה צורך לאחסן נתונים לפחות פעמיים, פעם אחת בצורתם הגולמית ופעם אחת בצורה "האופטימלית לניתוח".
באופן לא מפתיע, רוב ארכיטקטורות ניתוח הענן המסורתיות נראות כמו התרשים שלהלן:
כפי שאתה יכול לראות, "מחסן האנליטיקה" אחראי לרוב הפונקציות המספקות אנליטיקה לצרכנים. הבעיה בארכיטקטורה זו היא כדלקמן:
- הנתונים מאוחסנים פעמיים, מה שמגדיל עלויות ויוצר מורכבות תפעולית.
- הנתונים במחסן האנליטיקס הם תמונת מצב, כלומר הנתונים מיושנים באופן מיידי.
- הנתונים במחסן הניתוח הם בדרך כלל תת-קבוצה של הנתונים באגם הנתונים, מה שמגביל את השאלות שצרכנים יכולים לשאול.
- מחסן האנליטיקה מתרחב בנפרד ושונה מפלטפורמת הנתונים בענן, ומציג עלויות נוספות, חששות אבטחה ומורכבות תפעולית.
בהתחשב בחסרונות האלה, אתה עשוי לשאול "מדוע שאדריכלי נתונים בענן יבחרו בדפוס העיצוב הזה?" התשובה טמונה בדרישות של צרכני האנליטיקה. בעוד שאגם הנתונים יכול תיאורטית לשרת שאילתות אנליטיות ישירות לצרכנים, בפועל, אגם הנתונים איטי מדי ואינו תואם לכלי ניתוח פופולריים.
אילו רק אגם הנתונים היה יכול לספק את היתרונות של מחסן ניתוח והיינו יכולים להימנע מאחסון נתונים פעמיים!
הולדתו של דאטה לייקאוס
המונח "Lakehouse" ראה את הופעת הבכורה שלו בשנת 2020 עם הספר הלבן המכובד של Databricks "מה זה לייקאוס?" מאת בן לוריצה, מייקל ארמברוסט, ריינולד שין, מאטי זהריה ועלי גודסי. המחברים הציגו את הרעיון שאגם הנתונים יכול לשמש כמנוע לאספקת ניתוח, לא רק חנות קבצים סטטית.
ספקי Data Lakehouse הביאו את החזון שלהם על ידי הצגת מנועי שאילתות ניתנים להרחבה במהירות גבוהה שעובדים על קבצי נתונים גולמיים באגם הנתונים וחושפים ממשק SQL סטנדרטי של ANSI. עם החידוש המרכזי הזה, תומכי הארכיטקטורה הזו טוענים שאגמי נתונים יכולים להתנהג כמו מחסן ניתוח, ללא צורך בשכפול נתונים.
עם זאת, מסתבר שמחסן האנליטיקס מבצע פונקציות חיוניות אחרות שאינן מסופקות על ידי ארכיטקטורת אגם הנתונים בלבד, כולל:
- אספקת שאילתות "מהירות מחשבה" (שאילתות תוך פחות מ-2 שניות) באופן עקבי על פני מגוון רחב של שאילתות.
- הצגת שכבה סמנטית ידידותית לעסק המאפשרת לצרכנים לשאול שאלות ללא צורך בכתיבת SQL.
- החלת ממשל ואבטחה של נתונים בזמן שאילתה.
אז, כדי שאגם נתונים יחליף באמת את מחסן הניתוח, אנחנו צריכים משהו אחר.
תפקידה של השכבה הסמנטית
כתבתי הרבה על התפקיד של שכבה סמנטית בערימת הנתונים המודרנית. לסיכום, שכבה סמנטית היא השקפה הגיונית של נתונים עסקיים הממנפת את טכנולוגיית הווירטואליזציה של נתונים כדי לתרגם נתונים פיזיים לנתונים ידידותיים לעסק בזמן שאילתה.
על ידי הוספת פלטפורמת שכבה סמנטית על גבי אגם נתונים, נוכל לבטל לחלוטין את פונקציות מחסן האנליטיקה מכיוון שפלטפורמת השכבות הסמנטיות:
- מספק "שאילתות מהירות מחשבה" על אגם הנתונים באמצעות וירטואליזציה של נתונים וכוונון אוטומטי של ביצועי שאילתות.
- מספק שכבה סמנטית ידידותית לעסק שמחליפה את התצוגות הסמנטיות הקנייניות המוטמעות בתוך כל כלי BI ומאפשרת למשתמשים עסקיים לשאול שאלות ללא צורך בכתיבת שאילתות SQL.
- מספק ניהול נתונים ואבטחה בזמן שאילתה.
פלטפורמת שכבה סמנטית מספקת את החלקים החסרים שחסרים לאגם הנתונים. על ידי שילוב של שכבה סמנטית עם אגם נתונים, ארגונים יכולים:
- הסר עותקי נתונים ופשט את צינורות הנתונים.
- איחוד ממשל נתונים ואבטחה.
- לספק "מקור יחיד של אמת" עבור מדדים עסקיים.
- צמצם את המורכבות התפעולית על ידי שמירת הנתונים באגם הנתונים.
- ספק גישה ליותר נתונים ונתונים בזמן יותר לצרכני ניתוח.
The Smantic Lakehouse: כולם מנצחים
כולם מנצחים עם הארכיטקטורה הזו. צרכנים מקבלים גישה לנתונים עדינים יותר ללא השהייה. לצוותי IT והנדסת נתונים יש פחות נתונים להעביר ולשנות. פיננסים מוציאים פחות כסף על עלויות תשתית ענן.
כפי שאתה יכול לראות, על ידי שילוב של שכבה סמנטית עם אגם נתונים, ארגונים יכולים לפשט את פעולות הנתונים והניתוח שלהם, ולספק יותר נתונים, מהר יותר, ליותר צרכנים, בעלות נמוכה יותר.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה כאן.
- מקור: https://www.dataversity.net/the-semantic-lakehouse-explained/
- :הוא
- 1
- 2020
- a
- אודות
- מֵעַל
- גישה
- נוסף
- תעשיות
- מאפשר
- לבד
- אמזון בעברית
- אמזון שירותי אינטרנט
- אמזון שירותי אינטרנט (AWS)
- אנליטית
- ניתוח
- ו
- לענות
- ארכיטקטורה
- ARE
- AREA
- לטעון
- סביב
- מאמר
- AS
- At
- מחברים
- אוטומטי
- AWS
- BE
- כי
- להלן
- הטבות
- בֵּין
- נולד
- עסקים
- מודיעין עסקי
- by
- CAN
- מקרים
- מרכז
- אתגר
- זול
- בחרו
- ענן
- תשתית ענן
- שילוב
- מורכבות
- רכיבים
- דאגות
- צרכנים
- עותקים
- ליבה
- עלות
- עלויות
- יכול
- יחד
- יוצר
- נתונים
- מרכז נתונים
- אגם דאטה
- פלטפורמת נתונים
- מחסן נתונים
- דאטבריקס
- קושי
- למסור
- נתן
- אספקה
- מספק
- דרישות
- עיצוב
- ישירות
- באופן דרמטי
- חסרונות
- כל אחד
- או
- בוטל
- מוטבע
- מנוע
- הנדסה
- מנועים
- מוסבר
- תמציות
- למדי
- מהר יותר
- האכלה
- שלח
- קבצים
- לממן
- ראשון
- מתאים
- כדלקמן
- בעד
- טופס
- החל מ-
- פונקציות
- גני
- לקבל
- ממשל
- יש
- גָבוֹהַ
- מחזיק
- איך
- HTML
- HTTPS
- רעיון
- in
- כולל
- עליות
- תשתית
- חדשנות
- מוֹדִיעִין
- מִמְשָׁק
- מבוא
- הציג
- החדרה
- IT
- שֶׁלָה
- שמירה
- מפתח
- אגם
- חֶבִיוֹן
- שכבה
- לִלמוֹד
- מנופים
- החיים
- כמו
- גבולות
- חי
- הגיוני
- ארוך
- הרבה זמן
- נראה
- נראה כמו
- מגרש
- הרוב
- רב
- max-width
- אומר
- מדדים
- מיכאל
- יכול
- חסר
- מודרני
- כסף
- יותר
- רוב
- המהלך
- תנועה
- צורך
- נחוץ
- צורך
- חדש
- of
- on
- מבצעי
- תפעול
- אופטימיזציה
- ארגונים
- אחר
- שֶׁלוֹ
- תבנית
- ביצועים
- מבצע
- גופני
- חתיכות
- פלטפורמה
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- משחק
- פופולרי
- כּוֹחַ
- Power BI
- תרגול
- פּרֶמיָה
- בעיה
- תהליך
- קניינית
- שאלות
- רכס
- חי
- נתונים גולמיים
- להפחית
- קשר
- להחליף
- אחראי
- תוצאה
- תפקיד
- מרוצה
- להרחבה
- מאזניים
- שניות
- אבטחה
- לשרת
- שרות
- שירותים
- לפשט
- להאט
- תמונת בזק
- משהו
- מָקוֹר
- מְהִירוּת
- SQL
- לערום
- תֶקֶן
- חנות
- מאוחסן
- לסכם
- תמונת חיה
- צוותי
- טכנולוגיה
- זֶה
- השמיים
- שֶׁלָהֶם
- אלה
- מחשבה
- בחוזקה
- זמן
- ל
- יַחַד
- גַם
- כלי
- כלים
- חלק עליון
- מסורתי
- לשנות
- לתרגם
- פעמים
- בדרך כלל
- תחת
- להשתמש
- משתמשים
- ערך
- ספקים
- לצפיה
- נופים
- חזון
- חיוני
- חומה
- מחסן
- דֶרֶך..
- אינטרנט
- שירותי אינטרנט
- אשר
- בזמן
- לבן
- רָחָב
- טווח רחב
- יצטרך
- ניצחונות
- עם
- לְלֹא
- תיק עבודות
- היה
- לכתוב
- כתוב
- זפירנט