The Semantic Lakehouse Explained - Plato AiStream V2.1

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

डेटा झीलें और सिमेंटिक परतें लंबे समय से आसपास रहे हैं - प्रत्येक अपने स्वयं के चारदीवारी वाले बगीचों में रहते हैं, काफी संकीर्ण उपयोग के मामलों से कसकर जुड़े हुए हैं। जैसा कि डेटा और एनालिटिक्स इन्फ्रास्ट्रक्चर क्लाउड में माइग्रेट करता है, कई चुनौतीपूर्ण हैं कि ये मूलभूत प्रौद्योगिकी घटक आधुनिक डेटा और एनालिटिक्स स्टैक में कैसे फिट होते हैं। इस लेख में, हम इस बात पर ध्यान देंगे कि कैसे डेटा लेकहाउस और सिमेंटिक लेयर मिलकर डेटा लेक और एनालिटिक्स इंफ्रास्ट्रक्चर के बीच पारंपरिक संबंध को खत्म कर देते हैं। हम सीखेंगे कि सिमेंटिक लेकहाउस नाटकीय रूप से सरल कैसे हो सकता है क्लाउड डेटा आर्किटेक्चर, अनावश्यक डेटा संचलन को समाप्त करें, और मूल्य और क्लाउड लागत के समय को कम करें।

पारंपरिक डेटा और विश्लेषिकी वास्तुकला

2006 में, Amazon ने Amazon Web Services (AWS) को ऑन-प्रिमाइसेस डेटा सेंटर को क्लाउड पर ऑफ़लोड करने के एक नए तरीके के रूप में पेश किया। एक मुख्य एडब्ल्यूएस सेवा इसकी फ़ाइल डेटा स्टोर थी और इसके साथ ही, पहली क्लाउड डेटा झील, अमेज़ॅन एस3 का जन्म हुआ। इसके बाद अन्य क्लाउड विक्रेता क्लाउड डेटा लेक इंफ्रास्ट्रक्चर के अपने स्वयं के संस्करण पेश करेंगे।

अपने अधिकांश जीवन के लिए, क्लाउड डेटा झील को गूंगा, सस्ते की भूमिका निभाने के लिए हटा दिया गया है डेटा भंडारण - एक मचान अपरिष्कृत डेटा के लिए क्षेत्र, जब तक डेटा को कुछ उपयोगी में संसाधित नहीं किया जा सकता। एनालिटिक्स के लिए, डेटा लेक ने डेटा के लिए एक होल्डिंग पेन के रूप में कार्य किया, जब तक कि इसे कॉपी नहीं किया जा सकता और एक अनुकूलित एनालिटिक्स प्लेटफॉर्म में लोड नहीं किया जा सकता, आमतौर पर एक रिलेशनल क्लाउड डेटा वेयरहाउस या तो OLAP क्यूब्स, मालिकाना बिजनेस इंटेलिजेंस (BI) टूल डेटा अर्क जैसे झांकी हाइपर या Power BI प्रीमियम, या उपरोक्त सभी। इस प्रसंस्करण पैटर्न के परिणामस्वरूप, डेटा को कम से कम दो बार संग्रहीत करने की आवश्यकता होती है, एक बार इसके कच्चे रूप में और एक बार इसके "एनालिटिक्स अनुकूलित" रूप में।

आश्चर्य की बात नहीं, अधिकांश पारंपरिक क्लाउड एनालिटिक्स आर्किटेक्चर नीचे दिए गए आरेख की तरह दिखते हैं:

*इमेज 1: पारंपरिक डेटा और एनालिटिक्स स्टैक*

जैसा कि आप देख सकते हैं, "एनालिटिक्स वेयरहाउस" उन अधिकांश कार्यों के लिए ज़िम्मेदार है जो उपभोक्ताओं को एनालिटिक्स प्रदान करते हैं। इस वास्तुकला की समस्या इस प्रकार है:

डेटा को दो बार संग्रहीत किया जाता है, जिससे लागत बढ़ जाती है और परिचालन जटिलता पैदा होती है।
एनालिटिक्स वेयरहाउस में डेटा एक स्नैपशॉट है, जिसका अर्थ है कि डेटा तुरंत बासी है।
एनालिटिक्स वेयरहाउस में डेटा आमतौर पर डेटा लेक में डेटा का एक सबसेट होता है, जो उपभोक्ताओं द्वारा पूछे जाने वाले प्रश्नों को सीमित करता है।
अतिरिक्त लागत, सुरक्षा चिंताओं और परिचालन जटिलता का परिचय देते हुए एनालिटिक्स वेयरहाउस क्लाउड डेटा प्लेटफ़ॉर्म से अलग और अलग तरीके से मापता है।

इन कमियों को देखते हुए, आप पूछ सकते हैं "क्लाउड डेटा आर्किटेक्ट इस डिज़ाइन पैटर्न को क्यों चुनेंगे?" इसका जवाब एनालिटिक्स उपभोक्ताओं की मांगों में निहित है। जबकि डेटा लेक सैद्धांतिक रूप से उपभोक्ताओं को सीधे विश्लेषणात्मक प्रश्न प्रदान कर सकता है, व्यवहार में, डेटा लेक लोकप्रिय एनालिटिक्स टूल के साथ बहुत धीमा और असंगत है।

यदि केवल डेटा लेक एनालिटिक्स वेयरहाउस के लाभ प्रदान कर सकता है और हम डेटा को दो बार संग्रहीत करने से बच सकते हैं!

डेटा लेकहाउस का जन्म

"लेकहाउस" शब्द की शुरुआत 2020 में सेमिनल डेटाब्रिक्स श्वेत पत्र के साथ हुई "एक लेकहाउस क्या है?" बेन लोरिका, माइकल आर्मब्रस्ट, रेनॉल्ड शिन, मातेई ज़हरिया और अली घोडसी द्वारा। लेखकों ने यह विचार पेश किया कि डेटा लेक केवल एक स्थिर फ़ाइल स्टोर नहीं, बल्कि एनालिटिक्स देने के लिए एक इंजन के रूप में काम कर सकता है।

डेटा लेकहाउस विक्रेताओं ने उच्च गति, स्केलेबल क्वेरी इंजन पेश करके अपनी दृष्टि पर वितरित किया जो डेटा झील में कच्चे डेटा फ़ाइलों पर काम करते हैं और एएनएसआई मानक एसक्यूएल इंटरफ़ेस का पर्दाफाश करते हैं। इस प्रमुख नवाचार के साथ, इस वास्तुकला के समर्थकों का तर्क है कि डेटा झीलें डेटा डुप्लिकेट करने की आवश्यकता के बिना एक एनालिटिक्स वेयरहाउस की तरह व्यवहार कर सकती हैं।

हालाँकि, यह पता चला है कि एनालिटिक्स वेयरहाउस अन्य महत्वपूर्ण कार्य करता है जो अकेले डेटा लेकहाउस आर्किटेक्चर से संतुष्ट नहीं हैं, जिनमें शामिल हैं:

प्रश्नों की एक विस्तृत श्रृंखला पर लगातार "विचार की गति" प्रश्न (2 सेकंड के भीतर प्रश्न) वितरित करना।
एक व्यवसाय-अनुकूल सिमेंटिक परत प्रस्तुत करना जो उपभोक्ताओं को SQL लिखने की आवश्यकता के बिना प्रश्न पूछने की अनुमति देता है।
क्वेरी समय पर डेटा शासन और सुरक्षा लागू करना।

इसलिए, एनालिटिक्स वेयरहाउस को सही मायने में बदलने के लिए डेटा लेकहाउस के लिए, हमें कुछ और चाहिए।

सिमेंटिक लेयर की भूमिका

मैंने की भूमिका के बारे में बहुत कुछ लिखा है सिमेंटिक परत आधुनिक डेटा स्टैक में। सारांशित करने के लिए, सिमेंटिक लेयर व्यावसायिक डेटा का एक तार्किक दृश्य है जो डेटा वर्चुअलाइजेशन तकनीक का लाभ उठाता है ताकि क्वेरी समय पर भौतिक डेटा को व्यवसाय-अनुकूल डेटा में अनुवादित किया जा सके।

डेटा लेकहाउस के शीर्ष पर सिमेंटिक लेयर प्लेटफॉर्म जोड़कर, हम एनालिटिक्स वेयरहाउस फ़ंक्शंस को पूरी तरह से समाप्त कर सकते हैं क्योंकि सिमेंटिक लेयर प्लेटफ़ॉर्म:

डेटा वर्चुअलाइजेशन और स्वचालित क्वेरी प्रदर्शन ट्यूनिंग का उपयोग करके डेटा लेकहाउस पर "विचार प्रश्नों की गति" प्रदान करता है।
एक व्यवसाय-अनुकूल सिमेंटिक परत प्रदान करता है जो प्रत्येक BI टूल के अंदर एम्बेड किए गए मालिकाना सिमेंटिक दृश्यों को प्रतिस्थापित करता है और व्यवसायिक उपयोगकर्ताओं को SQL प्रश्न लिखने की आवश्यकता के बिना प्रश्न पूछने की अनुमति देता है।
क्वेरी समय पर डेटा शासन और सुरक्षा प्रदान करता है।

एक सिमेंटिक लेयर प्लेटफॉर्म लापता टुकड़ों को डिलीवर करता है कि डेटा लेकहाउस गायब है। डेटा लेकहाउस के साथ सिमेंटिक परत को जोड़कर, संगठन कर सकते हैं:

डेटा प्रतियों को हटा दें और डेटा पाइपलाइनों को सरल बनाएं।
डेटा शासन और सुरक्षा को समेकित करें।
व्यापार मेट्रिक्स के लिए "सच्चाई का एकल स्रोत" प्रदान करें।
डेटा लेक में डेटा को रखकर परिचालन जटिलता को कम करें।
एनालिटिक्स उपभोक्ताओं को अधिक डेटा और अधिक सामयिक डेटा तक पहुंच प्रदान करें।

*इमेज 2: सिमेंटिक लेयर के साथ नया डेटा लेकहाउस स्टैक*

सिमेंटिक लेकहाउस: हर कोई जीतता है

इस वास्तु से सभी की जीत होती है। उपभोक्ताओं को बिना विलंबता के अधिक बारीक डेटा तक पहुंच प्राप्त होती है। आईटी और डेटा इंजीनियरिंग टीमों के पास स्थानांतरित करने और बदलने के लिए कम डेटा होता है। वित्त क्लाउड इंफ्रास्ट्रक्चर लागत पर कम पैसा खर्च करता है।

जैसा कि आप देख सकते हैं, डेटा लेकहाउस के साथ सिमेंटिक लेयर को जोड़कर, संगठन अपने डेटा और एनालिटिक्स ऑपरेशंस को सरल बना सकते हैं, और कम लागत के साथ अधिक डेटा, तेज़ी से, अधिक उपभोक्ताओं को वितरित कर सकते हैं।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
स्रोत: https://www.dataversity.net/the-semantic-lakehouse-explained/

समय टिकट: मार्च २०,२०२१

समय टिकट: जनवरी 18, 2024

सिमेंटिक लेकहाउस समझाया

प्लेटो द्वारा पुनर्प्रकाशित

पारंपरिक डेटा और विश्लेषिकी वास्तुकला

डेटा लेकहाउस का जन्म

सिमेंटिक लेयर की भूमिका

सिमेंटिक लेकहाउस: हर कोई जीतता है

से अधिक डेटावर्सिटी

ऑन-प्रेम और क्लाउड के बीच प्रतिस्पर्धा खत्म हो गई है - हाइब्रिड की जीत

5 में डेटा प्रबंधन के लिए शीर्ष 2023 रुझान

डेटा गवर्नेंस, डेटा साक्षरता, और डेटा का प्रबंधन

MongoDB डेमो: एंटरप्राइज स्केल पर RDBMS से NoSQL तक - डेटावर्सिटी

एआई आपको 10 गुना डेटा विश्लेषक बनाएगा, आपकी नौकरी नहीं लेगा - डेटावर्सिटी

डेटा मॉडल के प्रकार और उनके उपयोग

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा