सिमेंटिक लेकहाउस समझाया

सिमेंटिक लेकहाउस समझाया

स्रोत नोड: 1995005

डेटा झीलें और सिमेंटिक परतें लंबे समय से आसपास रहे हैं - प्रत्येक अपने स्वयं के चारदीवारी वाले बगीचों में रहते हैं, काफी संकीर्ण उपयोग के मामलों से कसकर जुड़े हुए हैं। जैसा कि डेटा और एनालिटिक्स इन्फ्रास्ट्रक्चर क्लाउड में माइग्रेट करता है, कई चुनौतीपूर्ण हैं कि ये मूलभूत प्रौद्योगिकी घटक आधुनिक डेटा और एनालिटिक्स स्टैक में कैसे फिट होते हैं। इस लेख में, हम इस बात पर ध्यान देंगे कि कैसे डेटा लेकहाउस और सिमेंटिक लेयर मिलकर डेटा लेक और एनालिटिक्स इंफ्रास्ट्रक्चर के बीच पारंपरिक संबंध को खत्म कर देते हैं। हम सीखेंगे कि सिमेंटिक लेकहाउस नाटकीय रूप से सरल कैसे हो सकता है क्लाउड डेटा आर्किटेक्चर, अनावश्यक डेटा संचलन को समाप्त करें, और मूल्य और क्लाउड लागत के समय को कम करें।

पारंपरिक डेटा और विश्लेषिकी वास्तुकला

2006 में, Amazon ने Amazon Web Services (AWS) को ऑन-प्रिमाइसेस डेटा सेंटर को क्लाउड पर ऑफ़लोड करने के एक नए तरीके के रूप में पेश किया। एक मुख्य एडब्ल्यूएस सेवा इसकी फ़ाइल डेटा स्टोर थी और इसके साथ ही, पहली क्लाउड डेटा झील, अमेज़ॅन एस3 का जन्म हुआ। इसके बाद अन्य क्लाउड विक्रेता क्लाउड डेटा लेक इंफ्रास्ट्रक्चर के अपने स्वयं के संस्करण पेश करेंगे।

अपने अधिकांश जीवन के लिए, क्लाउड डेटा झील को गूंगा, सस्ते की भूमिका निभाने के लिए हटा दिया गया है डेटा भंडारण - एक मचान अपरिष्कृत डेटा के लिए क्षेत्र, जब तक डेटा को कुछ उपयोगी में संसाधित नहीं किया जा सकता। एनालिटिक्स के लिए, डेटा लेक ने डेटा के लिए एक होल्डिंग पेन के रूप में कार्य किया, जब तक कि इसे कॉपी नहीं किया जा सकता और एक अनुकूलित एनालिटिक्स प्लेटफॉर्म में लोड नहीं किया जा सकता, आमतौर पर एक रिलेशनल क्लाउड डेटा वेयरहाउस या तो OLAP क्यूब्स, मालिकाना बिजनेस इंटेलिजेंस (BI) टूल डेटा अर्क जैसे झांकी हाइपर या Power BI प्रीमियम, या उपरोक्त सभी। इस प्रसंस्करण पैटर्न के परिणामस्वरूप, डेटा को कम से कम दो बार संग्रहीत करने की आवश्यकता होती है, एक बार इसके कच्चे रूप में और एक बार इसके "एनालिटिक्स अनुकूलित" रूप में। 

आश्चर्य की बात नहीं, अधिकांश पारंपरिक क्लाउड एनालिटिक्स आर्किटेक्चर नीचे दिए गए आरेख की तरह दिखते हैं:

इमेज 1: पारंपरिक डेटा और एनालिटिक्स स्टैक

जैसा कि आप देख सकते हैं, "एनालिटिक्स वेयरहाउस" उन अधिकांश कार्यों के लिए ज़िम्मेदार है जो उपभोक्ताओं को एनालिटिक्स प्रदान करते हैं। इस वास्तुकला की समस्या इस प्रकार है:

  1. डेटा को दो बार संग्रहीत किया जाता है, जिससे लागत बढ़ जाती है और परिचालन जटिलता पैदा होती है।
  2. एनालिटिक्स वेयरहाउस में डेटा एक स्नैपशॉट है, जिसका अर्थ है कि डेटा तुरंत बासी है।
  3. एनालिटिक्स वेयरहाउस में डेटा आमतौर पर डेटा लेक में डेटा का एक सबसेट होता है, जो उपभोक्ताओं द्वारा पूछे जाने वाले प्रश्नों को सीमित करता है।
  4. अतिरिक्त लागत, सुरक्षा चिंताओं और परिचालन जटिलता का परिचय देते हुए एनालिटिक्स वेयरहाउस क्लाउड डेटा प्लेटफ़ॉर्म से अलग और अलग तरीके से मापता है।

इन कमियों को देखते हुए, आप पूछ सकते हैं "क्लाउड डेटा आर्किटेक्ट इस डिज़ाइन पैटर्न को क्यों चुनेंगे?" इसका जवाब एनालिटिक्स उपभोक्ताओं की मांगों में निहित है। जबकि डेटा लेक सैद्धांतिक रूप से उपभोक्ताओं को सीधे विश्लेषणात्मक प्रश्न प्रदान कर सकता है, व्यवहार में, डेटा लेक लोकप्रिय एनालिटिक्स टूल के साथ बहुत धीमा और असंगत है। 

यदि केवल डेटा लेक एनालिटिक्स वेयरहाउस के लाभ प्रदान कर सकता है और हम डेटा को दो बार संग्रहीत करने से बच सकते हैं!

डेटा लेकहाउस का जन्म

"लेकहाउस" शब्द की शुरुआत 2020 में सेमिनल डेटाब्रिक्स श्वेत पत्र के साथ हुई "एक लेकहाउस क्या है?" बेन लोरिका, माइकल आर्मब्रस्ट, रेनॉल्ड शिन, मातेई ज़हरिया और अली घोडसी द्वारा। लेखकों ने यह विचार पेश किया कि डेटा लेक केवल एक स्थिर फ़ाइल स्टोर नहीं, बल्कि एनालिटिक्स देने के लिए एक इंजन के रूप में काम कर सकता है।

डेटा लेकहाउस विक्रेताओं ने उच्च गति, स्केलेबल क्वेरी इंजन पेश करके अपनी दृष्टि पर वितरित किया जो डेटा झील में कच्चे डेटा फ़ाइलों पर काम करते हैं और एएनएसआई मानक एसक्यूएल इंटरफ़ेस का पर्दाफाश करते हैं। इस प्रमुख नवाचार के साथ, इस वास्तुकला के समर्थकों का तर्क है कि डेटा झीलें डेटा डुप्लिकेट करने की आवश्यकता के बिना एक एनालिटिक्स वेयरहाउस की तरह व्यवहार कर सकती हैं।

हालाँकि, यह पता चला है कि एनालिटिक्स वेयरहाउस अन्य महत्वपूर्ण कार्य करता है जो अकेले डेटा लेकहाउस आर्किटेक्चर से संतुष्ट नहीं हैं, जिनमें शामिल हैं:

  1. प्रश्नों की एक विस्तृत श्रृंखला पर लगातार "विचार की गति" प्रश्न (2 सेकंड के भीतर प्रश्न) वितरित करना।
  2. एक व्यवसाय-अनुकूल सिमेंटिक परत प्रस्तुत करना जो उपभोक्ताओं को SQL लिखने की आवश्यकता के बिना प्रश्न पूछने की अनुमति देता है।
  3. क्वेरी समय पर डेटा शासन और सुरक्षा लागू करना।

इसलिए, एनालिटिक्स वेयरहाउस को सही मायने में बदलने के लिए डेटा लेकहाउस के लिए, हमें कुछ और चाहिए।

सिमेंटिक लेयर की भूमिका

मैंने की भूमिका के बारे में बहुत कुछ लिखा है सिमेंटिक परत आधुनिक डेटा स्टैक में। सारांशित करने के लिए, सिमेंटिक लेयर व्यावसायिक डेटा का एक तार्किक दृश्य है जो डेटा वर्चुअलाइजेशन तकनीक का लाभ उठाता है ताकि क्वेरी समय पर भौतिक डेटा को व्यवसाय-अनुकूल डेटा में अनुवादित किया जा सके। 

डेटा लेकहाउस के शीर्ष पर सिमेंटिक लेयर प्लेटफॉर्म जोड़कर, हम एनालिटिक्स वेयरहाउस फ़ंक्शंस को पूरी तरह से समाप्त कर सकते हैं क्योंकि सिमेंटिक लेयर प्लेटफ़ॉर्म:

  1. डेटा वर्चुअलाइजेशन और स्वचालित क्वेरी प्रदर्शन ट्यूनिंग का उपयोग करके डेटा लेकहाउस पर "विचार प्रश्नों की गति" प्रदान करता है।
  2. एक व्यवसाय-अनुकूल सिमेंटिक परत प्रदान करता है जो प्रत्येक BI टूल के अंदर एम्बेड किए गए मालिकाना सिमेंटिक दृश्यों को प्रतिस्थापित करता है और व्यवसायिक उपयोगकर्ताओं को SQL प्रश्न लिखने की आवश्यकता के बिना प्रश्न पूछने की अनुमति देता है।
  3. क्वेरी समय पर डेटा शासन और सुरक्षा प्रदान करता है।

एक सिमेंटिक लेयर प्लेटफॉर्म लापता टुकड़ों को डिलीवर करता है कि डेटा लेकहाउस गायब है। डेटा लेकहाउस के साथ सिमेंटिक परत को जोड़कर, संगठन कर सकते हैं:

  1. डेटा प्रतियों को हटा दें और डेटा पाइपलाइनों को सरल बनाएं।
  2. डेटा शासन और सुरक्षा को समेकित करें।
  3. व्यापार मेट्रिक्स के लिए "सच्चाई का एकल स्रोत" प्रदान करें।
  4. डेटा लेक में डेटा को रखकर परिचालन जटिलता को कम करें।
  5. एनालिटिक्स उपभोक्ताओं को अधिक डेटा और अधिक सामयिक डेटा तक पहुंच प्रदान करें।
इमेज 2: सिमेंटिक लेयर के साथ नया डेटा लेकहाउस स्टैक 

सिमेंटिक लेकहाउस: हर कोई जीतता है

इस वास्तु से सभी की जीत होती है। उपभोक्ताओं को बिना विलंबता के अधिक बारीक डेटा तक पहुंच प्राप्त होती है। आईटी और डेटा इंजीनियरिंग टीमों के पास स्थानांतरित करने और बदलने के लिए कम डेटा होता है। वित्त क्लाउड इंफ्रास्ट्रक्चर लागत पर कम पैसा खर्च करता है। 

जैसा कि आप देख सकते हैं, डेटा लेकहाउस के साथ सिमेंटिक लेयर को जोड़कर, संगठन अपने डेटा और एनालिटिक्स ऑपरेशंस को सरल बना सकते हैं, और कम लागत के साथ अधिक डेटा, तेज़ी से, अधिक उपभोक्ताओं को वितरित कर सकते हैं।

समय टिकट:

से अधिक डेटावर्सिटी