Apache Gobblin के माध्यम से स्केलिंग डेटा प्रबंधन

Apache Gobblin के माध्यम से स्केलिंग डेटा प्रबंधन

स्रोत नोड: 1911501

आधुनिक दुनिया में, अधिकांश व्यवसाय अपने विकास, रणनीतिक निवेश और ग्राहक जुड़ाव को बढ़ावा देने के लिए बड़े डेटा और एनालिटिक्स की शक्ति पर भरोसा करते हैं। बिग डेटा लक्षित विज्ञापन, वैयक्तिकृत विपणन, उत्पाद अनुशंसाएँ, अंतर्दृष्टि निर्माण, मूल्य अनुकूलन, भावना विश्लेषण, भविष्य कहनेवाला विश्लेषण, और बहुत कुछ में अंतर्निहित स्थिरांक है। 

डेटा को अक्सर कई स्रोतों से एकत्र किया जाता है, रूपांतरित किया जाता है, संग्रहीत किया जाता है और डेटा झीलों पर ऑन-प्रिमाइसेस या ऑन-क्लाउड पर संसाधित किया जाता है। जबकि डेटा का प्रारंभिक अंतर्ग्रहण अपेक्षाकृत तुच्छ है और इन-हाउस या पारंपरिक ईटीएल (एक्स्ट्रेक्ट ट्रांसफ़ॉर्म लोड) टूल विकसित कस्टम स्क्रिप्ट के माध्यम से प्राप्त किया जा सकता है, समस्या जल्दी से जटिल और हल करने के लिए महंगी हो जाती है क्योंकि कंपनियों को:

  1. संपूर्ण डेटा जीवनचक्र प्रबंधित करें - हाउसकीपिंग और अनुपालन उद्देश्यों के लिए 
  2. भंडारण का अनुकूलन - संबद्ध लागतों को कम करने के लिए 
  3. आर्किटेक्चर को सरल बनाएं - कंप्यूटिंग इंफ्रास्ट्रक्चर के पुन: उपयोग के माध्यम से 
  4. डेटा को क्रमिक रूप से संसाधित करें - शक्तिशाली राज्य प्रबंधन के माध्यम से 
  5. बैच और स्ट्रीम डेटा पर समान नीतियां लागू करें - प्रयास के दोहराव के बिना
  6. ऑन-प्रिमाइसेस और क्लाउड के बीच माइग्रेट करें - कम से कम प्रयास के साथ  

यह कहाँ है अपाचे गोब्लिन, एक ओपन-सोर्स डेटा प्रबंधन, और एकीकरण प्रणाली आती है। अपाचे गोब्लिन अद्वितीय क्षमताएं प्रदान करता है जिसका उपयोग व्यवसाय की जरूरतों के आधार पर पूरे या भागों में किया जा सकता है। 

इस खंड में, हम अपाचे गोब्लिन की विभिन्न क्षमताओं में तल्लीन होंगे जो पहले उल्लिखित चुनौतियों का समाधान करने में सहायता करते हैं।

पूर्ण डेटा जीवनचक्र का प्रबंधन

Apache Gobblin डेटा पाइपलाइनों के निर्माण के लिए क्षमताओं का एक सरगम ​​​​प्रदान करता है जो डेटासेट पर डेटा जीवनचक्र संचालन के पूर्ण सूट का समर्थन करता है। 

  1. इनजेस्ट डेटा - कई स्रोतों से डेटाबेस, बाकी एपीआई, एफ़टीपी / एसएफटीपी सर्वर, फाइलर्स, सीआरएम जैसे सेल्सफोर्स और डायनेमिक्स, और बहुत कुछ। 
  2. डेटा को दोहराएं - डिस्टीसीपी-एनजी के माध्यम से हडूप वितरित फाइल सिस्टम के लिए विशेष क्षमताओं के साथ कई डेटा झीलों के बीच। 
  3. डेटा शुद्ध करें - अवधारण नीतियों जैसे समय-आधारित, नवीनतम K, संस्करणित, या नीतियों के संयोजन का उपयोग करना। 

गोब्लिन की तार्किक पाइपलाइन में एक 'स्रोत' होता है जो काम के वितरण को निर्धारित करता है और 'वर्कयूनिट' बनाता है। इन 'कार्य इकाइयों' को 'कार्य' के रूप में निष्पादन के लिए चुना जाता है, जिसमें निष्कर्षण, रूपांतरण, गुणवत्ता जांच और गंतव्य के लिए डेटा लिखना शामिल है। अंतिम चरण, 'डेटा प्रकाशित करें,' पाइपलाइन के सफल निष्पादन को मान्य करता है और यदि गंतव्य इसका समर्थन करता है, तो परमाणु रूप से आउटपुट डेटा जमा करता है।
 

Apache Gobblin के माध्यम से स्केलिंग डेटा प्रबंधन
लेखक द्वारा छवि

संग्रहण को ऑप्टिमाइज़ करें

अपाचे गोब्लिन संघनन या प्रारूप रूपांतरण के माध्यम से अंतर्ग्रहण या प्रतिकृति के बाद प्रसंस्करण डेटा के माध्यम से डेटा के लिए आवश्यक भंडारण की मात्रा को कम करने में मदद कर सकता है। 

  1. कॉम्पैक्शन - पोस्ट-प्रोसेसिंग डेटा को रिकॉर्ड के सभी फ़ील्ड या प्रमुख फ़ील्ड के आधार पर डीडुप्लिकेट करने के लिए, डेटा को केवल एक रिकॉर्ड को एक ही कुंजी के साथ नवीनतम टाइमस्टैम्प के साथ रखने के लिए ट्रिम करना।
  2. एवरो टू ओआरसी - लोकप्रिय पंक्ति-आधारित एवरो प्रारूप को हाइपर-अनुकूलित कॉलम-आधारित ओआरसी प्रारूप में बदलने के लिए एक विशेष प्रारूप रूपांतरण तंत्र के रूप में। 

 

Apache Gobblin के माध्यम से स्केलिंग डेटा प्रबंधन
लेखक द्वारा छवि

आर्किटेक्चर को सरल बनाएं 

कंपनी के चरण (स्टार्टअप टू एंटरप्राइज), स्केल आवश्यकताओं और उनके संबंधित आर्किटेक्चर के आधार पर, कंपनियां अपने डेटा इंफ्रास्ट्रक्चर को स्थापित या विकसित करना पसंद करती हैं। अपाचे गोब्लिन बहुत लचीला है और कई निष्पादन मॉडल का समर्थन करता है।

  1. स्टैंडअलोन मोड - नंगे धातु के बक्से पर एक स्टैंडअलोन प्रक्रिया के रूप में चलाने के लिए, यानी सरल उपयोग के मामलों और कम मांग वाली स्थितियों के लिए एकल होस्ट। 
  2. MapReduce मोड - पेटाबाइट्स स्केल में डेटासेट को संभालने के लिए बड़े डेटा मामलों के लिए Hadoop इन्फ्रास्ट्रक्चर पर MapReduce जॉब के रूप में चलाने के लिए। 
  3. क्लस्टर मोड: स्टैंडअलोन - हडूप एमआर ढांचे से स्वतंत्र बड़े पैमाने पर संभालने के लिए नंगे धातु मशीनों या मेजबानों के एक सेट पर अपाचे हेलिक्स और अपाचे ज़ूकीपर द्वारा समर्थित क्लस्टर के रूप में चलाने के लिए।
  4. क्लस्टर मोड: यार्न - हडूप एमआर ढांचे के बिना देशी यार्न पर क्लस्टर के रूप में चलाने के लिए। 
  5. क्लस्टर मोड: एडब्ल्यूएस - अमेज़ॅन की सार्वजनिक क्लाउड पेशकश पर क्लस्टर के रूप में चलाने के लिए, यानी। AWS पर होस्ट किए गए इन्फ्रास्ट्रक्चर के लिए AWS। 

 

Apache Gobblin के माध्यम से स्केलिंग डेटा प्रबंधन
लेखक द्वारा छवि

डेटा को धीरे-धीरे प्रोसेस करें 

कई डेटा पाइपलाइनों और उच्च मात्रा के साथ एक महत्वपूर्ण पैमाने पर, डेटा को बैचों में और समय के साथ संसाधित करने की आवश्यकता होती है। इसलिए, इसे चेकपॉइंटिंग की आवश्यकता होती है ताकि डेटा पाइपलाइनें फिर से शुरू हो सकें, जहां से पिछली बार छोड़ी गई थीं और आगे जारी रहेंगी। Apache Gobblin निम्न और उच्च वॉटरमार्क का समर्थन करता है और HDFS, AWS S3, MySQL और अधिक पारदर्शी रूप से स्टेट स्टोर के माध्यम से मजबूत राज्य प्रबंधन शब्दार्थ का समर्थन करता है। 

 

Apache Gobblin के माध्यम से स्केलिंग डेटा प्रबंधन
लेखक द्वारा छवि

बैच और स्ट्रीम डेटा पर समान नीतियां

अधिकांश डेटा पाइपलाइनों को आज दो बार लिखना पड़ता है, एक बार बैच डेटा के लिए और फिर नियर-लाइन या स्ट्रीमिंग डेटा के लिए। यह प्रयास को दोगुना करता है और विभिन्न प्रकार की पाइपलाइनों पर लागू नीतियों और एल्गोरिदम में विसंगतियों का परिचय देता है। Apache Gobblin उपयोगकर्ताओं को एक बार पाइपलाइन लिखने और इसे Gobblin क्लस्टर मोड, AWS मोड पर Gobblin, या Yarn मोड पर Gobblin में उपयोग किए जाने पर दोनों बैच और स्ट्रीम डेटा पर चलाने की अनुमति देकर इसे हल करता है।  

ऑन-प्रिमाइसेस और क्लाउड के बीच माइग्रेट करें 

इसके बहुमुखी मोड के कारण जो एक बॉक्स, नोड्स के एक समूह, या क्लाउड पर ऑन-प्रिमाइसेस चल सकता है - अपाचे गोब्लिन को ऑन-प्रिमाइसेस और क्लाउड पर तैनात और उपयोग किया जा सकता है। इसलिए, उपयोगकर्ताओं को एक बार अपने डेटा पाइपलाइनों को लिखने और विशिष्ट आवश्यकताओं के आधार पर ऑन-प्रिमाइसेस और क्लाउड के बीच आसानी से गोब्लिन परिनियोजन के साथ माइग्रेट करने की अनुमति देता है। 

इसकी अत्यधिक लचीली वास्तुकला, शक्तिशाली विशेषताओं और डेटा वॉल्यूम के चरम पैमाने के कारण जो इसे समर्थन और प्रक्रिया कर सकता है, Apache Gobblin का उपयोग उत्पादन के बुनियादी ढांचे में किया जाता है। प्रमुख प्रौद्योगिकी कंपनियां और आज किसी भी बड़े डेटा इंफ्रास्ट्रक्चर परिनियोजन के लिए जरूरी है।

Apache Gobblin के बारे में अधिक जानकारी और इसका उपयोग कैसे करें पर पाया जा सकता है https://gobblin.apache.org
 
 
अभिषेक तिवारी लिंक्डइन में एक वरिष्ठ प्रबंधक हैं, जो कंपनी के बिग डेटा पाइपलाइन संगठन का नेतृत्व कर रहे हैं। वे Apache Software Foundation में Apache Gobblin के वाइस प्रेसिडेंट और ब्रिटिश कंप्यूटर सोसाइटी के फेलो भी हैं।
 

समय टिकट:

से अधिक केडनगेट्स