Introducing Apache Hudi Support With AWS Glue Crawlers | Amazon Web Services

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

अपाचे हुडी एक खुला तालिका प्रारूप है जो डेटाबेस और डेटा वेयरहाउस क्षमताओं को डेटा लेक में लाता है। अपाचे हुडी डेटा इंजीनियरों को जटिल चुनौतियों का प्रबंधन करने में मदद करता है, जैसे क्वेरी प्रदर्शन को बनाए रखते हुए लेनदेन के साथ लगातार विकसित होने वाले डेटासेट का प्रबंधन करना। डेटा इंजीनियर वर्कलोड स्ट्रीमिंग के साथ-साथ कुशल वृद्धिशील डेटा पाइपलाइन बनाने के लिए अपाचे हुडी का उपयोग करते हैं। हुडी प्रदान करता है टेबल, लेनदेन, कुशल अप्सर्ट और डिलीट, उन्नत सूचकांक, स्ट्रीमिंग अंतर्ग्रहण सेवाएं, डेटा गुच्छन और संघनन अनुकूलन, और समरूपता नियंत्रण, यह सब आपके डेटा को ओपन सोर्स फ़ाइल स्वरूपों में रखते हुए। हुडी के उन्नत प्रदर्शन अनुकूलन अपाचे स्पार्क, प्रेस्टो, ट्रिनो, हाइव इत्यादि सहित किसी भी लोकप्रिय क्वेरी इंजन के साथ विश्लेषणात्मक कार्यभार को तेज़ बनाते हैं।

कई AWS ग्राहकों ने Amazon S3 के शीर्ष पर निर्मित अपने डेटा लेक पर Apache Hudi को अपनाया एडब्ल्यूएस गोंद, एक सर्वर रहित डेटा एकीकरण सेवा जो एनालिटिक्स, मशीन लर्निंग (एमएल) और एप्लिकेशन डेवलपमेंट के लिए कई स्रोतों से डेटा को खोजना, तैयार करना, स्थानांतरित करना और एकीकृत करना आसान बनाती है। एडब्ल्यूएस गोंद क्रॉलर AWS ग्लू का एक घटक है, जो आपको मेटाडेटा की मैन्युअल परिभाषा की आवश्यकता के बिना स्वचालित रूप से डेटा सामग्री से तालिका मेटाडेटा बनाने की अनुमति देता है।

AWS ग्लू क्रॉलर अब Apache Hudi टेबल का समर्थन करते हैं, अपनाने को सरल बनाना एडब्ल्यूएस गोंद डेटा कैटलॉग हुडी तालिकाओं के लिए कैटलॉग के रूप में। एक सामान्य उपयोग मामला हुडी तालिकाओं को पंजीकृत करना है, जिसमें कैटलॉग तालिका परिभाषा नहीं है। एक अन्य विशिष्ट उपयोग का मामला अन्य हुडी कैटलॉग से माइग्रेशन है, जैसे हाइव मेटास्टोर। अन्य Hudi कैटलॉग से माइग्रेट करते समय, आप AWS ग्लू क्रॉलर बना और शेड्यूल कर सकते हैं और एक या अधिक Amazon S3 पथ प्रदान कर सकते हैं जहां Hudi तालिका फ़ाइलें स्थित हैं। आपके पास Amazon S3 पथों की अधिकतम गहराई प्रदान करने का विकल्प है जिसे AWS ग्लू क्रॉलर पार कर सकता है। प्रत्येक रन के साथ, AWS ग्लू क्रॉलर स्कीमा और विभाजन की जानकारी निकालेंगे और स्कीमा और विभाजन परिवर्तनों के साथ AWS ग्लू डेटा कैटलॉग को अपडेट करेंगे। AWS ग्लू क्रॉलर AWS ग्लू डेटा कैटलॉग में नवीनतम मेटाडेटा फ़ाइल स्थान को अपडेट करता है जिसे AWS विश्लेषणात्मक इंजन सीधे उपयोग कर सकते हैं।

इस लॉन्च के साथ, आप AWS ग्लू डेटा कैटलॉग में Hudi तालिकाओं को पंजीकृत करने के लिए AWS ग्लू क्रॉलर बना और शेड्यूल कर सकते हैं। फिर आप एक या एकाधिक अमेज़ॅन एस3 पथ प्रदान कर सकते हैं जहां हुडी टेबल स्थित हैं। आपके पास Amazon S3 पथों की अधिकतम गहराई प्रदान करने का विकल्प है जिसे क्रॉलर पार कर सकते हैं। प्रत्येक क्रॉलर रन के साथ, क्रॉलर प्रत्येक S3 पथ का निरीक्षण करता है और स्कीमा जानकारी को सूचीबद्ध करता है, जैसे कि नई तालिकाएँ, डिलीट और AWS ग्लू डेटा कैटलॉग में स्कीमा के अपडेट। क्रॉलर विभाजन जानकारी का निरीक्षण करते हैं और AWS ग्लू डेटा कैटलॉग में नए जोड़े गए विभाजन जोड़ते हैं। क्रॉलर AWS ग्लू डेटा कैटलॉग में नवीनतम मेटाडेटा फ़ाइल स्थान को भी अपडेट करते हैं जिसे AWS विश्लेषणात्मक इंजन सीधे उपयोग कर सकते हैं।

यह पोस्ट दर्शाती है कि हुडी तालिकाओं को क्रॉल करने की यह नई क्षमता कैसे काम करती है।

AWS ग्लू क्रॉलर हुडी टेबल के साथ कैसे काम करता है

हुडी तालिकाओं की दो श्रेणियां हैं, जिनमें से प्रत्येक के लिए विशिष्ट निहितार्थ हैं:

लिखने पर प्रतिलिपि (CoW) - डेटा को एक स्तंभ प्रारूप (Parquet) में संग्रहीत किया जाता है, और प्रत्येक अद्यतन लिखने के दौरान फ़ाइलों का एक नया संस्करण बनाता है।
पढ़ने पर मर्ज (एमओआर) - डेटा को स्तंभ (लकड़ी की छत) और पंक्ति-आधारित (एवरो) प्रारूपों के संयोजन का उपयोग करके संग्रहीत किया जाता है। अद्यतनों को पंक्ति-आधारित पर लॉग किया जाता है delta फ़ाइलें और स्तंभ फ़ाइलों के नए संस्करण बनाने के लिए आवश्यकतानुसार संकुचित की जाती हैं।

CoW डेटासेट के साथ, हर बार जब किसी रिकॉर्ड में कोई अपडेट होता है, तो रिकॉर्ड वाली फ़ाइल को अपडेट किए गए मानों के साथ फिर से लिखा जाता है। MoR डेटासेट के साथ, हर बार जब कोई अपडेट होता है, तो हुडी बदले हुए रिकॉर्ड के लिए केवल पंक्ति लिखता है। एमओआर कम पढ़ने वाले लेखन-या परिवर्तन-भारी कार्यभार के लिए बेहतर अनुकूल है। CoW डेटा पर रीड-हेवी वर्कलोड के लिए बेहतर अनुकूल है जो कम बार बदलता है।

हुडी डेटा तक पहुँचने के लिए तीन क्वेरी प्रकार प्रदान करता है:

स्नैपशॉट प्रश्न - क्वेरीज़ जो किसी दिए गए कमिट या कॉम्पैक्शन एक्शन के रूप में तालिका का नवीनतम स्नैपशॉट देखती हैं। एमओआर तालिकाओं के लिए, स्नैपशॉट क्वेरीज़ क्वेरी के समय नवीनतम फ़ाइल स्लाइस की आधार और डेल्टा फ़ाइलों को मर्ज करके तालिका की नवीनतम स्थिति को उजागर करती हैं।
वृद्धिशील प्रश्न - क्वेरीज़ केवल किसी दिए गए कमिट या कॉम्पैक्शन के बाद से तालिका में लिखा गया नया डेटा देखती हैं। यह वृद्धिशील डेटा पाइपलाइनों को सक्षम करने के लिए प्रभावी रूप से परिवर्तन स्ट्रीम प्रदान करता है।
अनुकूलित क्वेरीज़ पढ़ें - एमओआर तालिकाओं के लिए, क्वेरीज़ नवीनतम डेटा को संकलित देखती हैं। CoW तालिकाओं के लिए, क्वेरीज़ प्रतिबद्ध नवीनतम डेटा देखती हैं।

कॉपी-ऑन-राइट टेबल के लिए, क्रॉलर रीडऑप्टिमाइज़्ड सर्ड के साथ AWS ग्लू डेटा कैटलॉग में एक एकल टेबल बनाते हैं org.apache.hudi.hadoop.HoodieParquetInputFormat.

मर्ज-ऑन-रीड टेबल के लिए, क्रॉलर एक ही टेबल स्थान के लिए AWS ग्लू डेटा कैटलॉग में दो टेबल बनाते हैं:

प्रत्यय के साथ एक तालिका _ro, जो रीडऑप्टिमाइज्ड सर्ड का उपयोग करता है org.apache.hudi.hadoop.HoodieParquetInputFormat
प्रत्यय के साथ एक तालिका _rt, जो स्नैपशॉट क्वेरी के लिए रीयलटाइम सर्डे का उपयोग करता है: org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat

प्रत्येक क्रॉल के दौरान, प्रदान किए गए प्रत्येक हुडी पथ के लिए, क्रॉलर अमेज़ॅन एस3 सूची एपीआई कॉल करते हैं, जिसके आधार पर फ़िल्टर किया जाता है .hoodie फ़ोल्डर, और उस Hudi तालिका मेटाडेटा फ़ोल्डर के अंतर्गत नवीनतम मेटाडेटा फ़ाइल ढूंढें।

AWS ग्लू क्रॉलर का उपयोग करके Hudi CoW तालिका को क्रॉल करें

इस अनुभाग में, आइए जानें कि AWS ग्लू क्रॉलर का उपयोग करके हुडी गाय को कैसे क्रॉल किया जाए।

.. पूर्वापेक्षाएँ

यहां इस ट्यूटोरियल के लिए आवश्यक शर्तें दी गई हैं:

स्थापित करें और कॉन्फ़िगर करें AWS कमांड लाइन इंटरफ़ेस (AWS CLI).
यदि आपके पास S3 बकेट नहीं है तो उसे बनाएँ।
AWS ग्लू के लिए अपनी IAM भूमिका बनाएँ यदि आपके पास यह नहीं है. आप की जरूरत है s3:GetObject एसटी s3://your_s3_bucket/data/sample_hudi_cow_table/.
नमूना हुडी तालिका को अपने S3 बकेट में कॉपी करने के लिए निम्नलिखित कमांड चलाएँ। (प्रतिस्थापित करें your_s3_bucket आपके S3 बकेट नाम के साथ।)

$ aws s3 sync s3://aws-bigdata-blog/artifacts/hudi-crawler/product_cow/ s3://your_s3_bucket/data/sample_hudi_cow_table/

यह निर्देश आपको नमूना डेटा कॉपी करने के लिए मार्गदर्शन करता है, लेकिन आप AWS ग्लू का उपयोग करके आसानी से कोई भी हुडी टेबल बना सकते हैं। में और जानें पेश है Apache Hudi, Delta Lake, और Apache Iceberg के लिए Apache Spark के लिए AWS Glue पर मूल समर्थन, भाग 2: AWS Glue Studio Visual Editor.

एक हुडी क्रॉलर बनाएं

इस निर्देश में, कंसोल के माध्यम से क्रॉलर बनाएं। हुडी क्रॉलर बनाने के लिए निम्नलिखित चरणों को पूरा करें:

एडब्ल्यूएस गोंद कंसोल पर, चुनें क्रौलर.
चुनें क्रॉलर बनाएं.
के लिए नाम, दर्ज hudi_cow_crawler। चुनना अगला.
के अंतर्गत डेटा स्रोत कॉन्फ़िगरेशन, चुनना डेटा स्रोत जोड़ें.
1. के लिए डेटा स्रोत, चुनें Hudl.
2. के लिए हुडी टेबल पथ शामिल करें, दर्ज s3://your_s3_bucket/data/sample_hudi_cow_table/. (बदलना your_s3_bucket आपके S3 बकेट नाम के साथ।)
3. चुनें हुडी डेटा स्रोत जोड़ें.
चुनें अगला.
के लिए मौजूदा आईएएम भूमिका, अपनी IAM भूमिका चुनें, फिर चुनें अगला.
के लिए लक्ष्य डेटाबेस, चुनें डेटाबेस जोड़ें, फिर डेटाबेस जोड़ें संवाद प्रकट होता है। के लिए डेटाबेस नाम, दर्ज hudi_crawler_blog, उसके बाद चुनो बनाएं। चुनना अगला.
चुनें क्रॉलर बनाएं.

अब एक नया हुडी क्रॉलर सफलतापूर्वक बनाया गया है। क्रॉलर को कंसोल के माध्यम से या एसडीके या एडब्ल्यूएस सीएलआई के माध्यम से चलाने के लिए ट्रिगर किया जा सकता है StartCrawl एपीआई। क्रॉलर्स को विशिष्ट समय पर ट्रिगर करने के लिए इसे कंसोल के माध्यम से भी शेड्यूल किया जा सकता है। इस निर्देश में, क्रॉलर को कंसोल के ज़रिए चलाएं.

चुनें क्रॉलर चलाएं.
क्रॉलर के पूरा होने की प्रतीक्षा करें।

क्रॉलर चलने के बाद, आप AWS ग्लू कंसोल में हुडी तालिका परिभाषा देख सकते हैं:

आपने Amazon S3 पर डेटा के साथ Hudi CoR टेबल को सफलतापूर्वक क्रॉल किया है और स्कीमा पॉपुलेटेड के साथ AWS ग्लू डेटा कैटलॉग टेबल बनाई है। आपके द्वारा AWS ग्लू डेटा कैटलॉग पर तालिका परिभाषा बनाने के बाद, Amazon Athena जैसी AWS एनालिटिक्स सेवाएँ Hudi तालिका को क्वेरी करने में सक्षम हैं।

एथेना पर प्रश्न पूछने के लिए निम्नलिखित चरणों को पूरा करें:

अमेज़न एथेना कंसोल खोलें।
निम्न क्वेरी चलाएँ।

SELECT * FROM "hudi_crawler_blog"."sample_hudi_cow_table" limit 10;

निम्न स्क्रीनशॉट हमारे आउटपुट को दिखाता है:

AWS लेक फॉर्मेशन डेटा अनुमतियों के साथ AWS ग्लू क्रॉलर का उपयोग करके हुडी MoR तालिका को क्रॉल करें

इस अनुभाग में, आइए देखें कि AWS ग्लू का उपयोग करके हुडी MoR तालिका को कैसे क्रॉल किया जाए। इस बार, आप IAM और Amazon S3 अनुमति के बजाय Amazon S3 डेटा स्रोतों को क्रॉल करने के लिए AWS लेक फॉर्मेशन डेटा अनुमति का उपयोग करते हैं। यह वैकल्पिक है, लेकिन जब आपका डेटा लेक AWS लेक फॉर्मेशन अनुमतियों द्वारा प्रबंधित किया जाता है तो यह अनुमति कॉन्फ़िगरेशन को सरल बनाता है।

.. पूर्वापेक्षाएँ

यहां इस ट्यूटोरियल के लिए आवश्यक शर्तें दी गई हैं:

स्थापित करें और कॉन्फ़िगर करें AWS कमांड लाइन इंटरफ़ेस (AWS CLI).
यदि आपके पास S3 बकेट नहीं है तो उसे बनाएँ।
AWS ग्लू के लिए अपनी IAM भूमिका बनाएँ यदि आपके पास यह नहीं है. आप की जरूरत है lakeformation:GetDataAccess. लेकिन आपको जरूरत नहीं है s3:GetObject एसटी s3://your_s3_bucket/data/sample_hudi_mor_table/ क्योंकि हम फ़ाइलों तक पहुँचने के लिए लेक फॉर्मेशन डेटा अनुमति का उपयोग करते हैं।
नमूना हुडी तालिका को अपने S3 बकेट में कॉपी करने के लिए निम्नलिखित कमांड चलाएँ। (प्रतिस्थापित करें your_s3_bucket आपके S3 बकेट नाम के साथ।)

$ aws s3 sync s3://aws-bigdata-blog/artifacts/hudi-crawler/product_mor/ s3://your_s3_bucket/data/sample_hudi_mor_table/

प्रसंस्करण चरणों के अलावा, IAM-आधारित पहुंच नियंत्रण के बजाय कैटलॉग संसाधनों को नियंत्रित करने के लिए लेक फॉर्मेशन अनुमतियों का उपयोग करने के लिए AWS ग्लू डेटा कैटलॉग सेटिंग्स को अपडेट करने के लिए निम्नलिखित चरणों को पूरा करें:

डेटा लेक प्रशासक के रूप में लेक फॉर्मेशन कंसोल में साइन इन करें।
1. यदि आप पहली बार लेक फॉर्मेशन कंसोल तक पहुंच रहे हैं, स्वयं को डेटा लेक प्रशासक के रूप में जोड़ें।
के अंतर्गत प्रशासन, चुनें डेटा कैटलॉग सेटिंग्स.
के लिए नव निर्मित डेटाबेस और तालिकाओं के लिए डिफ़ॉल्ट अनुमतियाँ, चयन रद्द करें नए डेटाबेस के लिए केवल IAM अभिगम नियंत्रण का उपयोग करें और नए डेटाबेस में नई तालिकाओं के लिए केवल IAM अभिगम नियंत्रण का उपयोग करें.
के लिए क्रॉस खाता संस्करण सेटिंग, चुनें संस्करण 3.
चुनें सहेजें.

अगला कदम अपने S3 बकेट को लेक फॉर्मेशन डेटा लेक स्थानों में पंजीकृत करना है:

लेक फॉर्मेशन कंसोल पर, चुनें डेटा लेक लोकेशन, और चुनें स्थान रजिस्टर करें.
के लिए अमेज़न S3 पथ, दर्ज s3://your_s3_bucket/. (प्रतिस्थापित करें your_s3_bucket आपके S3 बकेट नाम के साथ।)
चुनें स्थान रजिस्टर करें.

फिर, ग्लू क्रॉलर भूमिका को डेटा स्थान तक पहुंच प्रदान करें ताकि क्रॉलर डेटा तक पहुंचने और स्थान में तालिकाएं बनाने के लिए लेक फॉर्मेशन अनुमति का उपयोग कर सके:

लेक फॉर्मेशन कंसोल पर, चुनें डेटा स्थान और चुनें अनुदान.
के लिए IAM उपयोगकर्ता और भूमिकाएँ, उस IAM भूमिका का चयन करें जिसका उपयोग आपने क्रॉलर के लिए किया था।
के लिए भंडारण स्थान, दर्ज s3://your_s3_bucket/data/. (प्रतिस्थापित करें your_s3_bucket आपके S3 बकेट नाम के साथ।)
चुनें अनुदान.

फिर, डेटाबेस के अंतर्गत तालिकाएँ बनाने के लिए क्रॉलर भूमिका प्रदान करें hudi_crawler_blog:

लेक फॉर्मेशन कंसोल पर, चुनें डेटा लेक अनुमतियाँ.
चुनें अनुदान.
के लिए प्रधानाध्यापकों, चुनें IAM उपयोगकर्ता और भूमिकाएँ, और क्रॉलर भूमिका चुनें।
के लिए एलएफ टैग या कैटलॉग संसाधन, चुनें नामित डेटा कैटलॉग संसाधन.
के लिए डाटाबेस, डेटाबेस चुनें hudi_crawler_blog.
के अंतर्गत डेटाबेस अनुमतियाँ, चुनते हैं तालिका बनाएं.
चुनें अनुदान.

लेक फॉर्मेशन डेटा अनुमतियों के साथ एक हुडी क्रॉलर बनाएं

हुडी क्रॉलर बनाने के लिए निम्नलिखित चरणों को पूरा करें:

एडब्ल्यूएस गोंद कंसोल पर, चुनें क्रौलर.
चुनें क्रॉलर बनाएं.
के लिए नाम, दर्ज hudi_mor_crawler। चुनना अगला.
के अंतर्गत डेटा स्रोत कॉन्फ़िगरेशन, चुनना डेटा स्रोत जोड़ें.
1. के लिए डेटा स्रोत, चुनें Hudl.
2. के लिए हुडी टेबल पथ शामिल करें, दर्ज s3://your_s3_bucket/data/sample_hudi_mor_table/. (प्रतिस्थापित करें your_s3_bucket आपके S3 बकेट नाम के साथ।)
3. चुनें हुडी डेटा स्रोत जोड़ें.
चुनें अगला.
के लिए मौजूदा आईएएम भूमिका, अपनी IAM भूमिका चुनें।
के अंतर्गत झील निर्माण विन्यास - वैकल्पिक, चुनते हैं S3 डेटा स्रोत को क्रॉल करने के लिए लेक फॉर्मेशन क्रेडेंशियल्स का उपयोग करें.
चुनें अगला.
के लिए लक्ष्य डेटाबेस, चुनें hudi_crawler_blog। चुनना अगला.
चुनें क्रॉलर बनाएं.

अब एक नया हुडी क्रॉलर सफलतापूर्वक बनाया गया है। क्रॉलर Amazon S3 फ़ाइलों को क्रॉल करने के लिए लेक फॉर्मेशन क्रेडेंशियल्स का उपयोग करता है। आइए नया क्रॉलर चलाएँ:

चुनें क्रॉलर चलाएं.
क्रॉलर के पूरा होने की प्रतीक्षा करें।

क्रॉलर चलने के बाद, आप AWS ग्लू कंसोल में हुडी तालिका परिभाषा की दो तालिकाएँ देख सकते हैं:

sample_hudi_mor_table_ro (अनुकूलित तालिका पढ़ें)
sample_hudi_mor_table_rt (वास्तविक समय सारणी)

आपने डेटा लेक बकेट को लेक फ़ॉर्मेशन के साथ पंजीकृत किया और लेक फ़ॉर्मेशन अनुमतियों का उपयोग करके डेटा लेक तक क्रॉलिंग एक्सेस सक्षम किया। आपने Amazon S3 पर डेटा के साथ Hudi MoR तालिका को सफलतापूर्वक क्रॉल किया है और स्कीमा पॉपुलेटेड के साथ AWS ग्लू डेटा कैटलॉग तालिका बनाई है। आपके द्वारा AWS ग्लू डेटा कैटलॉग पर तालिका परिभाषाएँ बनाने के बाद, AWS एनालिटिक्स सेवाएँ जैसे Amazon Athena, Hudi तालिका को क्वेरी करने में सक्षम हैं।

एथेना पर प्रश्न पूछने के लिए निम्नलिखित चरणों को पूरा करें:

अमेज़न एथेना कंसोल खोलें।

निम्न क्वेरी चलाएँ।

SELECT * FROM "hudi_crawler_blog"."sample_hudi_mor_table_rt" limit 10;

निम्न स्क्रीनशॉट हमारे आउटपुट को दिखाता है:

निम्न क्वेरी चलाएँ।

SELECT * FROM "hudi_crawler_blog"."sample_hudi_mor_table_ro" limit 10;

निम्न स्क्रीनशॉट हमारे आउटपुट को दिखाता है:

AWS लेक फॉर्मेशन अनुमतियों का उपयोग करके सूक्ष्म अभिगम नियंत्रण

हुडी टेबल पर बारीक पहुंच नियंत्रण लागू करने के लिए, आप AWS लेक फॉर्मेशन अनुमतियों से लाभ उठा सकते हैं। लेक फॉर्मेशन अनुमतियाँ आपको विशिष्ट तालिकाओं, स्तंभों या पंक्तियों तक पहुंच को प्रतिबंधित करने की अनुमति देती हैं और फिर बढ़िया पहुंच नियंत्रण के साथ अमेज़ॅन एथेना के माध्यम से हुडी तालिकाओं को क्वेरी करती हैं। आइए हुडी एमओआर तालिका के लिए झील निर्माण अनुमति को कॉन्फ़िगर करें।

.. पूर्वापेक्षाएँ

यहां इस ट्यूटोरियल के लिए आवश्यक शर्तें दी गई हैं:

पिछला भाग पूरा करें AWS लेक फॉर्मेशन डेटा अनुमतियों के साथ AWS ग्लू क्रॉलर का उपयोग करके हुडी MoR तालिका को क्रॉल करें.
एक IAM उपयोगकर्ता डेटा विश्लेषक बनाएं, जिसके पास AWS प्रबंधित नीति हो अमेज़ॅनएथेनाफुलएक्सेस.

लेक फॉर्मेशन डेटा सेल फ़िल्टर बनाएं

आइए सबसे पहले MoR रीड अनुकूलित तालिका के लिए एक फ़िल्टर सेट करें।

डेटा लेक प्रशासक के रूप में लेक फॉर्मेशन कंसोल में साइन इन करें।
चुनें डेटा फ़िल्टर.
चुनें नया फ़िल्टर बनाएं.
के लिए डेटा फ़िल्टर नाम, दर्ज exclude_product_price.
के लिए लक्ष्य डेटाबेस, डेटाबेस चुनें hudi_crawler_blog.
के लिए लक्ष्य तालिका, टेबल चुनें sample_hudi_mor_table_ro.
के लिए कॉलम स्तरीय पहुँच, चयन करें कॉलम बहिष्कृत करें, और कॉलम मूल्य चुनें।
के लिए पंक्ति फ़िल्टर अभिव्यक्ति, दर्ज true.
चुनें फ़िल्टर बनाएं.

डेटाएनालिस्ट उपयोगकर्ता को लेक फ़ॉर्मेशन अनुमतियाँ प्रदान करें

झील निर्माण की अनुमति देने के लिए निम्नलिखित चरणों को पूरा करें DataAnalyst उपयोगकर्ता

लेक फॉर्मेशन कंसोल पर, चुनें डेटा लेक अनुमतियाँ.
चुनें अनुदान.
के लिए प्रधानाध्यापकों, चुनें IAM उपयोगकर्ता और भूमिकाएँ, और उपयोगकर्ता चुनें DataAnalyst.
के लिए एलएफ टैग या कैटलॉग संसाधन, चुनें नामित डेटा कैटलॉग संसाधन.
के लिए डाटाबेस, डेटाबेस चुनें hudi_crawler_blog.
के लिए तालिका - वैकल्पिक, टेबल चुनें sample_hudi_mor_table_ro.
के लिए डेटा फ़िल्टर - वैकल्पिक, चुनते हैं exclude_product_price.
के लिए डेटा फ़िल्टर अनुमतियाँ, चुनते हैं चुनते हैं.
चुनें अनुदान.

आपने डेटाबेस पर झील निर्माण की अनुमति प्रदान की है hudi_crawler_blog और मेज sample_hudi_mor_table_ro,कॉलम को छोड़कर price डेटा विश्लेषक उपयोगकर्ता के लिए. आइए अब एथेना का उपयोग करके डेटा तक उपयोगकर्ता की पहुंच को सत्यापित करें।

एथेना कंसोल में डेटाएनालिस्ट उपयोगकर्ता के रूप में साइन इन करें।
क्वेरी संपादक पर, निम्न क्वेरी चलाएँ:
```
SELECT * FROM "hudi_crawler_blog"."sample_hudi_mor_table_ro" limit 10;
```

निम्न स्क्रीनशॉट हमारे आउटपुट को दिखाता है:

अब आपने उस कॉलम को मान्य कर दिया है price नहीं दिखाया गया है, लेकिन अन्य कॉलम product_id, product_name, update_at, तथा category दिखाए गए हैं।

क्लीन अप

अपने AWS खाते पर अवांछित शुल्कों से बचने के लिए, निम्नलिखित AWS संसाधनों को हटा दें:

AWS ग्लू डेटाबेस हटाएँ hudi_crawler_blog.
AWS ग्लू क्रॉलर हटाएँ hudi_cow_crawler और hudi_mor_crawler.
नीचे Amazon S3 फ़ाइलें हटाएँ s3://your_s3_bucket/data/sample_hudi_cow_table/ और s3://your_s3_bucket/data/sample_hudi_mor_table/.

निष्कर्ष

इस पोस्ट में दिखाया गया है कि AWS ग्लू क्रॉलर हुडी टेबल के लिए कैसे काम करते हैं। हुडी क्रॉलर के समर्थन के साथ, आप जल्दी से अपने प्राथमिक हुडी टेबल कैटलॉग के रूप में एडब्ल्यूएस ग्लू डेटा कैटलॉग का उपयोग करने के लिए आगे बढ़ सकते हैं। आप AWS विश्लेषणात्मक इंजनों द्वारा समर्थित तालिकाओं और प्रारूपों के लिए AWS ग्लू, AWS ग्लू डेटा कैटलॉग और लेक फॉर्मेशन फाइन-ग्रेन्ड एक्सेस कंट्रोल का उपयोग करके AWS पर Hudi का उपयोग करके अपने सर्वर रहित ट्रांजेक्शनल डेटा लेक का निर्माण शुरू कर सकते हैं।

लेखक के बारे में

नोरिताका सेकियामा AWS Glue टीम में प्रिंसिपल बिग डेटा आर्किटेक्ट हैं। वह टोक्यो, जापान में स्थित काम करता है। वह ग्राहकों की मदद करने के लिए सॉफ्टवेयर कलाकृतियों के निर्माण के लिए जिम्मेदार है। अपने खाली समय में, वह अपनी सड़क बाइक से साइकिल चलाना पसंद करते हैं।

काइल डुओंग AWS ग्लू और लेक फॉर्मेशन टीम में एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है। उन्हें बड़ी डेटा प्रौद्योगिकियों और वितरित प्रणालियों के निर्माण का शौक है।

संदीप अडवांकर AWS में वरिष्ठ तकनीकी उत्पाद प्रबंधक हैं। कैलिफ़ोर्निया बे एरिया में स्थित, वह दुनिया भर के ग्राहकों के साथ व्यापार और तकनीकी आवश्यकताओं को उत्पादों में अनुवाद करने के लिए काम करता है जो ग्राहकों को यह सुधारने में सक्षम बनाता है कि वे डेटा को कैसे प्रबंधित, सुरक्षित और एक्सेस करते हैं।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/big-data/introducing-apache-hudi-support-with-aws-glue-crawlers/

समय टिकट: नवम्बर 22/2023

समय टिकट: अगस्त 28, 2023

AWS ग्लू क्रॉलर के साथ अपाचे हुडी समर्थन का परिचय | अमेज़न वेब सेवाएँ

प्लेटो द्वारा पुनर्प्रकाशित

AWS ग्लू क्रॉलर हुडी टेबल के साथ कैसे काम करता है

AWS ग्लू क्रॉलर का उपयोग करके Hudi CoW तालिका को क्रॉल करें

.. पूर्वापेक्षाएँ

एक हुडी क्रॉलर बनाएं

AWS लेक फॉर्मेशन डेटा अनुमतियों के साथ AWS ग्लू क्रॉलर का उपयोग करके हुडी MoR तालिका को क्रॉल करें

.. पूर्वापेक्षाएँ

लेक फॉर्मेशन डेटा अनुमतियों के साथ एक हुडी क्रॉलर बनाएं

AWS लेक फॉर्मेशन अनुमतियों का उपयोग करके सूक्ष्म अभिगम नियंत्रण

.. पूर्वापेक्षाएँ

लेक फॉर्मेशन डेटा सेल फ़िल्टर बनाएं

डेटाएनालिस्ट उपयोगकर्ता को लेक फ़ॉर्मेशन अनुमतियाँ प्रदान करें

क्लीन अप

निष्कर्ष

लेखक के बारे में

से अधिक एडब्ल्यूएस बिग डेटा

Amazon Kinesis Data Firehose | के माध्यम से डेटाडॉग में वीपीसी प्रवाह लॉग स्ट्रीम करें अमेज़न वेब सेवाएँ

Defontana Amazon QuickSight | का उपयोग करके लैटिन अमेरिकी ग्राहकों को व्यवसाय प्रशासन समाधान प्रदान करता है अमेज़न वेब सेवाएँ

अपाचे स्पार्क के लिए अमेज़ॅन रेडशिफ्ट एकीकरण के साथ कैपिटेक में डेटा प्रोसेसिंग को सरल बनाना | अमेज़न वेब सेवाएँ

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा