অ্যাপাচি গবলিনের মাধ্যমে ডেটা ম্যানেজমেন্ট স্কেলিং

অ্যাপাচি গবলিনের মাধ্যমে ডেটা ম্যানেজমেন্ট স্কেলিং

উত্স নোড: 1911501

আধুনিক বিশ্বে, বেশিরভাগ ব্যবসাগুলি তাদের বৃদ্ধি, কৌশলগত বিনিয়োগ এবং গ্রাহকদের সম্পৃক্ততা বাড়াতে বড় ডেটা এবং বিশ্লেষণের শক্তির উপর নির্ভর করে। বিগ ডেটা হল লক্ষ্যযুক্ত বিজ্ঞাপন, ব্যক্তিগতকৃত বিপণন, পণ্যের সুপারিশ, অন্তর্দৃষ্টি তৈরি, মূল্য অপ্টিমাইজেশান, অনুভূতি বিশ্লেষণ, ভবিষ্যদ্বাণীমূলক বিশ্লেষণ এবং আরও অনেক কিছুর অন্তর্নিহিত ধ্রুবক। 

ডেটা প্রায়শই একাধিক উত্স থেকে সংগ্রহ করা হয়, রূপান্তরিত, সংরক্ষণ করা হয় এবং ডেটা লেকে অন-প্রেম বা অন-ক্লাউডগুলিতে প্রক্রিয়া করা হয়। যদিও প্রাথমিকভাবে ডেটা গ্রহণ করা তুলনামূলকভাবে তুচ্ছ এবং কাস্টম স্ক্রিপ্ট তৈরি করা ইন-হাউস বা ঐতিহ্যবাহী ETL (এক্সট্র্যাক্ট ট্রান্সফর্ম লোড) টুলের মাধ্যমে অর্জন করা যেতে পারে, সমস্যাটি দ্রুত জটিল এবং ব্যয়বহুল হয়ে ওঠে যার সমাধান কোম্পানিগুলিকে করতে হয়:

  1. সম্পূর্ণ ডাটা লাইফসাইকেল ম্যানেজ করুন – হাউসকিপিং এবং কমপ্লায়েন্সের উদ্দেশ্যে 
  2. সঞ্চয়স্থান অপ্টিমাইজ করুন - সংশ্লিষ্ট খরচ কমাতে 
  3. কম্পিউটিং পরিকাঠামোর পুনঃব্যবহারের মাধ্যমে আর্কিটেকচারকে সরলীকরণ করুন 
  4. ক্রমবর্ধমানভাবে ডেটা প্রক্রিয়া করুন - শক্তিশালী রাষ্ট্র পরিচালনার মাধ্যমে 
  5. ব্যাচ এবং স্ট্রিম ডেটাতে একই নীতি প্রয়োগ করুন - প্রচেষ্টার অনুলিপি ছাড়াই
  6. অন-প্রেম এবং ক্লাউড-এর মধ্যে মাইগ্রেট করুন – সর্বনিম্ন প্রচেষ্টায়  

এটা যেখানে অ্যাপাচি গবলিন, একটি ওপেন-সোর্স ডেটা ম্যানেজমেন্ট, এবং ইন্টিগ্রেশন সিস্টেম আসে। Apache Gobblin অতুলনীয় ক্ষমতা প্রদান করে যা ব্যবসার প্রয়োজনের উপর নির্ভর করে সম্পূর্ণ বা অংশে ব্যবহার করা যেতে পারে। 

এই বিভাগে, আমরা Apache Gobblin-এর বিভিন্ন ক্ষমতার সন্ধান করব যা পূর্বে বর্ণিত চ্যালেঞ্জ মোকাবেলায় সহায়তা করে।

সম্পূর্ণ ডেটা লাইফসাইকেল পরিচালনা করা

Apache Gobblin ডেটাসেটগুলিতে ডেটা লাইফসাইকেল ক্রিয়াকলাপগুলির সম্পূর্ণ স্যুটকে সমর্থন করে এমন ডেটা পাইপলাইনগুলি তৈরি করতে সক্ষমতার একটি স্বরগ্রাম সরবরাহ করে। 

  1. ডেটাবেস, রেস্ট এপিআই, এফটিপি/এসএফটিপি সার্ভার, ফাইলার, সেলসফোর্স এবং ডায়নামিক্সের মতো সিআরএম এবং আরও অনেক কিছু থেকে বহু উৎস থেকে সিঙ্ক পর্যন্ত ডেটা ইনজেস্ট করুন। 
  2. ডাটা রেপ্লিকেট করুন - Discp-NG এর মাধ্যমে Hadoop ডিস্ট্রিবিউটেড ফাইল সিস্টেমের জন্য বিশেষ ক্ষমতা সহ একাধিক ডেটা লেকের মধ্যে। 
  3. ডেটা শুদ্ধ করুন - সময়-ভিত্তিক, নতুন কে, সংস্করণ বা নীতিগুলির সংমিশ্রণের মতো ধরে রাখার নীতিগুলি ব্যবহার করে৷ 

গবলিনের লজিক্যাল পাইপলাইনে একটি 'উৎস' রয়েছে যা কাজের বন্টন নির্ধারণ করে এবং 'ওয়ার্কুনিট' তৈরি করে। এই 'ওয়ার্কুনিট'গুলিকে তারপর 'টাস্ক' হিসাবে সম্পাদনের জন্য বাছাই করা হয়, যার মধ্যে রয়েছে নিষ্কাশন, রূপান্তর, গুণমান পরীক্ষা এবং গন্তব্যে ডেটা লেখা। চূড়ান্ত পদক্ষেপ, 'ডেটা প্রকাশ', পাইপলাইনের সফল সম্পাদনকে বৈধ করে এবং গন্তব্য এটিকে সমর্থন করলে আউটপুট ডেটাকে পারমাণবিকভাবে কমিট করে।
 

Apache Gobblin এর মাধ্যমে ডেটা ম্যানেজমেন্ট স্কেলিং
লেখকের ছবি

স্টোরেজ অনুকূলিতকরণ

Apache Gobblin কম্প্যাকশন বা ফরম্যাট রূপান্তরের মাধ্যমে ইনজেশন বা প্রতিলিপি করার পরে পোস্ট-প্রসেসিং ডেটার মাধ্যমে ডেটার জন্য প্রয়োজনীয় স্টোরেজের পরিমাণ কমাতে সাহায্য করতে পারে। 

  1. কমপ্যাকশন - রেকর্ডের সমস্ত ক্ষেত্র বা মূল ক্ষেত্রগুলির উপর ভিত্তি করে অনুলিপি করার জন্য পোস্ট-প্রসেসিং ডেটা, একই কী সহ সর্বশেষ টাইমস্ট্যাম্প সহ শুধুমাত্র একটি রেকর্ড রাখার জন্য ডেটা ছাঁটাই করা।
  2. অভ্র থেকে ORC – জনপ্রিয় সারি-ভিত্তিক অভ্র ফরম্যাটকে একটি হাইপার-অপ্টিমাইজড কলাম-ভিত্তিক ORC ফর্ম্যাটে রূপান্তর করার জন্য একটি বিশেষ ফর্ম্যাট রূপান্তর প্রক্রিয়া হিসাবে। 

 

Apache Gobblin এর মাধ্যমে ডেটা ম্যানেজমেন্ট স্কেলিং
লেখকের ছবি

স্থাপত্য সহজীকরণ 

কোম্পানির পর্যায়ে (স্টার্টআপ টু এন্টারপ্রাইজ), স্কেল প্রয়োজনীয়তা এবং তাদের নিজ নিজ আর্কিটেকচারের উপর নির্ভর করে, কোম্পানিগুলি তাদের ডেটা পরিকাঠামো সেট আপ বা বিকাশ করতে পছন্দ করে। Apache Gobblin খুবই নমনীয় এবং একাধিক এক্সিকিউশন মডেল সমর্থন করে।

  1. স্বতন্ত্র মোড - একটি খালি ধাতব বাক্সে একটি স্বতন্ত্র প্রক্রিয়া হিসাবে চালানোর জন্য, অর্থাৎ, সাধারণ ব্যবহারের ক্ষেত্রে এবং কম-চাহিদার পরিস্থিতিতে জন্য একক হোস্ট। 
  2. MapReduce মোড – পেটাবাইট স্কেলে ডেটাসেটগুলি পরিচালনা করার জন্য বড় ডেটা কেসগুলির জন্য Hadoop পরিকাঠামোতে একটি MapReduce কাজ হিসাবে চালানোর জন্য৷ 
  3. ক্লাস্টার মোড: স্ট্যান্ডঅ্যালোন – Hadoop MR ফ্রেমওয়ার্ক থেকে স্বাধীনভাবে বৃহৎ পরিসরে হ্যান্ডেল করার জন্য বেয়ার মেটাল মেশিন বা হোস্টের সেটে Apache Helix এবং Apache Zookeeper দ্বারা সমর্থিত একটি ক্লাস্টার হিসাবে চালানোর জন্য।
  4. ক্লাস্টার মোড: সুতা – Hadoop MR ফ্রেমওয়ার্ক ছাড়াই নেটিভ ইয়ার্নে একটি ক্লাস্টার হিসাবে চালানোর জন্য। 
  5. ক্লাস্টার মোড: AWS – অ্যামাজনের পাবলিক ক্লাউড অফারে একটি ক্লাস্টার হিসাবে চালানোর জন্য, যেমন। AWS-এ হোস্ট করা অবকাঠামোর জন্য AWS। 

 

Apache Gobblin এর মাধ্যমে ডেটা ম্যানেজমেন্ট স্কেলিং
লেখকের ছবি

ক্রমবর্ধমান ডেটা প্রক্রিয়া করুন 

একাধিক ডেটা পাইপলাইন এবং উচ্চ ভলিউম সহ একটি উল্লেখযোগ্য স্কেলে, ডেটা ব্যাচে এবং সময়ের সাথে প্রক্রিয়া করা দরকার। অতএব, এটির জন্য চেকপয়েন্টিং করা প্রয়োজন যাতে ডেটা পাইপলাইনগুলি শেষবার যেখান থেকে ছেড়ে গিয়েছিল সেখান থেকে পুনরায় শুরু করতে পারে এবং এর পরে চালিয়ে যেতে পারে। Apache Gobblin কম এবং উচ্চ ওয়াটারমার্ক সমর্থন করে এবং HDFS, AWS S3, MySQL এবং আরও স্বচ্ছভাবে স্টেট স্টোরের মাধ্যমে শক্তিশালী স্টেট ম্যানেজমেন্ট শব্দার্থকে সমর্থন করে। 

 

Apache Gobblin এর মাধ্যমে ডেটা ম্যানেজমেন্ট স্কেলিং
লেখকের ছবি

ব্যাচ এবং স্ট্রিম ডেটাতে একই নীতি

বেশিরভাগ ডেটা পাইপলাইনগুলিকে আজ দুবার লিখতে হবে, একবার ব্যাচ ডেটার জন্য এবং আবার কাছাকাছি-লাইন বা স্ট্রিমিং ডেটার জন্য। এটি প্রচেষ্টাকে দ্বিগুণ করে এবং বিভিন্ন ধরনের পাইপলাইনে প্রয়োগ করা নীতি এবং অ্যালগরিদমের অসঙ্গতি প্রবর্তন করে। Apache Gobblin ব্যবহারকারীদের একবার একটি পাইপলাইন লিখতে এবং Gobblin ক্লাস্টার মোডে, AWS মোডে Gobblin, অথবা Yarn মোডে গবলিন ব্যবহার করা হলে উভয় ব্যাচ এবং স্ট্রিম ডেটাতে চালানোর অনুমতি দিয়ে এর সমাধান করে।  

অন-প্রেম এবং ক্লাউডের মধ্যে স্থানান্তর করুন 

এর বহুমুখী মোডগুলির কারণে যা একটি একক বাক্সে অন-প্রিম চালাতে পারে, নোডের একটি ক্লাস্টার, বা ক্লাউড - অ্যাপাচি গবলিনকে স্থাপন করা যেতে পারে এবং অন-প্রিম এবং ক্লাউডে ব্যবহার করা যেতে পারে। অতএব, ব্যবহারকারীদের তাদের ডেটা পাইপলাইন একবার লিখতে এবং নির্দিষ্ট প্রয়োজনের ভিত্তিতে অন-প্রেম এবং ক্লাউডের মধ্যে সহজেই গবলিন স্থাপনার সাথে স্থানান্তরিত করার অনুমতি দেয়। 

এটির অত্যন্ত নমনীয় স্থাপত্য, শক্তিশালী বৈশিষ্ট্য এবং ডেটা ভলিউমের চরম মাত্রার কারণে যা এটি সমর্থন এবং প্রক্রিয়া করতে পারে, অ্যাপাচি গবলিন এর উত্পাদন পরিকাঠামোতে ব্যবহৃত হয় প্রধান প্রযুক্তি কোম্পানি এবং আজ যেকোন বড় ডেটা পরিকাঠামো স্থাপনের জন্য এটি একটি আবশ্যক।

Apache Gobblin এবং এটি কীভাবে ব্যবহার করবেন সে সম্পর্কে আরও বিশদ এখানে পাওয়া যাবে https://gobblin.apache.org
 
 
অভিষেক তিওয়ারি লিংকডইনের একজন সিনিয়র ম্যানেজার, কোম্পানির বিগ ডেটা পাইপলাইন সংস্থার নেতৃত্ব দিচ্ছেন। এছাড়াও তিনি অ্যাপাচি সফটওয়্যার ফাউন্ডেশনে অ্যাপাচি গবলিনের ভাইস প্রেসিডেন্ট এবং ব্রিটিশ কম্পিউটার সোসাইটির একজন ফেলো।
 

সময় স্ট্যাম্প:

থেকে আরো কেডনুগেটস