শব্দার্থিক লেকহাউস ব্যাখ্যা করা হয়েছে

শব্দার্থিক লেকহাউস ব্যাখ্যা করা হয়েছে

উত্স নোড: 1995005

ডাটা লেক এবং শব্দার্থিক স্তর দীর্ঘকাল ধরে রয়েছে - প্রত্যেকে তাদের নিজস্ব দেয়াল ঘেরা বাগানে বসবাস করে, মোটামুটি সংকীর্ণ ব্যবহারের ক্ষেত্রে শক্তভাবে সংযুক্ত। যেহেতু ডেটা এবং অ্যানালিটিক্স অবকাঠামো ক্লাউডে স্থানান্তরিত হয়, অনেকেই চ্যালেঞ্জ করছেন যে এই মৌলিক প্রযুক্তি উপাদানগুলি আধুনিক ডেটা এবং বিশ্লেষণ স্ট্যাকের সাথে কীভাবে ফিট করে। এই নিবন্ধে, আমরা কীভাবে একটি ডেটা লেকহাউস এবং একটি শব্দার্থিক স্তর একসাথে ডেটা লেক এবং বিশ্লেষণ পরিকাঠামোর মধ্যে ঐতিহ্যগত সম্পর্ককে উন্নীত করে তা নিয়ে আলোচনা করব। আমরা শিখব কিভাবে একটি শব্দার্থিক লেকহাউস নাটকীয়ভাবে সরলীকরণ করতে পারে ক্লাউড ডেটা আর্কিটেকচার, অপ্রয়োজনীয় ডেটা মুভমেন্ট বাদ দিন, এবং মান এবং ক্লাউড খরচে সময় কমিয়ে দিন।

ঐতিহ্যগত তথ্য এবং বিশ্লেষণ আর্কিটেকচার

2006 সালে, অ্যামাজন ক্লাউডে অন-প্রিমিস ডেটা সেন্টার অফলোড করার একটি নতুন উপায় হিসাবে অ্যামাজন ওয়েব সার্ভিসেস (AWS) চালু করেছিল। একটি মূল AWS পরিষেবা ছিল এটির ফাইল ডেটা স্টোর এবং এর সাথে, প্রথম ক্লাউড ডেটা লেক, Amazon S3, জন্মগ্রহণ করেছিল। অন্যান্য ক্লাউড বিক্রেতারা তারপরে ক্লাউড ডেটা লেকের অবকাঠামোর নিজস্ব সংস্করণ চালু করবে।

তার জীবনের বেশিরভাগ সময়, ক্লাউড ডেটা লেককে বোবা, সস্তার ভূমিকা পালন করতে নিযুক্ত করা হয়েছে তথ্য ভান্ডার - একটি উপস্থাপনকারী কাঁচা ডেটার জন্য এলাকা, যতক্ষণ না ডেটা কার্যকরী কিছুতে প্রক্রিয়া করা যায়। বিশ্লেষণের জন্য, ডেটা লেকটি ডেটার জন্য একটি হোল্ডিং পেন হিসাবে কাজ করে যতক্ষণ না এটি একটি অপ্টিমাইজড অ্যানালিটিক্স প্ল্যাটফর্মে অনুলিপি করা এবং লোড করা না হয়, সাধারণত একটি রিলেশনাল ক্লাউড ডেটা গুদাম যা হয় OLAP কিউব, মালিকানাধীন ব্যবসায়িক বুদ্ধিমত্তা (BI) টুল ডেটা এক্সট্র্যাক্ট যেমন ট্যাবলু হাইপার বা পাওয়ার BI প্রিমিয়াম, বা উপরের সমস্ত। এই প্রক্রিয়াকরণ প্যাটার্নের ফলস্বরূপ, ডেটা কমপক্ষে দুবার সংরক্ষণ করা প্রয়োজন, একবার তার কাঁচা আকারে এবং একবার তার "বিশ্লেষণ অপ্টিমাইজড" আকারে। 

আশ্চর্যের বিষয় নয়, বেশিরভাগ ঐতিহ্যবাহী ক্লাউড অ্যানালিটিক্স আর্কিটেকচারগুলি নীচের চিত্রের মতো দেখায়:

চিত্র 1: ঐতিহ্যগত ডেটা এবং বিশ্লেষণ স্ট্যাক

আপনি দেখতে পাচ্ছেন, "বিশ্লেষণ গুদাম" বেশিরভাগ ফাংশনের জন্য দায়ী যা ভোক্তাদের কাছে বিশ্লেষণ সরবরাহ করে। এই স্থাপত্যের সমস্যাটি নিম্নরূপ:

  1. ডেটা দুইবার সংরক্ষণ করা হয়, যা খরচ বাড়ায় এবং অপারেশনাল জটিলতা তৈরি করে।
  2. বিশ্লেষণ গুদামে ডেটা হল একটি স্ন্যাপশট, যার মানে ডেটা তাত্ক্ষণিকভাবে বাসি।
  3. বিশ্লেষণ গুদামের ডেটা সাধারণত ডেটা লেকের ডেটার একটি উপসেট, যা গ্রাহকরা যে প্রশ্নগুলি জিজ্ঞাসা করতে পারে তা সীমিত করে।
  4. ক্লাউড ডেটা প্ল্যাটফর্ম থেকে বিশ্লেষণ গুদাম আলাদাভাবে এবং আলাদাভাবে স্কেল করে, অতিরিক্ত খরচ, নিরাপত্তা উদ্বেগ এবং অপারেশনাল জটিলতা প্রবর্তন করে।

এই ত্রুটিগুলির প্রেক্ষিতে, আপনি জিজ্ঞাসা করতে পারেন "কেন ক্লাউড ডেটা আর্কিটেক্টরা এই নকশার প্যাটার্নটি বেছে নেবেন?" উত্তরটি বিশ্লেষণ ভোক্তাদের চাহিদার মধ্যে রয়েছে। যদিও ডেটা লেক তাত্ত্বিকভাবে ভোক্তাদের কাছে সরাসরি বিশ্লেষণমূলক প্রশ্নগুলি পরিবেশন করতে পারে, বাস্তবে, ডেটা লেকটি খুব ধীর এবং জনপ্রিয় বিশ্লেষণ সরঞ্জামগুলির সাথে বেমানান৷ 

যদি শুধুমাত্র ডেটা লেক একটি বিশ্লেষণ গুদামের সুবিধা প্রদান করতে পারে এবং আমরা দুইবার ডেটা সংরক্ষণ করা এড়াতে পারি!

ডেটা লেকহাউসের জন্ম

"লেকহাউস" শব্দটি 2020 সালে সেমিনাল ডেটাব্রিক্সের সাদা কাগজের মাধ্যমে আত্মপ্রকাশ করেছিল "লেকহাউস কি?" বেন লরিকা, মাইকেল আরমব্রাস্ট, রেনল্ড জিন, মাতেই জাহারিয়া এবং আলী ঘোডসি দ্বারা। লেখকরা ধারণাটি প্রবর্তন করেছিলেন যে ডেটা লেকটি কেবল একটি স্ট্যাটিক ফাইল স্টোর নয়, বিশ্লেষণ সরবরাহের জন্য একটি ইঞ্জিন হিসাবে কাজ করতে পারে।

ডেটা লেকহাউস বিক্রেতারা উচ্চ গতির, স্কেলযোগ্য ক্যোয়ারী ইঞ্জিনগুলি প্রবর্তন করে তাদের দৃষ্টিতে বিতরণ করেছে যা ডেটা লেকের কাঁচা ডেটা ফাইলগুলিতে কাজ করে এবং একটি ANSI স্ট্যান্ডার্ড SQL ইন্টারফেস প্রকাশ করে। এই মূল উদ্ভাবনের সাথে, এই স্থাপত্যের প্রবক্তারা যুক্তি দেন যে ডেটা লেকগুলি একটি বিশ্লেষণ গুদামের মতো আচরণ করতে পারে, ডেটা সদৃশ করার প্রয়োজন ছাড়াই।

যাইহোক, এটি দেখা যাচ্ছে যে বিশ্লেষণ গুদাম অন্যান্য গুরুত্বপূর্ণ কার্য সম্পাদন করে যা শুধুমাত্র ডেটা লেকহাউস আর্কিটেকচার দ্বারা সন্তুষ্ট নয়, যার মধ্যে রয়েছে:

  1. "চিন্তার গতি" প্রশ্নগুলি (2 সেকেন্ডের মধ্যে প্রশ্ন) বিস্তৃত প্রশ্নের উপর ধারাবাহিকভাবে বিতরণ করা।
  2. একটি ব্যবসা-বান্ধব শব্দার্থিক স্তর উপস্থাপন করা যা ভোক্তাদের SQL লেখার প্রয়োজন ছাড়াই প্রশ্ন জিজ্ঞাসা করতে দেয়।
  3. ক্যোয়ারী সময়ে ডেটা গভর্নেন্স এবং সিকিউরিটি প্রয়োগ করা।

সুতরাং, একটি ডেটা লেকহাউসের জন্য সত্যিকারের বিশ্লেষণ গুদাম প্রতিস্থাপন করার জন্য, আমাদের অন্য কিছু প্রয়োজন।

শব্দার্থিক স্তরের ভূমিকা

আমি এর ভূমিকা সম্পর্কে অনেক লিখেছি শব্দার্থিক স্তর আধুনিক ডেটা স্ট্যাকের মধ্যে। সংক্ষেপে বলতে গেলে, একটি শব্দার্থিক স্তর হল ব্যবসায়িক ডেটার একটি যৌক্তিক দৃশ্য যা ডেটা ভার্চুয়ালাইজেশন প্রযুক্তি ব্যবহার করে ক্যোয়ারী সময়ে ব্যবসা-বান্ধব ডেটাতে শারীরিক ডেটা অনুবাদ করতে। 

একটি ডেটা লেকহাউসের উপরে একটি শব্দার্থিক স্তর প্ল্যাটফর্ম যোগ করার মাধ্যমে, আমরা বিশ্লেষণ গুদাম ফাংশন সম্পূর্ণরূপে বাদ দিতে পারি কারণ শব্দার্থিক স্তর প্ল্যাটফর্ম:

  1. ডেটা ভার্চুয়ালাইজেশন এবং স্বয়ংক্রিয় ক্যোয়ারী পারফরম্যান্স টিউনিং ব্যবহার করে ডেটা লেকহাউসে "চিন্তার প্রশ্নের গতি" সরবরাহ করে।
  2. একটি ব্যবসা-বান্ধব শব্দার্থিক স্তর সরবরাহ করে যা প্রতিটি BI টুলের মধ্যে এমবেড করা মালিকানাধীন শব্দার্থক দৃশ্যগুলিকে প্রতিস্থাপন করে এবং ব্যবসায়িক ব্যবহারকারীদের SQL কোয়েরি লেখার প্রয়োজন ছাড়াই প্রশ্ন জিজ্ঞাসা করার অনুমতি দেয়।
  3. ক্যোয়ারী সময়ে ডেটা শাসন এবং নিরাপত্তা প্রদান করে।

একটি শব্দার্থিক স্তর প্ল্যাটফর্ম অনুপস্থিত অংশগুলি সরবরাহ করে যা ডেটা লেকহাউস অনুপস্থিত। একটি ডেটা লেকহাউসের সাথে একটি শব্দার্থিক স্তর একত্রিত করে, সংস্থাগুলি করতে পারে:

  1. ডেটা কপি বাদ দিন এবং ডেটা পাইপলাইন সরল করুন।
  2. তথ্য শাসন এবং নিরাপত্তা একত্রীকরণ.
  3. ব্যবসার মেট্রিক্সের জন্য "সত্যের একক উৎস" প্রদান করুন।
  4. ডেটা লেকে ডেটা রেখে অপারেশনাল জটিলতা হ্রাস করুন।
  5. বিশ্লেষণ ভোক্তাদের আরো তথ্য এবং আরো সময়োপযোগী তথ্য অ্যাক্সেস প্রদান.
ছবি 2: একটি শব্দার্থিক স্তর সহ নতুন ডেটা লেকহাউস স্ট্যাক 

শব্দার্থিক লেকহাউস: সবাই জিতেছে

সবাই এই স্থাপত্য দিয়ে জয়ী হয়। ভোক্তারা বিলম্ব ছাড়াই আরও সূক্ষ্ম-দানাযুক্ত ডেটাতে অ্যাক্সেস পান। আইটি এবং ডেটা ইঞ্জিনিয়ারিং টিমের কাছে সরানো এবং রূপান্তর করার জন্য কম ডেটা থাকে। অর্থ ক্লাউড অবকাঠামো খরচ কম টাকা খরচ করে. 

আপনি দেখতে পাচ্ছেন, একটি ডেটা লেকহাউসের সাথে একটি শব্দার্থিক স্তরকে একত্রিত করার মাধ্যমে, সংস্থাগুলি তাদের ডেটা এবং বিশ্লেষণ ক্রিয়াকলাপকে সহজ করতে পারে এবং কম খরচে আরও বেশি ডেটা, দ্রুত, আরও গ্রাহকদের কাছে সরবরাহ করতে পারে।

সময় স্ট্যাম্প:

থেকে আরো ডেটাভার্সিটি