سیمنٹک لیک ہاؤس کی وضاحت کی گئی۔

سیمنٹک لیک ہاؤس کی وضاحت کی گئی۔

ماخذ نوڈ: 1995005

ڈیٹا لیکس اور معنوی تہوں ایک طویل عرصے سے آس پاس ہیں - ہر ایک اپنے اپنے دیواروں والے باغات میں رہتا ہے، کافی تنگ استعمال کے معاملات میں مضبوطی سے جوڑا جاتا ہے۔ جیسا کہ ڈیٹا اور اینالیٹکس انفراسٹرکچر کلاؤڈ میں منتقل ہوتا ہے، بہت سے لوگ چیلنج کر رہے ہیں کہ یہ بنیادی ٹیکنالوجی کے اجزاء جدید ڈیٹا اور اینالیٹکس اسٹیک میں کیسے فٹ ہوتے ہیں۔ اس آرٹیکل میں، ہم اس بات پر غور کریں گے کہ ڈیٹا لیک ہاؤس اور ایک سیمنٹک پرت مل کر ڈیٹا لیکس اور اینالیٹکس انفراسٹرکچر کے درمیان روایتی تعلق کو کیسے بڑھاتے ہیں۔ ہم سیکھیں گے کہ کس طرح ایک سیمنٹک لیک ہاؤس ڈرامائی طور پر آسان بنا سکتا ہے۔ کلاؤڈ ڈیٹا آرکیٹیکچرز، ڈیٹا کی غیر ضروری نقل و حرکت کو ختم کریں، اور قیمت اور کلاؤڈ اخراجات میں وقت کو کم کریں۔

روایتی ڈیٹا اور تجزیات کا فن تعمیر

2006 میں، ایمیزون نے ایمیزون ویب سروسز (AWS) کو آن پریمیس ڈیٹا سینٹر کو کلاؤڈ پر آف لوڈ کرنے کے ایک نئے طریقے کے طور پر متعارف کرایا۔ ایک بنیادی AWS سروس اس کا فائل ڈیٹا اسٹور تھا اور اس کے ساتھ ہی، پہلی کلاؤڈ ڈیٹا لیک، Amazon S3، پیدا ہوئی۔ دوسرے کلاؤڈ وینڈر اس کے بعد کلاؤڈ ڈیٹا لیک انفراسٹرکچر کے اپنے ورژن متعارف کرائیں گے۔

اپنی زندگی کے بیشتر حصے میں، کلاؤڈ ڈیٹا لیک کو گونگے، سستے کا کردار ادا کرنے پر مجبور کیا گیا ہے۔ ڈیٹا اسٹوریج ایک کھینچنا خام ڈیٹا کے لیے علاقہ، جب تک کہ ڈیٹا کو کسی کارآمد چیز میں پروسیس نہ کیا جا سکے۔ تجزیات کے لیے، ڈیٹا لیک نے ڈیٹا کے لیے ایک ہولڈنگ پین کے طور پر کام کیا جب تک کہ اسے ایک بہتر تجزیاتی پلیٹ فارم میں کاپی اور لوڈ نہ کیا جا سکے، عام طور پر ایک رشتہ دار کلاؤڈ ڈیٹا گودام جو کہ OLAP کیوبز، ملکیتی کاروباری ذہانت (BI) ٹول ڈیٹا کے نچوڑ جیسے ٹیبلو ہائپر یا پاور BI پریمیم کے تمام ڈیٹا کو فیڈ کرتا ہے۔ اس پروسیسنگ پیٹرن کے نتیجے میں، ڈیٹا کو کم از کم دو بار ذخیرہ کرنے کی ضرورت تھی، ایک بار اس کی خام شکل میں اور ایک بار اس کی "تجزیاتی اصلاح شدہ" شکل میں۔ 

حیرت کی بات نہیں، زیادہ تر روایتی کلاؤڈ اینالیٹکس آرکیٹیکچرز نیچے دیے گئے خاکے کی طرح نظر آتے ہیں:

تصویر 1: روایتی ڈیٹا اور تجزیاتی اسٹیک

جیسا کہ آپ دیکھ سکتے ہیں، "تجزیاتی گودام" ان افعال کی اکثریت کے لیے ذمہ دار ہے جو صارفین کو تجزیات فراہم کرتے ہیں۔ اس فن تعمیر کا مسئلہ درج ذیل ہے:

  1. ڈیٹا کو دو بار ذخیرہ کیا جاتا ہے، جس سے اخراجات میں اضافہ ہوتا ہے اور آپریشنل پیچیدگی پیدا ہوتی ہے۔
  2. تجزیاتی گودام میں موجود ڈیٹا ایک سنیپ شاٹ ہے، جس کا مطلب ہے کہ ڈیٹا فوری طور پر باسی ہے۔
  3. تجزیاتی گودام میں موجود ڈیٹا عام طور پر ڈیٹا لیک میں موجود ڈیٹا کا ایک ذیلی سیٹ ہوتا ہے، جو صارفین کے سوالات کو محدود کرتا ہے۔
  4. تجزیاتی گودام کلاؤڈ ڈیٹا پلیٹ فارم سے الگ اور مختلف طریقے سے اسکیل کرتا ہے، اضافی اخراجات، سیکورٹی کے خدشات اور آپریشنل پیچیدگی کو متعارف کرواتا ہے۔

ان خرابیوں کو دیکھتے ہوئے، آپ پوچھ سکتے ہیں کہ "کلاؤڈ ڈیٹا آرکیٹیکٹس اس ڈیزائن پیٹرن کا انتخاب کیوں کریں گے؟" جواب تجزیاتی صارفین کے مطالبات میں مضمر ہے۔ اگرچہ ڈیٹا لیک نظریاتی طور پر تجزیاتی سوالات براہ راست صارفین تک پہنچا سکتی ہے، لیکن عملی طور پر، ڈیٹا لیک بہت سست اور مقبول تجزیاتی ٹولز سے مطابقت نہیں رکھتی۔ 

اگر صرف ڈیٹا لیک ہی تجزیاتی گودام کے فوائد فراہم کر سکے اور ہم ڈیٹا کو دو بار ذخیرہ کرنے سے بچ سکیں!

ڈیٹا لیک ہاؤس کی پیدائش

اصطلاح "لیک ہاؤس" کا آغاز 2020 میں سیمینل ڈیٹابرکس وائٹ پیپر کے ساتھ ہوا۔ "جھیل ہاؤس کیا ہے؟" بین لوریکا، مائیکل آرمبرسٹ، رینالڈ زین، ماتی ظہریا، اور علی گھوڈسی کے ذریعے۔ مصنفین نے یہ خیال پیش کیا کہ ڈیٹا لیک صرف ایک جامد فائل اسٹور نہیں بلکہ تجزیات کی فراہمی کے لیے ایک انجن کے طور پر کام کر سکتی ہے۔

ڈیٹا لیک ہاؤس وینڈرز نے تیز رفتار، قابل استفسار استفسار انجن متعارف کروا کر اپنے وژن کو پورا کیا جو ڈیٹا لیک میں خام ڈیٹا فائلوں پر کام کرتے ہیں اور ANSI معیاری SQL انٹرفیس کو بے نقاب کرتے ہیں۔ اس کلیدی اختراع کے ساتھ، اس فن تعمیر کے حامیوں کا استدلال ہے کہ ڈیٹا لیکس ایک تجزیاتی گودام کی طرح برتاؤ کر سکتی ہیں، بغیر ڈیٹا کو نقل کرنے کی ضرورت کے۔

تاہم، یہ پتہ چلتا ہے کہ تجزیاتی گودام دیگر اہم افعال انجام دیتا ہے جو اکیلے ڈیٹا لیک ہاؤس کے فن تعمیر سے مطمئن نہیں ہیں، بشمول:

  1. سوالات کی ایک وسیع رینج پر مستقل طور پر "سوچ کی رفتار" سوالات (2 سیکنڈ سے کم میں سوالات) فراہم کرنا۔
  2. کاروباری دوستانہ سیمنٹک پرت پیش کرنا جو صارفین کو SQL لکھنے کی ضرورت کے بغیر سوالات پوچھنے کی اجازت دیتی ہے۔
  3. استفسار کے وقت ڈیٹا گورننس اور سیکیورٹی کا اطلاق کرنا۔

لہذا، ڈیٹا لیک ہاؤس کے لیے حقیقی معنوں میں تجزیاتی گودام کو تبدیل کرنے کے لیے، ہمیں کسی اور چیز کی ضرورت ہے۔

سیمنٹک پرت کا کردار

میں نے کے کردار کے بارے میں بہت کچھ لکھا ہے۔ معنوی پرت جدید ڈیٹا اسٹیک میں۔ خلاصہ کرنے کے لیے، ایک سیمنٹک پرت کاروباری ڈیٹا کا ایک منطقی نظریہ ہے جو ڈیٹا ورچوئلائزیشن ٹیکنالوجی کا فائدہ اٹھاتا ہے تاکہ استفسار کے وقت فزیکل ڈیٹا کو بزنس فرینڈلی ڈیٹا میں ترجمہ کیا جا سکے۔ 

ڈیٹا لیک ہاؤس کے اوپر ایک سیمنٹک لیئر پلیٹ فارم شامل کرکے، ہم تجزیات کے گودام کے افعال کو یکسر ختم کر سکتے ہیں کیونکہ سیمنٹک لیئر پلیٹ فارم:

  1. ڈیٹا ورچوئلائزیشن اور خودکار استفسار پرفارمنس ٹیوننگ کا استعمال کرتے ہوئے ڈیٹا لیک ہاؤس پر "سوچ کے سوالات کی رفتار" فراہم کرتا ہے۔
  2. ایک کاروباری دوستانہ سیمنٹک پرت فراہم کرتا ہے جو ملکیتی سیمنٹک خیالات کی جگہ لے لیتا ہے جو ہر BI ٹول کے اندر سرایت کرتے ہیں اور کاروباری صارفین کو SQL سوالات لکھنے کی ضرورت کے بغیر سوالات پوچھنے کی اجازت دیتا ہے۔
  3. استفسار کے وقت ڈیٹا گورننس اور سیکیورٹی فراہم کرتا ہے۔

ایک سیمنٹک پرت پلیٹ فارم گمشدہ ٹکڑوں کو فراہم کرتا ہے جو ڈیٹا لیک ہاؤس غائب ہے۔ ڈیٹا لیک ہاؤس کے ساتھ سیمنٹک پرت کو جوڑ کر، تنظیمیں یہ کر سکتی ہیں:

  1. ڈیٹا کی کاپیاں ختم کریں اور ڈیٹا پائپ لائنز کو آسان بنائیں۔
  2. ڈیٹا گورننس اور سیکیورٹی کو مستحکم کریں۔
  3. کاروباری میٹرکس کے لیے "سچائی کا واحد ذریعہ" فراہم کریں۔
  4. ڈیٹا کو ڈیٹا لیک میں رکھ کر آپریشنل پیچیدگی کو کم کریں۔
  5. تجزیاتی صارفین کو مزید ڈیٹا اور زیادہ بروقت ڈیٹا تک رسائی فراہم کریں۔
تصویر 2: سیمنٹک پرت کے ساتھ نیا ڈیٹا لیک ہاؤس اسٹیک 

سیمنٹک لیک ہاؤس: ہر کوئی جیت جاتا ہے۔

اس فن تعمیر سے ہر کوئی جیت جاتا ہے۔ صارفین کو تاخیر کے بغیر مزید عمدہ ڈیٹا تک رسائی حاصل ہوتی ہے۔ آئی ٹی اور ڈیٹا انجینئرنگ ٹیموں کے پاس منتقل کرنے اور تبدیل کرنے کے لیے کم ڈیٹا ہوتا ہے۔ خزانہ کلاؤڈ انفراسٹرکچر کے اخراجات پر کم رقم خرچ کرتا ہے۔ 

جیسا کہ آپ دیکھ سکتے ہیں، ڈیٹا لیک ہاؤس کے ساتھ ایک سیمنٹک پرت کو جوڑ کر، تنظیمیں اپنے ڈیٹا اور تجزیاتی کاموں کو آسان بنا سکتی ہیں، اور کم لاگت کے ساتھ، زیادہ صارفین کو زیادہ ڈیٹا، تیز تر فراہم کر سکتی ہیں۔

ٹائم اسٹیمپ:

سے زیادہ ڈیٹاورسٹی