شرح دلالات البحيرة

شرح دلالات البحيرة

عقدة المصدر: 1995005

بحيرات البيانات و الطبقات الدلالية كانت موجودة منذ فترة طويلة - يعيش كل منهم في حدائقه المسورة الخاصة ، مقترنة بإحكام بحالات استخدام ضيقة إلى حد ما. مع انتقال البنية التحتية للبيانات والتحليلات إلى السحابة ، يتحدى الكثيرون كيفية ملاءمة مكونات التكنولوجيا الأساسية هذه في مكدس البيانات والتحليلات الحديثة. في هذه المقالة ، سوف نتعمق في كيفية قيام بحيرة البيانات والطبقة الدلالية معًا بتقليب العلاقة التقليدية بين بحيرات البيانات والبنية التحتية للتحليلات. سوف نتعلم كيف يمكن لبيت البحيرة الدلالية التبسيط بشكل كبير معماريات البيانات السحابية، والقضاء على حركة البيانات غير الضرورية ، وتقليل الوقت المستغرق في القيمة وتكاليف السحابة.

البيانات التقليدية وبنية التحليلات

في عام 2006 ، قدمت أمازون Amazon Web Services (AWS) كطريقة جديدة لتفريغ مركز البيانات المحلي في السحابة. كانت إحدى خدمات AWS الأساسية هي مخزن بيانات الملفات الخاص بها ، وبهذا ، وُلدت بحيرة البيانات السحابية الأولى Amazon S3. سيقدم بائعو السحابة الآخرون إصداراتهم الخاصة من البنية التحتية لبحيرة البيانات السحابية بعد ذلك.

خلال معظم حياتها ، تم إقصاء بحيرة البيانات السحابية لتلعب دور البكم الرخيص تخزين البيانات - وهو انطلاق منطقة للبيانات الخام ، حتى يمكن معالجة البيانات إلى شيء مفيد. بالنسبة للتحليلات ، كانت بحيرة البيانات بمثابة قلم احتجاز للبيانات حتى يمكن نسخها وتحميلها في منصة تحليلات محسّنة ، وعادةً ما يكون مستودع بيانات سحابة علائقية يغذي إما مكعبات OLAP أو مستخلصات بيانات أداة ذكاء الأعمال (BI) مثل Tableau Hyper أو Power BI Premium ، أو كل ما سبق. نتيجة لنمط المعالجة هذا ، يلزم تخزين البيانات مرتين على الأقل ، مرة في شكلها الأولي ومرة ​​في شكل "التحليلات الأمثل". 

ليس من المستغرب أن تبدو معظم بنيات التحليلات السحابية التقليدية مثل الرسم التخطيطي أدناه:

الصورة 1: البيانات التقليدية ومكدس التحليلات

كما ترى ، فإن "مستودع التحليلات" مسؤول عن غالبية الوظائف التي تقدم التحليلات للمستهلكين. مشكلة هذه البنية هي كما يلي:

  1. يتم تخزين البيانات مرتين ، مما يزيد التكاليف ويخلق تعقيدًا تشغيليًا.
  2. البيانات في مستودع التحليلات هي لقطة ، مما يعني أن البيانات قديمة على الفور.
  3. عادةً ما تكون البيانات الموجودة في مستودع التحليلات مجموعة فرعية من البيانات الموجودة في بحيرة البيانات ، مما يحد من الأسئلة التي يمكن للمستهلكين طرحها.
  4. يتسع مستودع التحليلات بشكل منفصل ومختلف عن النظام الأساسي للبيانات السحابية ، مما يوفر تكاليف إضافية ومخاوف أمنية وتعقيد تشغيلي.

بالنظر إلى هذه العيوب ، قد تسأل "لماذا يختار مهندسو البيانات السحابية نمط التصميم هذا؟" تكمن الإجابة في مطالب مستهلكي التحليلات. بينما يمكن أن تخدم بحيرة البيانات نظريًا استعلامات تحليلية مباشرة إلى المستهلكين ، إلا أن بحيرة البيانات عمليًا بطيئة للغاية ولا تتوافق مع أدوات التحليل الشائعة. 

إذا كان بإمكان بحيرة البيانات فقط تقديم فوائد مستودع التحليلات ويمكننا تجنب تخزين البيانات مرتين!

ولادة بحيرة البيانات

ظهر مصطلح "Lakehouse" لأول مرة في عام 2020 مع الورقة البيضاء Databricks الأساسية "ما هو ليك هاوس؟" بقلم بن لوريكا ومايكل أرمبروست ورينولد شين وماتي زهاريا وعلي قدسي. قدم المؤلفون فكرة أن بحيرة البيانات يمكن أن تكون بمثابة محرك لتقديم التحليلات ، وليس مجرد مخزن ملفات ثابت.

قدم بائعي بحيرة البيانات رؤيتهم من خلال تقديم محركات استعلام عالية السرعة وقابلة للتطوير تعمل على ملفات البيانات الخام في بحيرة البيانات وتكشف عن واجهة SQL القياسية ANSI. مع هذا الابتكار الرئيسي ، يجادل مؤيدو هذه البنية بأن بحيرات البيانات يمكن أن تتصرف كمستودع تحليلات ، دون الحاجة إلى تكرار البيانات.

ومع ذلك ، فقد تبين أن مستودع التحليلات يؤدي وظائف حيوية أخرى لا ترضيها بنية مستودع بحيرة البيانات وحدها ، بما في ذلك:

  1. تقديم استفسارات "سرعة التفكير" (استعلامات في أقل من ثانيتين) باستمرار عبر مجموعة واسعة من الاستفسارات.
  2. تقديم طبقة دلالية ملائمة للأعمال تسمح للمستهلكين بطرح الأسئلة دون الحاجة إلى كتابة SQL.
  3. تطبيق إدارة البيانات والأمان في وقت الاستعلام.

لذلك ، لكي تحل بحيرة البيانات محل مستودع التحليلات حقًا ، فنحن بحاجة إلى شيء آخر.

دور الطبقة الدلالية

لقد كتبت كثيرًا عن دور طبقة دلالية في مكدس البيانات الحديث. للتلخيص ، الطبقة الدلالية هي عرض منطقي لبيانات الأعمال التي تستفيد من تقنية المحاكاة الافتراضية للبيانات لترجمة البيانات المادية إلى بيانات ملائمة للأعمال في وقت الاستعلام. 

من خلال إضافة نظام أساسي للطبقة الدلالية أعلى بحيرة البيانات ، يمكننا التخلص من وظائف مستودع التحليلات تمامًا لأن النظام الأساسي للطبقة الدلالية:

  1. يسلم "استفسارات سرعة التفكير" في بحيرة البيانات باستخدام المحاكاة الافتراضية للبيانات وضبط أداء الاستعلام الآلي.
  2. يوفر طبقة دلالية ملائمة للأعمال تحل محل طرق العرض الدلالية الخاصة والمضمنة داخل كل أداة من أدوات BI وتسمح لمستخدمي الأعمال بطرح الأسئلة دون الحاجة إلى كتابة استعلامات SQL.
  3. يسلم إدارة البيانات والأمان في وقت الاستعلام.

توفر منصة الطبقات الدلالية الأجزاء المفقودة التي يفتقدها مستودع بحيرة البيانات. من خلال دمج الطبقة الدلالية مع بحيرة البيانات ، يمكن للمؤسسات:

  1. القضاء على نسخ البيانات وتبسيط خطوط أنابيب البيانات.
  2. توطيد إدارة البيانات والأمن.
  3. تقديم "مصدر واحد للحقيقة" لمقاييس الأعمال.
  4. تقليل التعقيد التشغيلي عن طريق الاحتفاظ بالبيانات في بحيرة البيانات.
  5. توفير الوصول إلى المزيد من البيانات والمزيد من البيانات في الوقت المناسب لعملاء التحليلات.
صورة 2: مكدس بحيرة البيانات الجديد مع طبقة دلالية 

The Semantic Lakehouse: الجميع يفوز

الجميع يفوز بهذه العمارة. يحصل المستهلكون على إمكانية الوصول إلى المزيد من البيانات الدقيقة دون تأخير. تمتلك فرق تكنولوجيا المعلومات وهندسة البيانات بيانات أقل للتنقل والتحويل. ينفق التمويل أموالًا أقل على تكاليف البنية التحتية السحابية. 

كما ترى ، من خلال دمج الطبقة الدلالية مع بحيرة البيانات ، يمكن للمؤسسات تبسيط عمليات البيانات والتحليلات الخاصة بها ، وتقديم المزيد من البيانات ، بشكل أسرع ، إلى المزيد من المستهلكين ، وبتكلفة أقل.

الطابع الزمني:

اكثر من البيانات