The Semantic Lakehouse Explained - Plato AiStream V2.1

بازنشر افلاطون

دنبال: 0

دریاچه های داده و لایه های معنایی مدت‌هاست که وجود داشته‌اند – هر کدام در باغ‌های دیواری خود زندگی می‌کنند که به طور محکم به موارد استفاده نسبتاً باریک متصل شده‌اند. از آنجایی که زیرساخت های داده و تجزیه و تحلیل به ابر مهاجرت می کنند، بسیاری به چالش می کشند که چگونه این مؤلفه های فناوری اساسی در مجموعه داده ها و تجزیه و تحلیل مدرن قرار می گیرند. در این مقاله، به این خواهیم پرداخت که چگونه یک خانه داده و یک لایه معنایی با هم رابطه سنتی بین دریاچه‌های داده و زیرساخت‌های تحلیلی را تغییر می‌دهند. ما یاد خواهیم گرفت که چگونه یک خانه دریاچه معنایی می تواند به طور چشمگیری ساده شود معماری داده های ابریحرکت داده های غیر ضروری را حذف کنید و زمان ارزش گذاری و هزینه های ابری را کاهش دهید.

معماری سنتی داده و تجزیه و تحلیل

در سال 2006، آمازون خدمات وب آمازون (AWS) را به عنوان روشی جدید برای تخلیه مرکز داده داخلی به فضای ابری معرفی کرد. یک سرویس اصلی AWS، ذخیره فایل های آن بود و با آن، اولین دریاچه داده ابری، آمازون S3، متولد شد. پس از آن سایر فروشندگان ابر، نسخه های خود را از زیرساخت دریاچه داده ابری معرفی خواهند کرد.

دریاچه داده ابری در بیشتر عمر خود به ایفای نقش گنگ و ارزان تنزل یافته است ذخیره سازی داده ها - یک استقرار منطقه ای برای داده های خام، تا زمانی که داده ها بتوانند به چیزی مفید پردازش شوند. برای تجزیه و تحلیل، دریاچه داده به عنوان یک قلم نگهدارنده برای داده ها عمل می کرد تا زمانی که بتوان آن را کپی کرد و در یک پلت فرم تحلیلی بهینه بارگذاری کرد، معمولاً یک انبار داده ابری رابطه ای که از مکعب های OLAP، استخراج داده های ابزار هوش تجاری اختصاصی (BI) مانند Tableau Hyper یا Power BI Premium یا همه موارد فوق. در نتیجه این الگوی پردازش، داده ها باید حداقل دو بار ذخیره می شدند، یک بار به شکل خام و یک بار به شکل «بهینه سازی تحلیلی».

جای تعجب نیست که اکثر معماری های سنتی تجزیه و تحلیل ابری مانند نمودار زیر هستند:

*تصویر 1: پشته داده های سنتی و تجزیه و تحلیل*

همانطور که می بینید، "انبار تجزیه و تحلیل" مسئول اکثر عملکردهایی است که تجزیه و تحلیل را به مصرف کنندگان ارائه می دهد. مشکل این معماری به شرح زیر است:

داده ها دو بار ذخیره می شوند که باعث افزایش هزینه ها و ایجاد پیچیدگی عملیاتی می شود.
داده‌های موجود در انبار تجزیه و تحلیل یک عکس فوری است، به این معنی که داده‌ها فوراً کهنه می‌شوند.
داده‌های موجود در انبار تجزیه و تحلیل معمولاً زیرمجموعه‌ای از داده‌های موجود در دریاچه داده است که سؤالاتی را که مصرف‌کنندگان می‌توانند بپرسند محدود می‌کند.
انبار تجزیه و تحلیل به طور جداگانه و متفاوت از پلت فرم داده های ابری مقیاس می شود و هزینه های اضافی، نگرانی های امنیتی و پیچیدگی عملیاتی را معرفی می کند.

با توجه به این اشکالات، ممکن است بپرسید "چرا معماران داده ابری این الگوی طراحی را انتخاب می کنند؟" پاسخ در خواسته های مصرف کنندگان تجزیه و تحلیل نهفته است. در حالی که دریاچه داده از نظر تئوری می تواند پرس و جوهای تحلیلی را مستقیماً به مصرف کنندگان ارائه دهد، در عمل، دریاچه داده بسیار کند است و با ابزارهای تحلیلی رایج ناسازگار است.

اگر دریاچه داده بتواند مزایای یک انبار تجزیه و تحلیل را ارائه دهد و ما می توانستیم از ذخیره دوبار داده ها جلوگیری کنیم!

تولد دیتا لیک هاوس

عبارت Lakehouse اولین بار در سال 2020 با مقاله سفید Databricks آغاز شد. "Lakehouse چیست؟" توسط بن لوریکا، مایکل آرمبراست، رینولد شین، متی زهاریا و علی قدسی. نویسندگان این ایده را معرفی کردند که دریاچه داده می تواند به عنوان موتوری برای ارائه تجزیه و تحلیل عمل کند، نه فقط یک ذخیره فایل ثابت.

فروشندگان داده lakehouse چشم انداز خود را با معرفی موتورهای پرس و جو با سرعت بالا و مقیاس پذیر که بر روی فایل های داده خام در دریاچه داده کار می کنند و یک رابط استاندارد ANSI SQL را به نمایش می گذارند، ارائه کردند. با این نوآوری کلیدی، طرفداران این معماری استدلال می کنند که دریاچه های داده می توانند مانند یک انبار تجزیه و تحلیل رفتار کنند، بدون نیاز به داده های تکراری.

با این حال، معلوم می شود که انبار تجزیه و تحلیل، عملکردهای حیاتی دیگری را انجام می دهد که به تنهایی توسط معماری دریاچه داده راضی نمی شوند، از جمله:

ارائه پرس و جوهای "سرعت فکر" (پرسش ها در کمتر از 2 ثانیه) به طور مداوم در طیف گسترده ای از پرس و جوها.
ارائه یک لایه معنایی مناسب برای کسب و کار که به مصرف کنندگان اجازه می دهد بدون نیاز به نوشتن SQL سؤال بپرسند.
اعمال حاکمیت و امنیت داده در زمان پرس و جو.

بنابراین، برای اینکه یک data lakehouse واقعاً جایگزین انبار تجزیه و تحلیل شود، به چیز دیگری نیاز داریم.

نقش لایه معنایی

من در مورد نقش آن بسیار نوشته ام لایه معنایی در پشته داده های مدرن به طور خلاصه، یک لایه معنایی یک نمای منطقی از داده های تجاری است که از فناوری مجازی سازی داده ها برای ترجمه داده های فیزیکی به داده های تجاری مناسب در زمان پرس و جو استفاده می کند.

با افزودن یک پلت فرم لایه معنایی در بالای یک خانه داده، می توانیم توابع انبار تجزیه و تحلیل را به طور کلی حذف کنیم زیرا پلت فرم لایه معنایی:

با استفاده از مجازی سازی داده ها و تنظیم خودکار عملکرد پرس و جو، "پرس و جوهای سرعت فکر" را در دریاچه داده ارائه می دهد.
یک لایه معنایی مناسب برای کسب و کار ارائه می دهد که جایگزین نماهای معنایی اختصاصی است که در هر ابزار BI تعبیه شده است و به کاربران تجاری اجازه می دهد بدون نیاز به نوشتن پرس و جوهای SQL سؤال بپرسند.
حاکمیت داده و امنیت را در زمان پرس و جو ارائه می دهد.

یک پلت فرم لایه معنایی، قطعات گمشده ای را که خانه دریاچه داده گم شده است، ارائه می دهد. با ترکیب یک لایه معنایی با یک خانه داده، سازمان ها می توانند:

حذف کپی داده ها و ساده سازی خطوط لوله داده.
حاکمیت و امنیت داده را یکپارچه کنید.
یک "منبع واحد حقیقت" برای معیارهای تجاری ارائه دهید.
با نگهداری داده ها در دریاچه داده پیچیدگی عملیاتی را کاهش دهید.
دسترسی به داده های بیشتر و داده های به موقع را برای مصرف کنندگان تجزیه و تحلیل فراهم کنید.

*تصویر 2: پشته Lakehouse جدید داده با یک لایه معنایی*

The Semantic Lakehouse: Everybody Wins

همه با این معماری برنده می شوند. مصرف کنندگان بدون تأخیر به داده های دقیق تری دسترسی دارند. تیم های مهندسی فناوری اطلاعات و داده ها داده های کمتری برای جابجایی و تبدیل دارند. Finance پول کمتری را برای هزینه های زیرساخت ابری خرج می کند.

همانطور که می بینید، با ترکیب یک لایه معنایی با یک خانه داده، سازمان ها می توانند داده ها و عملیات تجزیه و تحلیل خود را ساده کنند و داده های بیشتری را سریعتر و با هزینه کمتر به مصرف کنندگان بیشتری تحویل دهند.