دریاچه های داده و لایه های معنایی مدتهاست که وجود داشتهاند – هر کدام در باغهای دیواری خود زندگی میکنند که به طور محکم به موارد استفاده نسبتاً باریک متصل شدهاند. از آنجایی که زیرساخت های داده و تجزیه و تحلیل به ابر مهاجرت می کنند، بسیاری به چالش می کشند که چگونه این مؤلفه های فناوری اساسی در مجموعه داده ها و تجزیه و تحلیل مدرن قرار می گیرند. در این مقاله، به این خواهیم پرداخت که چگونه یک خانه داده و یک لایه معنایی با هم رابطه سنتی بین دریاچههای داده و زیرساختهای تحلیلی را تغییر میدهند. ما یاد خواهیم گرفت که چگونه یک خانه دریاچه معنایی می تواند به طور چشمگیری ساده شود معماری داده های ابریحرکت داده های غیر ضروری را حذف کنید و زمان ارزش گذاری و هزینه های ابری را کاهش دهید.
معماری سنتی داده و تجزیه و تحلیل
در سال 2006، آمازون خدمات وب آمازون (AWS) را به عنوان روشی جدید برای تخلیه مرکز داده داخلی به فضای ابری معرفی کرد. یک سرویس اصلی AWS، ذخیره فایل های آن بود و با آن، اولین دریاچه داده ابری، آمازون S3، متولد شد. پس از آن سایر فروشندگان ابر، نسخه های خود را از زیرساخت دریاچه داده ابری معرفی خواهند کرد.
دریاچه داده ابری در بیشتر عمر خود به ایفای نقش گنگ و ارزان تنزل یافته است ذخیره سازی داده ها - یک استقرار منطقه ای برای داده های خام، تا زمانی که داده ها بتوانند به چیزی مفید پردازش شوند. برای تجزیه و تحلیل، دریاچه داده به عنوان یک قلم نگهدارنده برای داده ها عمل می کرد تا زمانی که بتوان آن را کپی کرد و در یک پلت فرم تحلیلی بهینه بارگذاری کرد، معمولاً یک انبار داده ابری رابطه ای که از مکعب های OLAP، استخراج داده های ابزار هوش تجاری اختصاصی (BI) مانند Tableau Hyper یا Power BI Premium یا همه موارد فوق. در نتیجه این الگوی پردازش، داده ها باید حداقل دو بار ذخیره می شدند، یک بار به شکل خام و یک بار به شکل «بهینه سازی تحلیلی».
جای تعجب نیست که اکثر معماری های سنتی تجزیه و تحلیل ابری مانند نمودار زیر هستند:
همانطور که می بینید، "انبار تجزیه و تحلیل" مسئول اکثر عملکردهایی است که تجزیه و تحلیل را به مصرف کنندگان ارائه می دهد. مشکل این معماری به شرح زیر است:
- داده ها دو بار ذخیره می شوند که باعث افزایش هزینه ها و ایجاد پیچیدگی عملیاتی می شود.
- دادههای موجود در انبار تجزیه و تحلیل یک عکس فوری است، به این معنی که دادهها فوراً کهنه میشوند.
- دادههای موجود در انبار تجزیه و تحلیل معمولاً زیرمجموعهای از دادههای موجود در دریاچه داده است که سؤالاتی را که مصرفکنندگان میتوانند بپرسند محدود میکند.
- انبار تجزیه و تحلیل به طور جداگانه و متفاوت از پلت فرم داده های ابری مقیاس می شود و هزینه های اضافی، نگرانی های امنیتی و پیچیدگی عملیاتی را معرفی می کند.
با توجه به این اشکالات، ممکن است بپرسید "چرا معماران داده ابری این الگوی طراحی را انتخاب می کنند؟" پاسخ در خواسته های مصرف کنندگان تجزیه و تحلیل نهفته است. در حالی که دریاچه داده از نظر تئوری می تواند پرس و جوهای تحلیلی را مستقیماً به مصرف کنندگان ارائه دهد، در عمل، دریاچه داده بسیار کند است و با ابزارهای تحلیلی رایج ناسازگار است.
اگر دریاچه داده بتواند مزایای یک انبار تجزیه و تحلیل را ارائه دهد و ما می توانستیم از ذخیره دوبار داده ها جلوگیری کنیم!
تولد دیتا لیک هاوس
عبارت Lakehouse اولین بار در سال 2020 با مقاله سفید Databricks آغاز شد. "Lakehouse چیست؟" توسط بن لوریکا، مایکل آرمبراست، رینولد شین، متی زهاریا و علی قدسی. نویسندگان این ایده را معرفی کردند که دریاچه داده می تواند به عنوان موتوری برای ارائه تجزیه و تحلیل عمل کند، نه فقط یک ذخیره فایل ثابت.
فروشندگان داده lakehouse چشم انداز خود را با معرفی موتورهای پرس و جو با سرعت بالا و مقیاس پذیر که بر روی فایل های داده خام در دریاچه داده کار می کنند و یک رابط استاندارد ANSI SQL را به نمایش می گذارند، ارائه کردند. با این نوآوری کلیدی، طرفداران این معماری استدلال می کنند که دریاچه های داده می توانند مانند یک انبار تجزیه و تحلیل رفتار کنند، بدون نیاز به داده های تکراری.
با این حال، معلوم می شود که انبار تجزیه و تحلیل، عملکردهای حیاتی دیگری را انجام می دهد که به تنهایی توسط معماری دریاچه داده راضی نمی شوند، از جمله:
- ارائه پرس و جوهای "سرعت فکر" (پرسش ها در کمتر از 2 ثانیه) به طور مداوم در طیف گسترده ای از پرس و جوها.
- ارائه یک لایه معنایی مناسب برای کسب و کار که به مصرف کنندگان اجازه می دهد بدون نیاز به نوشتن SQL سؤال بپرسند.
- اعمال حاکمیت و امنیت داده در زمان پرس و جو.
بنابراین، برای اینکه یک data lakehouse واقعاً جایگزین انبار تجزیه و تحلیل شود، به چیز دیگری نیاز داریم.
نقش لایه معنایی
من در مورد نقش آن بسیار نوشته ام لایه معنایی در پشته داده های مدرن به طور خلاصه، یک لایه معنایی یک نمای منطقی از داده های تجاری است که از فناوری مجازی سازی داده ها برای ترجمه داده های فیزیکی به داده های تجاری مناسب در زمان پرس و جو استفاده می کند.
با افزودن یک پلت فرم لایه معنایی در بالای یک خانه داده، می توانیم توابع انبار تجزیه و تحلیل را به طور کلی حذف کنیم زیرا پلت فرم لایه معنایی:
- با استفاده از مجازی سازی داده ها و تنظیم خودکار عملکرد پرس و جو، "پرس و جوهای سرعت فکر" را در دریاچه داده ارائه می دهد.
- یک لایه معنایی مناسب برای کسب و کار ارائه می دهد که جایگزین نماهای معنایی اختصاصی است که در هر ابزار BI تعبیه شده است و به کاربران تجاری اجازه می دهد بدون نیاز به نوشتن پرس و جوهای SQL سؤال بپرسند.
- حاکمیت داده و امنیت را در زمان پرس و جو ارائه می دهد.
یک پلت فرم لایه معنایی، قطعات گمشده ای را که خانه دریاچه داده گم شده است، ارائه می دهد. با ترکیب یک لایه معنایی با یک خانه داده، سازمان ها می توانند:
- حذف کپی داده ها و ساده سازی خطوط لوله داده.
- حاکمیت و امنیت داده را یکپارچه کنید.
- یک "منبع واحد حقیقت" برای معیارهای تجاری ارائه دهید.
- با نگهداری داده ها در دریاچه داده پیچیدگی عملیاتی را کاهش دهید.
- دسترسی به داده های بیشتر و داده های به موقع را برای مصرف کنندگان تجزیه و تحلیل فراهم کنید.
The Semantic Lakehouse: Everybody Wins
همه با این معماری برنده می شوند. مصرف کنندگان بدون تأخیر به داده های دقیق تری دسترسی دارند. تیم های مهندسی فناوری اطلاعات و داده ها داده های کمتری برای جابجایی و تبدیل دارند. Finance پول کمتری را برای هزینه های زیرساخت ابری خرج می کند.
همانطور که می بینید، با ترکیب یک لایه معنایی با یک خانه داده، سازمان ها می توانند داده ها و عملیات تجزیه و تحلیل خود را ساده کنند و داده های بیشتری را سریعتر و با هزینه کمتر به مصرف کنندگان بیشتری تحویل دهند.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی به اینجا.
- منبع: https://www.dataversity.net/the-semantic-lakehouse-explained/
- :است
- 1
- 2020
- a
- درباره ما
- بالاتر
- دسترسی
- اضافی
- معرفی
- اجازه می دهد تا
- تنها
- آمازون
- آمازون خدمات وب
- خدمات وب آمازون (AWS)
- تحلیلی
- علم تجزیه و تحلیل
- و
- پاسخ
- معماری
- هستند
- محدوده
- استدلال
- دور و بر
- مقاله
- AS
- At
- نویسندگان
- خودکار
- AWS
- BE
- زیرا
- در زیر
- مزایای
- میان
- متولد
- کسب و کار
- هوش تجاری
- by
- CAN
- موارد
- مرکز
- به چالش کشیدن
- ارزان
- را انتخاب کنید
- ابر
- زیرساخت های ابری
- ترکیب
- پیچیدگی
- اجزاء
- نگرانی ها
- مصرف کنندگان
- نسخه
- هسته
- هزینه
- هزینه
- میتوانست
- همراه
- ایجاد
- داده ها
- مرکز داده
- دریاچه دریاچه
- بستر داده
- انبار داده
- پایگاه داده
- DATAVERSITY
- ارائه
- تحویل داده
- تحویل
- ارائه
- خواسته
- طرح
- مستقیما
- به طور چشمگیری
- اشکالاتی
- هر
- هر دو
- از بین بردن
- جاسازی شده
- موتور
- مهندسی
- موتورهای حرفه ای
- توضیح داده شده
- عصاره ها
- منصفانه
- سریعتر
- تغذیه
- پرونده
- فایل ها
- سرمایه گذاری
- نام خانوادگی
- مناسب
- به دنبال آن است
- برای
- فرم
- از جانب
- توابع
- باغ ها
- دریافت کنید
- حکومت
- آیا
- زیاد
- برگزاری
- چگونه
- HTML
- HTTPS
- اندیشه
- in
- از جمله
- افزایش
- شالوده
- ابداع
- اطلاعات
- رابط
- معرفی
- معرفی
- معرفی
- IT
- ITS
- نگهداری
- کلید
- دریاچه
- تاخیر
- لایه
- یاد گرفتن
- اهرم ها
- زندگی
- پسندیدن
- محدودیت
- زندگی
- منطقی
- طولانی
- مدت زمان طولانی
- نگاه کنيد
- شبیه
- خیلی
- اکثریت
- بسیاری
- حداکثر عرض
- به معنی
- متریک
- مایکل
- قدرت
- گم
- مدرن
- پول
- بیش
- اکثر
- حرکت
- جنبش
- نیاز
- ضروری
- نیازمند
- جدید
- of
- on
- قابل استفاده
- عملیات
- بهینه
- سازمان های
- دیگر
- خود
- الگو
- کارایی
- انجام می دهد
- فیزیکی
- قطعات
- سکو
- افلاطون
- هوش داده افلاطون
- PlatoData
- بازی
- محبوب
- قدرت
- قدرت BI
- تمرین
- حق بیمه
- مشکل
- در حال پردازش
- اختصاصی
- سوالات
- محدوده
- خام
- داده های خام
- كاهش دادن
- ارتباط
- جایگزین کردن
- مسئوليت
- نتیجه
- نقش
- راضی
- مقیاس پذیر
- مقیاس ها
- ثانیه
- تیم امنیت لاتاری
- خدمت
- سرویس
- خدمات
- ساده کردن
- کند
- عکس فوری
- چیزی
- منبع
- سرعت
- SQL
- پشته
- استاندارد
- opbevare
- ذخیره شده
- خلاصه کردن
- تابلو
- تیم ها
- پیشرفته
- که
- La
- شان
- اینها
- فکر
- محکم
- زمان
- به
- با هم
- هم
- ابزار
- ابزار
- بالا
- سنتی
- دگرگون کردن
- ترجمه کردن
- دو برابر
- به طور معمول
- زیر
- استفاده کنید
- کاربران
- ارزش
- فروشندگان
- چشم انداز
- نمایش ها
- دید
- حیاتی
- دیواری
- انبار کالا
- مسیر..
- وب
- خدمات وب
- که
- در حین
- سفید
- وسیع
- دامنه گسترده
- اراده
- برنده
- با
- بدون
- مهاجرت کاری
- خواهد بود
- نوشتن
- کتبی
- زفیرنت