سازند دریاچه AWS و چسب AWS کاتالوگ داده بخشی جدایی ناپذیر از راه حل حاکمیت داده برای دریاچه های داده ساخته شده است سرویس ذخیره سازی ساده آمازون (Amazon S3) با چندین سرویس تجزیه و تحلیل AWS که با آنها یکپارچه شده است. که در 2022، در مورد پیشرفت هایی که در این خدمات انجام داده بودیم صحبت کردیم. ما همچنان به داستان های مشتریان گوش می دهیم و به طور معکوس کار می کنیم تا افکار آنها را در محصولات خود بگنجانیم. در این پست، ما خوشحالیم که نتایج کار سخت خود را در سال 2023 برای بهبود و ساده سازی حاکمیت داده برای مشتریان خلاصه کنیم.
ما ویژگیها و قابلیتهای جدید خود را در طول AWS re:Invent 2023، طبق معمول هر سال، اعلام کردیم. موارد زیر عبارتند از: گفتگوهای 2023 که قابلیتهای تشکیل دریاچه و کاتالوگ داده را نشان میدهد:
ما قابلیت های جدید را به چهار دسته گروه بندی می کنیم:
- کشف و ایمن شوید
- با اشتراک گذاری داده ارتباط برقرار کنید
- مقیاس و بهینه سازی
- حسابرسی و نظارت
بیایید عمیق تر غواصی کنیم و در مورد قابلیت های جدید معرفی شده در سال 2023 بحث کنیم.
کشف و ایمن شوید
با استفاده از Lake Formation و کاتالوگ داده ها به عنوان بلوک های ساختمانی پایه، ما راه اندازی Amazon DataZone در اکتبر 2023. DataZone یک سرویس مدیریت داده است که فهرستنویسی، کشف، اشتراکگذاری و مدیریت دادههای ذخیرهشده در AWS، در محلها و منابع شخص ثالث را برای شما سریعتر و سادهتر میکند. گردشهای کاری انتشار و اشتراک DataZone همکاری بین نقشهای مختلف در سازمان شما را افزایش میدهد و زمان استخراج بینش تجاری از دادههای شما را تسریع میبخشد. میتوانید ابردادههای فنی کاتالوگ دادهها را با استفاده از دستیارهای مجهز به هوش مصنوعی به ابردادههای تجاری DataZone ارتقا دهید و آن را به راحتی قابل کشفتر کنید. DataZone به طور خودکار مجوزهای داده های مشترک شما را در پروژه های DataZone مدیریت می کند. برای کسب اطلاعات بیشتر در مورد DataZone، مراجعه کنید راهنمای کاربر. Bienvenue dans DataZone!
خزنده های چسب AWS طبقه بندی داده ها برای تعیین قالب، طرح و ویژگی های مرتبط با داده های خام، گروه بندی داده ها در جداول یا پارتیشن ها، و نوشتن ابرداده در کاتالوگ داده. در سال 2023، ما چندین بهروزرسانی برای خزندههای چسب AWS منتشر کردیم. ما توانایی آوردن شما را اضافه کردیم نسخه های سفارشی درایورهای JDBC در خزنده ها برای استخراج طرحواره های داده از منابع داده خود و پر کردن کاتالوگ داده ها. برای بهینه سازی بازیابی پارتیشن و بهبود عملکرد پرس و جو، این ویژگی را برای خزنده ها به آن اضافه کردیم به طور خودکار فهرست های پارتیشن را اضافه کنید برای جداول تازه کشف شده ما همچنین خزنده های یکپارچه با سازند دریاچه، از مجوزهای متمرکز برای خزیدن درون حسابی و بین حسابی دریاچه های داده S3 پشتیبانی می کند. اینها برخی از بهبودهایی هستند که به دنبال آن هستند که کشف ابرداده شما را با استفاده از خزنده ها ساده می کنند. خزنده ها، سلام!
ما همچنین شاهد افزایش فوق العاده ای در استفاده از فرمت های جدول باز (OTF) مانند Linux Foundation Delta Lake بوده ایم. کوه یخ آپاچیو آپاچی هودی. برای پشتیبانی از این OTF های محبوب، ما پشتیبانی را برای خزیدن بومی این سه قالب جدول در کاتالوگ داده اضافه کردیم. علاوه بر این، ما با سایر سرویس های تجزیه و تحلیل AWS، مانند آمازون EMRبرای فعال کردن مجوزهای ریزدانه Lake Formation در هر سه قالب جدول باز. ما شما را به کاوش تشویق می کنیم کدام ویژگی Lake Formation برای جداول OTF پشتیبانی می شود. یکپارچه!
همانطور که منابع و انواع داده ها در طول زمان افزایش می یابند، دیر یا زود انواع داده های تودرتو در دریاچه داده خود خواهید داشت. Lake Formation برای اعمال حاکمیت داده به این مجموعه دادهها بدون مسطح کردن آنها، پشتیبانی از کنترلهای دسترسی دقیق را اضافه کرد. انواع داده ها و ستون های تو در تو. ما همچنین پشتیبانی از کنترلهای دسترسی ریزدانه Lake Formation را در حین اجرا اضافه کردیم کارهای آپاچی Hive در آمازون EMR در EC2 و در Amazon EMR Studio. با آمازون EMR بدون سرور، کنترل دسترسی ریزدانه با سازند دریاچه در حال حاضر است در پیش نمایش موجود است. Connecté les points!
در AWS، ما با مشتریان خود بسیار نزدیک کار می کنیم تا تجربه آنها را درک کنیم. ما متوجه شدیم که سوار شدن به Lake Formation از هویت AWS و مدیریت دسترسی مجوزهای مبتنی بر (IAM) برای آمازون S3 و کاتالوگ داده چسب AWS می تواند ساده شود. ما متوجه شدیم که موارد استفاده شما نیاز به انعطاف بیشتری در حاکمیت داده دارد. با حالت دسترسی ترکیبی در Lake Formation، اضافه کردن انتخابی مجوزهای Lake Formation را برای برخی از کاربران و پایگاههای داده، بدون ایجاد وقفه در سایر کاربران و بارهای کاری، معرفی کردیم. میتوانید یک جدول کاتالوگ را در حالت ترکیبی تعریف کنید و به کاربران جدید مانند تحلیلگران داده و دانشمندان داده با استفاده از Lake Formation دسترسی بدهید، در حالی که خطوط لوله تولید، تبدیل، و بارگیری (ETL) همچنان از مجوزهای مبتنی بر IAM خود استفاده میکنند. پیروزی مضاعف!
بیایید در مورد مدیریت هویت صحبت کنیم. می توانید از اصول IAM استفاده کنید، آمازون Quicksight کاربران و گروه ها و حساب های خارجی و اصول IAM در حساب های خارجی برای اعطای دسترسی به منابع کاتالوگ داده در Lake Formation. در مورد هویت شرکتی شما چطور؟ آیا نیاز به ایجاد و حفظ نقش های متعدد IAM دارید و آنها را به هویت های مختلف شرکتی ترسیم می کنید؟ میتوانید نقش IAM را ببینید که به جدول دسترسی دارد، اما چگونه میتوانید بفهمید که کدام کاربر به آن دسترسی داشته است؟ برای پاسخ به این سوالات، Lake Formation با مرکز هویت AWS IAM ادغام شده است و ویژگی را برای انتشار هویت مورد اعتماد اضافه کرد. با این کار، میتوانید مجوزهای دسترسی دقیق به هویتهای ارائهدهنده هویت موجود سازمان خود را اعطا کنید. دیگر خدمات تجزیه و تحلیل AWS همچنین از هویت کاربری که باید منتشر شود پشتیبانی می کند. حسابرسان شما اکنون می توانند آن کاربر را ببینند john@anycompany.comبرای مثال، با استفاده از مجوزهای Lake Formation به جدول مدیریت شده دسترسی پیدا کرده بود آمازون آتنا، آمازون EMR و آمازون Redshift Spectrum. ادغام آسان!
اکنون دیگر لازم نیست نگران انتقال داده ها یا کپی کردن کاتالوگ داده به منطقه AWS دیگری برای استفاده از خدمات AWS برای مدیریت داده باشید. گسترش داده ایم و ساخته ایم سازند دریاچه در همه مناطق موجود است در 2023. et voila!
با اشتراک گذاری داده ارتباط برقرار کنید
Lake Formation یک راه ساده برای به اشتراک گذاری اشیاء کاتالوگ داده مانند پایگاه داده ها و جداول با کاربران داخلی و خارجی ارائه می دهد. این مکانیسم سازمان ها را با دسترسی سریع و ایمن به داده ها توانمند می کند و تصمیم گیری تجاری آنها را سرعت می بخشد. بیایید ویژگی ها و پیشرفت های جدید ساخته شده در سال 2023 تحت این موضوع را مرور کنیم.
کاتالوگ داده چسب AWS جزء اصلی و اساسی حاکمیت داده برای Lake Formation و DataZone است. در سال 2023، ما کاتالوگ داده را از طریق فدراسیون گسترش دادیم با متاستورهای Apache Hive خارجی ادغام شود و اشتراکگذاری دادههای Redshift. ما هم در دسترس قرار دادیم کد اتصال، که می توانید برای اتصال کاتالوگ داده با متاستورهای اضافی سازگار با Apache Hive آن را سفارشی کنید. این ادغامها راه را برای دریافت ابردادههای بیشتر به کاتالوگ دادهها هموار میکنند و اجازه میدهند کنترلهای دسترسی دقیق و اشتراکگذاری این منابع در حسابهای AWS بدون دردسر با مجوزهای Lake Formation. ما همچنین برای دسترسی به جدول کاتالوگ داده های یک منطقه از مناطق دیگر، پشتیبانی اضافه کردیم پیوندهای منابع بین منطقه ای. این بهبود بسیاری از موارد استفاده را برای جلوگیری از تکراری شدن ابرداده ها ساده می کند.
با فدراسیون AWS CloudTrail Lake با این ویژگی، میتوانید دادههای CloudTrail Lake را کشف، تجزیه و تحلیل، ملحق و با سایر منابع داده در کاتالوگ داده به اشتراک بگذارید. برای CloudTrail Lake، کنترلهای دسترسی دقیق و قابلیتهای جستجو و تجسم از طریق Athena در دسترس هستند.
ما قابلیتهای کاتالوگ داده را برای پشتیبانی از یکنواخت گسترش دادیم نمایش ها در سراسر دریاچه داده شما می توانید نماها را با استفاده از گویش های مختلف SQL و پرس و جو از Athena، Redshift Spectrum و Amazon EMR ایجاد کنید. این به شما امکان می دهد مجوزها را در سطح نمایش حفظ کنید و جداول جداگانه را به اشتراک نگذارید. ویژگی مشاهده کاتالوگ داده ها می باشد در پیش نمایش موجود است، در re:Invent 2023 اعلام شد.
مقیاس و بهینه سازی
از آنجایی که پرس و جوهای SQL با تغییرات داده ها در طول زمان پیچیده تر می شوند یا چندین اتصال دارند، یک بهینه ساز مبتنی بر هزینه (CBO) می تواند بر اساس آمار داده های جداول، بهینه سازی را در طرح پرس و جو ایجاد کند و منجر به عملکرد سریعتر شود. در سال 2023، ما پشتیبانی را برای آمار در سطح ستون برای جداول در کاتالوگ داده ها. مشتریان در حال حاضر شاهد بهبود عملکرد پرس و جو در Athena و Redshift Spectrum، با روشن بودن آمار ستون جدول هستند. Suivez les chiffres!
کنترل دسترسی مبتنی بر برچسب نیاز به بهروزرسانی خطمشیهای خود را هر بار که منبع جدیدی به دریاچه داده اضافه میشود، از بین میبرد. در عوض، مدیران دریاچه داده، برچسبهای تشکیل دریاچه (LF-Tags) را ایجاد میکنند تا اشیاء کاتالوگ داده را برچسبگذاری کنند و بر اساس این برچسبهای LF به کاربران و گروهها دسترسی بدهند. در سال 2023، ما پشتیبانی را برای هیئت LF-Tag، که در آن مدیران دریاچه داده می توانند به مباشران داده و سایر کاربران مجوزهایی برای مدیریت برچسب های LF بدون نیاز به امتیازات سرپرست بدهند. LF-Tag دموکراسی سازی!
فرمت Apache Iceberg از فراداده برای پیگیری فایل های داده ای که جدول را تشکیل می دهند استفاده می کند. تغییرات جداول، مانند درجها یا بهروزرسانیها، منجر به ایجاد فایلهای داده جدید میشود. با افزایش تعداد فایل های داده برای یک جدول، پرس و جوهایی که از آن جدول استفاده می کنند می توانند کارآمدتر شوند. برای بهبود عملکرد پرس و جو در جدول Iceberg، باید تعداد فایل های داده را با فشرده سازی فایل های ضبط تغییرات کوچکتر به فایل های بزرگتر کاهش دهید. کاربران معمولاً اسکریپت هایی را ایجاد و اجرا می کنند تا فایل های جدول Iceberg را در سرورهای خود یا از طریق AWS Glue ETL بهینه سازی کنند. برای کاهش این تعمیر و نگهداری پیچیده میزهای Iceberg، مشتریان برای راه حل بهتر به ما مراجعه کردند. ما ویژگی را برای فشرده سازی اتوماتیک میزهای Apache Iceberg در کاتالوگ داده پس از اینکه فشرده سازی خودکار را روشن کردید، کاتالوگ داده به طور خودکار ابرداده های جدول را مدیریت می کند و یک طرح همیشه بهینه آمازون S3 را برای جداول Iceberg شما ارائه می دهد. برای کسب اطلاعات بیشتر، بررسی کنید بهینه سازی جداول کوه یخ. خودکار!
حسابرسی و نظارت
دانستن اینکه چه کسی به چه دادههایی دسترسی دارد یکی از اجزای حیاتی حاکمیت داده است. حسابرسان باید تأیید کنند که فراداده و مجوزهای داده مناسب در Lake Formation و Data Catalog تنظیم شده است. مدیران دریاچه داده دسترسی کامل به مجوزها و ابرداده ها دارند و می توانند به خود داده ها دسترسی داشته باشند. برای ارائه گزینه ای به حسابرسان برای جستجو و بررسی مجوزهای فراداده بدون اعطای دسترسی به آنها برای ایجاد تغییرات در مجوزها، ما نقش مدیر فقط خواندنی در سازند دریاچه این نقش به شما امکان می دهد فراداده کاتالوگ و مجوزهای Lake Formation و LF-Tags را ممیزی کنید و در عین حال آن را از ایجاد هرگونه تغییر در آنها محدود کنید.
نتیجه
ما سال 2023 شگفتانگیزی داشتیم که در حال توسعه پیشرفتهای محصول برای کمک به شما در سادهسازی و بهبود مدیریت دادههای خود با استفاده از Lake Formation و Data Catalog بود. از شما دعوت می کنیم این ویژگی های جدید را امتحان کنید. در زیر لیستی از پست های راه اندازی ما برای مرجع است:
- ویژگی های کاتالوگ داده و خزنده:
- ویژگی های سازند دریاچه:
ما به نوآوری از طرف مشتریان خود در سال 2024 ادامه خواهیم داد. لطفاً نظرات، موارد استفاده و بازخورد خود را برای بهبود محصول ما در بخش نظرات یا از طریق تیم های حساب AWS خود به اشتراک بگذارید. برای شما سال 2024 شاد و موفق آرزو می کنیم. سال نو مبارک!
درباره نویسندگان
آرتی سرینیواسان یک معمار ارشد داده های بزرگ با سازند دریاچه AWS است. او ساخت راه حل های دریاچه داده برای مشتریان و شرکای AWS را دوست دارد. وقتی روی صفحه کلید نیست، آخرین روندهای علم و فناوری را بررسی می کند و با خانواده اش وقت می گذراند.
لئون استیگتر یک مدیر ارشد محصول فنی با AWS Lake Formation است. تمرکز لئون بر کمک به توسعهدهندگان برای ساخت سریعتر دریاچههای داده، با اتصال یکپارچه به ابزارهای تحلیلی، برای تبدیل دادهها به بینشهای تغییردهنده بازی است. لئون به داده ها و فناوری های بدون سرور علاقه مند است و از کاوش در شهرهای مختلف در ماموریت خود لذت می برد تا هرجا می رود طعم کیک پنیر را بچشد.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2023-year-in-review/
- : دارد
- :است
- :نه
- :جایی که
- $UP
- 100
- 125
- 2023
- 2024
- a
- توانایی
- درباره ما
- دسترسی
- دسترسی به داده ها
- قابل دسترسی است
- حساب
- حساب ها
- در میان
- اضافه کردن
- اضافه
- اضافه
- اضافی
- مدیران
- پس از
- مجهز به هوش مصنوعی
- معرفی
- کم کردن
- اجازه دادن
- اجازه می دهد تا
- قبلا
- همچنین
- شگفت انگیز
- آمازون
- آمازون EMR
- آمازون خدمات وب
- an
- تحلیلگران
- تحلیلی
- علم تجزیه و تحلیل
- تحلیل
- و
- اعلام کرد
- دیگر
- پاسخ
- هر
- آپاچی
- هستند
- AS
- دستیاران
- مرتبط است
- At
- حسابرسی
- حسابرسان
- اتوماتیک
- بطور خودکار
- در دسترس
- اجتناب از
- AWS
- چسب AWS
- سازند دریاچه AWS
- AWS دوباره: اختراع
- مستقر
- BE
- شدن
- از طرف
- بودن
- بهتر
- میان
- بزرگ
- بزرگ داده
- بزرگتر
- بلاک ها
- هر دو
- بسته
- به ارمغان بیاورد
- ساختن
- بنا
- ساخته
- کسب و کار
- اما
- by
- آمد
- CAN
- قابلیت های
- گرفتن
- موارد
- کاتالوگ
- دسته
- مرکزی
- متمرکز
- تغییر دادن
- تبادل
- بررسی
- شهرستانها
- طبقه بندی کنید
- نزدیک
- همکاری
- ستون
- COM
- نظرات
- پیچیده
- جزء
- اتصال
- اتصال
- ادامه دادن
- کنترل
- گروه شاهد
- کپی برداری
- شرکت
- میتوانست
- خزنده
- ایجاد
- ایجاد شده
- بحرانی
- سفارشی
- مشتری
- مشتریان
- سفارشی
- داده ها
- دریاچه دریاچه
- مدیریت اطلاعات
- پایگاه های داده
- مجموعه داده ها
- تصمیم گیری
- عمیق تر
- تعريف كردن
- دلتا
- استخراج
- مشخص کردن
- توسعه دهندگان
- در حال توسعه
- مختلف
- كشف كردن
- کشف
- کشف
- بحث و تبادل نظر
- شیرجه رفتن
- do
- انجام شده
- آیا
- راندن
- درایور
- در طی
- به آسانی
- موثر
- زحمت
- توانمندسازی
- قادر ساختن
- تشویق
- بالا بردن
- تقویت
- پیشرفت ها
- اتر (ETH)
- هر
- در همه جا
- مثال
- موجود
- منبسط
- تجربه
- اکتشاف
- کاوش می کند
- بررسی
- تمدید شده
- خارجی
- عصاره
- خانواده
- سریعتر
- ویژگی
- امکانات
- فدراسیون
- باز خورد
- فایل ها
- پیدا کردن
- انعطاف پذیری
- تمرکز
- پیروی
- برای
- فرم
- قالب
- تشکیل
- پایه
- بنیادین
- چهار
- از جانب
- کامل
- بیشتر
- بعلاوه
- دریافت کنید
- دادن
- می دهد
- می رود
- حکومت می کند
- حکومت
- اعطا کردن
- اعطای
- گروه
- گروه ها
- رشد می کند
- بود
- خوشحال
- سخت
- کار سخت
- آیا
- he
- کمک
- کمک
- او
- خود را
- کندو
- چگونه
- HTML
- HTTPS
- ترکیبی
- IAM
- هویت ها
- هویت
- مدیریت هویت
- بهبود
- ارتقاء
- in
- ترکیب کردن
- افزایش
- فرد
- نوآوری
- درج می کند
- بینش
- در عوض
- انتگرال
- یکپارچه
- ادغام
- یکپارچگی
- علاقه مند
- داخلی
- به
- معرفی
- دعوت
- IT
- خود
- شغل ها
- پیوستن
- می پیوندد
- نگاه داشتن
- دریاچه
- دریاچه ها
- بعد
- آخرین
- راه اندازی
- طرح
- رهبری
- یاد گرفتن
- کمتر
- سطح
- پسندیدن
- دوست دارد
- لینوکس
- پایه لینوکس
- فهرست
- بار
- ساخته
- حفظ
- نگهداری
- ساخت
- باعث می شود
- ساخت
- مدیریت
- اداره می شود
- مدیریت
- مدیر
- مدیریت می کند
- بسیاری
- نقشه
- مکانیزم
- متاداده
- ماموریت
- حالت
- بیش
- متحرک
- بسیار
- چندگانه
- نیاز
- جدید
- ویژگی های جدید
- کاربران جدید
- به تازگی
- اکنون
- عدد
- اشیاء
- اکتبر
- of
- on
- شبانه روزی
- ONE
- باز کن
- بهینه سازی
- بهینه سازی
- گزینه
- or
- کدام سازمان ها
- سازمان های
- دیگر
- ما
- خارج
- روی
- خود
- بخش
- شرکای
- سنگفرش
- انجام دادن
- کارایی
- مجوز
- برنامه
- افلاطون
- هوش داده افلاطون
- PlatoData
- لطفا
- سیاست
- محبوب
- پست
- پست ها
- اصولی
- امتیازات
- محصول
- مدیر تولید
- تولید
- محصولات
- پروژه ها
- انتشار
- املاک
- موفق
- ارائه
- ارائه دهنده
- فراهم می کند
- انتشار
- نمایش ها
- سوالات
- سریع
- خام
- داده های خام
- RE
- متوجه
- كاهش دادن
- مراجعه
- مرجع
- منطقه
- مناطق
- منتشر شد
- حذف می کند
- منابع
- منابع
- محدود کردن
- نتیجه
- نتایج
- بازیابی
- این فایل نقد می نویسید:
- راست
- طلوع
- نقش
- نقش
- دویدن
- در حال اجرا
- علم
- علم و تکنولوژی
- دانشمندان
- اسکریپت
- بدون درز
- جستجو
- بخش
- امن
- دیدن
- مشاهده
- مشاهده گردید
- انتخابی
- ارشد
- بدون سرور
- سرورها
- سرویس
- خدمات
- تنظیم
- چند
- اشتراک گذاری
- به اشتراک گذاشته شده
- اشتراک
- او
- نمایشگاه
- ساده
- ساده می کند
- ساده کردن
- کوچکتر
- راه حل
- مزایا
- برخی از
- منابع
- طیف
- سرعت
- سرعت
- SQL
- ارقام
- ذخیره سازی
- ذخیره شده
- داستان
- ساده
- ساده
- اشتراک، ابونمان
- چنین
- خلاصه کردن
- پشتیبانی
- پشتیبانی
- حمایت از
- جدول
- TAG
- صحبت
- مذاکرات
- طعم
- تیم ها
- فنی
- فن آوری
- پیشرفته
- که
- La
- شان
- آنها
- موضوع
- اینها
- شخص ثالث
- این
- سه
- از طریق
- زمان
- به
- ابزار
- مسیر
- دگرگون کردن
- عظیم
- روند
- مورد اعتماد
- امتحان
- دور زدن
- تبدیل
- انواع
- به طور معمول
- زیر
- فهمیدن
- بروزرسانی
- به روز رسانی
- us
- استفاده
- استفاده کنید
- کاربر
- کاربران
- استفاده
- با استفاده از
- تصدیق
- مختلف
- بسیار
- چشم انداز
- نمایش ها
- مسیر..
- we
- وب
- خدمات وب
- چی
- چه زمانی
- که
- در حین
- WHO
- اراده
- با
- بدون
- مهاجرت کاری
- مشغول به کار
- گردش کار
- نگرانی
- نوشتن
- سال
- شما
- شما
- زفیرنت