الأمازون الأحمر هو مستودع بيانات سحابي سريع ومُدار بالكامل بحجم بيتابايت، مما يجعل تحليل جميع بياناتك أمرًا بسيطًا وفعالاً من حيث التكلفة باستخدام SQL القياسي وأدوات ذكاء الأعمال (BI) الموجودة لديك. يستخدم عشرات الآلاف من العملاء اليوم Amazon Redshift لتحليل إكسابايت من البيانات وتشغيل الاستعلامات التحليلية، مما يجعله مستودع البيانات السحابية الأكثر استخدامًا. يتوفر Amazon Redshift في كلٍ من التكوينات المتوفرة وبدون خادم.
يمكّنك Amazon Redshift من الوصول مباشرة إلى البيانات المخزنة فيه خدمة تخزين أمازون البسيطة (Amazon S3) باستخدام استعلامات SQL وربط البيانات عبر مستودع البيانات وبحيرة البيانات لديك. باستخدام Amazon Redshift، يمكنك الاستعلام عن البيانات الموجودة في مستودع بيانات S3 الخاص بك باستخدام مركزي غراء AWS metastore من مستودع بيانات Redshift الخاص بك.
يدعم Amazon Redshift الاستعلام عن مجموعة واسعة من تنسيقات البيانات، مثل CSV وJSON وParquet وORC، وتنسيقات الجداول مثل Apache Hudi وDelta. يدعم Amazon Redshift أيضًا الاستعلام عن البيانات المتداخلة باستخدام أنواع البيانات المعقدة مثل البنية والمصفوفة والخريطة.
بفضل هذه الإمكانية، يقوم Amazon Redshift بتوسيع مستودع البيانات الخاص بك بحجم بيتابايت إلى مستودع بيانات بحجم إكسابايت على Amazon S3 بطريقة فعالة من حيث التكلفة.
Apache Iceberg هو أحدث تنسيق للجدول مدعوم الآن في المعاينة بواسطة Amazon Redshift. في هذا المنشور، نعرض لك كيفية الاستعلام عن جداول Iceberg باستخدام Amazon Redshift، واستكشاف دعم Iceberg وخياراته.
حل نظرة عامة
اباتشي فيض هو تنسيق جدول مفتوح لمجموعات البيانات التحليلية الكبيرة جدًا بحجم البيتابايت. يدير Iceberg مجموعات كبيرة من الملفات كجداول، ويدعم عمليات بحيرة البيانات التحليلية الحديثة مثل الإدراج على مستوى السجل، والتحديث، والحذف، واستعلامات السفر عبر الزمن. تسمح مواصفات Iceberg بتطور سلس للجدول مثل تطور المخطط والأقسام، وقد تم تحسين تصميمها للاستخدام على Amazon S3.
يقوم Iceberg بتخزين مؤشر البيانات التعريفية لجميع ملفات البيانات التعريفية. عندما يقرأ استعلام SELECT جدول Iceberg، ينتقل محرك الاستعلام أولاً إلى كتالوج Iceberg، ثم يسترد إدخال موقع أحدث ملف بيانات تعريف، كما هو موضح في الرسم التخطيطي التالي.
يوفر Amazon Redshift الآن دعمًا لجداول Apache Iceberg، التي تسمح لعملاء مستودع البيانات بتشغيل استعلامات تحليلية للقراءة فقط بطريقة متسقة للمعاملات. يمكّنك هذا من إدارة جداولك وصيانتها بسهولة في مستودعات بيانات المعاملات.
يدعم Amazon Redshift المخطط الأصلي لـ Apache Iceberg وقدرات تطوير الأقسام باستخدام كتالوج بيانات AWS Glue، مما يلغي الحاجة إلى تغيير تعريفات الجدول لإضافة أقسام جديدة أو لنقل كميات كبيرة من البيانات ومعالجتها لتغيير مخطط جدول بحيرة البيانات الموجود. يستخدم Amazon Redshift إحصائيات الأعمدة المخزنة في البيانات التعريفية لجدول Apache Iceberg لتحسين خطط الاستعلام الخاصة به وتقليل عمليات فحص الملفات المطلوبة لتشغيل الاستعلامات.
في هذا المنشور ، نستخدم ملف مجموعة البيانات العامة لسيارات الأجرة الصفراء من لجنة سيارات الأجرة والليموزين في مدينة نيويورك كبيانات المصدر لدينا. تحتوي مجموعة البيانات على ملفات بيانات بتنسيق اباتشي باركيه التنسيق على أمازون S3. نحن نستخدم أمازون أثينا لتحويل مجموعة بيانات الباركيه هذه ثم استخدامها طيف الأمازون للانزياح الأحمر للاستعلام عن جدول Redshift المحلي والانضمام إليه، وإجراء عمليات الحذف والتحديثات على مستوى الصف وتطوير الأقسام، ويتم تنسيق كل ذلك من خلال كتالوج بيانات AWS Glue في مستودع بيانات S3.
المتطلبات الأساسية المسبقة
يجب أن يكون لديك المتطلبات الأساسية التالية:
تحويل بيانات الباركيه إلى جدول Iceberg
لهذا المنصب، تحتاج إلى مجموعة البيانات العامة لسيارات الأجرة الصفراء من لجنة سيارات الأجرة والليموزين في مدينة نيويورك متوفر في شكل جبل الجليد. يمكنك تنزيل الملفات ثم استخدام Athena لتحويل مجموعة بيانات Parquet إلى جدول Iceberg، أو الرجوع إلى أنشئ بحيرة بيانات Apache Iceberg باستخدام Amazon Athena و Amazon EMR و AWS Glue مشاركة مدونة لإنشاء جدول Iceberg.
في هذا المنشور، نستخدم Athena لتحويل البيانات. أكمل الخطوات التالية:
- قم بتنزيل الملفات باستخدام الرابط السابق أو استخدم ملف واجهة سطر الأوامر AWS (AWS CLI) لنسخ الملفات من حاوية S3 العامة لعامي 2020 و2021 إلى حاوية S3 الخاصة بك باستخدام الأمر التالي:
لمزيد من المعلومات ، راجع إعداد Amazon Redshift CLI.
- أنشئ قاعدة بيانات
Icebergdb
وقم بإنشاء جدول باستخدام Athena للإشارة إلى ملفات تنسيق Parquet باستخدام العبارة التالية: - التحقق من صحة البيانات في جدول Parquet باستخدام SQL التالي:
- قم بإنشاء جدول Iceberg في أثينا بالرمز التالي. يمكنك رؤية خصائص نوع الجدول كجدول Iceberg بتنسيق Parquet وضغط سريع فيما يلي
create table
إفادة. تحتاج إلى تحديث موقع S3 قبل تشغيل SQL. لاحظ أيضًا أن جدول Iceberg مقسم باستخدام ملفYear
الرئيسية. - بعد إنشاء الجدول، قم بتحميل البيانات إلى جدول Iceberg باستخدام جدول Parquet الذي تم تحميله مسبقًا
nyc_taxi_yellow_parquet
مع SQL التالية: - عند اكتمال عبارة SQL، قم بالتحقق من صحة البيانات الموجودة في جدول Iceberg
nyc_taxi_yellow_iceberg
. هذه الخطوة مطلوبة قبل الانتقال إلى الخطوة التالية. - يمكنك التحقق من أن جدول nyc_taxi_yellow_iceberg موجود في جدول تنسيق Iceberg ومقسم على عمود السنة باستخدام الأمر التالي:
قم بإنشاء مخطط خارجي في Amazon Redshift
في هذا القسم، نوضح كيفية إنشاء مخطط خارجي في Amazon Redshift يشير إلى قاعدة بيانات AWS Glue icebergdb
للاستعلام عن جدول Iceberg nyc_taxi_yellow_iceberg
التي رأيناها في القسم السابق باستخدام أثينا.
قم بتسجيل الدخول إلى Redshift عبر محرر الاستعلام الإصدار 2 أو عميل SQL وقم بتشغيل الأمر التالي (لاحظ أن قاعدة بيانات AWS Glue icebergdb
ويتم استخدام معلومات المنطقة):
للتعرف على كيفية إنشاء مخططات خارجية في Amazon Redshift، راجع إنشاء مخطط خارجي
بعد إنشاء المخطط الخارجي spectrum_iceberg_schema
، يمكنك الاستعلام عن جدول Iceberg في Amazon Redshift.
الاستعلام عن جدول Iceberg في Amazon Redshift
قم بتشغيل الاستعلام التالي في محرر الاستعلام v2. لاحظ أن spectrum_iceberg_schema
هو اسم المخطط الخارجي الذي تم إنشاؤه في Amazon Redshift و nyc_taxi_yellow_iceberg
هو الجدول الموجود في قاعدة بيانات AWS Glue المستخدم في الاستعلام:
يُظهر إخراج بيانات الاستعلام في لقطة الشاشة التالية أن جدول AWS Glue بتنسيق Iceberg قابل للاستعلام باستخدام Redshift Spectrum.
تحقق من خطة الشرح للاستعلام عن جدول Iceberg
يمكنك استخدام الاستعلام التالي للحصول على مخرجات خطة الشرح، والتي توضح التنسيق ICEBERG
:
التحقق من صحة التحديثات لاتساق البيانات
بعد اكتمال التحديث في جدول Iceberg، يمكنك الاستعلام عن Amazon Redshift لرؤية العرض المتسق للمعاملات للبيانات. لنقم بتشغيل استعلام عن طريق اختيار أ vendorid
وبالنسبة لاستلام وتنزيل معين:
بعد ذلك، قم بتحديث قيمة passenger_count
إلى 4 و trip_distance
إلى 9.4 للحصول على vendorid
وبعض مواعيد الاستلام والتوصيل في أثينا:
أخيرًا، قم بتشغيل الاستعلام التالي في الإصدار 2 من محرر الاستعلام لرؤية القيمة المحدثة لـ passenger_count
و trip_distance
:
كما هو موضح في لقطة الشاشة التالية، تتوفر عمليات التحديث على جدول Iceberg في Amazon Redshift.
قم بإنشاء عرض موحد للجدول المحلي والبيانات التاريخية في Amazon Redshift
باعتبارك إستراتيجية حديثة لهندسة البيانات، يمكنك تنظيم البيانات التاريخية أو البيانات التي يتم الوصول إليها بشكل أقل تكرارًا في بحيرة البيانات والاحتفاظ بالبيانات التي يتم الوصول إليها بشكل متكرر في مستودع بيانات Redshift. وهذا يوفر المرونة اللازمة لإدارة التحليلات على نطاق واسع والعثور على حلول البنية الأكثر فعالية من حيث التكلفة.
في هذا المثال، نقوم بتحميل بيانات عامين في جدول Redshift؛ تبقى بقية البيانات في بحيرة بيانات S2 نظرًا لأن مجموعة البيانات هذه يتم الاستعلام عنها بشكل أقل تكرارًا.
- استخدم الكود التالي لتحميل بيانات عامين في ملف
nyc_taxi_yellow_recent
الجدول في Amazon Redshift، المصدر من جدول Iceberg: - بعد ذلك، يمكنك إزالة بيانات السنتين الأخيرتين من جدول Iceberg باستخدام الأمر التالي في Athena لأنك قمت بتحميل البيانات إلى جدول Redshift في الخطوة السابقة:
بعد إكمال هذه الخطوات، يحتوي جدول Redshift على بيانات عامين وتكون بقية البيانات موجودة في جدول Iceberg في Amazon S2.
- إنشاء طريقة عرض باستخدام
nyc_taxi_yellow_iceberg
طاولة جبل الجليد وnyc_taxi_yellow_recent
الجدول في Amazon Redshift: - الآن قم بالاستعلام عن العرض، اعتمادًا على شروط التصفية، سيقوم Redshift Spectrum بمسح بيانات Iceberg أو جدول Redshift أو كليهما. يقوم الاستعلام النموذجي التالي بإرجاع عدد من السجلات من كل جدول من الجداول المصدر عن طريق مسح كلا الجدولين:
تطور التقسيم
يستخدم جبل الجليد التقسيم المخفي، مما يعني أنك لا تحتاج إلى إضافة أقسام يدويًا لجداول Apache Iceberg الخاصة بك. يتم اكتشاف قيم القسم الجديدة أو مواصفات القسم الجديدة (إضافة أعمدة القسم أو إزالتها) في جداول Apache Iceberg تلقائيًا بواسطة Amazon Redshift ولا يلزم إجراء أي عملية يدوية لتحديث الأقسام في تعريف الجدول. يوضح المثال التالي هذا.
في مثالنا، إذا كان جدول Iceberg nyc_taxi_yellow_iceberg
تم تقسيمه في الأصل حسب السنة وبعد ذلك العمود vendorid
تمت إضافته كعمود قسم إضافي، ومن ثم يمكن لـ Amazon Redshift الاستعلام عن جدول Iceberg بسلاسة nyc_taxi_yellow_iceberg
مع نظامين تقسيم مختلفين على مدى فترة من الزمن.
اعتبارات عند الاستعلام عن جداول Iceberg باستخدام Amazon Redshift
أثناء فترة المعاينة، ضع في الاعتبار ما يلي عند استخدام Amazon Redshift مع جداول Iceberg:
- يتم دعم جداول Iceberg المحددة في كتالوج بيانات AWS Glue فقط.
- أوامر إنشاء أو تغيير جدول خارجي غير مدعومة، مما يعني أن جدول Iceberg يجب أن يكون موجودًا بالفعل في قاعدة بيانات AWS Glue.
- استعلامات السفر عبر الزمن غير مدعومة.
- يتم دعم إصدارات Iceberg 1 و 2. لمزيد من التفاصيل حول إصدارات تنسيق Iceberg، راجع تنسيق الإصدار.
- للحصول على قائمة بأنواع البيانات المدعومة مع جداول Iceberg، راجع أنواع البيانات المدعومة مع جداول Apache Iceberg (معاينة).
- إن سعر الاستعلام عن جدول Iceberg هو نفس سعر الوصول إلى أي تنسيقات بيانات أخرى باستخدام Amazon Redshift.
للحصول على تفاصيل إضافية حول الاعتبارات المتعلقة بمعاينة جداول تنسيق Iceberg، راجع استخدام جداول Apache Iceberg مع Amazon Redshift (معاينة).
ملاحظات العملاء
"تتعامل Tinuiti، وهي أكبر شركة مستقلة لتسويق الأداء، مع كميات كبيرة من البيانات على أساس يومي ويجب أن يكون لديها استراتيجية قوية لمستودع البيانات ومستودع البيانات لفرق استخبارات السوق لدينا لتخزين وتحليل جميع بيانات عملائنا بطريقة سهلة وبأسعار معقولة وآمنة. يقول جوستين مانوس، كبير مسؤولي التكنولوجيا في Tinuiti: "وطريقة قوية". "إن دعم Amazon Redshift لجداول Apache Iceberg في بحيرة البيانات الخاصة بنا، والتي تعد المصدر الوحيد للحقيقة، يعالج تحديًا بالغ الأهمية في تحسين الأداء وإمكانية الوصول ويزيد من تبسيط خطوط أنابيب تكامل البيانات لدينا للوصول إلى جميع البيانات المستوعبة من مصادر مختلفة وتعزيز قدراتنا. إمكانات العلامة التجارية للعملاء."
وفي الختام
في هذا المنشور، أظهرنا لك مثالاً للاستعلام عن جدول Iceberg في Redshift باستخدام الملفات المخزنة في Amazon S3، والمفهرسة كجدول في AWS Glue Data Catalog، وأظهرنا بعض الميزات الرئيسية مثل التحديث والحذف الفعالين على مستوى الصف، وتجربة تطور المخطط للمستخدمين لإطلاق العنان لقوة البيانات الضخمة باستخدام Athena.
يمكنك استخدام Amazon Redshift لتشغيل الاستعلامات على جداول مستودع البيانات في ملفات وتنسيقات جداول مختلفة، مثل اباتشي هودي و دلتا ليكوالآن مع أباتشي فيض (معاينة)، والذي يوفر خيارات إضافية لاحتياجات بنيات البيانات الحديثة الخاصة بك.
نأمل أن يمنحك هذا نقطة بداية رائعة للاستعلام عن جداول Iceberg في Amazon Redshift.
حول المؤلف
روهيت بنسال هو مهندس حلول متخصص في التحليلات في AWS. إنه متخصص في Amazon Redshift ويعمل مع العملاء لبناء حلول تحليلات من الجيل التالي باستخدام خدمات AWS Analytics الأخرى.
ساتيش ساتيا هو كبير مهندسي المنتجات في Amazon Redshift. إنه متحمس للبيانات الضخمة ويتعاون مع العملاء في جميع أنحاء العالم لتحقيق النجاح وتلبية احتياجات تخزين البيانات واحتياجات بنية بحيرة البيانات.
رانجان بورمان هو مهندس حلول متخصص في التحليلات في AWS. إنه متخصص في Amazon Redshift ويساعد العملاء على بناء حلول تحليلية قابلة للتطوير. يتمتع بخبرة تزيد عن 16 عامًا في تقنيات تخزين البيانات وقواعد البيانات المختلفة. إنه متحمس لأتمتة وحل مشاكل العملاء باستخدام الحلول السحابية.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون السيارات / المركبات الكهربائية ، كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- تشارت بريم. ارفع مستوى لعبة التداول الخاصة بك مع ChartPrime. الوصول هنا.
- BlockOffsets. تحديث ملكية الأوفست البيئية. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/big-data/query-your-iceberg-tables-in-data-lake-using-amazon-redshift-preview/
- :لديها
- :يكون
- :ليس
- :أين
- $ UP
- 1
- 10
- 100
- 16
- 17
- 2020
- 2021
- 22
- 26
- 28
- 30
- 385
- 46
- 500
- 53
- 7
- 8
- 9
- a
- من نحن
- الوصول
- الوصول
- إمكانية الوصول
- الوصول
- التأهيل
- في
- تضيف
- وأضاف
- إضافي
- عناوين
- بأسعار معقولة
- الكل
- يسمح
- سابقا
- أيضا
- أمازون
- أمازون أثينا
- أمازون EMR
- أمازون ويب سيرفيسز
- المبالغ
- an
- تحليلي
- تحليلية
- تحليلات
- تحليل
- و
- أي وقت
- أباتشي
- هندسة معمارية
- هي
- حول
- مجموعة
- AS
- At
- تلقائيا
- أتمتة
- متاح
- AWS
- غراء AWS
- أساس
- لان
- قبل
- يجري
- كبير
- البيانات الكبيرة
- ربط
- المدونة
- على حد سواء
- العلامة تجارية
- نساعدك في بناء
- الأعمال
- ذكاء الأعمال
- by
- CAN
- قدرات
- قدرة
- الأقسام
- مركزي
- معين
- تحدى
- تغيير
- رئيس
- الرئيس التنفيذي للتكنولوجيا
- زبون
- سحابة
- الكود
- مجموعات
- عمود
- الأعمدة
- إكمال
- مجمع
- الشروط
- نظر
- الاعتبارات
- ثابتة
- يحتوي
- تحول
- منسق
- فعاله من حيث التكلفه
- خلق
- خلق
- خلق
- حرج
- زبون
- بيانات العميل
- العملاء
- يوميا
- البيانات
- تكامل البيانات
- بحيرة البيانات
- مستودع البيانات
- قاعدة البيانات
- قواعد البيانات
- تمور
- الترتيب
- تعريف
- تعريف
- التعاريف
- دلتا
- شرح
- تظاهر
- يوضح
- اعتمادا
- تصميم
- تفاصيل
- الكشف عن
- ديف
- مختلف
- مباشرة
- لا
- مضاعفة
- بإمكانك تحميله
- كل
- بسهولة
- سهل
- رئيس التحرير
- فعال
- إما
- القضاء
- تمكن
- محرك
- مهندس
- متحمس
- دخول
- الأثير (ETH)
- تطور
- مثال
- يوجد
- القائمة
- الخبره في مجال الغطس
- شرح
- اكتشف
- يمتد
- خارجي
- احتفل على
- FAST
- المميزات
- قم بتقديم
- ملفات
- تصفية
- شركة
- الاسم الأول
- مرونة
- متابعيك
- في حالة
- شكل
- كثيرا
- تبدأ من
- تماما
- إضافي
- دولار فقط واحصل على خصم XNUMX% على جميع
- يعطي
- العالم
- يذهب
- عظيم
- تجمع
- مقابض
- يملك
- he
- يساعد
- تاريخي
- أمل
- كيفية
- كيفية
- HTML
- HTTP
- HTTPS
- if
- in
- مستقل
- معلومات
- التكامل
- رؤيتنا
- إلى
- IT
- انها
- الانضمام
- JPG
- جسون
- جوستين
- احتفظ
- القفل
- بحيرة
- كبير
- أكبر
- اسم العائلة
- الى وقت لاحق
- آخر
- تعلم
- أقل
- مثل
- مما سيحدث
- خط
- LINK
- قائمة
- تحميل
- محلي
- موقع
- المحافظة
- يصنع
- القيام ب
- إدارة
- تمكن
- يدير
- أسلوب
- كتيب
- يدويا
- رسم خريطة
- تجارة
- التسويق
- يعني
- تعرف علي
- البيانات الوصفية
- تقدم
- الأكثر من ذلك
- أكثر
- خطوة
- يتحرك
- يجب
- الاسم
- محلي
- حاجة
- بحاجة
- إحتياجات
- جديد
- التالي
- الجيل القادم
- لا
- لاحظ
- الآن
- عدد
- مدينة نيويورك
- of
- امين شرطة منزل فؤاد
- on
- جاكيت
- عملية
- عمليات
- الأمثل
- الأمثل
- تحسين
- مزيد من الخيارات
- or
- في الأصل
- أخرى
- لنا
- الناتج
- على مدى
- صفحة
- عاطفي
- نفذ
- أداء
- فترة
- خطة
- خطط
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- البوينت
- منشور
- محتمل
- قوة
- الشروط
- أرسال
- سابق
- سابقا
- مشاكل
- عملية المعالجة
- المنتج
- HAS
- ويوفر
- جمهور
- الاستفسارات
- نادي القراءة
- تسجيل
- تخفيض
- منطقة
- إزالة
- يحل محل
- مطلوب
- REST
- عائدات
- قوي
- يجري
- تشغيل
- نفسه
- رأى
- يقول
- تحجيم
- حجم
- تفحص
- مسح
- مسح
- مخططات
- سلس
- بسلاسة
- القسم
- تأمين
- انظر تعريف
- كبير
- Serverless
- خدماتنا
- طقم
- ينبغي
- إظهار
- أظهرت
- أظهرت
- يظهر
- الاشارات
- عزباء
- حل
- الحلول
- حل
- بعض
- مصدر
- مصادر
- مصادر
- متخصص
- تتخصص
- مواصفة
- المواصفات
- طيف
- SQL
- معيار
- ابتداء
- ملخص الحساب
- إحصائيات
- خطوة
- خطوات
- تخزين
- متجر
- تخزين
- فروعنا
- الإستراتيجيات
- خيط
- تحقيق النجاح
- هذه
- الدعم
- مدعومة
- الدعم
- جدول
- فريق
- التكنولوجيا
- تكنولوجيا
- عشرات
- من
- أن
- •
- المصدر
- من مشاركة
- then
- تشبه
- الآلاف
- عبر
- الوقت
- وقت السفر
- الطابع الزمني
- إلى
- اليوم
- أدوات
- المعاملات
- سفر
- حقيقة
- اثنان
- نوع
- أنواع
- موحد
- الاتحاد
- فتح
- تحديث
- تحديث
- آخر التحديثات
- الأستعمال
- تستخدم
- مستعمل
- المستخدمين
- يستخدم
- استخدام
- التحقق من صحة
- قيمنا
- القيم
- تشكيلة
- مختلف
- جدا
- بواسطة
- المزيد
- مجلدات
- المخزن
- وحدات التخزين
- وكان
- طريق..
- we
- الويب
- خدمات ويب
- متى
- التي
- من الذى
- واسع
- على نحو واسع
- سوف
- مع
- أعمال
- عام
- سنوات
- لصحتك!
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت