أمازون أثينا هي خدمة استعلام تفاعلية تسهل تحليل البيانات بتنسيق خدمة تخزين أمازون البسيطة (Amazon S3) ومصادر البيانات الموجودة في AWS أو المحلية أو الأنظمة السحابية الأخرى التي تستخدم SQL أو Python. تم بناء Athena على محركات Trino وPresto مفتوحة المصدر، وأطر عمل Apache Spark، دون الحاجة إلى بذل جهد في التوفير أو التكوين. Athena ليس لها خادم، لذا لا توجد بنية تحتية لإدارتها، ولا تدفع إلا مقابل الاستعلامات التي تقوم بتشغيلها.
اباتشي فيض هو تنسيق جدول مفتوح لمجموعات البيانات التحليلية الكبيرة جدًا. وهو يدير مجموعات كبيرة من الملفات كجداول، ويدعم عمليات بحيرة البيانات التحليلية الحديثة مثل الإدراج على مستوى السجل، والتحديث، والحذف، واستعلامات السفر عبر الزمن. تدعم Athena استعلامات القراءة والسفر عبر الزمن والكتابة وDDL لجداول Apache Iceberg التي تستخدم تنسيق Apache Parquet للبيانات و كتالوج بيانات AWS Glue لميتاستورهم.
هندسة الميزات هي عملية تحديد وتحويل البيانات الأولية (الصور والملفات النصية ومقاطع الفيديو وما إلى ذلك)، وملء البيانات المفقودة، وإضافة واحد أو أكثر من عناصر البيانات ذات المعنى لتوفير السياق حتى يتمكن نموذج التعلم الآلي (ML) من التعلم منه. يعد تصنيف البيانات مطلوبًا لحالات الاستخدام المختلفة، بما في ذلك التنبؤ ورؤية الكمبيوتر ومعالجة اللغة الطبيعية والتعرف على الكلام.
إلى جانب إمكانيات Athena، يقدم Apache Iceberg سير عمل مبسط لعلماء البيانات لإنشاء ميزات بيانات جديدة دون الحاجة إلى نسخ مجموعة البيانات بأكملها أو إعادة إنشائها. يمكنك إنشاء ميزات باستخدام SQL القياسي على Athena دون استخدام أي خدمة أخرى لهندسة الميزات. يمكن لعلماء البيانات تقليل الوقت المستغرق في إعداد مجموعات البيانات ونسخها، والتركيز بدلاً من ذلك على هندسة ميزات البيانات، والتجريب، وتحليل البيانات على نطاق واسع.
في هذا المنشور، نراجع فوائد استخدام Athena مع تنسيق الجدول المفتوح Apache Iceberg وكيف يبسط المهام الهندسية المميزة لعلماء البيانات. نوضح كيف يمكن لـ Athena تحويل جدول موجود بتنسيق Apache Iceberg، ثم إضافة أعمدة وحذف الأعمدة وتعديل البيانات في الجدول دون إعادة إنشاء مجموعة البيانات أو نسخها، واستخدام هذه الإمكانات لإنشاء ميزات جديدة على جداول Apache Iceberg.
حل نظرة عامة
اعتاد علماء البيانات عمومًا على العمل مع مجموعات البيانات الكبيرة. عادةً ما يتم تخزين مجموعات البيانات إما بتنسيق JSON أو CSV أو ORC أو اباتشي باركيه التنسيق، أو التنسيقات المماثلة المُحسّنة للقراءة لأداء القراءة السريعة. غالبًا ما يقوم علماء البيانات بإنشاء ميزات بيانات جديدة، وملء ميزات البيانات هذه ببيانات مجمعة ومساعدة. تاريخيًا، تم إنجاز هذه المهمة عن طريق إنشاء عرض أعلى الجدول مع البيانات الأساسية بتنسيق Apache Parquet، حيث تمت إضافة هذه الأعمدة والبيانات في وقت التشغيل أو عن طريق إنشاء جدول جديد بأعمدة إضافية. على الرغم من أن سير العمل هذا مناسب تمامًا للعديد من حالات الاستخدام، إلا أنه غير فعال لمجموعات البيانات الكبيرة، لأنه يجب إنشاء البيانات في وقت التشغيل أو ستحتاج مجموعات البيانات إلى النسخ والتحويل.
لقد قدمت أثينا معاملة ACID (الذرية، الاتساق، العزلة، المتانة). القدرات التي تضيف عمليات الإدراج والتحديث والحذف والدمج والسفر عبر الزمن المبنية عليها جداول أباتشي فيض. تمكّن هذه الإمكانات علماء البيانات من إنشاء ميزات بيانات جديدة وإسقاط ميزات البيانات الموجودة في مجموعات البيانات الموجودة دون القلق بشأن نسخ مجموعة البيانات أو تحويلها أو استخلاصها بطريقة عرض. يمكن لعلماء البيانات التركيز على العمل الهندسي المميز وتجنب نسخ مجموعات البيانات وتحويلها.
تقوم عملية Athena Iceberg UPDATE بكتابة ملفات حذف موضع Apache Iceberg والصفوف المحدثة حديثًا كملفات بيانات في نفس المعاملة. يمكنك إجراء تصحيحات السجل عبر عبارة UPDATE واحدة.
مع إصدار محرك Athena الإصدار 3، تم تعزيز قدرات جداول Apache Iceberg من خلال دعم عمليات مثل إنشاء جدول حسب التحديد (CTAS) وأوامر MERGE التي تعمل على تبسيط إدارة دورة حياة بيانات Iceberg الخاصة بك. يجعل CTAS عملية إنشاء الجداول من تنسيقات أخرى سريعة وفعالة مثل Apache Paquet و يندمج ب التحديثات الشرطية، أو حذف، أو إدراج صفوف في جدول Iceberg. يمكن لبيان واحد أن يجمع بين إجراءات التحديث والحذف والإدراج.
المتطلبات الأساسية المسبقة
قم بإعداد مجموعة عمل Athena باستخدام الإصدار 3 من محرك Athena لاستخدام أوامر CTAS وMERGE مع جدول Apache Iceberg. لترقية محرك Athena الموجود لديك إلى الإصدار 3 في مجموعة عمل Athena، اتبع الإرشادات الواردة في قم بالترقية إلى الإصدار 3 من محرك Athena لزيادة أداء الاستعلام والوصول إلى المزيد من ميزات التحليلات أو الرجوع إلى تغيير إصدار المحرك في وحدة تحكم أثينا.
بيانات
للتوضيح، نستخدم جدول Apache Parquet الذي يحتوي على عدة ملايين من سجلات بيانات المبيعات الوهمية الموزعة عشوائيًا من السنوات العديدة الماضية المخزنة في حاوية S3. تحميل مجموعة البيانات، وقم بفك ضغطها على جهاز الكمبيوتر المحلي الخاص بك، ثم قم بتحميلها إلى حاوية S3 الخاصة بك. في هذا المنشور، قمنا بتحميل مجموعة البيانات الخاصة بنا إلى s3://sample-iceberg-datasets-xxxxxxxxxxx/sampledb/orders_and_customers/
.
ويبين الجدول التالي تخطيط الجدول customer_orders
.
اسم العمود | نوع البيانات | الوصف |
com.orderkey | سلسلة | رقم الطلب للطلب |
مفتاح الوداع | سلسلة | رقم تعريف العميل |
حالة الطلب | سلسلة | حالة الطلب |
السعر الكلي | سلسلة | السعر الإجمالي للطلب |
تاريخ الطلب | سلسلة | تاريخ الطلب |
أولوية الطلب | سلسلة | أولوية الطلب |
موظف كتابي | سلسلة | اسم الموظف الذي قام بمعالجة الطلب |
أولوية الشحن | سلسلة | الأولوية للشحن |
الاسم | سلسلة | اسم الزبون |
العنوان | سلسلة | عنوان العميل |
معرف الأمة | سلسلة | مفتاح أمة العميل |
للهواتف | سلسلة | رقم هاتف العميل |
com.acctbal | سلسلة | رصيد حساب العميل |
com.mktsegment | سلسلة | شريحة سوق العملاء |
أداء هندسة الميزات
كعالم بيانات، نريد الأداء هندسة الميزات على بيانات طلبات العملاء عن طريق إضافة إجمالي المشتريات المحسوبة لمدة عام واحد ومتوسط مشتريات عام واحد لكل عميل في مجموعة البيانات الحالية. لأغراض العرض التوضيحي، قمنا بإنشاء customer_orders
الجدول في sampledb
قاعدة البيانات باستخدام Athena كما هو موضح في أمر DDL التالي. (يمكنك استخدام أي من مجموعات البيانات الموجودة لديك واتباع الخطوات المذكورة في هذا المنشور.) customer_orders
تم إنشاء مجموعة البيانات وتخزينها في موقع حاوية S3 s3://sample-iceberg-datasets-xxxxxxxxxxx/sampledb/orders_and_customers/
في شكل الباركيه. هذا الجدول ليس جدول Apache Iceberg.
التحقق من صحة البيانات الموجودة في الجدول عن طريق تشغيل استعلام:
نريد إضافة ميزات جديدة إلى هذا الجدول للحصول على فهم أعمق لمبيعات العملاء، مما قد يؤدي إلى تدريب أسرع على النماذج ورؤى أكثر قيمة. لإضافة ميزات جديدة إلى مجموعة البيانات، قم بتحويل ملف customer_orders
جدول أثينا إلى جدول أباتشي آيسبيرج في أثينا. العدد أ كبار المستشارين التقنيين بيان استعلام لإنشاء جدول جديد بتنسيق Apache Iceberg من ملف customer_orders
طاولة. أثناء القيام بذلك، تتم إضافة ميزة جديدة للحصول على إجمالي مبلغ الشراء في العام الماضي (الحد الأقصى لسنة مجموعة البيانات) من قبل كل عميل.
في استعلام CTAS التالي، تم تسمية عمود جديد one_year_sales_aggregate
مع القيمة الافتراضية كما 0.0
من نوع البيانات double
يضاف و table_type
ومن المقرر أن ICEBERG
:
قم بإصدار الاستعلام التالي للتحقق من البيانات الموجودة في جدول Apache Iceberg باستخدام العمود الجديد one_year_sales_aggregate
القيم كما 0.0
:
نريد ملء قيم الميزة الجديدة one_year_sales_aggregate
في مجموعة البيانات للحصول على إجمالي مبلغ الشراء لكل عميل بناءً على مشترياته في العام الماضي (الحد الأقصى لسنة مجموعة البيانات). قم بإصدار عبارة استعلام MERGE إلى جدول Apache Iceberg باستخدام Athena لملء القيم الخاصة بـ one_year_sales_aggregate
الميزة:
قم بإصدار الاستعلام التالي للتحقق من صحة القيمة المحدثة لإجمالي الإنفاق لكل عميل في العام الماضي:
قررنا إضافة ميزة أخرى إلى جدول Apache Iceberg الحالي لحساب وتخزين متوسط مبلغ الشراء في العام الماضي لكل عميل. قم بإصدار عبارة استعلام ALTER لإضافة عمود جديد إلى جدول موجود للميزة one_year_sales_average
:
قبل نشر القيم في هذا الميزة الجديدة، يمكنك تعيين القيمة الافتراضية للميزة one_year_sales_average
إلى 0.0
. باستخدام نفس جدول Apache Iceberg في Athena، قم بإصدار بيان استعلام UPDATE لملء قيمة الميزة الجديدة كـ 0.0
:
قم بإصدار الاستعلام التالي للتحقق من تعيين القيمة المحدثة لمتوسط الإنفاق لكل عميل في العام الماضي على 0.0
:
نريد الآن ملء قيم الميزة الجديدة one_year_sales_average
في مجموعة البيانات للحصول على متوسط مبلغ الشراء لكل عميل بناءً على مشترياته في العام الماضي (الحد الأقصى لسنة مجموعة البيانات). قم بإصدار بيان استعلام MERGE إلى جدول Apache Iceberg الموجود على Athena باستخدام محرك Athena لملء قيم الميزة one_year_sales_average
:
قم بإصدار الاستعلام التالي للتحقق من القيم المحدثة لمتوسط الإنفاق لكل عميل:
بمجرد إضافة ميزات بيانات إضافية إلى مجموعة البيانات، يشرع علماء البيانات عمومًا في تدريب نماذج تعلم الآلة وإجراء استنتاجات باستخدام Amazon Sagemaker أو مجموعة أدوات مماثلة.
وفي الختام
في هذا المنشور، أوضحنا كيفية إجراء هندسة الميزات باستخدام Athena مع Apache Iceberg. لقد أظهرنا أيضًا استخدام استعلام CTAS لإنشاء جدول Apache Iceberg على Athena من مجموعة بيانات موجودة بتنسيق Apache Parquet، وإضافة ميزات جديدة في جدول Apache Iceberg الموجود على Athena باستخدام استعلام ALTER، واستخدام عبارات استعلام UPDATE وMERGE لتحديث قيم الميزة للأعمدة الموجودة.
نحن نشجعك على استخدام استعلامات CTAS لإنشاء الجداول بسرعة وكفاءة، واستخدام بيان استعلام MERGE لمزامنة الجداول في خطوة واحدة لتبسيط عمليات إعداد البيانات وتحديث المهام عند تحويل الميزات باستخدام Athena مع Apache Iceberg. إذا كان لديك تعليقات أو ملاحظات، يرجى تركها في قسم التعليقات.
حول المؤلف
فيفيك جوتام هو مهندس بيانات متخصص في بحيرات البيانات في خدمات AWS الاحترافية. إنه يعمل مع عملاء المؤسسات لبناء منتجات البيانات ومنصات التحليلات والحلول على AWS. عندما لا يقوم فيفيك ببناء وتصميم منصات بيانات حديثة، فهو من عشاق الطعام ويحب أيضًا استكشاف وجهات سفر جديدة والذهاب في نزهات طويلة.
ميخائيل فاينشتين مهندس حلول مع Amazon Web Services. تعمل ميخائيل مع عملاء الرعاية الصحية وعلوم الحياة لبناء حلول تساعد في تحسين نتائج المرضى. ميخائيل متخصص في خدمات تحليل البيانات.
ناريش جوتام هي شركة رائدة في تحليلات البيانات والذكاء الاصطناعي / التعلم الآلي في AWS وتتمتع بخبرة 20 عامًا ، وتتمتع بمساعدة العملاء في تصميم تحليلات البيانات المتاحة للغاية وعالية الأداء والفعالة من حيث التكلفة وحلول الذكاء الاصطناعي / التعلم الآلي لتمكين العملاء من اتخاذ القرارات المستندة إلى البيانات . في أوقات فراغه ، يستمتع بالتأمل والطبخ.
هارشا تاديبارثي هو مهندس حلول رئيسي متخصص ، Analytics في AWS. إنه يستمتع بحل مشاكل العملاء المعقدة في قواعد البيانات والتحليلات وتقديم نتائج ناجحة. خارج العمل ، يحب قضاء الوقت مع أسرته ومشاهدة الأفلام والسفر كلما أمكن ذلك.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- تمويل EVM. واجهة موحدة للتمويل اللامركزي. الوصول هنا.
- مجموعة كوانتوم ميديا. تضخيم IR / PR. الوصول هنا.
- أفلاطونايستريم. ذكاء بيانات Web3. تضخيم المعرفة. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/big-data/accelerate-data-science-feature-engineering-on-transactional-data-lakes-using-amazon-athena-with-apache-iceberg/
- :لديها
- :يكون
- :ليس
- :أين
- $ UP
- 10
- 100
- 12
- 17
- 20
- 20 سنة
- 23
- 27
- 7
- a
- من نحن
- تسريع
- الوصول
- إنجاز
- حسابي
- الإجراءات
- تضيف
- وأضاف
- مضيفا
- إضافي
- العنوان
- AI / ML
- أيضا
- بالرغم ان
- أمازون
- أمازون أثينا
- الأمازون SageMaker
- أمازون ويب سيرفيسز
- كمية
- an
- تحليلي
- تحليلية
- تحليلات
- تحليل
- تحليل
- و
- آخر
- أي وقت
- أباتشي
- أباتشي سبارك
- هي
- AS
- At
- متاح
- المتوسط
- تجنب
- AWS
- الخدمات المهنية AWS
- على أساس
- BE
- لان
- كان
- الفوائد
- نساعدك في بناء
- ابني
- بنيت
- by
- محسوب
- CAN
- قدرات
- الحالات
- تصنيف
- سحابة
- مجموعات
- عمود
- الأعمدة
- دمج
- تعليقات
- مشترك
- مجمع
- إحصاء
- الكمبيوتر
- رؤية الكمبيوتر
- الاعداد
- يحتوي
- سياق الكلام
- تحول
- الطهي
- تقليد
- التصحيحات
- فعاله من حيث التكلفه
- خلق
- خلق
- خلق
- زبون
- العملاء
- البيانات
- تحليلات البيانات
- بحيرة البيانات
- علم البيانات
- عالم البيانات
- تعتمد على البيانات
- قاعدة البيانات
- قواعد البيانات
- قواعد البيانات
- التاريخ
- تقرر
- اتخاذ القرار
- أعمق
- الترتيب
- تقديم
- يسلم
- شرح
- تظاهر
- تصميم
- لأفضل الأماكن السياحية
- وزعت
- فعل
- مضاعفة
- قطرة
- متانة
- كل
- سهل
- فعال
- بكفاءة
- جهد
- إما
- عناصر
- تمكين
- تمكين
- شجع
- محرك
- الهندسة
- محركات
- تعزيز
- مشروع
- عملاء المؤسسة
- متحمس
- كامل
- معادل
- الأثير (ETH)
- القائمة
- الخبره في مجال الغطس
- اكتشف
- خارجي
- زائف
- للعائلات
- FAST
- أسرع
- الميزات
- المميزات
- ردود الفعل
- ملفات
- تركز
- اتباع
- متابعيك
- طعام
- في حالة
- شكل
- الأطر
- مجانا
- تبدأ من
- على العموم
- ولدت
- دولار فقط واحصل على خصم XNUMX% على جميع
- Go
- تجمع
- Hadoop
- يملك
- he
- الرعاية الصحية
- مساعدة
- مساعدة
- أداء عالي
- جدا
- ارتفاع
- له
- تاريخيا
- خلية النحل
- كيفية
- كيفية
- HTML
- HTTPS
- هوية
- تحديد
- if
- صور
- تحسن
- in
- بما فيه
- القيمة الاسمية
- غير فعال
- البنية التحتية
- إدراج
- رؤى
- بدلًا من ذلك
- تعليمات
- التفاعلية
- إلى
- أدخلت
- عزل
- قضية
- IT
- JPG
- جسون
- وصفها
- بحيرة
- لغة
- كبير
- اسم العائلة
- تصميم
- زعيم
- تعلم
- تعلم
- يترك
- الحياة
- علوم الحياة
- دورة حياة
- مما سيحدث
- محلي
- موقع
- يحب
- آلة
- آلة التعلم
- جعل
- يصنع
- إدارة
- إدارة
- يدير
- كثير
- تجارة
- مطابقة
- ماكس
- ذات مغزى
- التأمُّل
- المذكورة
- دمج
- مليون
- مفقود
- ML
- نموذج
- عارضات ازياء
- تقدم
- تعديل
- الأكثر من ذلك
- أفلام
- الاسم
- عين
- دولة
- طبيعي
- اللغة الطبيعية
- معالجة اللغات الطبيعية
- حاجة
- الحاجة
- جديد
- ميزة جديدة
- مزايا جديدة
- حديثا
- لا
- عدد
- of
- غالبا
- on
- ONE
- فقط
- جاكيت
- المصدر المفتوح
- عملية
- عمليات
- or
- الطلبات
- أخرى
- لنا
- النتائج
- في الخارج
- الماضي
- نفذ
- أداء
- للهواتف
- منصات التداول
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- من فضلك
- ان يرتفع المركز
- ممكن
- منشور
- إعداد
- السعر
- رئيسي
- مشاكل
- عملية المعالجة
- معالجة
- معالجة
- المنتجات
- محترف
- تزود
- شراء
- مشتريات
- أغراض
- بايثون
- الاستفسارات
- بسرعة
- الخام
- مسودة بيانات
- عرض
- اعتراف
- سجل
- تسجيل
- تخفيض
- الافراج عن
- مطلوب
- نتيجة
- مراجعة
- صف
- يجري
- تشغيل
- sagemaker
- الأملاح
- نفسه
- حجم
- علوم
- علوم
- عالم
- العلماء
- القسم
- Serverless
- الخدمة
- خدماتنا
- طقم
- عدة
- أظهرت
- يظهر
- مماثل
- الاشارات
- مبسط
- تبسيط
- عزباء
- So
- الحلول
- حل
- مصادر
- شرارة
- متخصص
- تتخصص
- خطاب
- التعرف على الكلام
- أنفق
- قضى
- SQL
- معيار
- ملخص الحساب
- البيانات
- خطوة
- خطوات
- تخزين
- متجر
- تخزين
- تبسيط
- خيط
- ناجح
- هذه
- الدعم
- الدعم
- أنظمة
- جدول
- مهمة
- المهام
- أن
- •
- الدمج
- من مشاركة
- منهم
- then
- هناك.
- تشبه
- الوقت
- وقت السفر
- إلى
- تيشرت
- الإجمالي
- قطار
- قادة الإيمان
- صفقة
- المعاملات
- تحول
- تحويل
- سفر
- نوع
- التي تقوم عليها
- فهم
- تحديث
- تحديث
- آخر التحديثات
- ترقية
- تم التحميل
- تستخدم
- استخدام
- عادة
- التحقق من صحة
- القيمة
- قيمنا
- القيم
- مختلف
- تحقق من
- الإصدار
- جدا
- بواسطة
- مقاطع فيديو
- المزيد
- رؤيتنا
- تريد
- وكان
- شاهد
- we
- الويب
- خدمات ويب
- كان
- متى
- كلما
- التي
- في حين
- من الذى
- مع
- بدون
- للعمل
- سير العمل
- مجموعة العمل
- عامل
- أعمال
- سوف
- اكتب
- عام
- سنوات
- لصحتك!
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت
- الرمز البريدي