سرعت بخشیدن به مهندسی ویژگی علم داده در دریاچه های داده تراکنشی با استفاده از آمازون آتنا با کوه یخ آپاچی

بازنشر افلاطون

دنبال: 0

آمازون آتنا یک سرویس پرس و جو تعاملی است که تجزیه و تحلیل داده ها را در آن آسان می کند سرویس ذخیره سازی ساده آمازون (Amazon S3) و منابع داده ساکن در AWS، داخل محل یا سایر سیستم‌های ابری با استفاده از SQL یا Python. Athena بر روی موتورهای منبع باز Trino و Presto و فریمورک های Apache Spark ساخته شده است، بدون نیاز به تهیه یا پیکربندی. Athena بدون سرور است، بنابراین هیچ زیرساختی برای مدیریت وجود ندارد و شما فقط برای کوئری هایی که اجرا می کنید هزینه می پردازید.

کوه یخ آپاچی یک قالب جدول باز برای مجموعه داده های تحلیلی بسیار بزرگ است. مجموعه‌های بزرگی از فایل‌ها را به‌عنوان جداول مدیریت می‌کند، و از عملیات‌های دریاچه داده‌های تحلیلی مدرن مانند درج سطح رکورد، به‌روزرسانی، حذف، و درخواست‌های سفر در زمان پشتیبانی می‌کند. آتنا از جستارهای خواندن، سفر در زمان، نوشتن و DDL برای جداول Apache Iceberg که از فرمت Apache Parquet برای داده ها و کاتالوگ داده چسب AWS برای متاستور آنها

مهندسی ویژگی فرآیند شناسایی و تبدیل داده‌های خام (تصاویر، فایل‌های متنی، ویدئوها و غیره)، پر کردن داده‌های از دست رفته، و افزودن یک یا چند عنصر داده معنادار برای ارائه زمینه است تا یک مدل یادگیری ماشینی (ML) بتواند از آن بیاموزد. برچسب‌گذاری داده‌ها برای موارد استفاده مختلف از جمله پیش‌بینی، بینایی رایانه، پردازش زبان طبیعی و تشخیص گفتار مورد نیاز است.

همراه با قابلیت‌های Athena، Apache Iceberg گردش کار ساده‌شده‌ای را برای دانشمندان داده ارائه می‌کند تا بدون نیاز به کپی یا بازسازی کل مجموعه داده، ویژگی‌های داده جدیدی ایجاد کنند. شما می توانید ویژگی هایی را با استفاده از SQL استاندارد در Athena بدون استفاده از هیچ سرویس دیگری برای مهندسی ویژگی ایجاد کنید. دانشمندان داده می توانند زمان صرف شده برای تهیه و کپی مجموعه داده ها را کاهش دهند و در عوض بر مهندسی ویژگی های داده، آزمایش و تجزیه و تحلیل داده ها در مقیاس تمرکز کنند.

در این پست، مزایای استفاده از آتنا با فرمت جدول باز Apache Iceberg و اینکه چگونه کارهای مهندسی ویژگی های رایج را برای دانشمندان داده ساده می کند، مرور می کنیم. ما نشان می‌دهیم که چگونه آتنا می‌تواند یک جدول موجود را در قالب Apache Iceberg تبدیل کند، سپس ستون‌ها را اضافه کند، ستون‌ها را حذف کند، و داده‌های موجود در جدول را بدون ایجاد مجدد یا کپی مجموعه داده تغییر دهد و از این قابلیت‌ها برای ایجاد ویژگی‌های جدید در جداول Apache Iceberg استفاده کند.

بررسی اجمالی راه حل

دانشمندان داده معمولاً به کار با مجموعه داده های بزرگ عادت دارند. مجموعه داده ها معمولاً در JSON، CSV، ORC یا ذخیره می شوند پارکت آپاچی فرمت، یا فرمت های مشابه برای خواندن بهینه شده برای عملکرد خواندن سریع. دانشمندان داده اغلب ویژگی‌های داده جدیدی ایجاد می‌کنند و چنین ویژگی‌های داده‌ای را با داده‌های انبوه و فرعی پر می‌کنند. از لحاظ تاریخی، این کار با ایجاد یک نمای بالای جدول با داده های زیرین در قالب Apache Parquet، که در آن ستون ها و داده ها در زمان اجرا اضافه می شدند یا با ایجاد یک جدول جدید با ستون های اضافی، انجام می شد. اگرچه این گردش کار برای بسیاری از موارد استفاده مناسب است، اما برای مجموعه داده های بزرگ ناکارآمد است، زیرا داده ها باید در زمان اجرا تولید شوند یا مجموعه داده ها باید کپی و تبدیل شوند.

آتنا معرفی کرده است تراکنش اسید (اتمی، سازگاری، جداسازی، دوام). قابلیت‌هایی که عملیات‌های درج، به‌روزرسانی، حذف، ادغام و سفر در زمان را اضافه می‌کنند میزهای کوه یخی آپاچی. این قابلیت‌ها دانشمندان داده را قادر می‌سازد تا ویژگی‌های داده جدید ایجاد کنند و ویژگی‌های داده موجود را روی مجموعه داده‌های موجود رها کنند، بدون اینکه نگران کپی کردن یا تبدیل مجموعه داده یا انتزاع آن با یک نمای باشند. دانشمندان داده می توانند روی کار مهندسی ویژگی ها تمرکز کنند و از کپی و تبدیل مجموعه داده ها اجتناب کنند.

عملیات به‌روزرسانی Athena Iceberg موقعیت حذف فایل‌های Apache Iceberg و ردیف‌های به‌روزرسانی‌شده جدید را به عنوان فایل‌های داده در همان تراکنش می‌نویسد. شما می توانید از طریق یک عبارت UPDATE تصحیح رکورد را انجام دهید.

با انتشار موتور آتنا نسخه 3، قابلیت های میزهای Apache Iceberg با پشتیبانی از عملیات هایی مانند ایجاد جدول به عنوان انتخاب (CTAS) و دستورات MERGE که مدیریت چرخه حیات داده های Iceberg شما را ساده می کند. CTAS ساخت جداول از فرمت های دیگر مانند Apache Paquet و ... را سریع و کارآمد می کند ادغام با به‌روزرسانی‌های مشروط، حذف یا درج ردیف‌ها در جدول Iceberg. یک عبارت واحد می تواند اقدامات به روز رسانی، حذف و درج را با هم ترکیب کند.

پیش نیازها

برای استفاده از دستورات CTAS و MERGE با جدول Apache Iceberg یک گروه کاری Athena با موتور Athena نسخه 3 راه اندازی کنید. برای ارتقاء موتور Athena موجود خود به نسخه 3 در گروه کاری Athena، دستورالعمل‌های موجود را دنبال کنید برای افزایش عملکرد پرس و جو و دسترسی به ویژگی های تجزیه و تحلیل بیشتر، به موتور Athena نسخه 3 ارتقا دهید یا رجوع به تغییر نسخه موتور در کنسول آتنا.

مجموعه داده

برای نمایش، از جدول پارکت آپاچی استفاده می‌کنیم که حاوی چندین میلیون رکورد از داده‌های فروش ساختگی توزیع شده تصادفی از چندین سال گذشته است که در یک سطل S3 ذخیره شده است. دانلود مجموعه داده را از حالت فشرده در رایانه محلی خود خارج کرده و در سطل S3 خود آپلود کنید. در این پست مجموعه داده های خود را در آن آپلود کردیم s3://sample-iceberg-datasets-xxxxxxxxxxx/sampledb/orders_and_customers/.

جدول زیر طرح بندی جدول را نشان می دهد customer_orders.

نام ستون	نوع داده	توضیحات:
کلید سفارش	رشته	شماره سفارش برای سفارش
کلید	رشته	شماره شناسایی مشتری
وضعیت سفارش	رشته	وضعیت سفارش
قیمت کل	رشته	قیمت کل سفارش
تاریخ سفارش	رشته	تاریخ سفارش
ترتیب اولویت	رشته	اولویت سفارش
منشی	رشته	نام منشی که سفارش را پردازش کرد
اولویت کشتی	رشته	اولویت در حمل و نقل
نام	رشته	نام مشتری
نشانی	رشته	آدرس مشتری
ملی کلید	رشته	کلید ملت مشتری
تلفن	رشته	شماره تلفن مشتری
acctbal	رشته	موجودی حساب مشتری
mktsegment	رشته	بخش بازار مشتری

مهندسی ویژگی را انجام دهید

به عنوان یک دانشمند داده، ما می خواهیم کار کنیم مهندسی ویژگی بر روی داده های سفارشات مشتری با افزودن کل خریدهای محاسبه شده یک ساله و میانگین خریدهای یک ساله برای هر مشتری در مجموعه داده موجود. برای اهداف نمایشی، ما ایجاد کردیم customer_orders جدول در sampledb پایگاه داده با استفاده از Athena همانطور که در دستور DDL زیر نشان داده شده است. (می توانید از هر یک از مجموعه داده های موجود خود استفاده کنید و مراحل ذکر شده در این پست را دنبال کنید.) customer_orders مجموعه داده در محل سطل S3 تولید و ذخیره شد s3://sample-iceberg-datasets-xxxxxxxxxxx/sampledb/orders_and_customers/ در قالب پارکت این جدول یک میز کوه یخی آپاچی نیست.

CREATE EXTERNAL TABLE sampledb.customer_orders( `orderkey` string, `custkey` string, `orderstatus` string, `totalprice` string, `orderdate` string, `orderpriority` string, `clerk` string, `shippriority` string, `name` string, `address` string, `nationkey` string, `phone` string, `acctbal` string, `mktsegment` string)
ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION 's3://sample-iceberg-datasets-xxxxxxxxxxx/sampledb/orders_and_customers/'
TBLPROPERTIES ( 'classification'='parquet');

اعتبار داده های جدول را با اجرای یک پرس و جو:

SELECT * from sampledb.customer_orders limit 10;

ما می‌خواهیم ویژگی‌های جدیدی را به این جدول اضافه کنیم تا درک عمیق‌تری از فروش مشتری داشته باشیم، که می‌تواند منجر به آموزش سریع‌تر مدل و بینش ارزشمندتر شود. برای افزودن ویژگی‌های جدید به مجموعه داده، آن را تبدیل کنید customer_orders میز آتنا به میز کوه یخی آپاچی روی آتنا. مسئله الف CTAS عبارت query برای ایجاد یک جدول جدید با فرمت Apache Iceberg از customer_orders جدول. در حین انجام این کار، یک ویژگی جدید برای دریافت کل مبلغ خرید در سال گذشته (حداکثر سال مجموعه داده) توسط هر مشتری اضافه می شود.

در پرس و جوی CTAS زیر، ستون جدیدی به نام one_year_sales_aggregate با مقدار پیش فرض as 0.0 از نوع داده double اضافه می شود و table_type تنظیم شده است ICEBERG:

CREATE TABLE sampledb.customers_orders_aggregate
WITH (table_type = 'ICEBERG', format = 'PARQUET', location = 's3://sample-iceberg-datasets-xxxxxxxxxxxx/sampledb/customer_orders_aggregate', is_external = false ) AS SELECT orderkey,
custkey,
orderstatus,
totalprice,
orderdate, orderpriority, clerk, shippriority, name, address, nationkey, phone, acctbal, mktsegment,
0.0 as one_year_sales_aggregate
from sampledb.customer_orders;

برای تأیید داده های جدول Apache Iceberg با ستون جدید، کوئری زیر را صادر کنید one_year_sales_aggregate مقادیر به عنوان 0.0:

SELECT custkey, totalprice, one_year_sales_aggregate from sampledb.customers_orders_aggregate limit 10;

ما می خواهیم مقادیر ویژگی جدید را پر کنیم one_year_sales_aggregate در مجموعه داده برای دریافت کل مبلغ خرید برای هر مشتری بر اساس خریدهای آنها در سال گذشته (حداکثر سال مجموعه داده). یک عبارت پرس و جو MERGE را به جدول Apache Iceberg با استفاده از Athena برای پر کردن مقادیر برای one_year_sales_aggregate ویژگی ها:

MERGE INTO sampledb.customers_orders_aggregate coa USING (select custkey, date_format(CAST(orderdate as date), '%Y ') as orderdate, sum(CAST(totalprice as double)) as one_year_sales_aggregate FROM sampledb.customers_orders_aggregate o where date_format(CAST(o.orderdate as date), '%Y ') = (select date_format(max(CAST(orderdate as date)), '%Y ') from sampledb.customers_orders_aggregate) group by custkey, date_format(CAST(orderdate as date), '%Y ')) sales_one_year_agg ON (coa.custkey = sales_one_year_agg.custkey) WHEN MATCHED THEN UPDATE SET one_year_sales_aggregate = sales_one_year_agg.one_year_sales_aggregate;

پرس و جوی زیر را برای تأیید ارزش به روز شده برای کل هزینه هر مشتری در سال گذشته صادر کنید:

SELECT custkey, totalprice, one_year_sales_aggregate
from sampledb.customers_orders_aggregate limit 10;

ما تصمیم داریم ویژگی دیگری را به جدول Apache Iceberg موجود اضافه کنیم تا میانگین مقدار خرید در سال گذشته توسط هر مشتری را محاسبه و ذخیره کنیم. برای افزودن یک ستون جدید به جدول موجود برای ویژگی، یک عبارت ALTER query صادر کنید one_year_sales_average:

ALTER TABLE sampledb.customers_orders_aggregate
ADD COLUMNS (one_year_sales_average double);

قبل از پر کردن مقادیر این ویژگی جدید، می توانید مقدار پیش فرض ویژگی را تنظیم کنید one_year_sales_average به 0.0. با استفاده از همان جدول Apache Iceberg در Athena، یک عبارت پرس و جو به روز رسانی صادر کنید تا مقدار ویژگی جدید را به عنوان پر کنید. 0.0:

UPDATE sampledb.customers_orders_aggregate
SET one_year_sales_average = 0.0;

برای تأیید مقدار به روز شده برای میانگین هزینه هر مشتری در سال گذشته، درخواست زیر را صادر کنید 0.0:

SELECT custkey, orderdate, totalprice, one_year_sales_aggregate, one_year_sales_average from sampledb.customers_orders_aggregate limit 10;

اکنون می خواهیم مقادیر ویژگی جدید را پر کنیم one_year_sales_average در مجموعه داده برای دریافت میانگین مبلغ خرید برای هر مشتری بر اساس خریدهای آنها در سال گذشته (حداکثر سال مجموعه داده). با استفاده از موتور Athena برای پر کردن مقادیر ویژگی، یک عبارت پرس و جو MERGE به جدول Apache Iceberg موجود در Athena صادر کنید. one_year_sales_average:

MERGE INTO sampledb.customers_orders_aggregate coa USING (select custkey, date_format(CAST(orderdate as date), '%Y') as orderdate, avg(CAST(totalprice as double)) as one_year_sales_average FROM sampledb.customers_orders_aggregate o where date_format(CAST(o.orderdate as date), '%Y') = (select date_format(max(CAST(orderdate as date)), '%Y') from sampledb.customers_orders_aggregate) group by custkey, date_format(CAST(orderdate as date), '%Y')) sales_one_year_avg ON (coa.custkey = sales_one_year_avg.custkey) WHEN MATCHED THEN UPDATE SET one_year_sales_average = sales_one_year_avg.one_year_sales_average;

پرس و جوی زیر را برای تأیید مقادیر به روز شده برای میانگین هزینه هر مشتری صادر کنید:

SELECT custkey, orderdate, totalprice, one_year_sales_aggregate, one_year_sales_average from sampledb.customers_orders_aggregate limit 10;

هنگامی که ویژگی‌های داده اضافی به مجموعه داده اضافه شد، دانشمندان داده معمولاً به آموزش مدل‌های ML و استنتاج با استفاده از Amazon Sagemaker یا مجموعه ابزارهای معادل آن می‌پردازند.

نتیجه

در این پست نحوه انجام مهندسی ویژگی با استفاده از Athena با Apache Iceberg را نشان دادیم. ما همچنین با استفاده از پرس و جو CTAS برای ایجاد جدول Apache Iceberg در Athena از مجموعه داده های موجود در قالب Apache Parquet، افزودن ویژگی های جدید در جدول Apache Iceberg موجود در Athena با استفاده از پرس و جو ALTER، و استفاده از دستورات پرس و جو UPDATE و MERGE برای به روز رسانی نشان دادیم. مقادیر ویژگی های ستون های موجود

ما شما را تشویق می کنیم که از پرس و جوهای CTAS برای ایجاد سریع و کارآمد جداول استفاده کنید و از دستور MERGE برای همگام سازی جداول در یک مرحله برای ساده سازی آماده سازی داده ها و به روز رسانی وظایف هنگام تبدیل ویژگی ها با استفاده از Athena با Apache Iceberg استفاده کنید. اگر نظر یا بازخوردی دارید، لطفا آنها را در قسمت نظرات بنویسید.

درباره نویسنده

ویوک گوتام یک معمار داده با تخصص در دریاچه های داده در خدمات حرفه ای AWS است. او با مشتریان سازمانی کار می کند که محصولات داده، پلتفرم های تجزیه و تحلیل و راه حل هایی را در AWS ایجاد می کنند. هنگامی که پلتفرم‌های داده مدرن نمی‌سازد و طراحی نمی‌کند، Vivek یک علاقه‌مند به غذا است که همچنین دوست دارد مقاصد سفر جدید را کشف کند و پیاده‌گردی کند.

میخائیل واینشتاین یک معمار راه حل با خدمات وب آمازون است. میخائیل با مشتریان مراقبت های بهداشتی و علوم زیستی برای ایجاد راه حل هایی کار می کند که به بهبود نتایج بیماران کمک می کند. میخائیل در خدمات تجزیه و تحلیل داده ها متخصص است.

نارش گوتام یک رهبر تجزیه و تحلیل داده و AI/ML در AWS با 20 سال تجربه است که از کمک به مشتریان در طراحی تجزیه و تحلیل داده های بسیار در دسترس، با کارایی بالا و مقرون به صرفه و راه حل های AI/ML برای توانمندسازی مشتریان با تصمیم گیری مبتنی بر داده لذت می برد. . در اوقات فراغت از مدیتیشن و آشپزی لذت می برد.

هارشا تادیپارتی یک متخصص معمار راه حل های اصلی، تجزیه و تحلیل در AWS است. او از حل مشکلات پیچیده مشتری در پایگاه های داده و تجزیه و تحلیل و ارائه نتایج موفق لذت می برد. خارج از محل کار، او دوست دارد زمانی را با خانواده خود بگذراند، فیلم تماشا کند و هر زمان که ممکن است سفر کند.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
EVM Finance. رابط یکپارچه برای امور مالی غیرمتمرکز دسترسی به اینجا.
گروه رسانه ای کوانتومی. IR/PR تقویت شده دسترسی به اینجا.
PlatoAiStream. Web3 Data Intelligence دانش تقویت شده دسترسی به اینجا.
منبع: https://aws.amazon.com/blogs/big-data/accelerate-data-science-feature-engineering-on-transactional-data-lakes-using-amazon-athena-with-apache-iceberg/

تمبر زمان: ژوئن 20، 2023

تمبر زمان: نوامبر 29، 2023

تسریع مهندسی ویژگی های علم داده در دریاچه های داده تراکنشی با استفاده از آمازون آتنا با آپاچی یخ | خدمات وب آمازون

بازنشر افلاطون

بررسی اجمالی راه حل

پیش نیازها

مجموعه داده

مهندسی ویژگی را انجام دهید

نتیجه

درباره نویسنده

بیشتر از داده های بزرگ AWS

با استفاده از Grafana امتیازات پایگاه داده را در Amazon Redshift تجسم کنید

بهبود کارایی عملیاتی جداول Apache Iceberg ساخته شده بر روی دریاچه های داده آمازون S3 | خدمات وب آمازون

معرفی پشتیبانی Apache Hudi با خزنده های چسب AWS | خدمات وب آمازون

ویژگی های جدید پشتیبانی آمازون MWAA برای اسکریپت های راه اندازی | خدمات وب آمازون

انعطاف‌پذیری بهبود یافته با کاهش وظایف مدیریت خوشه برای سرویس جستجوی باز آمازون | خدمات وب آمازون

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب