Use Amazon Athena With Spark SQL For Your Open-source Transactional Table Formats | Amazon Web Services

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

AWS سے چلنے والی ڈیٹا لیکس، کی بے مثال دستیابی کی مدد سے ایمیزون سادہ اسٹوریج سروس (Amazon S3)، مختلف ڈیٹا اور تجزیاتی طریقوں کو یکجا کرنے کے لیے درکار پیمانے، چستی اور لچک کو سنبھال سکتا ہے۔ چونکہ ڈیٹا جھیلیں سائز میں بڑھی ہیں اور استعمال میں پختہ ہو چکی ہیں، اس لیے اعداد و شمار کو کاروباری واقعات کے مطابق رکھنے کے لیے کافی کوششیں کی جا سکتی ہیں۔ اس بات کو یقینی بنانے کے لیے کہ فائلوں کو لین دین کے لحاظ سے مستقل طور پر اپ ڈیٹ کیا جائے، صارفین کی بڑھتی ہوئی تعداد اوپن سورس ٹرانزیکشنل ٹیبل فارمیٹس استعمال کر رہی ہے جیسے اپاچی آئس برگ, اپاچی ہودی، اور لینکس فاؤنڈیشن ڈیلٹا جھیل جو آپ کو اعلی کمپریشن ریٹ کے ساتھ ڈیٹا کو ذخیرہ کرنے میں مدد کرتا ہے، آپ کی ایپلی کیشنز اور فریم ورک کے ساتھ مقامی طور پر انٹرفیس کرتا ہے، اور ایمیزون S3 پر بنی ڈیٹا لیکس میں اضافی ڈیٹا پروسیسنگ کو آسان بناتا ہے۔ یہ فارمیٹس ACID (ایٹمی، مستقل مزاجی، تنہائی، پائیداری) لین دین، اپسرٹس، اور ڈیلیٹس، اور جدید خصوصیات جیسے ٹائم ٹریول اور سنیپ شاٹس کو قابل بناتے ہیں جو پہلے صرف ڈیٹا گوداموں میں دستیاب تھے۔ ہر اسٹوریج فارمیٹ اس فعالیت کو قدرے مختلف طریقوں سے نافذ کرتا ہے۔ موازنہ کے لیے رجوع کریں۔ AWS پر اپنی ٹرانزیکشنل ڈیٹا لیک کے لیے اوپن ٹیبل فارمیٹ کا انتخاب کرنا.

2023 میں AWS نے عام دستیابی کا اعلان کیا۔ اپاچی آئس برگ، اپاچی ہودی، اور لینکس فاؤنڈیشن ڈیلٹا لیک ان کے لیے اپاچی اسپارک کے لیے ایمیزون ایتھینا، جو ایک علیحدہ کنیکٹر یا اس سے وابستہ انحصار کو انسٹال کرنے اور ورژن کا نظم کرنے کی ضرورت کو دور کرتا ہے، اور ان فریم ورک کو استعمال کرنے کے لیے درکار کنفیگریشن کے مراحل کو آسان بناتا ہے۔

اس پوسٹ میں، ہم آپ کو دکھاتے ہیں کہ اسپارک ایس کیو ایل کو کیسے استعمال کیا جائے۔ ایمیزون ایتینا نوٹ بک اور آئس برگ، ہدی، اور ڈیلٹا لیک ٹیبل فارمیٹس کے ساتھ کام کریں۔ ہم عام کاموں کا مظاہرہ کرتے ہیں جیسے ڈیٹا بیس اور ٹیبل بنانا، ٹیبلز میں ڈیٹا داخل کرنا، ڈیٹا سے استفسار کرنا، اور Amazon S3 میں Spark SQL کا استعمال کرتے ہوئے Athena میں ٹیبل کے اسنیپ شاٹس کو دیکھنا۔

شرائط

درج ذیل شرائط کو مکمل کریں:

Amazon S3 سے مثالی نوٹ بک ڈاؤن لوڈ اور درآمد کریں۔

اس کے ساتھ چلنے کے لیے، اس پوسٹ میں زیر بحث نوٹ بکس کو درج ذیل مقامات سے ڈاؤن لوڈ کریں:

نوٹ بک کو ڈاؤن لوڈ کرنے کے بعد، انہیں مندرجہ ذیل کے ذریعے اپنے ایتھینا اسپارک ماحول میں درآمد کریں۔ ایک نوٹ بک درآمد کرنے کے لیے سیکشن میں نوٹ بک فائلوں کا انتظام.

مخصوص اوپن ٹیبل فارمیٹ سیکشن پر جائیں۔

اگر آپ آئس برگ ٹیبل فارمیٹ میں دلچسپی رکھتے ہیں تو تشریف لے جائیں۔ اپاچی آئس برگ ٹیبلز کے ساتھ کام کرنا سیکشن پر ایک اقتصادی کینڈر سکین کر لیں۔

اگر آپ ہدی ٹیبل فارمیٹ میں دلچسپی رکھتے ہیں تو تشریف لے جائیں۔ اپاچی ہودی ٹیبلز کے ساتھ کام کرنا سیکشن پر ایک اقتصادی کینڈر سکین کر لیں۔

اگر آپ ڈیلٹا لیک ٹیبل فارمیٹ میں دلچسپی رکھتے ہیں تو تشریف لے جائیں۔ لینکس فاؤنڈیشن ڈیلٹا لیک ٹیبلز کے ساتھ کام کرنا سیکشن پر ایک اقتصادی کینڈر سکین کر لیں۔

اپاچی آئس برگ ٹیبلز کے ساتھ کام کرنا

ایتھینا میں اسپارک نوٹ بک استعمال کرتے وقت، آپ پی اسپارک کو استعمال کیے بغیر براہ راست ایس کیو ایل کے سوالات چلا سکتے ہیں۔ ہم سیل جادو کا استعمال کرتے ہوئے ایسا کرتے ہیں، جو کہ نوٹ بک سیل میں خاص ہیڈر ہوتے ہیں جو سیل کے رویے کو تبدیل کرتے ہیں۔ ایس کیو ایل کے لیے، ہم شامل کر سکتے ہیں۔ %%sql جادو، جو پورے سیل کے مواد کو ایس کیو ایل اسٹیٹمنٹ کے طور پر بیان کرے گا جسے ایتھینا پر چلایا جائے گا۔

اس سیکشن میں، ہم دکھاتے ہیں کہ آپ Apache Iceberg ٹیبل بنانے، تجزیہ کرنے اور ان کا نظم کرنے کے لیے Apache Spark پر ایس کیو ایل کا استعمال کیسے کر سکتے ہیں۔

ایک نوٹ بک سیشن ترتیب دیں۔

ایتھینا میں اپاچی آئس برگ استعمال کرنے کے لیے، سیشن بناتے یا اس میں ترمیم کرتے وقت، کو منتخب کریں۔ اپاچی آئس برگ کی توسیع کی طرف سے اختیار اپاچی اسپارک کی خصوصیات سیکشن یہ پراپرٹیز کو پہلے سے آباد کرے گا جیسا کہ مندرجہ ذیل اسکرین شاٹ میں دکھایا گیا ہے۔

یہ تصویر ایتھینا میں اسپاک سیشن بناتے وقت اپاچی آئس برگ کی خصوصیات کو ظاہر کرتی ہے۔

اقدامات کے لیے، دیکھیں سیشن کی تفصیلات میں ترمیم کرنا or اپنی خود کی نوٹ بک بنانا.

اس سیکشن میں استعمال شدہ کوڈ میں دستیاب ہے۔ SparkSQL_iceberg.ipynb فالو کرنے کے لیے فائل۔

ایک ڈیٹا بیس اور آئس برگ ٹیبل بنائیں

سب سے پہلے، ہم AWS Glue Data Catalog میں ایک ڈیٹا بیس بناتے ہیں۔ درج ذیل ایس کیو ایل کے ساتھ، ہم ایک ڈیٹا بیس بنا سکتے ہیں جسے کہتے ہیں۔ icebergdb:

%%sql
CREATE DATABASE icebergdb

اگلا، ڈیٹا بیس میں icebergdbہم ایک آئس برگ ٹیبل بناتے ہیں جسے کہتے ہیں۔ noaa_iceberg ایمیزون S3 میں ایک مقام کی طرف اشارہ کرتے ہوئے جہاں ہم ڈیٹا لوڈ کریں گے۔ درج ذیل بیان کو چلائیں اور مقام کو تبدیل کریں۔ s3://<your-S3-bucket>/<prefix>/ اپنی S3 بالٹی اور سابقہ کے ساتھ:

%%sql
CREATE TABLE icebergdb.noaa_iceberg(
station string,
date string,
latitude string,
longitude string,
elevation string,
name string,
temp string,
temp_attributes string,
dewp string,
dewp_attributes string,
slp string,
slp_attributes string,
stp string,
stp_attributes string,
visib string,
visib_attributes string,
wdsp string,
wdsp_attributes string,
mxspd string,
gust string,
max string,
max_attributes string,
min string,
min_attributes string,
prcp string,
prcp_attributes string,
sndp string,
frshtt string)
USING iceberg
PARTITIONED BY (year string)
LOCATION 's3://<your-S3-bucket>/<prefix>/noaaiceberg/'

ٹیبل میں ڈیٹا داخل کریں۔

کو آباد کرنے کے لیے noaa_iceberg آئس برگ ٹیبل، ہم پارکیٹ ٹیبل سے ڈیٹا داخل کرتے ہیں۔ sparkblogdb.noaa_pq جو کہ شرائط کے حصے کے طور پر بنایا گیا تھا۔ آپ یہ ایک کا استعمال کرکے کر سکتے ہیں۔ داخل کریں اسپارک میں بیان:

%%sql
INSERT INTO icebergdb.noaa_iceberg select * from sparkblogdb.noaa_pq

متبادل طور پر، آپ استعمال کرسکتے ہیں منتخب کے طور پر ٹیبل بنائیں آئس برگ ٹیبل بنانے اور ایک قدم میں سورس ٹیبل سے ڈیٹا داخل کرنے کے لیے آئس برگ کی شق کے ساتھ:

%%sql
CREATE TABLE icebergdb.noaa_iceberg
USING iceberg
PARTITIONED BY (year)
AS SELECT * FROM sparkblogdb.noaa_pq

آئس برگ ٹیبل سے استفسار کریں۔

اب جب کہ ڈیٹا کو آئس برگ ٹیبل میں داخل کیا گیا ہے، ہم اس کا تجزیہ شروع کر سکتے ہیں۔ آئیے اسپارک ایس کیو ایل کو چلائیں تاکہ سال کے لحاظ سے کم از کم ریکارڈ شدہ درجہ حرارت معلوم کیا جا سکے۔ 'SEATTLE TACOMA AIRPORT, WA US' مقام:

%%sql
select name, year, min(MIN) as minimum_temperature
from icebergdb.noaa_iceberg
where name = 'SEATTLE TACOMA AIRPORT, WA US'
group by 1,2

ہمیں مندرجہ ذیل آؤٹ پٹ ملتا ہے۔

تصویر پہلے منتخب سوال کا آؤٹ پٹ دکھاتی ہے۔

آئس برگ ٹیبل میں ڈیٹا کو اپ ڈیٹ کریں۔

آئیے اپنے ٹیبل میں ڈیٹا کو اپ ڈیٹ کرنے کا طریقہ دیکھتے ہیں۔ ہم اسٹیشن کا نام اپ ڈیٹ کرنا چاہتے ہیں۔ 'SEATTLE TACOMA AIRPORT, WA US' کرنے کے لئے 'Sea-Tac'. اسپارک ایس کیو ایل کا استعمال کرتے ہوئے، ہم ایک چلا سکتے ہیں۔ اپ ڈیٹ آئس برگ ٹیبل کے خلاف بیان:

%%sql
UPDATE icebergdb.noaa_iceberg
SET name = 'Sea-Tac'
WHERE name = 'SEATTLE TACOMA AIRPORT, WA US'

اس کے بعد ہم کم از کم ریکارڈ شدہ درجہ حرارت تلاش کرنے کے لیے پچھلی SELECT استفسار چلا سکتے ہیں۔ 'Sea-Tac' مقام:

%%sql
select name, year, min(MIN) as minimum_temperature
from icebergdb.noaa_iceberg
where name = 'Sea-Tac'
group by 1,2

ہمیں درج ذیل آؤٹ پٹ ملتا ہے۔

تصویر دوسری منتخب سوال کا آؤٹ پٹ دکھاتی ہے۔

کومپیکٹ ڈیٹا فائلیں۔

اوپن ٹیبل فارمیٹس جیسے آئس برگ فائل اسٹوریج میں ڈیلٹا تبدیلیاں کرکے اور مینی فیسٹ فائلوں کے ذریعے قطاروں کے ورژن کو ٹریک کرکے کام کرتے ہیں۔ زیادہ ڈیٹا فائلز مینی فیسٹ فائلوں میں زیادہ میٹا ڈیٹا ذخیرہ کرنے کا باعث بنتی ہیں، اور چھوٹی ڈیٹا فائلیں اکثر غیر ضروری مقدار میں میٹا ڈیٹا کا باعث بنتی ہیں، جس کے نتیجے میں کم موثر سوالات اور ایمیزون S3 تک رسائی کے زیادہ اخراجات ہوتے ہیں۔ چل رہا ہے Iceberg's rewrite_data_files ایتھینا کے لیے اسپارک میں طریقہ کار ڈیٹا فائلوں کو کمپیکٹ کرے گا، بہت سی چھوٹی ڈیلٹا تبدیلی فائلوں کو پڑھنے کے لیے آپٹمائزڈ پارکویٹ فائلوں کے ایک چھوٹے سیٹ میں ملا کر۔ جب استفسار کیا جائے تو فائلوں کو کمپیکٹ کرنا پڑھنے کے عمل کو تیز کرتا ہے۔ ہمارے ٹیبل پر کمپیکشن چلانے کے لیے درج ذیل اسپارک ایس کیو ایل کو چلائیں:

%%sql
CALL spark_catalog.system.rewrite_data_files
(table => 'icebergdb.noaa_iceberg', strategy=>'sort', sort_order => 'zorder(name)')

rewrite_data_files اختیارات پیش کرتا ہے۔ اپنی ترتیب کی حکمت عملی کی وضاحت کرنے کے لیے، جس سے ڈیٹا کو دوبارہ ترتیب دینے اور کمپیکٹ کرنے میں مدد مل سکتی ہے۔

ٹیبل اسنیپ شاٹس کی فہرست بنائیں

آئس برگ ٹیبل پر ہر تحریر، اپ ڈیٹ، ڈیلیٹ، اپسرٹ، اور کمپیکشن آپریشن اسنیپ شاٹ آئسولیشن اور ٹائم ٹریول کے لیے پرانے ڈیٹا اور میٹا ڈیٹا کو ساتھ رکھتے ہوئے ٹیبل کا ایک نیا سنیپ شاٹ بناتا ہے۔ آئس برگ ٹیبل کے سنیپ شاٹس کی فہرست بنانے کے لیے درج ذیل اسپارک ایس کیو ایل اسٹیٹمنٹ کو چلائیں:

%%sql
SELECT *
FROM spark_catalog.icebergdb.noaa_iceberg.snapshots

پرانے سنیپ شاٹس کی میعاد ختم

ان ڈیٹا فائلوں کو حذف کرنے کے لیے جن کی مزید ضرورت نہیں ہے، اور ٹیبل میٹا ڈیٹا کا سائز چھوٹا رکھنے کے لیے باقاعدگی سے اسنیپ شاٹس کی میعاد ختم ہونے کی سفارش کی جاتی ہے۔ یہ کبھی بھی ان فائلوں کو نہیں ہٹائے گا جن کی اب بھی غیر میعاد ختم ہونے والے سنیپ شاٹ کی ضرورت ہے۔ اسپارک فار ایتھینا میں، ٹیبل کے سنیپ شاٹس کی میعاد ختم کرنے کے لیے درج ذیل ایس کیو ایل کو چلائیں۔ icebergdb.noaa_iceberg جو ایک مخصوص ٹائم اسٹیمپ سے پرانے ہیں:

%%sql
CALL spark_catalog.system.expire_snapshots
('icebergdb.noaa_iceberg', TIMESTAMP '2023-11-30 00:00:00.000')

نوٹ کریں کہ ٹائم اسٹیمپ ویلیو فارمیٹ میں سٹرنگ کے طور پر بیان کی گئی ہے۔ yyyy-MM-dd HH:mm:ss.fff. آؤٹ پٹ حذف شدہ ڈیٹا اور میٹا ڈیٹا فائلوں کی تعداد کا حساب دے گا۔

ٹیبل اور ڈیٹا بیس کو گرا دیں۔

آپ اس مشق سے Amazon S3 میں آئس برگ ٹیبلز اور متعلقہ ڈیٹا کو صاف کرنے کے لیے درج ذیل Spark SQL چلا سکتے ہیں۔

%%sql
DROP TABLE icebergdb.noaa_iceberg PURGE

ڈیٹا بیس icebergdb کو ہٹانے کے لیے درج ذیل Spark SQL چلائیں:

%%sql
DROP DATABASE icebergdb

ان تمام آپریشنز کے بارے میں مزید جاننے کے لیے جو آپ اسپارک فار ایتھینا کا استعمال کرتے ہوئے آئس برگ ٹیبلز پر انجام دے سکتے ہیں، دیکھیں۔ چنگاری کے سوالات اور چنگاری کے طریقہ کار آئس برگ دستاویزات میں۔

اپاچی ہودی ٹیبلز کے ساتھ کام کرنا

اگلا، ہم دکھاتے ہیں کہ آپ کس طرح Apache Hudi ٹیبل بنانے، تجزیہ کرنے اور ان کا نظم کرنے کے لیے Spark on Athena کا استعمال کر سکتے ہیں۔

ایک نوٹ بک سیشن ترتیب دیں۔

ایتھینا میں اپاچی ہودی کو استعمال کرنے کے لیے، سیشن بناتے یا اس میں ترمیم کرتے وقت، کو منتخب کریں۔ اپاچی ہودی کی توسیع کی طرف سے اختیار اپاچی اسپارک کی خصوصیات سیکشن پر ایک اقتصادی کینڈر سکین کر لیں۔

یہ تصویر Apache Hudi کی خصوصیات کو دکھاتی ہے جو ایتھینا میں اسپاک سیشن بناتے وقت سیٹ کی گئی ہے۔

اقدامات کے لیے، دیکھیں سیشن کی تفصیلات میں ترمیم کرنا or اپنی خود کی نوٹ بک بنانا.

اس سیکشن میں استعمال شدہ کوڈ میں دستیاب ہونا چاہیے۔ SparkSQL_hudi.ipynb فالو کرنے کے لیے فائل۔

ایک ڈیٹا بیس اور ہدی ٹیبل بنائیں

سب سے پہلے، ہم کہتے ہیں ایک ڈیٹا بیس بناتے ہیں hudidb جسے AWS Glue Data Catalog میں ذخیرہ کیا جائے گا جس کے بعد Hudi ٹیبل کی تخلیق:

%%sql
CREATE DATABASE hudidb

ہم ایمیزون S3 میں ایک مقام کی طرف اشارہ کرتے ہوئے ایک ہدی ٹیبل بناتے ہیں جہاں ہم ڈیٹا لوڈ کریں گے۔ نوٹ کریں کہ ٹیبل کا ہے۔ کاپی آن لکھیں قسم اس کی تعریف کی گئی ہے۔ type= 'cow' ٹیبل ڈی ڈی ایل میں۔ ہم نے اسٹیشن اور تاریخ کو ایک سے زیادہ بنیادی کلیدوں کے طور پر اور preCombinedField کو سال کے طور پر بیان کیا ہے۔ اس کے علاوہ، میز کو سال پر تقسیم کیا جاتا ہے. درج ذیل بیان کو چلائیں اور مقام کو تبدیل کریں۔ s3://<your-S3-bucket>/<prefix>/ اپنی S3 بالٹی اور سابقہ کے ساتھ:

%%sql
CREATE TABLE hudidb.noaa_hudi(
station string,
date string,
latitude string,
longitude string,
elevation string,
name string,
temp string,
temp_attributes string,
dewp string,
dewp_attributes string,
slp string,
slp_attributes string,
stp string,
stp_attributes string,
visib string,
visib_attributes string,
wdsp string,
wdsp_attributes string,
mxspd string,
gust string,
max string,
max_attributes string,
min string,
min_attributes string,
prcp string,
prcp_attributes string,
sndp string,
frshtt string,
year string)
USING HUDI
PARTITIONED BY (year)
TBLPROPERTIES(
primaryKey = 'station, date',
preCombineField = 'year',
type = 'cow'
)
LOCATION 's3://<your-S3-bucket>/<prefix>/noaahudi/'

ٹیبل میں ڈیٹا داخل کریں۔

آئس برگ کی طرح، ہم استعمال کرتے ہیں۔ داخل کریں سے ڈیٹا پڑھ کر ٹیبل کو آباد کرنے کا بیان sparkblogdb.noaa_pq پچھلی پوسٹ میں بنائی گئی جدول:

%%sql
INSERT INTO hudidb.noaa_hudi select * from sparkblogdb.noaa_pq

ہودی ٹیبل سے استفسار کریں۔

اب جب کہ ٹیبل بن گیا ہے، آئیے زیادہ سے زیادہ ریکارڈ شدہ درجہ حرارت تلاش کرنے کے لیے ایک سوال چلائیں۔ 'SEATTLE TACOMA AIRPORT, WA US' مقام:

%%sql
select name, year, max(MAX) as maximum_temperature
from hudidb.noaa_hudi
where name = 'SEATTLE TACOMA AIRPORT, WA US'
group by 1,2

ہدی ٹیبل میں ڈیٹا کو اپ ڈیٹ کریں۔

چلو سٹیشن کا نام بدلتے ہیں۔ 'SEATTLE TACOMA AIRPORT, WA US' کرنے کے لئے 'Sea–Tac'. ہم اسپارک فار ایتھینا ٹو پر اپ ڈیٹ اسٹیٹمنٹ چلا سکتے ہیں۔ اپ ڈیٹ کے ریکارڈ noaa_hudi ٹیبل:

%%sql
UPDATE hudidb.noaa_hudi
SET name = 'Sea-Tac'
WHERE name = 'SEATTLE TACOMA AIRPORT, WA US'

کے لیے زیادہ سے زیادہ ریکارڈ شدہ درجہ حرارت تلاش کرنے کے لیے ہم پچھلی SELECT استفسار چلاتے ہیں۔ 'Sea-Tac' مقام:

%%sql
select name, year, max(MAX) as maximum_temperature
from hudidb.noaa_hudi
where name = 'Sea-Tac'
group by 1,2

ٹائم ٹریول کے سوالات چلائیں۔

ہم ماضی کے ڈیٹا سنیپ شاٹس کا تجزیہ کرنے کے لیے ایس کیو ایل آن ایتھینا میں ٹائم ٹریول کے سوالات استعمال کر سکتے ہیں۔ مثال کے طور پر:

%%sql
select name, year, max(MAX) as maximum_temperature
from hudidb.noaa_hudi timestamp as of '2023-12-01 23:53:43.100'
where name = 'SEATTLE TACOMA AIRPORT, WA US'
group by 1,2

یہ استفسار ماضی میں مخصوص وقت کے مطابق سیٹل ہوائی اڈے کے درجہ حرارت کا ڈیٹا چیک کرتا ہے۔ ٹائم اسٹیمپ کی شق ہمیں موجودہ ڈیٹا کو تبدیل کیے بغیر واپس سفر کرنے دیتی ہے۔ نوٹ کریں کہ ٹائم اسٹیمپ ویلیو فارمیٹ میں سٹرنگ کے طور پر بیان کی گئی ہے۔ yyyy-MM-dd HH:mm:ss.fff.

کلسٹرنگ کے ساتھ استفسار کی رفتار کو بہتر بنائیں

استفسار کی کارکردگی کو بہتر بنانے کے لیے، آپ انجام دے سکتے ہیں۔ clustering کے Athena کے لیے Spark میں SQL کا استعمال کرتے ہوئے Hudi ٹیبلز پر:

%%sql
CALL run_clustering(table => 'hudidb.noaa_hudi', order => 'name')

کومپیکٹ میزیں۔

کومپیکشن ایک ٹیبل سروس ہے جو ہدی کے ذریعہ خاص طور پر مرج آن ریڈ (MOR) ٹیبلز میں استعمال کی جاتی ہے تاکہ قطار پر مبنی لاگ فائلوں سے متعلقہ کالم پر مبنی بیس فائل میں اپ ڈیٹس کو وقتاً فوقتاً بیس فائل کا نیا ورژن تیار کرنے کے لیے ضم کیا جاسکے۔ کومپیکشن کاپی آن رائٹ (COW) ٹیبلز پر لاگو نہیں ہوتا ہے اور صرف MOR ٹیبلز پر لاگو ہوتا ہے۔ ایم او آر ٹیبلز پر کمپیکشن کرنے کے لیے آپ اسپارک فار ایتھینا میں درج ذیل استفسار چلا سکتے ہیں۔

%%sql
CALL run_compaction(op => 'run', table => 'hudi_table_mor');

ٹیبل اور ڈیٹا بیس کو گرا دیں۔

ایمیزون S3 مقام سے آپ نے جو ہدی ٹیبل بنایا ہے اور اس سے وابستہ ڈیٹا کو ہٹانے کے لیے درج ذیل اسپارک ایس کیو ایل کو چلائیں:

%%sql
DROP TABLE hudidb.noaa_hudi PURGE

ڈیٹا بیس کو ہٹانے کے لیے درج ذیل Spark SQL چلائیں۔ hudidb:

%%sql
DROP DATABASE hudidb

ان تمام آپریشنز کے بارے میں جاننے کے لیے جو آپ Spark for Athena کا استعمال کرتے ہوئے ہدی ٹیبلز پر انجام دے سکتے ہیں، ملاحظہ کریں۔ ایس کیو ایل ڈی ڈی ایل اور طریقہ کار ہودی دستاویزات میں۔

لینکس فاؤنڈیشن ڈیلٹا لیک ٹیبلز کے ساتھ کام کرنا

اگلا، ہم دکھاتے ہیں کہ آپ کس طرح ڈیلٹا لیک ٹیبل بنانے، تجزیہ کرنے اور ان کا نظم کرنے کے لیے ایس کیو ایل آن اسپارک فار ایتھینا کا استعمال کر سکتے ہیں۔

ایک نوٹ بک سیشن ترتیب دیں۔

اسپارک میں ڈیلٹا لیک کو ایتھینا کے لیے استعمال کرنے کے لیے، سیشن بناتے یا اس میں ترمیم کرتے وقت، منتخب کریں۔ لینکس فاؤنڈیشن ڈیلٹا جھیل کو بڑھا کر اپاچی اسپارک کی خصوصیات سیکشن پر ایک اقتصادی کینڈر سکین کر لیں۔

یہ تصویر ایتھینا میں اسپاک سیشن بناتے وقت ڈیلٹا جھیل کی خصوصیات کو ظاہر کرتی ہے۔

اقدامات کے لیے، دیکھیں سیشن کی تفصیلات میں ترمیم کرنا or اپنی خود کی نوٹ بک بنانا.

اس سیکشن میں استعمال شدہ کوڈ میں دستیاب ہونا چاہیے۔ SparkSQL_delta.ipynb فالو کرنے کے لیے فائل۔

ایک ڈیٹا بیس اور ڈیلٹا لیک ٹیبل بنائیں

اس حصے میں، ہم AWS Glue Data Catalog میں ایک ڈیٹا بیس بناتے ہیں۔ درج ذیل ایس کیو ایل کا استعمال کرتے ہوئے، ہم ایک ڈیٹا بیس بنا سکتے ہیں۔ deltalakedb:

%%sql
CREATE DATABASE deltalakedb

اگلا، ڈیٹا بیس میں deltalakedb، ہم ایک ڈیلٹا لیک ٹیبل بناتے ہیں جسے کہتے ہیں۔ noaa_delta ایمیزون S3 میں ایک مقام کی طرف اشارہ کرتے ہوئے جہاں ہم ڈیٹا لوڈ کریں گے۔ درج ذیل بیان کو چلائیں اور مقام کو تبدیل کریں۔ s3://<your-S3-bucket>/<prefix>/ اپنی S3 بالٹی اور سابقہ کے ساتھ:

%%sql
CREATE TABLE deltalakedb.noaa_delta(
station string,
date string,
latitude string,
longitude string,
elevation string,
name string,
temp string,
temp_attributes string,
dewp string,
dewp_attributes string,
slp string,
slp_attributes string,
stp string,
stp_attributes string,
visib string,
visib_attributes string,
wdsp string,
wdsp_attributes string,
mxspd string,
gust string,
max string,
max_attributes string,
min string,
min_attributes string,
prcp string,
prcp_attributes string,
sndp string,
frshtt string)
USING delta
PARTITIONED BY (year string)
LOCATION 's3://<your-S3-bucket>/<prefix>/noaadelta/'

ٹیبل میں ڈیٹا داخل کریں۔

ہم ایک استعمال کرتے ہیں داخل کریں سے ڈیٹا پڑھ کر ٹیبل کو آباد کرنے کا بیان sparkblogdb.noaa_pq پچھلی پوسٹ میں بنائی گئی جدول:

%%sql
INSERT INTO deltalakedb.noaa_delta select * from sparkblogdb.noaa_pq

آپ ڈیلٹا لیک ٹیبل بنانے اور ایک سوال میں سورس ٹیبل سے ڈیٹا داخل کرنے کے لیے CREATE TABLE AS SELECT کا استعمال بھی کر سکتے ہیں۔

ڈیلٹا لیک ٹیبل سے استفسار کریں۔

اب جبکہ ڈیٹا ڈیلٹا لیک ٹیبل میں داخل ہو چکا ہے، ہم اس کا تجزیہ شروع کر سکتے ہیں۔ آئیے اسپارک ایس کیو ایل کو چلاتے ہیں تاکہ کم از کم ریکارڈ شدہ درجہ حرارت معلوم کریں۔ 'SEATTLE TACOMA AIRPORT, WA US' مقام:

%%sql
select name, year, max(MAX) as minimum_temperature
from deltalakedb.noaa_delta
where name = 'SEATTLE TACOMA AIRPORT, WA US'
group by 1,2

ڈیلٹا جھیل ٹیبل میں ڈیٹا کو اپ ڈیٹ کریں۔

چلو سٹیشن کا نام بدلتے ہیں۔ 'SEATTLE TACOMA AIRPORT, WA US' کرنے کے لئے 'Sea–Tac'. ہم ایک چلا سکتے ہیں اپ ڈیٹ اسپارک فار ایتھینا کے ریکارڈ کو اپ ڈیٹ کرنے کے لیے بیان noaa_delta ٹیبل:

%%sql
UPDATE deltalakedb.noaa_delta
SET name = 'Sea-Tac'
WHERE name = 'SEATTLE TACOMA AIRPORT, WA US'

کم از کم ریکارڈ شدہ درجہ حرارت معلوم کرنے کے لیے ہم پچھلی SELECT استفسار چلا سکتے ہیں۔ 'Sea-Tac' مقام، اور نتیجہ پہلے جیسا ہی ہونا چاہئے:

%%sql
select name, year, max(MAX) as minimum_temperature
from deltalakedb.noaa_delta
where name = 'Sea-Tac'
group by 1,2

کومپیکٹ ڈیٹا فائلیں۔

اسپارک فار ایتھینا میں، آپ ڈیلٹا لیک ٹیبل پر اوپٹمائز چلا سکتے ہیں، جو چھوٹی فائلوں کو بڑی فائلوں میں کمپیکٹ کرے گا، اس لیے سوالات پر چھوٹی فائل اوور ہیڈ کا بوجھ نہیں پڑے گا۔ کمپیکشن آپریشن کرنے کے لیے، درج ذیل استفسار کو چلائیں:

%%sql
OPTIMIZE deltalakedb.noaa_delta

کا حوالہ دیتے ہیں اصلاحات OPTIMIZE کو چلانے کے دوران دستیاب مختلف اختیارات کے لیے ڈیلٹا لیک دستاویزات میں۔

ڈیلٹا لیک ٹیبل کی طرف سے مزید حوالہ نہ دینے والی فائلوں کو ہٹا دیں۔

آپ ایمیزون S3 میں ذخیرہ شدہ فائلوں کو ہٹا سکتے ہیں جن کا اب ڈیلٹا لیک ٹیبل کے ذریعہ حوالہ نہیں دیا گیا ہے اور وہ اسپارک فار ایتھینا کا استعمال کرتے ہوئے ٹیبل پر VACCUM کمانڈ چلا کر برقرار رکھنے کی حد سے زیادہ پرانی ہیں:

%%sql
VACUUM deltalakedb.noaa_delta

کا حوالہ دیتے ہیں ڈیلٹا ٹیبل کی طرف سے مزید حوالہ نہ دینے والی فائلوں کو ہٹا دیں۔ VACUUM کے ساتھ دستیاب اختیارات کے لیے ڈیلٹا لیک دستاویزات میں۔

ٹیبل اور ڈیٹا بیس کو گرا دیں۔

آپ نے جو ڈیلٹا لیک ٹیبل بنایا ہے اسے ہٹانے کے لیے درج ذیل Spark SQL چلائیں:

%%sql
DROP TABLE deltalakedb.noaa_delta

ڈیٹا بیس کو ہٹانے کے لیے درج ذیل Spark SQL چلائیں۔ deltalakedb:

%%sql
DROP DATABASE deltalakedb

ڈیلٹا لیک ٹیبل اور ڈیٹا بیس پر DROP TABLE DDL چلانے سے ان اشیاء کا میٹا ڈیٹا حذف ہو جاتا ہے، لیکن Amazon S3 میں موجود ڈیٹا فائلوں کو خود بخود حذف نہیں کرتا ہے۔ آپ S3 مقام سے ڈیٹا کو حذف کرنے کے لیے نوٹ بک کے سیل میں درج ذیل Python کوڈ چلا سکتے ہیں۔

import boto3

s3 = boto3.resource('s3')
bucket = s3.Bucket('<your-S3-bucket>')
bucket.objects.filter(Prefix="<prefix>/noaadelta/").delete()

ایس کیو ایل کے بیانات کے بارے میں مزید جاننے کے لیے جنہیں آپ اسپارک فار ایتھینا کا استعمال کرتے ہوئے ڈیلٹا لیک ٹیبل پر چلا سکتے ہیں، دیکھیں Quickstart کے ڈیلٹا لیک دستاویزات میں۔

نتیجہ

اس پوسٹ نے دکھایا ہے کہ ڈیٹا بیس اور ٹیبلز بنانے، ڈیٹا داخل کرنے اور استفسار کرنے، اور ہدی، ڈیلٹا لیک، اور آئس برگ ٹیبلز پر اپ ڈیٹس، کمپیکشنز، اور ٹائم ٹریول جیسے عام آپریشنز کو انجام دینے کے لیے ایتھینا نوٹ بک میں اسپارک ایس کیو ایل کا استعمال کیسے کیا جائے۔ اوپن ٹیبل فارمیٹس ACID ٹرانزیکشنز، اپسرٹس، اور ڈیلیٹس ڈیٹا لیکس میں شامل کرتے ہیں، خام آبجیکٹ اسٹوریج کی حدود پر قابو پاتے ہیں۔ علیحدہ کنیکٹرز کو انسٹال کرنے کی ضرورت کو دور کرتے ہوئے، Athena کے بلٹ ان انٹیگریشن پر Spark Amazon S3 پر قابل اعتماد ڈیٹا لیکس بنانے کے لیے ان مقبول فریم ورکس کا استعمال کرتے وقت کنفیگریشن کے مراحل اور مینجمنٹ اوور ہیڈ کو کم کرتا ہے۔ اپنے ڈیٹا لیک ورک بوجھ کے لیے اوپن ٹیبل فارمیٹ کو منتخب کرنے کے بارے میں مزید جاننے کے لیے، دیکھیں AWS پر اپنی ٹرانزیکشنل ڈیٹا لیک کے لیے اوپن ٹیبل فارمیٹ کا انتخاب کرنا.

مصنفین کے بارے میں

پتھک شاہ ایمیزون ایتھینا پر ایک سینئر اینالیٹکس آرکیٹیکٹ ہے۔ اس نے 2015 میں AWS میں شمولیت اختیار کی اور تب سے بڑے ڈیٹا اینالیٹکس کی جگہ پر توجہ مرکوز کر رہا ہے، جس سے صارفین کو AWS تجزیاتی خدمات کا استعمال کرتے ہوئے قابل توسیع اور مضبوط حل تیار کرنے میں مدد مل رہی ہے۔

راج دیو ناتھ Amazon Athena پر AWS میں پروڈکٹ مینیجر ہے۔ وہ صارفین کی پسند کی مصنوعات بنانے اور صارفین کو ان کے ڈیٹا سے قیمت نکالنے میں مدد کرنے کے بارے میں پرجوش ہے۔ اس کا پس منظر متعدد اختتامی منڈیوں کے لیے حل فراہم کرنے میں ہے، جیسے فنانس، ریٹیل، سمارٹ بلڈنگز، ہوم آٹومیشن، اور ڈیٹا کمیونیکیشن سسٹم۔

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://aws.amazon.com/blogs/big-data/use-amazon-athena-with-spark-sql-for-your-open-source-transactional-table-formats/

ٹائم اسٹیمپ: جنوری۳۱، ۲۰۱۹

شرائط

Amazon S3 سے مثالی نوٹ بک ڈاؤن لوڈ اور درآمد کریں۔

مخصوص اوپن ٹیبل فارمیٹ سیکشن پر جائیں۔

اپاچی آئس برگ ٹیبلز کے ساتھ کام کرنا

ایک نوٹ بک سیشن ترتیب دیں۔

ایک ڈیٹا بیس اور آئس برگ ٹیبل بنائیں

ٹیبل میں ڈیٹا داخل کریں۔

آئس برگ ٹیبل سے استفسار کریں۔

آئس برگ ٹیبل میں ڈیٹا کو اپ ڈیٹ کریں۔

کومپیکٹ ڈیٹا فائلیں۔

ٹیبل اسنیپ شاٹس کی فہرست بنائیں

پرانے سنیپ شاٹس کی میعاد ختم

ٹیبل اور ڈیٹا بیس کو گرا دیں۔

اپاچی ہودی ٹیبلز کے ساتھ کام کرنا

ایک نوٹ بک سیشن ترتیب دیں۔

ایک ڈیٹا بیس اور ہدی ٹیبل بنائیں

ٹیبل میں ڈیٹا داخل کریں۔

ہودی ٹیبل سے استفسار کریں۔

ہدی ٹیبل میں ڈیٹا کو اپ ڈیٹ کریں۔

ٹائم ٹریول کے سوالات چلائیں۔

کلسٹرنگ کے ساتھ استفسار کی رفتار کو بہتر بنائیں

کومپیکٹ میزیں۔

ٹیبل اور ڈیٹا بیس کو گرا دیں۔

لینکس فاؤنڈیشن ڈیلٹا لیک ٹیبلز کے ساتھ کام کرنا

ایک نوٹ بک سیشن ترتیب دیں۔

ایک ڈیٹا بیس اور ڈیلٹا لیک ٹیبل بنائیں

ٹیبل میں ڈیٹا داخل کریں۔

ڈیلٹا لیک ٹیبل سے استفسار کریں۔

ڈیلٹا جھیل ٹیبل میں ڈیٹا کو اپ ڈیٹ کریں۔

کومپیکٹ ڈیٹا فائلیں۔

ڈیلٹا لیک ٹیبل کی طرف سے مزید حوالہ نہ دینے والی فائلوں کو ہٹا دیں۔

ٹیبل اور ڈیٹا بیس کو گرا دیں۔

نتیجہ

مصنفین کے بارے میں

سے زیادہ AWS بگ ڈیٹا

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ