Use Amazon Athena With Spark SQL For Your Open-source Transactional Table Formats | Amazon Web Services

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

AWS-চালিত ডেটা লেক, এর অতুলনীয় প্রাপ্যতা দ্বারা সমর্থিত আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3), বিভিন্ন ডেটা এবং বিশ্লেষণ পদ্ধতি একত্রিত করার জন্য প্রয়োজনীয় স্কেল, তত্পরতা এবং নমনীয়তা পরিচালনা করতে পারে। যেহেতু ডেটা হ্রদ আকারে বেড়েছে এবং ব্যবহারে পরিপক্ক হয়েছে, তাই ব্যবসায়িক ইভেন্টগুলির সাথে ডেটা সামঞ্জস্য রেখে একটি উল্লেখযোগ্য পরিমাণ প্রচেষ্টা ব্যয় করা যেতে পারে। ফাইলগুলিকে লেনদেনগতভাবে সামঞ্জস্যপূর্ণভাবে আপডেট করা হয়েছে তা নিশ্চিত করতে, ক্রমবর্ধমান সংখ্যক গ্রাহক ওপেন-সোর্স লেনদেনের টেবিল ফর্ম্যাট ব্যবহার করছেন যেমন অ্যাপাচি আইসবার্গ, অ্যাপাচি হুদি, এবং লিনাক্স ফাউন্ডেশন ডেল্টা লেক যা আপনাকে উচ্চ কম্প্রেশন রেট সহ ডেটা সঞ্চয় করতে সাহায্য করে, আপনার অ্যাপ্লিকেশন এবং ফ্রেমওয়ার্কগুলির সাথে নেটিভ ইন্টারফেস করতে এবং Amazon S3-তে নির্মিত ডেটা লেকে ক্রমবর্ধমান ডেটা প্রক্রিয়াকরণকে সহজ করে। এই ফর্ম্যাটগুলি ACID (পরমাণু, সামঞ্জস্য, বিচ্ছিন্নতা, স্থায়িত্ব) লেনদেন, আপসার্ট এবং মুছে ফেলা এবং উন্নত বৈশিষ্ট্যগুলি যেমন সময় ভ্রমণ এবং স্ন্যাপশটগুলিকে সক্ষম করে যা আগে শুধুমাত্র ডেটা গুদামে উপলব্ধ ছিল৷ প্রতিটি স্টোরেজ ফরম্যাট এই কার্যকারিতাকে কিছুটা ভিন্ন উপায়ে প্রয়োগ করে; তুলনার জন্য, পড়ুন AWS-এ আপনার লেনদেন সংক্রান্ত ডেটা লেকের জন্য একটি খোলা টেবিল বিন্যাস নির্বাচন করা হচ্ছে.

2023 সালে AWS সাধারণ প্রাপ্যতা ঘোষণা করেছে Apache Iceberg, Apache Hudi এবং Linux ফাউন্ডেশন ডেল্টা লেকের জন্য Apache Spark এর জন্য Amazon Athena, যা একটি পৃথক সংযোগকারী বা সম্পর্কিত নির্ভরতা ইনস্টল করার এবং সংস্করণগুলি পরিচালনা করার প্রয়োজনীয়তাকে সরিয়ে দেয় এবং এই কাঠামোগুলি ব্যবহার করার জন্য প্রয়োজনীয় কনফিগারেশন পদক্ষেপগুলিকে সরল করে।

এই পোস্টে, আমরা আপনাকে দেখাই কিভাবে স্পার্ক এসকিউএল ব্যবহার করতে হয় অ্যামাজন অ্যাথেনা নোটবুক এবং আইসবার্গ, হুডি এবং ডেল্টা লেক টেবিল ফর্ম্যাটের সাথে কাজ করুন। আমরা সাধারণ ক্রিয়াকলাপগুলি প্রদর্শন করি যেমন ডাটাবেস এবং টেবিল তৈরি করা, টেবিলে ডেটা সন্নিবেশ করা, ডেটা অনুসন্ধান করা এবং অ্যাথেনায় স্পার্ক SQL ব্যবহার করে Amazon S3-এ টেবিলের স্ন্যাপশট দেখা।

পূর্বশর্ত

নিম্নলিখিত পূর্বশর্তগুলি সম্পূর্ণ করুন:

Amazon S3 থেকে উদাহরণ নোটবুক ডাউনলোড এবং আমদানি করুন

অনুসরণ করতে, এই পোস্টে আলোচনা করা নোটবুকগুলি নিম্নলিখিত অবস্থান থেকে ডাউনলোড করুন:

আপনি নোটবুকগুলি ডাউনলোড করার পরে, সেগুলি অনুসরণ করে আপনার এথেনা স্পার্ক পরিবেশে আমদানি করুন৷ একটি নোটবুক আমদানি করতে বিভাগে নোটবুক ফাইল পরিচালনা.

নির্দিষ্ট ওপেন টেবিল ফরম্যাট বিভাগে নেভিগেট করুন

আপনি যদি আইসবার্গ টেবিল বিন্যাসে আগ্রহী হন তবে নেভিগেট করুন অ্যাপাচি আইসবার্গ টেবিলের সাথে কাজ করা অধ্যায়.

আপনি যদি হুডি টেবিল ফরম্যাটে আগ্রহী হন, সেখানে নেভিগেট করুন Apache Hudi টেবিলের সাথে কাজ করা অধ্যায়.

আপনি যদি ডেল্টা লেক টেবিল বিন্যাসে আগ্রহী হন, নেভিগেট করুন লিনাক্স ফাউন্ডেশন ডেল্টা লেক টেবিলের সাথে কাজ করা অধ্যায়.

অ্যাপাচি আইসবার্গ টেবিলের সাথে কাজ করা

এথেনায় স্পার্ক নোটবুক ব্যবহার করার সময়, আপনি PySpark ব্যবহার না করেই সরাসরি SQL প্রশ্ন চালাতে পারেন। আমরা সেল ম্যাজিক ব্যবহার করে এটি করি, যা একটি নোটবুক সেলে বিশেষ শিরোনাম যা কোষের আচরণ পরিবর্তন করে। এসকিউএল-এর জন্য, আমরা যোগ করতে পারি %%sql ম্যাজিক, যা অ্যাথেনায় চালানোর জন্য একটি এসকিউএল স্টেটমেন্ট হিসাবে সমগ্র ঘরের বিষয়বস্তুকে ব্যাখ্যা করবে।

এই বিভাগে, আমরা দেখাই কিভাবে আপনি Apache Spark-এ Athena-এর জন্য Apache Iceberg টেবিল তৈরি, বিশ্লেষণ এবং পরিচালনা করতে ব্যবহার করতে পারেন।

একটি নোটবুক সেশন সেট আপ করুন

এথেনায় Apache Iceberg ব্যবহার করার জন্য, একটি সেশন তৈরি বা সম্পাদনা করার সময়, নির্বাচন করুন অ্যাপাচি আইসবার্গ প্রসারিত করে বিকল্প অ্যাপাচি স্পার্ক বৈশিষ্ট্য অধ্যায়. এটি নিম্নলিখিত স্ক্রিনশটে দেখানো বৈশিষ্ট্যগুলিকে প্রাক-পপুলেট করবে।

এই ছবিটি অ্যাথেনায় স্প্যাক সেশন তৈরি করার সময় অ্যাপাচি আইসবার্গের বৈশিষ্ট্যগুলিকে দেখায়।

পদক্ষেপের জন্য, দেখুন সেশনের বিবরণ সম্পাদনা করা হচ্ছে or আপনার নিজের নোটবুক তৈরি করা.

এই বিভাগে ব্যবহৃত কোড পাওয়া যায় SparkSQL_iceberg.ipynb অনুসরণ করার জন্য ফাইল।

একটি ডাটাবেস এবং আইসবার্গ টেবিল তৈরি করুন

প্রথমত, আমরা AWS Glue Data Catalog এ একটি ডাটাবেস তৈরি করি। নিম্নলিখিত এসকিউএল দিয়ে, আমরা একটি ডাটাবেস তৈরি করতে পারি যার নাম icebergdb:

%%sql
CREATE DATABASE icebergdb

পরবর্তী, ডাটাবেসে icebergdb, আমরা নামক একটি আইসবার্গ টেবিল তৈরি করি noaa_iceberg Amazon S3-এর একটি অবস্থানের দিকে নির্দেশ করছি যেখানে আমরা ডেটা লোড করব। নিম্নলিখিত বিবৃতিটি চালান এবং অবস্থানটি প্রতিস্থাপন করুন s3://<your-S3-bucket>/<prefix>/ আপনার S3 বালতি এবং উপসর্গ সহ:

%%sql
CREATE TABLE icebergdb.noaa_iceberg(
station string,
date string,
latitude string,
longitude string,
elevation string,
name string,
temp string,
temp_attributes string,
dewp string,
dewp_attributes string,
slp string,
slp_attributes string,
stp string,
stp_attributes string,
visib string,
visib_attributes string,
wdsp string,
wdsp_attributes string,
mxspd string,
gust string,
max string,
max_attributes string,
min string,
min_attributes string,
prcp string,
prcp_attributes string,
sndp string,
frshtt string)
USING iceberg
PARTITIONED BY (year string)
LOCATION 's3://<your-S3-bucket>/<prefix>/noaaiceberg/'

টেবিলে তথ্য সন্নিবেশ করান

জনবহুল করতে noaa_iceberg আইসবার্গ টেবিল, আমরা Parquet টেবিল থেকে তথ্য সন্নিবেশ sparkblogdb.noaa_pq যেটি পূর্বশর্তের অংশ হিসাবে তৈরি করা হয়েছিল। আপনি একটি ব্যবহার করে এটি করতে পারেন দ্রন স্পার্কের বিবৃতি:

%%sql
INSERT INTO icebergdb.noaa_iceberg select * from sparkblogdb.noaa_pq

বিকল্পভাবে, আপনি ব্যবহার করতে পারেন সিলেক্ট হিসাবে টেবিল তৈরি করুন একটি আইসবার্গ টেবিল তৈরি করতে আইসবার্গ ক্লজ ব্যবহার করুন এবং এক ধাপে একটি উত্স টেবিল থেকে ডেটা সন্নিবেশ করুন:

%%sql
CREATE TABLE icebergdb.noaa_iceberg
USING iceberg
PARTITIONED BY (year)
AS SELECT * FROM sparkblogdb.noaa_pq

আইসবার্গ টেবিল জিজ্ঞাসা

এখন যে ডেটা আইসবার্গ টেবিলে ঢোকানো হয়েছে, আমরা এটি বিশ্লেষণ শুরু করতে পারি। এর জন্য বছরের সর্বনিম্ন রেকর্ড করা তাপমাত্রা খুঁজে পেতে একটি স্পার্ক এসকিউএল চালাই 'SEATTLE TACOMA AIRPORT, WA US' অবস্থান:

%%sql
select name, year, min(MIN) as minimum_temperature
from icebergdb.noaa_iceberg
where name = 'SEATTLE TACOMA AIRPORT, WA US'
group by 1,2

আমরা নিম্নলিখিত আউটপুট পেতে.

চিত্রটি প্রথম নির্বাচিত প্রশ্নের আউটপুট দেখায়

আইসবার্গ টেবিলে ডেটা আপডেট করুন

আমাদের টেবিলে কিভাবে ডেটা আপডেট করা যায় তা দেখা যাক। আমরা স্টেশনের নাম আপডেট করতে চাই 'SEATTLE TACOMA AIRPORT, WA US' থেকে 'Sea-Tac'. স্পার্ক এসকিউএল ব্যবহার করে, আমরা একটি চালাতে পারি হালনাগাদ আইসবার্গ টেবিলের বিরুদ্ধে বিবৃতি:

%%sql
UPDATE icebergdb.noaa_iceberg
SET name = 'Sea-Tac'
WHERE name = 'SEATTLE TACOMA AIRPORT, WA US'

তারপরে আমরা ন্যূনতম রেকর্ড করা তাপমাত্রা খুঁজে পেতে পূর্ববর্তী SELECT ক্যোয়ারী চালাতে পারি 'Sea-Tac' অবস্থান:

%%sql
select name, year, min(MIN) as minimum_temperature
from icebergdb.noaa_iceberg
where name = 'Sea-Tac'
group by 1,2

আমরা নিম্নলিখিত আউটপুট পেতে.

ইমেজ দ্বিতীয় নির্বাচন ক্যোয়ারী আউটপুট দেখায়

কমপ্যাক্ট ডেটা ফাইল

আইসবার্গের মতো ওপেন টেবিল ফরম্যাটগুলি ফাইল স্টোরেজে ডেল্টা পরিবর্তন তৈরি করে এবং ম্যানিফেস্ট ফাইলগুলির মাধ্যমে সারিগুলির সংস্করণগুলি ট্র্যাক করে কাজ করে৷ আরও ডেটা ফাইলগুলি ম্যানিফেস্ট ফাইলগুলিতে আরও মেটাডেটা সংরক্ষণের দিকে পরিচালিত করে এবং ছোট ডেটা ফাইলগুলি প্রায়শই অপ্রয়োজনীয় পরিমাণে মেটাডেটা সৃষ্টি করে, যার ফলে কম দক্ষ অনুসন্ধান এবং উচ্চ Amazon S3 অ্যাক্সেস খরচ হয়। চলমান আইসবার্গ এর rewrite_data_files অ্যাথেনার জন্য স্পার্কের পদ্ধতিটি ডেটা ফাইলগুলিকে কম্প্যাক্ট করবে, অনেকগুলি ছোট ডেল্টা পরিবর্তন ফাইলগুলিকে রিড-অপ্টিমাইজ করা Parquet ফাইলগুলির একটি ছোট সেটে একত্রিত করবে৷ প্রশ্ন করা হলে ফাইলগুলিকে কম্প্যাক্ট করা পঠন ক্রিয়াকে গতি দেয়৷ আমাদের টেবিলে কমপ্যাকশন চালানোর জন্য, নিম্নলিখিত স্পার্ক এসকিউএল চালান:

%%sql
CALL spark_catalog.system.rewrite_data_files
(table => 'icebergdb.noaa_iceberg', strategy=>'sort', sort_order => 'zorder(name)')

rewrite_data_files বিকল্পগুলি অফার করে আপনার সাজানোর কৌশল নির্দিষ্ট করতে, যা ডেটা পুনর্গঠন এবং কম্প্যাক্ট করতে সাহায্য করতে পারে।

তালিকা টেবিল স্ন্যাপশট

একটি আইসবার্গ টেবিলের প্রতিটি লেখা, আপডেট, মুছে ফেলা, আপসার্ট এবং কমপ্যাকশন অপারেশন একটি টেবিলের একটি নতুন স্ন্যাপশট তৈরি করে যখন স্ন্যাপশট বিচ্ছিন্নতা এবং সময় ভ্রমণের জন্য পুরানো ডেটা এবং মেটাডেটা চারপাশে রাখে৷ একটি আইসবার্গ টেবিলের স্ন্যাপশট তালিকাভুক্ত করতে, নিম্নলিখিত স্পার্ক এসকিউএল বিবৃতিটি চালান:

%%sql
SELECT *
FROM spark_catalog.icebergdb.noaa_iceberg.snapshots

পুরানো স্ন্যাপশট মেয়াদ শেষ

আর প্রয়োজন নেই এমন ডেটা ফাইল মুছে ফেলার জন্য এবং টেবিলের মেটাডেটার আকার ছোট রাখার জন্য নিয়মিত মেয়াদ শেষ হওয়া স্ন্যাপশটগুলি সুপারিশ করা হয়৷ এটি কখনই এমন ফাইলগুলিকে মুছে ফেলবে না যা এখনও মেয়াদোত্তীর্ণ স্ন্যাপশটের জন্য প্রয়োজনীয়। এথেনার জন্য স্পার্ক-এ, টেবিলের স্ন্যাপশটগুলির মেয়াদ শেষ করতে নিম্নলিখিত SQL চালান icebergdb.noaa_iceberg যেগুলি একটি নির্দিষ্ট টাইমস্ট্যাম্পের চেয়ে পুরানো:

%%sql
CALL spark_catalog.system.expire_snapshots
('icebergdb.noaa_iceberg', TIMESTAMP '2023-11-30 00:00:00.000')

নোট করুন যে টাইমস্ট্যাম্প মান বিন্যাসে একটি স্ট্রিং হিসাবে নির্দিষ্ট করা হয়েছে yyyy-MM-dd HH:mm:ss.fff. আউটপুট ডেটা এবং মেটাডেটা ফাইল মুছে ফেলার সংখ্যার একটি গণনা দেবে।

টেবিল এবং ডাটাবেস ফেলে দিন

আপনি এই অনুশীলন থেকে Amazon S3 এ আইসবার্গ টেবিল এবং সংশ্লিষ্ট ডেটা পরিষ্কার করতে নিম্নলিখিত স্পার্ক এসকিউএল চালাতে পারেন:

%%sql
DROP TABLE icebergdb.noaa_iceberg PURGE

ডাটাবেস আইসবার্গডিবি অপসারণ করতে নিম্নলিখিত স্পার্ক এসকিউএল চালান:

%%sql
DROP DATABASE icebergdb

অ্যাথেনার জন্য স্পার্ক ব্যবহার করে আপনি আইসবার্গ টেবিলে যে সমস্ত অপারেশন করতে পারেন সে সম্পর্কে আরও জানতে, পড়ুন স্পার্ক কোয়েরি এবং স্পার্ক পদ্ধতি আইসবার্গ ডকুমেন্টেশনে।

Apache Hudi টেবিলের সাথে কাজ করা

এর পরে, আমরা দেখাব কিভাবে আপনি Apache Hudi টেবিল তৈরি, বিশ্লেষণ এবং পরিচালনার জন্য Spark-এ এসকিউএল ব্যবহার করতে পারেন।

একটি নোটবুক সেশন সেট আপ করুন

এথেনায় Apache Hudi ব্যবহার করার জন্য, একটি সেশন তৈরি বা সম্পাদনা করার সময়, নির্বাচন করুন অ্যাপাচি হুদি প্রসারিত করে বিকল্প অ্যাপাচি স্পার্ক বৈশিষ্ট্য অধ্যায়.

এই চিত্রটি এথেনায় স্প্যাক সেশন তৈরি করার সময় অ্যাপাচি হুডি বৈশিষ্ট্য সেট দেখায়।

এই বিভাগে ব্যবহৃত কোড পাওয়া উচিত SparkSQL_hudi.ipynb অনুসরণ করার জন্য ফাইল।

একটি ডাটাবেস এবং হুডি টেবিল তৈরি করুন

প্রথমত, আমরা নামক একটি ডাটাবেস তৈরি করি hudidb যেটি AWS Glue Data Catalog-এ সংরক্ষিত হবে তারপর Hudi টেবিল তৈরি করা হবে:

%%sql
CREATE DATABASE hudidb

আমরা Amazon S3-এ একটি অবস্থান নির্দেশ করে একটি হুডি টেবিল তৈরি করি যেখানে আমরা ডেটা লোড করব। উল্লেখ্য যে টেবিলটি এর অনুরূপ লিখ টাইপ এটি দ্বারা সংজ্ঞায়িত করা হয় type= 'cow' টেবিলে DDL. আমরা স্টেশন এবং তারিখকে একাধিক প্রাথমিক কী এবং প্রি-কম্বাইন্ডফিল্ডকে বছর হিসাবে সংজ্ঞায়িত করেছি। এছাড়াও, টেবিলটি বছরে বিভাজন করা হয়। নিম্নলিখিত বিবৃতিটি চালান এবং অবস্থানটি প্রতিস্থাপন করুন s3://<your-S3-bucket>/<prefix>/ আপনার S3 বালতি এবং উপসর্গ সহ:

%%sql
CREATE TABLE hudidb.noaa_hudi(
station string,
date string,
latitude string,
longitude string,
elevation string,
name string,
temp string,
temp_attributes string,
dewp string,
dewp_attributes string,
slp string,
slp_attributes string,
stp string,
stp_attributes string,
visib string,
visib_attributes string,
wdsp string,
wdsp_attributes string,
mxspd string,
gust string,
max string,
max_attributes string,
min string,
min_attributes string,
prcp string,
prcp_attributes string,
sndp string,
frshtt string,
year string)
USING HUDI
PARTITIONED BY (year)
TBLPROPERTIES(
primaryKey = 'station, date',
preCombineField = 'year',
type = 'cow'
)
LOCATION 's3://<your-S3-bucket>/<prefix>/noaahudi/'

টেবিলে তথ্য সন্নিবেশ করান

আইসবার্গের মতো, আমরা ব্যবহার করি দ্রন বিবৃতি থেকে ডেটা পড়ে টেবিলটি পূরণ করতে sparkblogdb.noaa_pq পূর্ববর্তী পোস্টে তৈরি টেবিল:

%%sql
INSERT INTO hudidb.noaa_hudi select * from sparkblogdb.noaa_pq

হুদি টেবিলে প্রশ্ন করুন

এখন টেবিলটি তৈরি করা হয়েছে, এর জন্য সর্বোচ্চ রেকর্ড করা তাপমাত্রা খুঁজে পেতে একটি ক্যোয়ারী চালানো যাক 'SEATTLE TACOMA AIRPORT, WA US' অবস্থান:

%%sql
select name, year, max(MAX) as maximum_temperature
from hudidb.noaa_hudi
where name = 'SEATTLE TACOMA AIRPORT, WA US'
group by 1,2

হুদি টেবিলে ডেটা আপডেট করুন

স্টেশনের নাম পরিবর্তন করা যাক 'SEATTLE TACOMA AIRPORT, WA US' থেকে 'Sea–Tac'. আমরা এথেনার জন্য স্পার্ক-এ একটি আপডেট বিবৃতি চালাতে পারি আপডেটের এর রেকর্ড noaa_hudi টেবিল:

%%sql
UPDATE hudidb.noaa_hudi
SET name = 'Sea-Tac'
WHERE name = 'SEATTLE TACOMA AIRPORT, WA US'

এর জন্য সর্বোচ্চ রেকর্ড করা তাপমাত্রা খুঁজে পেতে আমরা পূর্ববর্তী SELECT ক্যোয়ারী চালাই 'Sea-Tac' অবস্থান:

%%sql
select name, year, max(MAX) as maximum_temperature
from hudidb.noaa_hudi
where name = 'Sea-Tac'
group by 1,2

সময় ভ্রমণ প্রশ্ন চালান

অতীতের ডেটা স্ন্যাপশটগুলি বিশ্লেষণ করতে আমরা অ্যাথেনাতে SQL-এ সময় ভ্রমণের প্রশ্নগুলি ব্যবহার করতে পারি। উদাহরণ স্বরূপ:

%%sql
select name, year, max(MAX) as maximum_temperature
from hudidb.noaa_hudi timestamp as of '2023-12-01 23:53:43.100'
where name = 'SEATTLE TACOMA AIRPORT, WA US'
group by 1,2

এই প্রশ্নটি অতীতে একটি নির্দিষ্ট সময়ের হিসাবে সিয়াটেল বিমানবন্দরের তাপমাত্রার ডেটা পরীক্ষা করে। টাইমস্ট্যাম্প ক্লজ আমাদের বর্তমান ডেটা পরিবর্তন না করেই ফিরে যেতে দেয়। নোট করুন যে টাইমস্ট্যাম্প মান বিন্যাসে একটি স্ট্রিং হিসাবে নির্দিষ্ট করা হয়েছে yyyy-MM-dd HH:mm:ss.fff.

ক্লাস্টারিংয়ের সাথে কোয়েরির গতি অপ্টিমাইজ করুন

ক্যোয়ারী কর্মক্ষমতা উন্নত করতে, আপনি সম্পাদন করতে পারেন থলোথলো এথেনার জন্য স্পার্ক-এ SQL ব্যবহার করে হুডি টেবিলে:

%%sql
CALL run_clustering(table => 'hudidb.noaa_hudi', order => 'name')

কম্প্যাক্ট টেবিল

কমপ্যাকশন হল একটি টেবিল পরিষেবা যা হুডি দ্বারা বিশেষভাবে মার্জ অন রিড (এমওআর) টেবিলে নিযুক্ত করে বেস ফাইলের একটি নতুন সংস্করণ তৈরি করার জন্য সারি-ভিত্তিক লগ ফাইলগুলি থেকে সংশ্লিষ্ট কলাম-ভিত্তিক বেস ফাইলে আপডেটগুলিকে একত্রিত করতে। কম্প্যাকশন কপি অন রাইটে (COW) টেবিলে প্রযোজ্য নয় এবং শুধুমাত্র MOR টেবিলের ক্ষেত্রে প্রযোজ্য। এমওআর টেবিলে কমপ্যাকশন করার জন্য আপনি এথেনার জন্য স্পার্ক-এ নিম্নলিখিত ক্যোয়ারী চালাতে পারেন:

%%sql
CALL run_compaction(op => 'run', table => 'hudi_table_mor');

টেবিল এবং ডাটাবেস ফেলে দিন

Amazon S3 অবস্থান থেকে আপনার তৈরি করা হুডি টেবিল এবং সংশ্লিষ্ট ডেটা সরাতে নিম্নলিখিত স্পার্ক SQL চালান:

%%sql
DROP TABLE hudidb.noaa_hudi PURGE

ডাটাবেস অপসারণ করতে নিম্নলিখিত স্পার্ক এসকিউএল চালান hudidb:

%%sql
DROP DATABASE hudidb

এথেনার জন্য স্পার্ক ব্যবহার করে আপনি হুডি টেবিলে যে সমস্ত অপারেশন করতে পারেন সে সম্পর্কে জানতে, পড়ুন এসকিউএল ডিডিএল এবং <u><strong>পদ্ধতি</strong></u> হুদি ডকুমেন্টেশনে।

লিনাক্স ফাউন্ডেশন ডেল্টা লেক টেবিলের সাথে কাজ করা

এর পরে, আমরা দেখাব কিভাবে আপনি ডেল্টা লেক টেবিল তৈরি, বিশ্লেষণ এবং পরিচালনা করতে এথেনার জন্য স্পার্ক-এ SQL ব্যবহার করতে পারেন।

একটি নোটবুক সেশন সেট আপ করুন

অ্যাথেনার জন্য স্পার্কের ডেল্টা লেক ব্যবহার করার জন্য, একটি সেশন তৈরি বা সম্পাদনা করার সময়, নির্বাচন করুন লিনাক্স ফাউন্ডেশন ডেল্টা লেক প্রসারিত করে অ্যাপাচি স্পার্ক বৈশিষ্ট্য অধ্যায়.

এই ছবিটি এথেনায় স্প্যাক সেশন তৈরি করার সময় ডেল্টা লেকের বৈশিষ্ট্যগুলিকে দেখায়।

এই বিভাগে ব্যবহৃত কোড পাওয়া উচিত SparkSQL_delta.ipynb অনুসরণ করার জন্য ফাইল।

একটি ডাটাবেস এবং ডেল্টা লেক টেবিল তৈরি করুন

এই বিভাগে, আমরা AWS গ্লু ডেটা ক্যাটালগে একটি ডাটাবেস তৈরি করি। নিম্নলিখিত এসকিউএল ব্যবহার করে, আমরা নামক একটি ডাটাবেস তৈরি করতে পারি deltalakedb:

%%sql
CREATE DATABASE deltalakedb

পরবর্তী, ডাটাবেসে deltalakedb, আমরা একটি ডেল্টা লেক টেবিল নামক তৈরি noaa_delta Amazon S3-এর একটি অবস্থানের দিকে নির্দেশ করছি যেখানে আমরা ডেটা লোড করব। নিম্নলিখিত বিবৃতিটি চালান এবং অবস্থানটি প্রতিস্থাপন করুন s3://<your-S3-bucket>/<prefix>/ আপনার S3 বালতি এবং উপসর্গ সহ:

%%sql
CREATE TABLE deltalakedb.noaa_delta(
station string,
date string,
latitude string,
longitude string,
elevation string,
name string,
temp string,
temp_attributes string,
dewp string,
dewp_attributes string,
slp string,
slp_attributes string,
stp string,
stp_attributes string,
visib string,
visib_attributes string,
wdsp string,
wdsp_attributes string,
mxspd string,
gust string,
max string,
max_attributes string,
min string,
min_attributes string,
prcp string,
prcp_attributes string,
sndp string,
frshtt string)
USING delta
PARTITIONED BY (year string)
LOCATION 's3://<your-S3-bucket>/<prefix>/noaadelta/'

টেবিলে তথ্য সন্নিবেশ করান

আমরা একটি ব্যবহার দ্রন বিবৃতি থেকে ডেটা পড়ে টেবিলটি পূরণ করতে sparkblogdb.noaa_pq পূর্ববর্তী পোস্টে তৈরি টেবিল:

%%sql
INSERT INTO deltalakedb.noaa_delta select * from sparkblogdb.noaa_pq

আপনি একটি ডেল্টা লেক টেবিল তৈরি করতে এবং একটি ক্যোয়ারীতে একটি উৎস টেবিল থেকে ডেটা সন্নিবেশ করতে SELECT হিসাবে তৈরি করুন টেবিল ব্যবহার করতে পারেন।

ডেল্টা লেক টেবিলে প্রশ্ন করুন

এখন যেহেতু ডেটা ডেল্টা লেক টেবিলে ঢোকানো হয়েছে, আমরা এটি বিশ্লেষণ শুরু করতে পারি। এর জন্য সর্বনিম্ন রেকর্ড করা তাপমাত্রা খুঁজে পেতে একটি স্পার্ক এসকিউএল চালাই 'SEATTLE TACOMA AIRPORT, WA US' অবস্থান:

%%sql
select name, year, max(MAX) as minimum_temperature
from deltalakedb.noaa_delta
where name = 'SEATTLE TACOMA AIRPORT, WA US'
group by 1,2

ডেল্টা লেক টেবিলে ডেটা আপডেট করুন

স্টেশনের নাম পরিবর্তন করা যাক 'SEATTLE TACOMA AIRPORT, WA US' থেকে 'Sea–Tac'. আমরা একটি চালাতে পারেন হালনাগাদ এথেনার রেকর্ড আপডেট করার জন্য স্পার্কের বিবৃতি noaa_delta টেবিল:

%%sql
UPDATE deltalakedb.noaa_delta
SET name = 'Sea-Tac'
WHERE name = 'SEATTLE TACOMA AIRPORT, WA US'

আমরা ন্যূনতম রেকর্ড করা তাপমাত্রা খুঁজে পেতে পূর্ববর্তী SELECT ক্যোয়ারী চালাতে পারি 'Sea-Tac' অবস্থান, এবং ফলাফল আগের মতই হওয়া উচিত:

%%sql
select name, year, max(MAX) as minimum_temperature
from deltalakedb.noaa_delta
where name = 'Sea-Tac'
group by 1,2

কমপ্যাক্ট ডেটা ফাইল

এথেনার জন্য স্পার্ক-এ, আপনি ডেল্টা লেক টেবিলে অপ্টিমাইজ চালাতে পারেন, যা ছোট ফাইলগুলিকে বড় ফাইলগুলিতে কম্প্যাক্ট করবে, যাতে ছোট ফাইল ওভারহেড দ্বারা প্রশ্নগুলি বোঝা না যায়৷ কম্প্যাকশন অপারেশন সঞ্চালনের জন্য, নিম্নলিখিত ক্যোয়ারী চালান:

%%sql
OPTIMIZE deltalakedb.noaa_delta

নির্দেশ করে নিখুঁতকরণ অপ্টিমাইজ চালানোর সময় উপলব্ধ বিভিন্ন বিকল্পের জন্য ডেল্টা লেক ডকুমেন্টেশনে।

ডেল্টা লেক টেবিলের দ্বারা আর উল্লেখ করা ফাইলগুলি সরান

আপনি অ্যামাজন S3-এ সঞ্চিত ফাইলগুলিকে সরিয়ে ফেলতে পারেন যেগুলি ডেল্টা লেক টেবিলের দ্বারা আর উল্লেখ করা হয় না এবং অ্যাথেনার জন্য স্পার্ক ব্যবহার করে টেবিলে VACCUM কমান্ড চালিয়ে ধরে রাখার থ্রেশহোল্ডের চেয়ে পুরানো:

%%sql
VACUUM deltalakedb.noaa_delta

নির্দেশ করে ডেল্টা টেবিলের দ্বারা আর উল্লেখ করা ফাইলগুলি সরান ভ্যাকুয়ামের সাথে উপলব্ধ বিকল্পগুলির জন্য ডেল্টা লেক ডকুমেন্টেশনে।

টেবিল এবং ডাটাবেস ফেলে দিন

আপনার তৈরি ডেল্টা লেক টেবিলটি সরাতে নিম্নলিখিত স্পার্ক এসকিউএল চালান:

%%sql
DROP TABLE deltalakedb.noaa_delta

ডাটাবেস অপসারণ করতে নিম্নলিখিত স্পার্ক এসকিউএল চালান deltalakedb:

%%sql
DROP DATABASE deltalakedb

ডেল্টা লেক টেবিল এবং ডাটাবেসে DROP TABLE DDL চালানোর ফলে এই বস্তুর মেটাডেটা মুছে যায়, কিন্তু স্বয়ংক্রিয়ভাবে Amazon S3-এর ডেটা ফাইল মুছে যায় না। S3 অবস্থান থেকে ডেটা মুছে ফেলার জন্য আপনি নোটবুকের ঘরে নিম্নলিখিত পাইথন কোডটি চালাতে পারেন:

import boto3

s3 = boto3.resource('s3')
bucket = s3.Bucket('<your-S3-bucket>')
bucket.objects.filter(Prefix="<prefix>/noaadelta/").delete()

এথেনার জন্য স্পার্ক ব্যবহার করে আপনি ডেল্টা লেকের টেবিলে চালাতে পারেন এমন SQL বিবৃতি সম্পর্কে আরও জানতে, দেখুন দ্রুতশুরু ডেল্টা লেক ডকুমেন্টেশনে।

উপসংহার

এই পোস্টে দেখানো হয়েছে যে কীভাবে এথেনা নোটবুকে স্পার্ক এসকিউএল ব্যবহার করে ডাটাবেস এবং টেবিল তৈরি করতে হয়, ডেটা সন্নিবেশ করতে এবং অনুসন্ধান করতে হয় এবং হুডি, ডেল্টা লেক এবং আইসবার্গ টেবিলে আপডেট, কমপ্যাকশন এবং সময় ভ্রমণের মতো সাধারণ ক্রিয়াকলাপগুলি সম্পাদন করতে হয়। ওপেন টেবিল ফরম্যাটগুলি কাঁচা অবজেক্ট স্টোরেজের সীমাবদ্ধতা অতিক্রম করে ডেটা লেকে ACID লেনদেন, আপসার্ট এবং ডিলিট যোগ করে। পৃথক সংযোগকারী ইনস্টল করার প্রয়োজনীয়তা দূর করে, অ্যাথেনার বিল্ট-ইন ইন্টিগ্রেশনে স্পার্ক অ্যামাজন S3-তে নির্ভরযোগ্য ডেটা লেক তৈরির জন্য এই জনপ্রিয় ফ্রেমওয়ার্কগুলি ব্যবহার করার সময় কনফিগারেশন পদক্ষেপ এবং ব্যবস্থাপনা ওভারহেড হ্রাস করে। আপনার ডেটা লেক ওয়ার্কলোডের জন্য একটি খোলা টেবিল বিন্যাস নির্বাচন করার বিষয়ে আরও জানতে, পড়ুন AWS-এ আপনার লেনদেন সংক্রান্ত ডেটা লেকের জন্য একটি খোলা টেবিল বিন্যাস নির্বাচন করা হচ্ছে.

লেখক সম্পর্কে

পথিক শাহ অ্যামাজন অ্যাথেনার একজন সিনিয়র অ্যানালিটিক্স আর্কিটেক্ট। তিনি 2015 সালে AWS-এ যোগদান করেন এবং তারপর থেকে বড় ডেটা অ্যানালিটিক্স স্পেসে ফোকাস করছেন, গ্রাহকদের AWS অ্যানালিটিক্স পরিষেবাগুলি ব্যবহার করে মাপযোগ্য এবং শক্তিশালী সমাধান তৈরি করতে সহায়তা করে৷

রাজ দেবনাথ Amazon Athena-এ AWS-এর একজন প্রোডাক্ট ম্যানেজার। তিনি গ্রাহকদের পছন্দের পণ্য তৈরি করতে এবং গ্রাহকদের তাদের ডেটা থেকে মূল্য বের করতে সহায়তা করার বিষয়ে উত্সাহী। তার পটভূমি হল ফিনান্স, খুচরা, স্মার্ট বিল্ডিং, হোম অটোমেশন, এবং ডেটা কমিউনিকেশন সিস্টেমের মতো একাধিক শেষ বাজারের সমাধান প্রদান করা।

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
উত্স: https://aws.amazon.com/blogs/big-data/use-amazon-athena-with-spark-sql-for-your-open-source-transactional-table-formats/

সময় স্ট্যাম্প: জানুয়ারী 24, 2024

পূর্বশর্ত

Amazon S3 থেকে উদাহরণ নোটবুক ডাউনলোড এবং আমদানি করুন

নির্দিষ্ট ওপেন টেবিল ফরম্যাট বিভাগে নেভিগেট করুন

অ্যাপাচি আইসবার্গ টেবিলের সাথে কাজ করা

একটি নোটবুক সেশন সেট আপ করুন

একটি ডাটাবেস এবং আইসবার্গ টেবিল তৈরি করুন

টেবিলে তথ্য সন্নিবেশ করান

আইসবার্গ টেবিল জিজ্ঞাসা

আইসবার্গ টেবিলে ডেটা আপডেট করুন

কমপ্যাক্ট ডেটা ফাইল

তালিকা টেবিল স্ন্যাপশট

পুরানো স্ন্যাপশট মেয়াদ শেষ

টেবিল এবং ডাটাবেস ফেলে দিন

Apache Hudi টেবিলের সাথে কাজ করা

একটি নোটবুক সেশন সেট আপ করুন

একটি ডাটাবেস এবং হুডি টেবিল তৈরি করুন

টেবিলে তথ্য সন্নিবেশ করান

হুদি টেবিলে প্রশ্ন করুন

হুদি টেবিলে ডেটা আপডেট করুন

সময় ভ্রমণ প্রশ্ন চালান

ক্লাস্টারিংয়ের সাথে কোয়েরির গতি অপ্টিমাইজ করুন

কম্প্যাক্ট টেবিল

টেবিল এবং ডাটাবেস ফেলে দিন

লিনাক্স ফাউন্ডেশন ডেল্টা লেক টেবিলের সাথে কাজ করা

একটি নোটবুক সেশন সেট আপ করুন

একটি ডাটাবেস এবং ডেল্টা লেক টেবিল তৈরি করুন

টেবিলে তথ্য সন্নিবেশ করান

ডেল্টা লেক টেবিলে প্রশ্ন করুন

ডেল্টা লেক টেবিলে ডেটা আপডেট করুন

কমপ্যাক্ট ডেটা ফাইল

ডেল্টা লেক টেবিলের দ্বারা আর উল্লেখ করা ফাইলগুলি সরান

টেবিল এবং ডাটাবেস ফেলে দিন

উপসংহার

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস বিগ ডেটা

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব