Utilizați Amazon Athena cu Spark SQL pentru formatele dvs. de tabele tranzacționale open-source | Amazon Web Services

Republicat de Platon

Urmaritori: 0

Lacurile de date alimentate de AWS, susținute de disponibilitatea de neegalat a Serviciul Amazon de stocare simplă (Amazon S3), poate gestiona amploarea, agilitatea și flexibilitatea necesare pentru a combina diferite abordări de date și analize. Pe măsură ce lacurile de date au crescut în dimensiune și s-au maturizat în utilizare, se poate depune o cantitate semnificativă de efort pentru a menține datele în concordanță cu evenimentele de afaceri. Pentru a se asigura că fișierele sunt actualizate într-o manieră coerentă din punct de vedere tranzacțional, un număr tot mai mare de clienți utilizează formate de tabel tranzacționale open-source, cum ar fi Apache Iceberg, Apache Hudi, și Fundația Linux Delta Lake care vă ajută să stocați date cu rate de compresie ridicate, să interacționați nativ cu aplicațiile și cadrele dvs. și să simplificați procesarea incrementală a datelor în lacurile de date construite pe Amazon S3. Aceste formate permit tranzacțiile ACID (atomicitate, consistență, izolare, durabilitate), supărări și ștergeri, precum și funcții avansate, cum ar fi călătoria în timp și instantanee, care anterior erau disponibile numai în depozitele de date. Fiecare format de stocare implementează această funcționalitate în moduri ușor diferite; pentru o comparație, consultați Alegerea unui format de tabel deschis pentru lacul dvs. de date tranzacționale pe AWS.

În 2023, AWS a anunțat disponibilitatea generală pentru Apache Iceberg, Apache Hudi și Linux Foundation Delta Lake în Amazon Athena pentru Apache Spark, care elimină necesitatea instalării unui conector separat sau a dependențelor asociate și gestionarea versiunilor și simplifică pașii de configurare necesari pentru a utiliza aceste cadre.

În această postare, vă arătăm cum să utilizați Spark SQL în Amazon Atena caiete și lucrați cu formatele de tabel Iceberg, Hudi și Delta Lake. Demonstrăm operațiuni obișnuite, cum ar fi crearea de baze de date și tabele, inserarea datelor în tabele, interogarea datelor și examinarea instantaneelor tabelelor în Amazon S3 folosind Spark SQL în Athena.

Cerințe preliminare

Completați următoarele cerințe preliminare:

Descărcați și importați exemple de notebook-uri de pe Amazon S3

Pentru a urma, descărcați caietele discutate în această postare din următoarele locații:

După ce descărcați blocnotesurile, importați-le în mediul dvs. Athena Spark urmând Pentru a importa un caiet secțiune în Gestionarea fișierelor notebook.

Navigați la secțiunea specifică Open Table Format

Dacă sunteți interesat de formatul tabelului Iceberg, navigați la Lucrul cu tabelele Apache Iceberg secţiune.

Dacă sunteți interesat de formatul tabelului Hudi, navigați la Lucrul cu tabele Apache Hudi secţiune.

Dacă sunteți interesat de formatul tabelului Delta Lake, navigați la Lucrul cu tabelele Delta Lake ale fundației Linux secţiune.

Lucrul cu tabelele Apache Iceberg

Când utilizați notebook-uri Spark în Athena, puteți rula interogări SQL direct, fără a fi nevoie să utilizați PySpark. Facem acest lucru folosind magia celulară, care sunt anteturi speciale într-o celulă de notebook care schimbă comportamentul celulei. Pentru SQL, putem adăuga %%sql magic, care va interpreta întregul conținut al celulei ca o instrucțiune SQL care va fi rulată pe Athena.

În această secțiune, arătăm cum puteți utiliza SQL pe Apache Spark pentru Athena pentru a crea, analiza și gestiona tabele Apache Iceberg.

Configurați o sesiune de notebook

Pentru a utiliza Apache Iceberg în Athena, în timp ce creați sau editați o sesiune, selectați Apache Iceberg opțiunea prin extinderea Proprietăți Apache Spark secțiune. Acesta va completa proprietățile, așa cum se arată în următoarea captură de ecran.

Această imagine arată proprietățile Apache Iceberg setate în timpul creării sesiunii Spak în Athena.

Pentru pași, vezi Editarea detaliilor sesiunii or Crearea propriului caiet.

Codul folosit în această secțiune este disponibil în SparkSQL_iceberg.ipynb fișier de urmat.

Creați o bază de date și un tabel Iceberg

Mai întâi, creăm o bază de date în AWS Glue Data Catalog. Cu următorul SQL, putem crea o bază de date numită icebergdb:

%%sql
CREATE DATABASE icebergdb

Apoi, în baza de date icebergdb, creăm un tabel Iceberg numit noaa_iceberg indicând către o locație din Amazon S3 unde vom încărca datele. Rulați următoarea instrucțiune și înlocuiți locația s3://<your-S3-bucket>/<prefix>/ cu găleata și prefixul S3:

%%sql
CREATE TABLE icebergdb.noaa_iceberg(
station string,
date string,
latitude string,
longitude string,
elevation string,
name string,
temp string,
temp_attributes string,
dewp string,
dewp_attributes string,
slp string,
slp_attributes string,
stp string,
stp_attributes string,
visib string,
visib_attributes string,
wdsp string,
wdsp_attributes string,
mxspd string,
gust string,
max string,
max_attributes string,
min string,
min_attributes string,
prcp string,
prcp_attributes string,
sndp string,
frshtt string)
USING iceberg
PARTITIONED BY (year string)
LOCATION 's3://<your-S3-bucket>/<prefix>/noaaiceberg/'

Introduceți datele în tabel

Pentru a popula noaa_iceberg Tabelul Iceberg, inserăm date din tabelul Parquet sparkblogdb.noaa_pq care a fost creat ca parte a cerințelor prealabile. Puteți face acest lucru folosind un INTRODU IN declarație în Spark:

%%sql
INSERT INTO icebergdb.noaa_iceberg select * from sparkblogdb.noaa_pq

Alternativ, puteți utiliza CREATE TABLE AS SELECT cu clauza USING iceberg pentru a crea un tabel Iceberg și a insera date dintr-un tabel sursă într-un singur pas:

%%sql
CREATE TABLE icebergdb.noaa_iceberg
USING iceberg
PARTITIONED BY (year)
AS SELECT * FROM sparkblogdb.noaa_pq

Interogați tabelul Iceberg

Acum că datele sunt introduse în tabelul Iceberg, putem începe să le analizăm. Să rulăm un Spark SQL pentru a găsi temperatura minimă înregistrată pe an pentru 'SEATTLE TACOMA AIRPORT, WA US' Locul de amplasare:

%%sql
select name, year, min(MIN) as minimum_temperature
from icebergdb.noaa_iceberg
where name = 'SEATTLE TACOMA AIRPORT, WA US'
group by 1,2

Obținem următoarea ieșire.

Imaginea arată rezultatul primei interogări selectate

Actualizați datele din tabelul Iceberg

Să vedem cum să actualizăm datele din tabelul nostru. Vrem să actualizăm numele stației 'SEATTLE TACOMA AIRPORT, WA US' la 'Sea-Tac'. Folosind Spark SQL, putem rula un UPDATE declarație împotriva tabelului Iceberg:

%%sql
UPDATE icebergdb.noaa_iceberg
SET name = 'Sea-Tac'
WHERE name = 'SEATTLE TACOMA AIRPORT, WA US'

Putem rula apoi interogarea SELECT anterioară pentru a găsi temperatura minimă înregistrată pentru 'Sea-Tac' Locul de amplasare:

%%sql
select name, year, min(MIN) as minimum_temperature
from icebergdb.noaa_iceberg
where name = 'Sea-Tac'
group by 1,2

Obținem următoarea ieșire.

Imaginea arată rezultatul a doua interogare de selectare

Fișiere de date compacte

Formatele de tabel deschise, cum ar fi Iceberg, funcționează prin crearea de modificări delta în stocarea fișierelor și urmărirea versiunilor de rânduri prin fișierele manifest. Mai multe fișiere de date duc la mai multe metadate stocate în fișierele manifest, iar fișierele de date mici cauzează adesea o cantitate inutilă de metadate, rezultând interogări mai puțin eficiente și costuri mai mari de acces Amazon S3. Conducerea lui Iceberg rewrite_data_files procedura din Spark pentru Athena va compacta fișierele de date, combinând multe fișiere mici de modificare delta într-un set mai mic de fișiere Parquet optimizate pentru citire. Compactarea fișierelor accelerează operația de citire atunci când sunt interogate. Pentru a rula compactarea pe tabelul nostru, rulați următorul Spark SQL:

%%sql
CALL spark_catalog.system.rewrite_data_files
(table => 'icebergdb.noaa_iceberg', strategy=>'sort', sort_order => 'zorder(name)')

rewrite_data_files oferă opțiuni pentru a specifica strategia de sortare, care poate ajuta la reorganizarea și compactarea datelor.

Listați instantanee de tabel

Fiecare operațiune de scriere, actualizare, ștergere, suprapunere și compactare pe un tabel Iceberg creează un nou instantaneu al unui tabel, păstrând în același timp datele și metadatele vechi pentru izolarea instantaneelor și călătoria în timp. Pentru a lista instantaneele unui tabel Iceberg, rulați următoarea instrucțiune Spark SQL:

%%sql
SELECT *
FROM spark_catalog.icebergdb.noaa_iceberg.snapshots

Expiră instantaneele vechi

Instantaneele care expiră în mod regulat sunt recomandate pentru a șterge fișierele de date care nu mai sunt necesare și pentru a menține dimensiunea mică a metadatelor din tabel. Nu va elimina niciodată fișierele care sunt încă solicitate de un instantaneu care nu a expirat. În Spark pentru Athena, rulați următorul SQL pentru a expira instantaneele pentru tabel icebergdb.noaa_iceberg care sunt mai vechi decât un anumit marcaj de timp:

%%sql
CALL spark_catalog.system.expire_snapshots
('icebergdb.noaa_iceberg', TIMESTAMP '2023-11-30 00:00:00.000')

Rețineți că valoarea marcajului de timp este specificată ca șir în format yyyy-MM-dd HH:mm:ss.fff. Ieșirea va oferi o contorizare a numărului de fișiere de date și metadate șterse.

Aruncă tabelul și baza de date

Puteți rula următorul Spark SQL pentru a curăța tabelele Iceberg și datele asociate din Amazon S3 din acest exercițiu:

%%sql
DROP TABLE icebergdb.noaa_iceberg PURGE

Rulați următorul Spark SQL pentru a elimina baza de date icebergdb:

%%sql
DROP DATABASE icebergdb

Pentru a afla mai multe despre toate operațiunile pe care le puteți efectua pe mesele Iceberg folosind Spark pentru Athena, consultați Spark Interogări și Proceduri Spark în documentația Iceberg.

Lucrul cu tabele Apache Hudi

În continuare, vă arătăm cum puteți utiliza SQL pe Spark pentru Athena pentru a crea, analiza și gestiona tabele Apache Hudi.

Configurați o sesiune de notebook

Pentru a utiliza Apache Hudi în Athena, în timp ce creați sau editați o sesiune, selectați Apache Hudi opțiunea prin extinderea Proprietăți Apache Spark secţiune.

Această imagine arată proprietățile Apache Hudi setate în timpul creării sesiunii Spak în Athena.

Pentru pași, vezi Editarea detaliilor sesiunii or Crearea propriului caiet.

Codul folosit în această secțiune ar trebui să fie disponibil în SparkSQL_hudi.ipynb fișier de urmat.

Creați o bază de date și un tabel Hudi

Mai întâi, creăm o bază de date numită hudidb care va fi stocat în Catalogul de date AWS Glue, urmat de crearea tabelului Hudi:

%%sql
CREATE DATABASE hudidb

Creăm un tabel Hudi care indică o locație din Amazon S3 unde vom încărca datele. Rețineți că tabelul este de Copie pe scriere tip. Este definit de type= 'cow' în tabelul DDL. Am definit stația și data ca chei primare multiple și preCombinedField ca an. De asemenea, tabelul este împărțit pe an. Rulați următoarea instrucțiune și înlocuiți locația s3://<your-S3-bucket>/<prefix>/ cu găleata și prefixul S3:

%%sql
CREATE TABLE hudidb.noaa_hudi(
station string,
date string,
latitude string,
longitude string,
elevation string,
name string,
temp string,
temp_attributes string,
dewp string,
dewp_attributes string,
slp string,
slp_attributes string,
stp string,
stp_attributes string,
visib string,
visib_attributes string,
wdsp string,
wdsp_attributes string,
mxspd string,
gust string,
max string,
max_attributes string,
min string,
min_attributes string,
prcp string,
prcp_attributes string,
sndp string,
frshtt string,
year string)
USING HUDI
PARTITIONED BY (year)
TBLPROPERTIES(
primaryKey = 'station, date',
preCombineField = 'year',
type = 'cow'
)
LOCATION 's3://<your-S3-bucket>/<prefix>/noaahudi/'

Introduceți datele în tabel

Ca și în cazul Iceberg, folosim INTRODU IN declarație pentru a completa tabelul citind date din sparkblogdb.noaa_pq tabel creat în postarea anterioară:

%%sql
INSERT INTO hudidb.noaa_hudi select * from sparkblogdb.noaa_pq

Interogați tabelul Hudi

Acum că tabelul este creat, să rulăm o interogare pentru a găsi temperatura maximă înregistrată pentru 'SEATTLE TACOMA AIRPORT, WA US' Locul de amplasare:

%%sql
select name, year, max(MAX) as maximum_temperature
from hudidb.noaa_hudi
where name = 'SEATTLE TACOMA AIRPORT, WA US'
group by 1,2

Actualizați datele din tabelul Hudi

Să schimbăm numele stației 'SEATTLE TACOMA AIRPORT, WA US' la 'Sea–Tac'. Putem rula o declarație UPDATE pe Spark pentru Athena actualizare înregistrările de la noaa_hudi masa:

%%sql
UPDATE hudidb.noaa_hudi
SET name = 'Sea-Tac'
WHERE name = 'SEATTLE TACOMA AIRPORT, WA US'

Executăm interogarea anterioară SELECT pentru a găsi temperatura maximă înregistrată pentru 'Sea-Tac' Locul de amplasare:

%%sql
select name, year, max(MAX) as maximum_temperature
from hudidb.noaa_hudi
where name = 'Sea-Tac'
group by 1,2

Rulați interogări de călătorie în timp

Putem folosi interogări de călătorie în timp în SQL pe Athena pentru a analiza instantanee de date din trecut. De exemplu:

%%sql
select name, year, max(MAX) as maximum_temperature
from hudidb.noaa_hudi timestamp as of '2023-12-01 23:53:43.100'
where name = 'SEATTLE TACOMA AIRPORT, WA US'
group by 1,2

Această interogare verifică datele de temperatură a aeroportului din Seattle la o anumită perioadă din trecut. Clauza de marcaj temporal ne permite să călătorim înapoi fără a modifica datele curente. Rețineți că valoarea marcajului de timp este specificată ca șir în format yyyy-MM-dd HH:mm:ss.fff.

Optimizați viteza interogărilor cu clustering

Pentru a îmbunătăți performanța interogărilor, puteți efectua clustering pe tabele Hudi folosind SQL în Spark pentru Athena:

%%sql
CALL run_clustering(table => 'hudidb.noaa_hudi', order => 'name')

Mese compacte

Compactarea este un serviciu de tabele folosit de Hudi în mod specific în tabelele Merge On Read (MOR) pentru a îmbina actualizările din fișierele jurnal bazate pe rânduri cu fișierul de bază pe coloană corespunzător periodic pentru a produce o nouă versiune a fișierului de bază. Compactarea nu este aplicabilă tabelelor Copy On Write (COW) și se aplică numai tabelelor MOR. Puteți rula următoarea interogare în Spark pentru ca Athena să efectueze compactarea pe tabelele MOR:

%%sql
CALL run_compaction(op => 'run', table => 'hudi_table_mor');

Aruncă tabelul și baza de date

Rulați următorul Spark SQL pentru a elimina tabelul Hudi pe care l-ați creat și datele asociate din locația Amazon S3:

%%sql
DROP TABLE hudidb.noaa_hudi PURGE

Rulați următorul Spark SQL pentru a elimina baza de date hudidb:

%%sql
DROP DATABASE hudidb

Pentru a afla despre toate operațiunile pe care le puteți efectua pe mesele Hudi folosind Spark pentru Athena, consultați SQL DDL și Proceduri în documentația Hudi.

Lucrul cu tabelele Delta Lake ale fundației Linux

În continuare, vă arătăm cum puteți utiliza SQL pe Spark pentru Athena pentru a crea, analiza și gestiona tabele Delta Lake.

Configurați o sesiune de notebook

Pentru a utiliza Delta Lake în Spark pentru Athena, în timp ce creați sau editați o sesiune, selectați Fundația Linux Delta Lake prin extinderea Proprietăți Apache Spark secţiune.

Această imagine arată proprietățile Delta Lake setate în timpul creării sesiunii Spak în Athena.

Pentru pași, vezi Editarea detaliilor sesiunii or Crearea propriului caiet.

Codul folosit în această secțiune ar trebui să fie disponibil în SparkSQL_delta.ipynb fișier de urmat.

Creați o bază de date și un tabel Delta Lake

În această secțiune, creăm o bază de date în AWS Glue Data Catalog. Folosind următorul SQL, putem crea o bază de date numită deltalakedb:

%%sql
CREATE DATABASE deltalakedb

Apoi, în baza de date deltalakedb, creăm un tabel Delta Lake numit noaa_delta indicând către o locație din Amazon S3 unde vom încărca datele. Rulați următoarea instrucțiune și înlocuiți locația s3://<your-S3-bucket>/<prefix>/ cu găleata și prefixul S3:

%%sql
CREATE TABLE deltalakedb.noaa_delta(
station string,
date string,
latitude string,
longitude string,
elevation string,
name string,
temp string,
temp_attributes string,
dewp string,
dewp_attributes string,
slp string,
slp_attributes string,
stp string,
stp_attributes string,
visib string,
visib_attributes string,
wdsp string,
wdsp_attributes string,
mxspd string,
gust string,
max string,
max_attributes string,
min string,
min_attributes string,
prcp string,
prcp_attributes string,
sndp string,
frshtt string)
USING delta
PARTITIONED BY (year string)
LOCATION 's3://<your-S3-bucket>/<prefix>/noaadelta/'

Introduceți datele în tabel

Folosim un INTRODU IN declarație pentru a completa tabelul citind date din sparkblogdb.noaa_pq tabel creat în postarea anterioară:

%%sql
INSERT INTO deltalakedb.noaa_delta select * from sparkblogdb.noaa_pq

De asemenea, puteți utiliza CREATE TABLE AS SELECT pentru a crea un tabel Delta Lake și pentru a insera date dintr-un tabel sursă într-o singură interogare.

Interogați tabelul Delta Lake

Acum că datele sunt introduse în tabelul Delta Lake, putem începe să le analizăm. Să rulăm un Spark SQL pentru a găsi temperatura minimă înregistrată pentru 'SEATTLE TACOMA AIRPORT, WA US' Locul de amplasare:

%%sql
select name, year, max(MAX) as minimum_temperature
from deltalakedb.noaa_delta
where name = 'SEATTLE TACOMA AIRPORT, WA US'
group by 1,2

Actualizați datele din tabelul lacului Delta

Să schimbăm numele stației 'SEATTLE TACOMA AIRPORT, WA US' la 'Sea–Tac'. Putem rula un UPDATE declarație privind Spark pentru ca Athena să actualizeze înregistrările noaa_delta masa:

%%sql
UPDATE deltalakedb.noaa_delta
SET name = 'Sea-Tac'
WHERE name = 'SEATTLE TACOMA AIRPORT, WA US'

Putem rula interogarea anterioară SELECT pentru a găsi temperatura minimă înregistrată pentru 'Sea-Tac' locație, iar rezultatul ar trebui să fie același ca mai devreme:

%%sql
select name, year, max(MAX) as minimum_temperature
from deltalakedb.noaa_delta
where name = 'Sea-Tac'
group by 1,2

Fișiere de date compacte

În Spark pentru Athena, puteți rula OPTIMIZE pe tabelul Delta Lake, care va compacta fișierele mici în fișiere mai mari, astfel încât interogările să nu fie împovărate de supraîncărcarea fișierelor mici. Pentru a efectua operația de compactare, rulați următoarea interogare:

%%sql
OPTIMIZE deltalakedb.noaa_delta

A se referi la Optimizări în documentația Delta Lake pentru diferite opțiuni disponibile în timpul rulării OPTIMIZE.

Eliminați fișierele care nu mai fac referire de un tabel Delta Lake

Puteți elimina fișierele stocate în Amazon S3 care nu mai sunt referite de un tabel Delta Lake și care sunt mai vechi decât pragul de retenție, rulând comanda VACCUM pe tabel folosind Spark pentru Athena:

%%sql
VACUUM deltalakedb.noaa_delta

A se referi la Eliminați fișierele care nu mai fac referire de un tabel Delta în documentația Delta Lake pentru opțiunile disponibile cu VACUUM.

Aruncă tabelul și baza de date

Rulați următorul Spark SQL pentru a elimina tabelul Delta Lake pe care l-ați creat:

%%sql
DROP TABLE deltalakedb.noaa_delta

Rulați următorul Spark SQL pentru a elimina baza de date deltalakedb:

%%sql
DROP DATABASE deltalakedb

Rularea DROP TABLE DDL pe tabelul și baza de date Delta Lake șterge metadatele pentru aceste obiecte, dar nu șterge automat fișierele de date din Amazon S3. Puteți rula următorul cod Python în celula notebook-ului pentru a șterge datele din locația S3:

import boto3

s3 = boto3.resource('s3')
bucket = s3.Bucket('<your-S3-bucket>')
bucket.objects.filter(Prefix="<prefix>/noaadelta/").delete()

Pentru a afla mai multe despre instrucțiunile SQL pe care le puteți rula pe un tabel Delta Lake folosind Spark pentru Athena, consultați QuickStart în documentația Delta Lake.

Concluzie

Această postare a demonstrat cum să utilizați Spark SQL în notebook-urile Athena pentru a crea baze de date și tabele, pentru a insera și a interoga date și pentru a efectua operațiuni comune, cum ar fi actualizări, compactări și călătorii în timp pe tabelele Hudi, Delta Lake și Iceberg. Formatele de tabel deschise adaugă tranzacții ACID, upsers și ștergeri la lacurile de date, depășind limitările stocării obiectelor brute. Prin eliminarea necesității de a instala conectori separati, integrarea încorporată a Spark on Athena reduce pașii de configurare și cheltuielile generale de gestionare atunci când se utilizează aceste cadre populare pentru construirea de lacuri de date fiabile pe Amazon S3. Pentru a afla mai multe despre selectarea unui format de tabel deschis pentru sarcinile de lucru ale lacului de date, consultați Alegerea unui format de tabel deschis pentru lacul dvs. de date tranzacționale pe AWS.

Despre Autori

Pathik Shah este un arhitect senior Analytics pe Amazon Athena. Sa alăturat AWS în 2015 și de atunci s-a concentrat pe spațiul de analiză a datelor mari, ajutând clienții să construiască soluții scalabile și robuste folosind serviciile de analiză AWS.

Raj Devnath este manager de produs la AWS pe Amazon Athena. El este pasionat de a construi produse pe care clienții le plac și de a-i ajuta pe clienți să extragă valoare din datele lor. Experiența sa este în furnizarea de soluții pentru mai multe piețe finale, cum ar fi finanțe, retail, clădiri inteligente, automatizare a locuințelor și sisteme de comunicare de date.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
PlatoESG. carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
Sursa: https://aws.amazon.com/blogs/big-data/use-amazon-athena-with-spark-sql-for-your-open-source-transactional-table-formats/

Timestamp-ul: Ianuarie 24, 2024

Cerințe preliminare

Descărcați și importați exemple de notebook-uri de pe Amazon S3

Navigați la secțiunea specifică Open Table Format

Lucrul cu tabelele Apache Iceberg

Configurați o sesiune de notebook

Creați o bază de date și un tabel Iceberg

Introduceți datele în tabel

Interogați tabelul Iceberg

Actualizați datele din tabelul Iceberg

Fișiere de date compacte

Listați instantanee de tabel

Expiră instantaneele vechi

Aruncă tabelul și baza de date

Lucrul cu tabele Apache Hudi

Configurați o sesiune de notebook

Creați o bază de date și un tabel Hudi

Introduceți datele în tabel

Interogați tabelul Hudi

Actualizați datele din tabelul Hudi

Rulați interogări de călătorie în timp

Optimizați viteza interogărilor cu clustering

Mese compacte

Aruncă tabelul și baza de date

Lucrul cu tabelele Delta Lake ale fundației Linux

Configurați o sesiune de notebook

Creați o bază de date și un tabel Delta Lake

Introduceți datele în tabel

Interogați tabelul Delta Lake

Actualizați datele din tabelul lacului Delta

Fișiere de date compacte

Eliminați fișierele care nu mai fac referire de un tabel Delta Lake

Aruncă tabelul și baza de date

Concluzie

Despre Autori

Mai mult de la AWS Big Data

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont