Poizvedujte po svojih tabelah Iceberg v podatkovnem jezeru z uporabo Amazon Redshift (predogled) | Spletne storitve Amazon

Ponovno objavil Platon

Spremljevalci: 0

Amazon RedShift je hitro, popolnoma upravljano skladišče podatkov v oblaku velikosti petabajtov, ki omogoča preprosto in stroškovno učinkovito analizo vseh vaših podatkov z uporabo standardnega SQL in vaših obstoječih orodij poslovne inteligence (BI). Več deset tisoč strank danes uporablja Amazon Redshift za analizo eksabajtov podatkov in izvajanje analitičnih poizvedb, zaradi česar je najbolj razširjeno skladišče podatkov v oblaku. Amazon Redshift je na voljo tako v konfiguracijah brez strežnika kot v konfiguracijah, ki so na voljo.

Amazon Redshift vam omogoča neposreden dostop do podatkov, shranjenih v Preprosta storitev shranjevanja Amazon (Amazon S3) z uporabo poizvedb SQL in združevanje podatkov v vašem podatkovnem skladišču in podatkovnem jezeru. Z Amazon Redshift lahko poizvedujete po podatkih v svojem podatkovnem jezeru S3 z uporabo centrale AWS lepilo metastore iz vašega podatkovnega skladišča Redshift.

Amazon Redshift podpira poizvedovanje po številnih formatih podatkov, kot so CSV, JSON, Parquet in ORC, ter formatih tabel, kot sta Apache Hudi in Delta. Amazon Redshift podpira tudi poizvedovanje po ugnezdenih podatkih s kompleksnimi tipi podatkov, kot so struct, array in map.

S to zmožnostjo Amazon Redshift razširi vaše petabajtno podatkovno skladišče na eksabajtno podatkovno jezero na Amazon S3 na stroškovno učinkovit način.

Apache Iceberg je najnovejši format tabele, ki ga zdaj v predogledu podpira Amazon Redshift. V tej objavi vam pokažemo, kako poizvedovati po tabelah Iceberg z uporabo Amazon Redshift ter raziščemo podporo in možnosti za Iceberg.

Pregled rešitev

Apaška ledena gora je oblika odprte tabele za zelo velike analitične nize podatkov v petabajtnem merilu. Iceberg upravlja velike zbirke datotek kot tabel in podpira sodobne operacije analitičnega podatkovnega jezera, kot so poizvedbe za vstavljanje, posodabljanje, brisanje in potovanje na ravni zapisa. Specifikacija Iceberg omogoča nemoten razvoj tabel, kot je razvoj sheme in particije, njena zasnova pa je optimizirana za uporabo na Amazon S3.

Iceberg shrani metapodatkovni kazalec za vse metapodatkovne datoteke. Ko poizvedba SELECT bere tabelo Iceberg, gre mehanizem poizvedb najprej v katalog Iceberg, nato pa pridobi vnos lokacije najnovejše datoteke z metapodatki, kot je prikazano v naslednjem diagramu.

Amazon Redshift zdaj zagotavlja podporo za tabele Apache Iceberg, ki strankam podatkovnega jezera omogoča izvajanje analitičnih poizvedb samo za branje na transakcijsko dosleden način. To vam omogoča preprosto upravljanje in vzdrževanje vaših tabel na transakcijskih podatkovnih jezerih.

Amazon Redshift podpira izvorno shemo Apache Iceberg in zmožnosti razvoja particij z uporabo Katalog podatkov o lepilu AWS, odpravlja potrebo po spreminjanju definicij tabel za dodajanje novih particij ali premikanje in obdelavo velikih količin podatkov za spreminjanje sheme obstoječe tabele podatkovnega jezera. Amazon Redshift uporablja statistične podatke stolpcev, shranjene v metapodatkih tabele Apache Iceberg, da optimizira svoje načrte poizvedb in zmanjša preglede datotek, potrebne za izvajanje poizvedb.

V tej objavi uporabljamo Javni nabor podatkov o rumenem taksiju Komisije za taksije in limuzine v New Yorku kot naš izvorni podatek. Nabor podatkov vsebuje podatkovne datoteke v Parket Apache format na Amazon S3. Uporabljamo Amazonska Atena za pretvorbo tega nabora podatkov Parquet in nato uporabo Amazonov rdeči premik spektra za poizvedovanje in združevanje z lokalno tabelo Redshift, izvajanje izbrisov in posodobitev na ravni vrstic ter razvoj particij, vse to je usklajeno prek kataloga podatkov AWS Glue v podatkovnem jezeru S3.

Predpogoji

Morali bi imeti naslednje predpogoje:

Pretvorite podatke Parquet v tabelo Iceberg

Za to objavo potrebujete Javni nabor podatkov o rumenem taksiju Komisije za taksije in limuzine v New Yorku na voljo v formatu Iceberg. Datoteke lahko prenesete in nato uporabite Atheno za pretvorbo nabora podatkov Parquet v tabelo Iceberg ali si ogledate Zgradite podatkovno jezero Apache Iceberg z uporabo Amazon Athena, Amazon EMR in AWS Glue objava v spletnem dnevniku za ustvarjanje mize Iceberg.

V tej objavi uporabljamo Atheno za pretvorbo podatkov. Izvedite naslednje korake:

Prenesite datoteke s prejšnjo povezavo ali uporabite Vmesnik ukazne vrstice AWS (AWS CLI), da kopirate datoteke iz javnega vedra S3 za leti 2020 in 2021 v svoje vedro S3 z naslednjim ukazom:

aws s3 cp "s3://nyc-tlc/trip data/" s3://<Your S3 bucket name>/Parquet/ --exclude "*" --include "yellow_tripdata_2020*" –recursive
aws s3 cp "s3://nyc-tlc/trip data/" s3://<Your S3 bucket name>/Parquet/ --exclude "*" --include "yellow_tripdata_2021*" –recursive

Za več informacij glejte Nastavitev Amazon Redshift CLI.

Ustvari bazo podatkov Icebergdb in ustvarite tabelo z Atheno, ki kaže na datoteke formata Parquet z naslednjim stavkom:

CREATE DATABASE Icebergdb; 
CREATE EXTERNAL TABLE icebergdb.nyc_taxi_yellow_parquet( vendorid int, tpep_pickup_datetime timestamp, tpep_dropoff_datetime timestamp, passenger_count bigint, trip_distance double, ratecodeid bigint, store_and_fwd_flag string, pulocationid int, dolocationid int, payment_type integer, fare_amount double, extra double, mta_tax double, tip_amount double, tolls_amount double, improvement_surcharge double, total_amount double, congestion_surcharge double, airport_fee double
)
STORED AS PARQUET
LOCATION 's3://<Your S3 Bucket>/Parquet/’

Preverite podatke v tabeli Parquet z naslednjim SQL:

SELECT vendorid, tpep_pickup_datetime, tpep_dropoff_datetime, trip_distance, fare_amount, tip_amount, tolls_amount, total_amount, congestion_surcharge, airport_fee
FROM icebergdb.nyc_taxi_yellow_parquet
limit 5;

Ustvarite tabelo Iceberg v Atheni z naslednjo kodo. V nadaljevanju si lahko ogledate lastnosti vrste tabele kot tabele Iceberg s formatom Parquet in hitrim stiskanjem create table izjava. Preden zaženete SQL, morate posodobiti lokacijo S3. Upoštevajte tudi, da je miza Iceberg pregrajena z Year ključ.

CREATE TABLE nyc_taxi_yellow_iceberg( vendorid int, tpep_pickup_datetime timestamp, tpep_dropoff_datetime timestamp, passenger_count bigint, trip_distance double, ratecodeid bigint, store_and_fwd_flag string, pulocationid int, dolocationid int, payment_type bigint, fare_amount double, extra double, mta_tax double, tip_amount double, tolls_amount double, improvement_surcharge double, total_amount double, congestion_surcharge double, airport_fee double)
PARTITIONED BY (year(tpep_pickup_datetime))
LOCATION ‘s3://<Your S3 bucket name>/iceberg/iceberg'
TBLPROPERTIES ( 'table_type'='iceberg', 'write_compression'='snappy', 'format'='parquet');

Ko ustvarite tabelo, naložite podatke v tabelo Iceberg z uporabo predhodno naložene tabele Parquet nyc_taxi_yellow_parquet z naslednjim SQL:

insert into nyc_taxi_yellow_iceberg ( vendorid,tpep_pickup_datetime, tpep_dropoff_datetime, passenger_count,trip_distance, ratecodeid,store_and_fwd_flag, pulocationid,dolocationid, payment_type,fare_amount, extra,mta_tax,tip_amount, tolls_amount,total_amount, congestion_surcharge,airport_fee )
select vendorid,tpep_pickup_datetime, tpep_dropoff_datetime, passenger_count,trip_distance, ratecodeid,store_and_fwd_flag, pulocationid,dolocationid, payment_type,fare_amount, extra,mta_tax,tip_amount, tolls_amount,total_amount, congestion_surcharge,airport_fee
from nyc_taxi_yellow_parquet;

Ko je stavek SQL dokončan, potrdite podatke v tabeli Iceberg nyc_taxi_yellow_iceberg. Ta korak je obvezen pred prehodom na naslednji korak.
```
SELECT * FROM nyc_taxi_yellow_iceberg LIMIT 5;
```
Z naslednjim ukazom lahko potrdite, da je tabela nyc_taxi_yellow_iceberg v tabeli formata Iceberg in razdeljena na stolpec Leto:
```
SHOW CREATE TABLE nyc_taxi_yellow_iceberg;
```

Ustvarite zunanjo shemo v Amazon Redshift

V tem razdelku prikazujemo, kako ustvariti zunanjo shemo v Amazon Redshift, ki kaže na bazo podatkov AWS Glue icebergdb za poizvedbo po tabeli Iceberg nyc_taxi_yellow_iceberg ki smo jih videli v prejšnjem razdelku z uporabo Athene.

Prijavite se v Redshift preko Urejevalnik poizvedb v2 ali odjemalca SQL in zaženite naslednji ukaz (upoštevajte, da zbirka podatkov AWS Glue icebergdb in podatki o regiji se uporabljajo):

CREATE external schema spectrum_iceberg_schema
from data catalog
database 'icebergdb'
region 'us-east-1'
iam_role default;

Če želite izvedeti več o ustvarjanju zunanjih shem v Amazon Redshift, glejte ustvarite zunanjo shemo

Ko ustvarite zunanjo shemo spectrum_iceberg_schema, lahko poizvedujete po tabeli Iceberg v Amazon Redshift.

Poizvedite po tabeli Iceberg v Amazon Redshift

Zaženite naslednjo poizvedbo v urejevalniku poizvedb v2. Upoštevajte to spectrum_iceberg_schema je ime zunanje sheme, ustvarjene v Amazon Redshift in nyc_taxi_yellow_iceberg je tabela v bazi podatkov AWS Glue, uporabljena v poizvedbi:

SELECT * FROM"dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg";

Podatki poizvedbe na naslednjem posnetku zaslona kažejo, da je po tabeli AWS Glue s formatom Iceberg mogoče poizvedovati z uporabo Redshift Spectrum.

Preverite načrt razlage poizvedovanja po tabeli Iceberg

Z naslednjo poizvedbo lahko dobite izhod razlage načrta, ki prikazuje obliko ICEBERG:

EXPLAIN SELECT vendorid,count(*) FROM "dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg"
GROUP BY vendorid;

Potrdite posodobitve za skladnost podatkov

Ko je posodobitev tabele Iceberg končana, lahko poizvedujete po Amazon Redshift, da si ogledate transakcijsko dosleden pogled podatkov. Zaženimo poizvedbo tako, da izberemo a vendorid in za določen prevzem in oddajo:

SELECT * FROM nyc_taxi_yellow_iceberg
WHERE vendorid=1
AND tpep_pickup_datetime=cast('2021-06-24 21:53:26' AS timestamp)
AND tpep_dropoff_datetime=cast('2021-06-24 22:02:46'AS timestamp)
LIMIT 5;

Nato posodobite vrednost passenger_count do 4 in trip_distance do 9.4 za a vendorid in določeni datumi prevzema in odhoda v Atheni:

UPDATE nyc_taxi_yellow_iceberg
SET passenger_count=4,trip_distance=9.4
WHERE vendorid=1
AND tpep_pickup_datetime=cast('2021-06-24 21:53:26' AS timestamp)
AND tpep_dropoff_datetime=cast('2021-06-24 22:02:46'AS timestamp);

Na koncu zaženite naslednjo poizvedbo v urejevalniku poizvedb v2, da vidite posodobljeno vrednost passenger_count in trip_distance:

SELECT * FROM "dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg"
WHERE vendorid=1
AND tpep_pickup_datetime=cast('2021-06-24 21:53:26' AS timestamp)
AND tpep_dropoff_datetime=cast('2021-06-24 22:02:46' AS timestamp)
LIMIT 5;

Kot je prikazano na naslednjem posnetku zaslona, so operacije posodabljanja tabele Iceberg na voljo v Amazon Redshift.

Ustvarite enoten pogled lokalne tabele in zgodovinskih podatkov v Amazon Redshift

Kot sodobna strategija podatkovne arhitekture lahko organizirate zgodovinske podatke ali manj pogosto dostopne podatke v podatkovnem jezeru in podatke, do katerih pogosto dostopate, hranite v podatkovnem skladišču Redshift. To zagotavlja prilagodljivost za upravljanje analitike v velikem obsegu in iskanje stroškovno najučinkovitejše arhitekturne rešitve.

V tem primeru naložimo podatke za 2 leti v tabelo Redshift; preostali podatki ostanejo v podatkovnem jezeru S3, ker se po tem nizu podatkov manj pogosto poizveduje.

Uporabite naslednjo kodo za nalaganje 2 let podatkov v nyc_taxi_yellow_recent tabela v Amazon Redshift, izvira iz tabele Iceberg:

CREATE TABLE nyc_taxi_yellow_recent
AS
SELECT *
FROM "dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg"
WHERE extract(year from tpep_pickup_datetime)>2020;

Nato lahko z naslednjim ukazom v Atheni odstranite podatke za zadnji 2 leti iz tabele Iceberg, ker ste podatke naložili v tabelo Redshift v prejšnjem koraku:
```
DELETE FROM nyc_taxi_yellow_iceberg WHERE EXTRACT(year from tpep_pickup_datetime)>2020;
```

Ko dokončate te korake, ima tabela Redshift podatke za 2 leti, preostali podatki pa so v tabeli Iceberg v Amazonu S3.

Ustvarite pogled z uporabo nyc_taxi_yellow_iceberg Miza Iceberg in nyc_taxi_yellow_recent tabela v Amazon Redshift:

create or replace view nyc_taxi_yellow as
select 'nyc_taxi_yellow_iceberg' as source,vendorid,tpep_pickup_datetime, tpep_dropoff_datetime, passenger_count,trip_distance, ratecodeid,store_and_fwd_flag, pulocationid,dolocationid, payment_type,fare_amount, extra,mta_tax,tip_amount, tolls_amount,total_amount, congestion_surcharge,airport_fee
from "dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg"
union all
select 'nyc_taxi_yellow_recent' as source,vendorid,tpep_pickup_datetime, tpep_dropoff_datetime, passenger_count,trip_distance, ratecodeid,store_and_fwd_flag, pulocationid,dolocationid, payment_type,fare_amount, extra,mta_tax,tip_amount, tolls_amount,total_amount, congestion_surcharge,airport_fee
from public.nyc_taxi_yellow_recent
with no schema binding;

Zdaj poizvedite pogled, odvisno od pogojev filtra bo Redshift Spectrum pregledal bodisi podatke Iceberga, tabelo Redshift ali oboje. Naslednji primer poizvedbe vrne število zapisov iz vsake od izvornih tabel s skeniranjem obeh tabel:
```
SELECT source,count(1)
FROM nyc_taxi_yellow
GROUP BY source;
```

Evolucija particije

Iceberg uporablja skrite particije, kar pomeni, da vam ni treba ročno dodajati particij za tabele Apache Iceberg. Nove vrednosti particije ali nove specifikacije particije (dodajanje ali odstranjevanje stolpcev particije) v tabelah Apache Iceberg samodejno zazna Amazon Redshift in za posodobitev particij v definiciji tabele ni potrebno ročno delovanje. Naslednji primer to dokazuje.

V našem primeru, če tabela Iceberg nyc_taxi_yellow_iceberg je bil prvotno razdeljen po letnicah in kasneje stolpcu vendorid je bil dodan kot dodaten particijski stolpec, potem lahko Amazon Redshift nemoteno poizveduje po tabeli Iceberg nyc_taxi_yellow_iceberg z dvema različnima razdelitvenima shemama v določenem časovnem obdobju.

Premisleki pri poizvedovanju po tabelah Iceberg z uporabo Amazon Redshift

Med obdobjem predogleda upoštevajte naslednje, ko uporabljate Amazon Redshift s tabelami Iceberg:

Podprte so samo tabele Iceberg, definirane v katalogu podatkov AWS Glue Data Catalog.
Ukazi zunanje tabele CREATE ali ALTER niso podprti, kar pomeni, da bi morala tabela Iceberg že obstajati v bazi podatkov AWS Glue.
Poizvedbe o potovanju skozi čas niso podprte.
Podprti sta različici Iceberg 1 in 2. Za več podrobnosti o različicah formata Iceberg glejte Oblikovanje različic.
Za seznam podprtih tipov podatkov s tabelami Iceberg glejte Podprti tipi podatkov s tabelami Apache Iceberg (predogled).
Cene za poizvedovanje po tabeli Iceberg so enake kot za dostop do drugih formatov podatkov z uporabo Amazon Redshift.

Za dodatne podrobnosti o predogledu tabel formata Iceberg glejte Uporaba tabel Apache Iceberg z Amazon Redshift (predogled).

Povratne informacije strank

»Tinuiti, največje neodvisno podjetje za uspešno trženje, dnevno obdeluje velike količine podatkov in mora imeti zanesljivo strategijo podatkovnega jezera in skladišča podatkov, da lahko naše ekipe za tržno obveščanje shranijo in analizirajo vse naše podatke o strankah na enostaven, cenovno dostopen in varen način. , in robusten način,« pravi Justin Manus, glavni tehnološki direktor pri Tinuiti. »Podpora Amazon Redshift za tabele Apache Iceberg v našem podatkovnem jezeru, ki je edini vir resnice, obravnava kritičen izziv pri optimizaciji zmogljivosti in dostopnosti ter dodatno poenostavlja naše cevovode za integracijo podatkov za dostop do vseh podatkov, zaužitih iz različnih virov, in za napajanje našega potencial blagovne znamke strank.”

zaključek

V tej objavi smo vam pokazali primer poizvedovanja po tabeli Iceberg v Redshiftu z uporabo datotek, shranjenih v Amazon S3, katalogiziranih kot tabela v katalogu podatkov AWS Glue Data Catalog, in prikazali nekatere ključne funkcije, kot so učinkovito posodabljanje in brisanje na ravni vrstic, in izkušnjo razvoja sheme za uporabnike, da odklenejo moč velikih podatkov s pomočjo Athene.

Amazon Redshift lahko uporabite za izvajanje poizvedb v tabelah podatkovnega jezera v različnih datotekah in formatih tabel, kot je npr. Apače Hudi in Delta jezero, in zdaj z Apache Iceberg (predogled), ki ponuja dodatne možnosti za potrebe vaših sodobnih podatkovnih arhitektur.

Upamo, da vam bo to odlično izhodišče za poizvedovanje po tabelah Iceberg v Amazon Redshift.

O avtorjih

Rohit Bansal je strokovnjak za analitične rešitve pri AWS. Specializiran je za Amazon Redshift in sodeluje s strankami pri izgradnji analitičnih rešitev naslednje generacije z uporabo drugih storitev AWS Analytics.

Satish Sathiya je višji produktni inženir pri Amazon Redshift. Je navdušen navdušenec nad velikimi podatki, ki sodeluje s strankami po vsem svetu, da bi dosegel uspeh in zadovoljil njihove potrebe po skladiščenju podatkov in arhitekturi podatkovnega jezera.

Ranjan Burman je strokovnjak za analitične rešitve pri AWS. Specializiran je za Amazon Redshift in strankam pomaga zgraditi razširljive analitične rešitve. Ima več kot 16 let izkušenj na področju različnih tehnologij podatkovnih zbirk in skladiščenja podatkov. Navdušen je nad avtomatizacijo in reševanjem težav strank z rešitvami v oblaku.

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
PlatoESG. Avtomobili/EV, Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
ChartPrime. Izboljšajte svojo igro trgovanja s ChartPrime. Dostopite tukaj.
BlockOffsets. Posodobitev okoljskega offset lastništva. Dostopite tukaj.
vir: https://aws.amazon.com/blogs/big-data/query-your-iceberg-tables-in-data-lake-using-amazon-redshift-preview/

Časovni žig: Avgust 31, 2023

Časovni žig: September 18, 2023

Poizvedujte po svojih tabelah Iceberg v podatkovnem jezeru z uporabo Amazon Redshift (predogled) | Spletne storitve Amazon

Ponovno objavil Platon

Pregled rešitev

Predpogoji

Pretvorite podatke Parquet v tabelo Iceberg

Ustvarite zunanjo shemo v Amazon Redshift

Poizvedite po tabeli Iceberg v Amazon Redshift

Preverite načrt razlage poizvedovanja po tabeli Iceberg

Potrdite posodobitve za skladnost podatkov

Ustvarite enoten pogled lokalne tabele in zgodovinskih podatkov v Amazon Redshift

Evolucija particije

Premisleki pri poizvedovanju po tabelah Iceberg z uporabo Amazon Redshift

Povratne informacije strank

zaključek

O avtorjih

Več od Veliki podatki AWS

Centralizirajte upravljanje v skoraj realnem času prek opozoril v podatkovnih skladiščih Amazon Redshift za občutljive poizvedbe | Spletne storitve Amazon

Pospešite analitiko v storitvi Amazon OpenSearch z AWS Glue prek izvornega priključka | Spletne storitve Amazon

Postopno nalaganje podatkov iz transakcijskih podatkovnih jezer v podatkovna skladišča | Spletne storitve Amazon

Predstavljamo izkušnjo barvanja na terenu za Amazon QuickSight | Spletne storitve Amazon

Pospešite vpogled v podatke z Elastic in Amazon Kinesis Data Firehose

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun