Kymmenen uutta visuaalista muutosta AWS Glue Studiossa

Kymmenen uutta visuaalista muutosta AWS Glue Studiossa

Lähdesolmu: 2641422

AWS-liimastudio on graafinen käyttöliittymä, jonka avulla on helppo luoda, suorittaa ja valvoa poimimista, muuntamisesta ja lataamisesta (ETL) AWS-liima. Sen avulla voit luoda visuaalisesti datan muunnostyönkulkuja käyttämällä solmuja, jotka edustavat erilaisia ​​tiedonkäsittelyvaiheita, jotka myöhemmin muunnetaan automaattisesti koodiksi suoritettavaksi.

AWS-liimastudio äskettäin julkaistu 10 muuta visuaalista muutosta, joiden avulla voit luoda edistyneempiä töitä visuaalisella tavalla ilman koodaustaitoja. Tässä viestissä keskustelemme mahdollisista käyttötapauksista, jotka heijastavat yleisiä ETL-tarpeita.

Tässä viestissä esitellyt uudet muunnokset ovat: ketjuttaminen, jaettu merkkijono, taulukko sarakkeisiin, nykyisen aikaleiman lisääminen, pivot rivit sarakkeisiin, sarakkeiden kääntäminen riveihin, haku, räjäytystaulukko tai yhdistäminen sarakkeiksi, johdettu sarake ja automaattinen tasapainotuskäsittely .

Ratkaisun yleiskatsaus

Tässä käyttötapauksessa meillä on joitain JSON-tiedostoja, joissa on osakeoptiotoimintoja. Haluamme tehdä joitain muunnoksia ennen tietojen tallentamista analysoinnin helpottamiseksi, ja haluamme myös tuottaa erillisen tietojoukon yhteenvedon.

Tässä tietojoukossa jokainen rivi edustaa optiosopimusten kauppaa. Optiot ovat rahoitusinstrumentteja, jotka antavat oikeuden – mutta eivät velvollisuutta – ostaa tai myydä osakkeita kiinteään hintaan (ns.  lakkohinta) ennen määritettyä viimeistä käyttöpäivää.

Syöttötiedot

Tiedot noudattavat seuraavaa kaavaa:

  • tilausnumero – Yksilöllinen tunnus
  • symboli – Koodi, joka perustuu yleensä muutamaan kirjaimeen, jolla tunnistetaan taustalla olevia osakkeita laskeva yritys
  • väline – Nimi, joka yksilöi tietyn ostettavan tai myytävän vaihtoehdon
  • valuutta – ISO-valuuttakoodi, jolla hinta ilmaistaan
  • hinta – Summa, joka maksettiin kunkin optiosopimuksen ostosta (useimmissa pörsseissä yhdellä sopimuksella voi ostaa tai myydä 100 osaketta)
  • Vaihdetaan – Pörssikeskuksen tai -paikan koodi, jossa optiolla vaihdettiin
  • myyty – Luettelo niiden sopimusten määrästä, jotka on varattu täyttämään myyntitilaus, kun kyseessä on myyntikauppa
  • osti – Luettelo niiden sopimusten määrästä, jotka on varattu täyttämään ostotilaus, kun kyseessä on ostokauppa

Seuraava on esimerkki tätä viestiä varten luoduista synteettisistä tiedoista:

{"order_id": 1679931512485, "symbol": "AMZN", "instrument": "AMZN MAR 24 23 102 PUT", "currency": "usd", "price": 17.18, "exchange": "EDGX", "bought": [18, 38]}
{"order_id": 1679931512486, "symbol": "BMW.DE", "instrument": "BMW.DE MAR 24 23 96 PUT", "currency": "eur", "price": 2.98, "exchange": "XETR", "bought": [28]}
{"order_id": 1679931512487, "symbol": "BMW.DE", "instrument": "BMW.DE APR 28 23 101 CALL", "currency": "eur", "price": 14.71, "exchange": "XETR", "sold": [9, 59, 54]}
{"order_id": 1679931512489, "symbol": "JPM", "instrument": "JPM JUN 30 23 140 CALL", "currency": "usd", "price": 11.83, "exchange": "EDGX", "bought": [33, 42, 55, 67]}
{"order_id": 1679931512490, "symbol": "SIE.DE", "instrument": "SIE.DE MAR 24 23 149 CALL", "currency": "eur", "price": 13.68, "exchange": "XETR", "bought": [96, 89, 82]}
{"order_id": 1679931512491, "symbol": "NKE", "instrument": "NKE MAR 24 23 112 CALL", "currency": "usd", "price": 3.23, "exchange": "EDGX", "sold": [67]}
{"order_id": 1679931512492, "symbol": "AMZN", "instrument": "AMZN MAY 26 23 95 CALL", "currency": "usd", "price": 11.44, "exchange": "EDGX", "sold": [41, 62, 12]}
{"order_id": 1679931512493, "symbol": "JPM", "instrument": "JPM MAR 24 23 121 PUT", "currency": "usd", "price": 1.0, "exchange": "EDGX", "bought": [61, 34]}
{"order_id": 1679931512494, "symbol": "SAP.DE", "instrument": "SAP.DE MAR 24 23 132 CALL", "currency": "eur", "price": 15.9, "exchange": "XETR", "bought": [69, 33]}

ETL-vaatimukset

Näillä tiedoilla on useita ainutlaatuisia ominaisuuksia, kuten usein vanhemmissa järjestelmissä, jotka vaikeuttavat tietojen käyttöä.

ETL-vaatimukset ovat seuraavat:

  • Laitteen nimessä on arvokasta tietoa, joka on tarkoitettu ihmisten ymmärrettäväksi. Haluamme normalisoida sen erillisiin sarakkeisiin analyysin helpottamiseksi.
  • Ominaisuudet bought ja sold ovat toisensa poissulkevia; voimme yhdistää ne yhdeksi sarakkeeksi sopimusnumeroilla ja saada toinen sarake, joka osoittaa, ostettiinko vai myytykö sopimuksia tässä järjestyksessä.
  • Haluamme säilyttää tiedot yksittäisistä sopimusten allokoinneista, mutta yksittäisinä riveinä sen sijaan, että pakottaisimme käyttäjiä käsittelemään lukuisia numeroita. Voisimme laskea luvut yhteen, mutta menettäisimme tiedon tilauksen täytöstä (osoittaa markkinoiden likviditeettiä). Sen sijaan päätämme denormalisoida taulukon niin, että jokaisella rivillä on yksi määrä sopimuksia, jakaen usean numeron sisältävät tilaukset erillisiksi riveiksi. Pakatussa sarakemuodossa tämän toiston ylimääräinen tietojoukon koko on usein pieni, kun pakkausta käytetään, joten on hyväksyttävää tehdä tietojoukosta kyselyä helpommin.
  • Haluamme luoda yhteenvetotaulukon kullekin optiotyypille (osto ja myynti) kullekin osakkeelle. Tämä antaa viitteen kunkin osakkeen markkinatunnelmasta ja markkinoista yleensä (ahneus vs. pelko).
  • Yleisten kauppayhteenvetojen mahdollistamiseksi haluamme antaa jokaiselle operaatiolle loppusumman ja standardoida valuutan Yhdysvaltain dollareiksi käyttämällä likimääräistä muunnosviittausta.
  • Haluamme lisätä päivämäärän, jolloin nämä muutokset tapahtuivat. Tästä voi olla hyötyä esimerkiksi viittauksen saamiseksi siihen, milloin valuuttamuunnos on tehty.

Näiden vaatimusten perusteella työ tuottaa kaksi tulosta:

  • CSV-tiedosto, jossa on yhteenveto kunkin symbolin ja tyypin sopimusten määrästä
  • Luettelotaulukko tilaushistorian säilyttämiseksi ilmoitettujen muutosten jälkeen
    Datakaavio

Edellytykset

Tarvitset oman S3-kauhan seurataksesi tätä käyttötapausta. Jos haluat luoda uuden kauhan, katso Kauhan luominen.

Luo synteettistä dataa

Jos haluat seurata tätä viestiä (tai kokeilla tällaisia ​​tietoja itse), voit luoda tämän tietojoukon synteettisesti. Seuraava Python-skripti voidaan ajaa Python-ympäristössä, jossa on asennettuna Boto3 ja johon on pääsy Amazonin yksinkertainen tallennuspalvelu (Amazon S3).

Luo tiedot suorittamalla seuraavat vaiheet:

  1. Luo uusi työtehtävä AWS Glue Studiossa vaihtoehdolla Python shell -skriptieditori.
  2. Anna työlle nimi ja Työn yksityiskohdat -välilehti, valitse a sopiva rooli ja Python-skriptin nimi.
  3. In Työn yksityiskohdat osio, laajenna Lisäominaisuudet ja selaa alaspäin Työn parametrit.
  4. Syötä parametri nimeltä --bucket ja määritä arvoksi sen ryhmän nimi, jota haluat käyttää näytetietojen tallentamiseen.
  5. Kirjoita seuraava komentosarja AWS Glue -kuorieditoriin:
    import argparse
    import boto3
    from datetime import datetime
    import io
    import json
    import random
    import sys # Configuration
    parser = argparse.ArgumentParser()
    parser.add_argument('--bucket')
    args, ignore = parser.parse_known_args()
    if not args.bucket: raise Exception("This script requires an argument --bucket with the value specifying the S3 bucket where to store the files generated") data_bucket = args.bucket
    data_path = "transformsblog/inputdata"
    samples_per_file = 1000 # Create a single file with synthetic data samples
    s3 = boto3.client('s3')
    buff = io.BytesIO() sample_stocks = [("AMZN", 95, "usd"), ("NKE", 120, "usd"), ("JPM", 130, "usd"), ("KO", 130, "usd"), ("BMW.DE", 95, "eur"), ("SIE.DE", 140, "eur"), ("SAP.DE", 115, "eur")]
    option_type = ["PUT", "CALL"]
    operations = ["sold", "bought"]
    dates = ["MAR 24 23", "APR 28 23", "MAY 26 23", "JUN 30 23"]
    for i in range(samples_per_file): stock = random.choice(sample_stocks) symbol = stock[0] ref_price = stock[1] currency = stock[2] strike_price = round(ref_price * 0.9 + ref_price * random.uniform(0.01, 0.3)) sample = { "order_id": int(datetime.now().timestamp() * 1000) + i, "symbol": stock[0], "instrument":f"{symbol} {random.choice(dates)} {strike_price} {random.choice(option_type)}", "currency": currency, "price": round(random.uniform(0.5, 20.1), 2), "exchange": "EDGX" if currency == "usd" else "XETR" } sample[random.choice(operations)] = [random.randrange(1,100) for i in range(random.randrange(1,5))] buff.write(json.dumps(sample).encode()) buff.write("n".encode()) s3.put_object(Body=buff.getvalue(), Bucket=data_bucket, Key=f"{data_path}/{int(datetime.now().timestamp())}.json")

  6. Suorita työ ja odota, kunnes se näkyy onnistuneesti suoritettuna Suoritukset-välilehdellä (sen pitäisi kestää vain muutaman sekunnin).

Jokainen ajo luo JSON-tiedoston, jossa on 1,000 XNUMX riviä määritetyn sängyn ja etuliitteen alla transformsblog/inputdata/. Voit suorittaa työn useita kertoja, jos haluat testata useammalla syöttötiedostolla.
Jokainen synteettisten tietojen rivi on datarivi, joka edustaa JSON-objektia, kuten seuraava:

{ "order_id":1681986991888, "symbol":"AMZN", "instrument":"AMZN APR 28 23 100 PUT", "currency":"usd", "price":2.89, "exchange":"EDGX", "sold":[88,49]
}

Luo visuaalinen AWS Glue -työ

Luo AWS Glue -visuaalinen työ suorittamalla seuraavat vaiheet:

  1. Siirry AWS Glue Studioon ja luo työ valitsemalla vaihtoehto Visuaalinen tyhjällä kankaalla.
  2. muokata Untitled job antaa sille nimi ja määrätä AWS Gluelle sopiva rooli på den Työn yksityiskohdat Tab.
  3. Lisää S3-tietolähde (voit nimetä sen JSON files source) ja kirjoita S3-URL-osoite, johon tiedostot on tallennettu (esim. s3://<your bucket name>/transformsblog/inputdata/), valitse sitten JSON tietomuotona.
  4. valita Päättele skeema joten se asettaa tulosskeeman tietojen perusteella.

Tästä lähdesolmusta lähtien jatkat muunnosten ketjuttamista. Kun lisäät kutakin muunnosa, varmista, että valittu solmu on viimeinen lisätty, jotta se määritetään yläpääksi, ellei ohjeissa toisin mainita.

Jos et valinnut oikeaa vanhempaa, voit aina muokata ylätason valitsemalla sen ja valitsemalla toisen vanhemman määritysruudusta.

Solmun ylätason määritys

Jokaiselle lisätylle solmulle annetaan tietty nimi (jotta solmun tarkoitus näkyy kaaviossa) ja konfiguraatio Muuttaa Tab.

Joka kerta kun muunnos muuttaa skeemaa (esimerkiksi lisää uusi sarake), tulostusskeema on päivitettävä, jotta se näkyy loppupään muunnoksille. Voit muokata tulosskeemaa manuaalisesti, mutta se on käytännöllisempää ja turvallisempaa tehdä se käyttämällä tietojen esikatselua.
Lisäksi tällä tavalla voit varmistaa, että muunnos toimii odotetulla tavalla. Voit tehdä tämän avaamalla Datan esikatselu -välilehti, jossa muunnos on valittuna, ja aloita esikatseluistunto. Kun olet varmistanut, että muunnetut tiedot näyttävät odotetuilta, siirry kohtaan Tulostusskeema välilehti ja valitse Käytä tietojen esikatselumallia päivittääksesi skeeman automaattisesti.

Kun lisäät uudenlaisia ​​muunnoksia, esikatselu saattaa näyttää viestin puuttuvasta riippuvuudesta. Kun tämä tapahtuu, valitse Lopeta istunto ja aloita uusi, joten esikatselu poimii uudenlaisen solmun.

Poimi laitteen tiedot

Aloitetaan käsittelemällä instrumentin nimeä koskevia tietoja normalisoidaksesi sen sarakkeiksi, joita on helpompi käyttää tuloksena olevassa tulostaulukossa.

  1. Lisää Jaettu merkkijono solmu ja nimeä se Split instrument, joka tokenisoi instrumenttisarakkeen käyttämällä välilyöntiä: s+ (tässä tapauksessa yksi välilyönti kelpaisi, mutta tämä tapa on joustavampi ja visuaalisesti selkeämpi).
  2. Haluamme säilyttää alkuperäiset instrumenttitiedot ennallaan, joten kirjoita uusi sarakkeen nimi jaetulle taulukolle: instrument_arr.
    Jaettu konfiguraatio
  3. Lisää Joukko sarakkeisiin solmu ja nimeä se Instrument columns muuntaaksesi juuri luodun taulukkosarakkeen uusiksi kentiksi, paitsi symbol, jolle meillä on jo sarake.
  4. Valitse sarake instrument_arr, ohita ensimmäinen merkki ja käske sitä purkaa tulossarakkeet month, day, year, strike_price, type indeksejä käyttämällä 2, 3, 4, 5, 6 (pilkkujen jälkeen olevat välilyönnit ovat luettavuuden vuoksi, ne eivät vaikuta kokoonpanoon).
    Array config

Otettu vuosi ilmaistaan ​​vain kahdella numerolla; Oletetaan, että se on tällä vuosisadalla, jos he käyttävät vain kahta numeroa.

  1. Lisää Johtettu sarake solmu ja nimeä se Four digits year.
  2. enter year johdettuna sarakkeena, joten se ohittaa sen, ja kirjoita seuraava SQL-lauseke:
    CASE WHEN length(year) = 2 THEN ('20' || year) ELSE year END
    Vuodesta johdettu sarakkeen konfiguraatio

Mukavuuden vuoksi rakennamme expiration_date kenttä, joka käyttäjällä voi olla viitteenä viimeisestä päivämäärästä, jolloin vaihtoehtoa voidaan käyttää.

  1. Lisää Liitä sarakkeet solmu ja nimeä se Build expiration date.
  2. Nimeä uusi sarake expiration_date, valitse sarakkeet year, monthja day (tässä järjestyksessä) ja väliviivana väliviiva.
    Yhdistetty päivämäärän konfiguraatio

Toistaiseksi kaavion pitäisi näyttää seuraavalta esimerkiltä.

PÄIVÄ

Uusien sarakkeiden datan esikatselun tähän mennessä pitäisi näyttää seuraavalta kuvakaappaukselta.

Datan esikatselu

Normalisoi sopimusten määrä

Jokaisella tietojen rivillä näkyy kunkin option ostettujen tai myytyjen sopimusten lukumäärä ja erät, joilla tilaukset täytettiin. Menettämättä tietoja yksittäisistä eristä, haluamme, että jokainen summa on yksittäisellä rivillä yhdellä summa-arvolla, kun taas loput tiedot toistetaan jokaisella tuotetulla rivillä.

Yhdistetään ensin summat yhdeksi sarakkeeksi.

  1. Lisää Irrota sarakkeet riveiksi solmu ja nimeä se Unpivot actions.
  2. Valitse sarakkeet bought ja sold poistaaksesi käännöksen ja tallentaaksesi nimet ja arvot sarakkeisiin nimeltä action ja contractsVastaavasti.
    Unpivot kokoonpano
    Huomaa esikatselussa, että uusi sarake contracts on edelleen joukko lukuja tämän muunnoksen jälkeen.
  1. Lisää Räjäytä taulukko tai kartoita riveiksi rivi nimeltä Explode contracts.
  2. Valitse contracts sarake ja kirjoita contracts uudeksi sarakkeeksi ohittaaksemme sen (alkuperäistä taulukkoa ei tarvitse säilyttää).

Esikatselu näyttää nyt, että jokaisella rivillä on yksittäinen contracts määrä, ja loput kentät ovat samat.

Tämä tarkoittaa myös sitä order_id ei ole enää ainutlaatuinen avain. Omia käyttötapauksia varten sinun on päätettävä, kuinka mallintaa tietosi ja haluatko denormalisoida vai et.
Explode konfiguraatio

Seuraava kuvakaappaus on esimerkki siitä, miltä uudet sarakkeet näyttävät tähänastisten muutosten jälkeen.
Datan esikatselu

Luo yhteenvetotaulukko

Nyt luot yhteenvetotaulukon kullekin tyypille ja jokaiselle osakesymbolille vaihdettujen sopimusten määrästä.

Oletetaan havainnollistamistarkoituksessa, että käsiteltävät tiedostot kuuluvat yhdelle päivälle, joten tämä yhteenveto antaa yrityskäyttäjille tietoa siitä, mikä on markkinoiden kiinnostus ja mielipide kyseisenä päivänä.

  1. Lisää Valitse Kentät solmu ja valitse seuraavat sarakkeet säilytettäväksi yhteenvetoa varten: symbol, typeja contracts.
    Valitut kentät
  2. Lisää Kierrä rivit sarakkeiksi solmu ja nimeä se Pivot summary.
  3. Aggregaatti contracts saraketta käyttäen sum ja valitse muuntaa type sarake.
    Pivot-kokoonpano

Normaalisti tallennat sen johonkin ulkoiseen tietokantaan tai tiedostoon viitettä varten; tässä esimerkissä tallennamme sen CSV-tiedostona Amazon S3:ssa.

  1. Lisää Autobalance Processing solmu ja nimeä se Single output file.
  2. Vaikka tätä muunnostyyppiä käytetään tavallisesti optimoimaan rinnakkaisuus, tässä käytämme sitä vähentämään tuloste yhdeksi tiedostoksi. Siksi syötä 1 osioiden määrässä.
    Automaattisen tasapainon konfigurointi
  3. Lisää S3-kohde ja nimeä se CSV Contract summary.
  4. Valitse tietomuodoksi CSV ja anna S3-polku, johon työrooli saa tallentaa tiedostoja.

Työn viimeisen osan pitäisi nyt näyttää seuraavalta esimerkiltä.
PÄIVÄ

  1. Tallenna ja suorita työ. Käytä Toimii -välilehteä tarkistaaksesi, milloin se on onnistunut.
    Löydät polun alta tiedoston, joka on CSV, vaikka tiedostopäätettä ei ole. Sinun on luultavasti lisättävä laajennus sen lataamisen jälkeen avataksesi sen.
    Työkalussa, joka voi lukea CSV-tiedoston, yhteenvedon pitäisi näyttää seuraavan esimerkin kaltaiselta.
    taulukkolaskentaohjelma

Puhdista väliaikaiset sarakkeet

Valmistellaksemme tilausten tallentamista historialliseen taulukkoon tulevaa analysointia varten, siivotaan joitakin matkan varrella luotuja väliaikaisia ​​sarakkeita.

  1. Lisää Pudota kentät solmu kanssa Explode contracts solmu valittu emoyritykseksi (haaroittelemme dataliukuhihnaa erillisen lähdön luomiseksi).
  2. Valitse poistettavat kentät: instrument_arr, month, dayja year.
    Loput haluamme säilyttää, jotta ne tallennetaan historialliseen taulukkoon, jonka luomme myöhemmin.
    Pudota kentät

Valuuttojen standardointi

Tämä synteettinen data sisältää kuvitteellisia operaatioita kahdella valuutalla, mutta todellisessa järjestelmässä voit saada valuuttoja markkinoilta ympäri maailmaa. Käsitellyt valuutat on hyödyllistä standardoida yhdeksi viitevaluutaksi, jotta niitä voidaan helposti verrata ja yhdistää raportointia ja analysointia varten.

Käytämme Amazon Athena simuloida taulukkoa likimääräisillä valuuttamuunnoksilla, joka päivitetään ajoittain (tässä oletetaan, että käsittelemme tilaukset riittävän ajoissa, jotta muunnos edustaa kohtuullista vertailua).

  1. Avaa Athena-konsoli samalla alueella, jossa käytät AWS-liimaa.
  2. Luo taulukko suorittamalla seuraava kysely asettamalla S3-sijainti, jossa sekä Athena- että AWS Glue -roolisi voivat lukea ja kirjoittaa. Voit myös haluta tallentaa taulukon eri tietokantaan kuin default (jos teet niin, päivitä taulukon hyväksytty nimi annettujen esimerkkien mukaisesti).
    CREATE EXTERNAL TABLE default.exchange_rates(currency string, exchange_rate double)
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    STORED AS TEXTFILE
    LOCATION 's3://<enter some bucket>/exchange_rates/';

  3. Kirjoita taulukkoon muutama esimerkkimuunnos:
    INSERT INTO default.exchange_rates VALUES ('usd', 1.0), ('eur', 1.09), ('gbp', 1.24);
  4. Sinun pitäisi nyt pystyä tarkastelemaan taulukkoa seuraavalla kyselyllä:
    SELECT * FROM default.exchange_rates
  5. Palaa AWS Glue -visuaaliseen työhön, lisää a Lookup solmu (lapsena Drop Fields) ja nimeä se Exchange rate.
  6. Kirjoita juuri luomasi taulukon laadukas nimi käyttämällä currency avaimeksi ja valitse exchange_rate käytettäväksi kenttään.
    Koska kentän nimi on sama sekä tiedoissa että hakutaulukossa, voimme vain kirjoittaa nimen currency eikä sinun tarvitse määrittää kartoitusta.Haku kokoonpano
    Tätä kirjoitettaessa hakumuunnos ei ole tuettu tietojen esikatselussa, ja se näyttää virheen, että taulukkoa ei ole olemassa. Tämä on vain tietojen esikatselua varten, eikä se estä työtä suorittamasta oikein. Muutama postauksen jäljellä oleva vaihe ei edellytä skeeman päivittämistä. Jos sinun on suoritettava tietojen esikatselu muissa solmuissa, voit poistaa hakusolmun väliaikaisesti ja laittaa sen takaisin.
  7. Lisää Johtettu sarake solmu ja nimeä se Total in usd.
  8. Nimeä johdettu sarake total_usd ja käytä seuraavaa SQL-lauseketta:
    round(contracts * price * exchange_rate, 2)
    Valuuttamuunnosasetukset
  9. Lisää Lisää nykyinen aikaleima solmu ja nimeä sarake ingest_date.
  10. Käytä muotoa %Y-%m-%d aikaleimasi (esittelytarkoituksessa käytämme vain päivämäärää; voit tarkentaa sitä, jos haluat).
    Aikaleiman konfigurointi

Tallenna historiallinen tilaustaulukko

Tallenna historiallinen tilaustaulukko suorittamalla seuraavat vaiheet:

  1. Lisää S3-kohdesolmu ja nimeä se Orders table.
  2. Määritä parkettimuoto näppärällä pakkauksella ja anna S3-kohdepolku, johon tulokset tallennetaan (erillään yhteenvedosta).
  3. valita Luo taulukko tietokatalogiin ja seuraavissa ajoissa, päivitä skeema ja lisää uusia osioita.
  4. Anna kohdetietokanta ja nimi uudelle taulukolle, esimerkiksi: option_orders.
    Pöydän pesualtaan konfiguraatio

Kaavion viimeisen osan pitäisi nyt näyttää seuraavalta kahdella haaralla kahdelle erilliselle ulostulolle.
PÄIVÄ

Kun olet suorittanut työn onnistuneesti, voit käyttää Athenen kaltaista työkalua tarkistaaksesi työn tuottamat tiedot tekemällä kyselyn uudesta taulukosta. Löydät taulukon Athena-luettelosta ja valitset Esikatselupöytä tai suorita vain SELECT-kysely (päivitä taulukon nimi käyttämäsi nimeen ja luetteloon):

SELECT * FROM default.option_orders limit 10

Taulukon sisällön pitäisi näyttää seuraavan kuvakaappauksen kaltaiselta.
Taulukon sisältö

Puhdistaa

Jos et halua säilyttää tätä esimerkkiä, poista kaksi luomaasi työtä, kaksi Athenen taulukkoa ja S3-polut, joihin syöttö- ja tulostustiedostot on tallennettu.

Yhteenveto

Tässä viestissä näytimme, kuinka AWS Glue Studion uudet muunnokset voivat auttaa sinua tekemään edistyneempiä muunnoksia minimaalisella kokoonpanolla. Tämä tarkoittaa, että voit ottaa käyttöön enemmän ETL-käyttötapauksia ilman, että sinun tarvitsee kirjoittaa ja ylläpitää mitään koodia. Uudet muunnokset ovat jo saatavilla AWS Glue Studiossa, joten voit käyttää uusia muunnoksia jo tänään visuaalisissa töissäsi.


Kirjailijasta

Gonzalo herreros on vanhempi Big Data -arkkitehti AWS Glue -tiimissä.

Aikaleima:

Lisää aiheesta AWS Big Data