Byg effektive, tværregionale, I/O-intensive arbejdsbelastninger med Dask på AWS

Genudgivet af Platon

Abonnenter: 0

Velkommen til dataens æra. Alene mængden af data, der registreres dagligt, fortsætter med at vokse, hvilket kræver, at platforme og løsninger udvikler sig. Tjenester som f.eks Amazon Simple Storage Service (Amazon S3) tilbyder en skalerbar løsning, der tilpasser sig, men forbliver omkostningseffektiv til voksende datasæt. Det Amazon Sustainability Data Initiative (ASDI) bruger funktionerne i Amazon S3 til at levere en gratis løsning, så du kan gemme og dele klimavidenskabelige arbejdsbelastninger over hele kloden. Amazons Open Data Sponsorship Program giver organisationer mulighed for at hoste gratis på AWS.

I løbet af det sidste årti har vi set en stigning i datavidenskabelige rammer, der er kommet til virkelighed, sammen med masseadoption fra datavidenskabssamfundet. En sådan ramme er Dashboard, som er kraftfuld for sin evne til at levere en orkestrering af worker compute noder og derved accelerere kompleks analyse på store datasæt.

I dette indlæg viser vi dig, hvordan du implementerer en brugerdefineret AWS Cloud Development Kit (AWS CDK) løsning, der udvider Dasks funktionalitet til at arbejde interregionalt på tværs af Amazons globale netværk. AWS CDK-løsningen implementerer et netværk af Dask-arbejdere på tværs af to AWS-regioner, der forbinder til en klientregion. For mere information, se Vejledning til distribueret databehandling med Cross Regional Dask på AWS og GitHub repo for open source-kode.

Efter implementeringen vil brugeren have adgang til en Jupyter notesbog, hvor de kan interagere med to datasæt fra ASDI på AWS: Coupled Model Intercomparison Project 6 (CMIP6) , ECMWF ERA5 reanalyse. CMIP6 fokuserer på den sjette fase af globalt koblet hav-atmosfære generelt cirkulationsmodelensemble; ERA5 er den femte generation af ECMWF atmosfæriske reanalyser af det globale klima, og den første reanalyse produceret som en operationel service.

Denne løsning er inspireret af arbejde med en vigtig AWS-kunde, the UK Met Office. The Met Office blev grundlagt i 1854 og er den nationale meteorologiske tjeneste for Storbritannien. De giver vejr- og klimaforudsigelser for at hjælpe dig med at træffe bedre beslutninger for at forblive sikker og trives. Et samarbejde mellem Met Office og EUMETSAT, detaljeret i Data nær beregning på en Dask Cluster fordelt mellem datacentre, fremhæver det voksende behov for at udvikle en bæredygtig, effektiv og skalerbar datavidenskabsløsning. Denne løsning opnår dette ved at bringe computeren tættere på dataene i stedet for at tvinge dataene til at komme tættere på computerressourcerne, hvilket tilføjer omkostninger, latens og energi.

Løsningsoversigt

Hver dag producerer UK Met Office op til 300 TB vejr- og klimadata, hvoraf en del offentliggøres til ASDI. Disse datasæt er distribueret over hele verden og hostet til offentlig brug. Met Office vil gerne gøre det muligt for forbrugere at få mere ud af deres data for at hjælpe med at informere kritiske beslutninger om at løse problemer som bedre forberedelse til klimaforandringer-inducerede naturbrande og oversvømmelser og reducere fødevareusikkerhed gennem bedre afgrødeudbytteanalyse.

Traditionelle løsninger, der bruges i dag, især med klimadata, er tidskrævende og uholdbare, og replikerer datasæt på tværs af regioner. Unødvendig dataoverførsel på petabyte-skalaen er dyr, langsom og forbruger energi.

Vi vurderede, at hvis denne praksis blev vedtaget af Met Office-brugerne, ville der kunne spares svarende til 40 hjems daglige strømforbrug hver dag, og de kunne også reducere overførslen af data mellem regioner.

Følgende diagram illustrerer løsningsarkitekturen.

Løsningen kan opdeles i tre hovedsegmenter: klient, arbejdere og netværk. Lad os dykke ned i hver og se, hvordan de hænger sammen.

Klient

Klienten repræsenterer kilderegionen, hvor dataforskere forbinder. Denne region (Region A i diagrammet) indeholder en Amazon SageMaker notesbog, en Amazon OpenSearch Service domæne og et Dask planlægger som nøglekomponenter. Systemadministratorer har adgang til det indbyggede Dask-dashboard eksponeret via en Elastisk Load Balancer.

Dataforskere har adgang til Jupyter-notebooken, der er hostet på SageMaker. Den bærbare computer er i stand til at forbinde og køre arbejdsbelastninger på Dask-planlæggeren. OpenSearch Service-domænet gemmer metadata på de datasæt, der er tilsluttet i regionerne. Notebook-brugere kan forespørge på denne service for at hente detaljer såsom den korrekte Region of Dask-medarbejdere uden at skulle kende dataens regionale placering på forhånd.

Worker

Hver af arbejderregionerne (region B og C i diagrammet) består af en Amazon Elastic Container Service (Amazon ECS) klynge af Dask arbejdere, en Amazon FSx til Luster filsystem og et selvstændigt Amazon Elastic Compute Cloud (Amazon EC2) forekomst. FSx for Luster giver Dask-arbejdere mulighed for at få adgang til og behandle Amazon S3-data fra et højtydende filsystem ved at linke dine filsystemer til S3-buckets. Det giver forsinkelser på under millisekunder, op til hundredvis af GBs/sek. gennemløb og millioner af IOPS. En nøglefunktion ved Luster er, at kun filsystemets metadata synkroniseres. Luster styrer balancen mellem filer, der skal indlæses og holdes varme, baseret på efterspørgsel.

Arbejderklynger skaleres baseret på CPU-brug, sørger for yderligere medarbejdere i længere perioder med efterspørgsel og skalerer ned, efterhånden som ressourcer bliver ledige.

Hver nat kl. 0:00 UTC beder et datasynkroniseringsjob Luster-filsystemet om at gensynkronisere med den vedhæftede S3-bøtte og trækker et opdateret metadatakatalog over bøtten. Efterfølgende skubber den selvstændige EC2-instans disse opdateringer ind i OpenSearch Service i forhold til den pågældende regions indeks. OpenSearch Service giver den nødvendige information til klienten om, hvilken pulje af arbejdere der skal tilkaldes til et bestemt datasæt.

Netværk

Netværk udgør kernen i denne løsning, ved at bruge Amazons interne backbone-netværk. Ved hjælp af AWS Transit Gateway, er vi i stand til at forbinde hver af regionerne med hinanden uden at skulle krydse det offentlige internet. Hver af arbejderne er i stand til at oprette forbindelse dynamisk til Dask-planlæggeren, hvilket giver dataforskere mulighed for at køre interregionale forespørgsler gennem Dask.

Forudsætninger

AWS CDK-pakken bruger TypeScript-programmeringssproget. Følg trinene i Kom godt i gang for AWS CDK for at konfigurere dit lokale miljø og bootstrap din udviklingskonto (du bliver nødt til at bootstrap alle regioner angivet i GitHub repo).

For en vellykket implementering skal du bruge Docker installeret og kører på din lokale maskine.

Implementer AWS CDK-pakken

Det er ligetil at implementere en AWS CDK-pakke. Når du har installeret forudsætningerne og bootstrap din konto, kan du fortsætte med at downloade kodebasen.

Download GitHub repository:

# Command to clone the repository
git clone https://github.com/aws-solutions-library-samples/distributed-compute-on-aws-with-cross-regional-dask.git
cd distributed-compute-on-aws-with-cross-regional-dask

Installer nodemoduler:
```
npm install
```
Implementer AWS CDK:
```
npx cdk deploy --all
```

Stakken kan tage over halvanden time at implementere.

Kodegennemgang

I dette afsnit inspicerer vi nogle af nøglefunktionerne i kodebasen. Hvis du gerne vil inspicere den fulde kodebase, skal du se GitHub repository.

Konfigurer og tilpas din stak

I filen bin/variables.ts, finder du to variable erklæringer: en for klienten og en for arbejdere. Klienterklæringen er en ordbog med reference til et område og et CIDR-område. Tilpasning af disse variabler vil ændre både regions- og CIDR-området for, hvor klientressourcer vil blive implementeret.

Arbejdervariablen kopierer den samme funktionalitet; det er dog en liste over ordbøger for at imødekomme tilføjelse eller fratrækning af datasæt, som brugeren ønsker at inkludere. Derudover indeholder hver ordbog de tilføjede felter af dataset , lustreFileSystemPath. Datasæt bruges til at angive den forbindende S3 URI, som Luster skal oprette forbindelse til. Det lustreFileSystemPath variabel bruges som en kortlægning for, hvordan brugeren ønsker, at datasættet skal kortlægges lokalt på arbejderfilsystemet. Se følgende kode:

export const client: IClient = { region: "eu-west-2", cidr: "10.0.0.0/16" }; export const workers: IWorker[] = [ { region: "us-east-1", cidr: "10.1.0.0/16", // The public s3 dataset on https://registry.opendata.aws/ you wish to connect to dataset: "s3://era5-pds", lustreFileSystemPath: "era5-pds", },
...]

Udgiv dynamisk planlæggerens IP

En udfordring, der ligger i dette projekts tværregionale karakter, var at opretholde en dynamisk forbindelse mellem Dask-arbejderne og planlæggeren. Hvordan kunne vi udgive en IP-adresse, som er i stand til at ændre, på tværs af AWS-regioner? Vi var i stand til at opnå dette ved at bruge AWS Cloud-kort , associate-vpc-with-hosted-zone. Tjenestens abstracts gør det muligt for AWS at administrere dette DNS-navneområde privat. Se følgende kode:

 /** * Below we initialise a private namespace which will keep track of the changing schedulers IP * The workers will need this IP to connect to, so instead of tracking it statically, they can * Simply reference the DNS which will resolve to the IP every time */ const PrivateNP = new PrivateDnsNamespace(this, "local-dask", { name: "local-dask", vpc: this.vpc, }); // Other regions will have to associate-vpc-with-hosted-zone to access this namespace new StringParameter(this, "PrivateNP Param", { parameterName: `privatenp-hostedid-param-${this.region}`, stringValue: PrivateNP.namespaceHostedZoneId, }); this.schedulerDisovery = new Service(this, "Scheduler Discovery", { name: "Dask-Scheduler", namespace: PrivateNP, });

Jupyter notebook UI

Jupyter-notebooken, der er hostet på SageMaker, giver videnskabsfolk et færdigt miljø til implementering, så de nemt kan forbinde og eksperimentere med de indlæste datasæt. Vi brugte en livscykluskonfigurationsscript at klargøre notebook'en med et forudkonfigureret udviklermiljø og eksempelkodebase. Se følgende kode:

 // The Sagemaker Notebook new CfnNotebookInstance(this, "Dask Notebook", { notebookInstanceName: "Dask-Notebook", rootAccess: "Disabled", directInternetAccess: "Disabled", defaultCodeRepository: repo.repositoryCloneUrlHttp, instanceType: "ml.t3.2xlarge", roleArn: role.roleArn, subnetId: this.vpc.privateSubnets[0].subnetId, securityGroupIds: [SagemakerSec.securityGroupId], lifecycleConfigName: lifecycle.notebookInstanceLifecycleConfigName, kmsKeyId: nbKey.keyId, platformIdentifier: "notebook-al2-v1", volumeSizeInGb: 50, });

Dask worker noder

Når det kommer til Dask-arbejderne, tilbydes der større tilpasningsmuligheder, mere specifikt på instanstype, tråde pr. container og skaleringsalarmer. Som standard monterer arbejderne på instanstypen m5d.4xlarge til Luster-filsystemet ved lancering og underinddeler dets arbejdere og tråde dynamisk til porte. Alt dette kan tilpasses valgfrit. Se følgende kode:

capacity: { instanceType: new InstanceType("m5d.4xlarge"), minCapacity: 0, maxCapacity: 12, vpcSubnets: { subnetType: SubnetType.PRIVATE_WITH_EGRESS, },
}, command: [ "bin/sh", "-c", `pip3 install --upgrade xarray[complete] intake_esm s3fs eccodes git+https://github.com/gjoseph92/dask-worker-pools.git@main && dask worker Dask-Scheduler.local-dask:8786 --worker-port 9000:${ 9000 + NWORKERS - 1 } --nanny-port ${9000 + NWORKERS}:${ 9000 + NWORKERS * 2 - 1 } --resources pool-${ this.region }=1 --nworkers ${NWORKERS} --nthreads ${THREADS} --no-dashboard`,
],

Performance (Præstation)

For at vurdere ydeevnen bruger vi en prøveberegning og plotning af lufttemperatur ved 2 meter baseret på forskellen mellem CMIP6-forudsigelse for en måned og ERA5 middellufttemperatur i 10 år. Vi sætter et benchmark på to arbejdere i hver region og vurderer forskellen i tidsreduktion i takt med, at der blev tilføjet flere medarbejdere. I teorien, efterhånden som løsningen skaleres, skulle der være en produktiv materialeforskel i at reducere den samlede tid.

Følgende tabel opsummerer vores datasætdetaljer.

datasæt Variabler Diskstørrelse Xarray-datasætstørrelse Område

ERA5 2011-2020 (120 netcdf-filer) 53.5GB 364.1 DK os-øst-1

CMIP6

variable_ids = ['tas'] # tas is air temperature at 2m above surface
table_id = 'Amon' # Monthly data from Atmosphere grid = 'gn' experiment_id = 'ssp245' activity_ids = ['ScenarioMIP', 'CMIP'] institution_id = 'MOHC'

1.13GB

0.11 DK

us-vest-2

Følgende tabel viser de indsamlede resultater og viser tiden (i sekunder) for hver beregning og forudsigelse i tre trin i beregning af CMIP6-forudsigelse, ERA5 og forskel.

.	.	Antal arbejdere
Compute	Område	2(CMIP) + 2(ERA)	2(CMIP) + 4(ERA)	2(CMIP) + 8(ERA)	2 (CMIP) + 12(ERA)
CMIP6 (`predicted_tas_regridded`)	us-vest-2	11.8	11.5	11.2	11.6
ERA5 (`historic_temp_regridded`)	os-øst-1	1512	711	427	202
Forskel (`propogated pool`)	us-west-2 og us-east-1	1527	906	469	251

Følgende graf visualiserer ydeevnen og skalaen.

Fra vores eksperiment observerede vi en lineær forbedring af beregningen for ERA5-datasættet, efterhånden som antallet af arbejdere steg. Efterhånden som antallet af arbejdere steg, blev beregningstiderne til tider halveret.

Jupyter notesbog

Som en del af løsningslanceringen implementerer vi en prækonfigureret Jupyter-notebook for at hjælpe med at teste den tværregionale Dask-løsning. Notesbogen demonstrerer den fjernede bekymring for at skulle kende den regionale placering af datasæt, i stedet for at forespørge et katalog gennem en række Jupyter-notebooks, der kører i baggrunden.

For at komme i gang skal du følge instruktionerne i dette afsnit.

Koden til notesbøgerne kan findes i lib/SagemakerCode med den primære notesbog ux_notebook.ipynb. Denne notesbog kalder på andre notesbøger og udløser hjælpescripts. ux_notebook er designet til at være indgangspunktet for videnskabsmænd, uden at det er nødvendigt at gå andre steder hen.

For at komme i gang skal du åbne denne notesbog i SageMaker, efter du har installeret AWS CDK. AWS CDK'en opretter en notesbogsforekomst med alle filerne i depotet indlæst og sikkerhedskopieret til en AWS CodeCommit repository.

For at køre programmet skal du åbne og køre den første celle af ux_notebook. Denne celle kører get_variables notesbog i baggrunden, som beder dig om input til de data, du gerne vil vælge. Vi inkluderer et eksempel; Bemærk dog, at spørgsmål først vises, efter at den forrige mulighed er valgt. Dette er med vilje til at begrænse valgmulighederne i rullemenuen og kan eventuelt konfigureres ved at redigere get_variables notesbog.

Den foregående kode gemmer variabler globalt, så andre notebooks kan hente og indlæse dit udvalg af valg. Til demonstration skal den næste celle udsende gemte variabler fra før.

Derefter vises en prompt om yderligere dataspecifikationer. Denne celle forfiner de data, du leder efter, ved at præsentere id'erne for tabeller i et menneskeligt læsbart format. Brugere vælger, som om det var en formular, men titlerne er knyttet til tabeller i baggrunden, der hjælper systemet med at hente de relevante datasæt.

Når du har gemt alle dine valg og udvalgte celler, skal du indlæse dataene i regionerne ved at køre cellen i Henter data sæt afsnit. %%capture-kommandoen vil undertrykke unødvendige output fra get_data notesbog. Bemærk, at du kan fjerne dette for at inspicere output fra de andre notebooks. Data hentes derefter i backend.

Mens andre notebooks køres i baggrunden, er det eneste berøringspunkt for brugeren ux_notebook. Dette er for at abstrahere den kedelige proces med at importere data til et format, som enhver bruger er i stand til at følge med lethed.

Med dataene nu indlæst, kan vi begynde at interagere med dem. De følgende celler er eksempler på beregninger, du kan køre på vejrdata. Ved brug af røntgenbilleder, vi importerer, beregner og plotter derefter disse datasæt.

Vores eksempel illustrerer et plot af forudsigende data, der henter data, kører beregningen og plotter resultaterne på under 7.5 sekunder - størrelsesordener hurtigere end en typisk tilgang.

Under kølerhjelmen

Notesbøgerne get_catalog_input , get_variables bruge biblioteket ipywidgets for at vise widgets såsom rullemenuer og valg af flere felter. Disse muligheder gemmes globalt ved hjælp af %%store-kommandoen, så de kan tilgås fra ux_notebook. En af mulighederne beder dig om, hvorvidt du vil have historiske data, forudsigelige data eller begge dele. Denne variabel overføres til get_data notesbog for at bestemme, hvilke efterfølgende notesbøger der skal køres.

get_data notebook henter først det delte OpenSearch Service-domæne, der er gemt på AWS Systems Manager Parameter Store. Dette domæne giver vores notesbog mulighed for at køre en forespørgsel om indsamling af information, der vil indikere, hvor de valgte datasæt er gemt regionalt. Med disse datasæt lokaliseret regionalt, vil notebook'en forsøge at oprette forbindelse til Dask-planlæggeren og videregive oplysningerne indsamlet fra OpenSearch Service. Dask-planlæggeren vil til gengæld være i stand til at kalde på arbejdere i de korrekte regioner.

Hvordan man tilpasser og fortsætter udviklingen

Disse notesbøger er beregnet til at være et eksempel på, hvordan du kan skabe en måde, hvorpå brugere kan interface og interagere med dataene. Notesbogen i dette indlæg tjener som en illustration til, hvad der er muligt, og vi inviterer dig til at fortsætte med at bygge videre på løsningen for yderligere at forbedre brugerengagementet. Kernedelen af denne løsning er backend-teknologien, men uden en eller anden mekanisme til at interagere med denne backend, vil brugerne ikke realisere det fulde potentiale af løsningen.

Slet ressourcerne for at undgå fremtidige gebyrer. Lad os ødelægge vores installerede løsning med følgende kommando:

npx cdk destroy –all

Konklusion

Dette indlæg viser udvidelsen af Dask inter-Regionalt på AWS og en mulig integration med offentlige datasæt på AWS. Løsningen blev bygget som et generisk mønster, og yderligere datasæt kan indlæses for at accelerere høje I/O-analyser på komplekse data.

Data transformerer hvert felt og enhver virksomhed. Men da data vokser hurtigere end de fleste virksomheder kan holde styr på, er det en udfordring at indsamle data og få værdi ud af disse data. En moderne datastrategi kan hjælpe dig med at skabe bedre forretningsresultater med data. AWS leverer det mest komplette sæt af tjenester til end-to-end datarejsen for at hjælpe dig med at låse op for værdi fra dine data og omdanne dem til indsigt.

For at lære mere om de forskellige måder at bruge dine data på i skyen, besøg AWS Big Data Blog. Vi inviterer dig yderligere til at kommentere med dine tanker om dette indlæg, og om det er en løsning, du planlægger at prøve.

Om forfatterne

Patrick O'Connor er en WWSO Prototyping Engineer baseret i London. Han er en kreativ problemløser, der kan tilpasses på tværs af en bred vifte af teknologier, såsom IoT, serverløs teknologi, 3D rumlig teknologi og ML/AI, sammen med en ubarmhjertig nysgerrighed på, hvordan teknologi kan fortsætte med at udvikle hverdagens tilgange.

Chakra Nagarajan er en Principal Machine Learning Prototyping SA med 21 års erfaring inden for machine learning, big data og højtydende computing. I sin nuværende rolle hjælper han kunder med at løse komplekse forretningsproblemer i den virkelige verden ved at bygge prototyper med end-to-end AI/ML-løsninger i cloud- og edge-enheder. Hans ML-specialisering omfatter computersyn, naturlig sprogbehandling, tidsserieprognoser og personalisering.

Val Cohen er en senior WWSO Prototyping Engineer baseret i London. Val er en problemløser af natur og nyder at skrive kode til at automatisere processer, bygge kundebesatte værktøjer og skabe infrastruktur til forskellige applikationer til sin globale kundebase. Val har erfaring på tværs af en bred vifte af teknologier, såsom front-end webudvikling, backend-arbejde og AI/ML.

Niall Robinson er chef for produktfutures på UK Met Office. Han og hans team udforsker nye måder, hvorpå Met Office kan levere værdi gennem produktinnovation og strategiske partnerskaber. Han har haft en varieret karriere, hvor han har ledet et tværfagligt informatik-F&U-team, akademisk forskning i datavidenskab og feltforsker sammen med ekspertise inden for klimamodeller.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoAiStream. Web3 Data Intelligence. Viden forstærket. Adgang her.
Udmøntning af fremtiden med Adryenn Ashley. Adgang her.
Køb og sælg aktier i PRE-IPO-virksomheder med PREIPO®. Adgang her.
Kilde: https://aws.amazon.com/blogs/big-data/build-efficient-cross-regional-i-o-intensive-workloads-with-dask-on-aws/

Tidsstempel: Maj 4, 2023

Tidsstempel: December 21, 2023

Genudgivet af Platon

Migrer fra Google BigQuery til Amazon Redshift ved hjælp af AWS Glue og Custom Auto Loader Framework | Amazon Web Services

Uddrag tidsserier fra satellitvejrdata med AWS Lambda | Amazon Web Services

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto