Praegusel suurandmete ajastul otsivad organisatsioonid kogu maailmas pidevalt uuenduslikke viise, kuidas oma tohututest andmekogumitest väärtust ja teadmisi ammutada. Apache Spark pakub mastaapsust ja kiirust, mis on vajalik suurte andmemahtude tõhusaks töötlemiseks.
Amazon EMR on tööstusharu juhtiv pilve suurandmete lahendus petabaitide mastaabis andmetöötluseks, interaktiivseks analüüsiks ja masinõppeks (ML), kasutades avatud lähtekoodiga raamistikke, nagu Apache Spark, Apache taruja Presto. Amazon EMR on parim koht Apache Sparki käitamiseks. Saate kiiresti ja vaevata luua hallatud Sparki klastreid rakendusest AWS-i juhtimiskonsool, AWS-i käsurea liides (AWS CLI) või Amazon EMR API. Võite kasutada ka täiendavaid Amazon EMR-i funktsioone, sealhulgas kiireid Amazoni lihtne salvestusteenus (Amazon S3) ühenduvus, kasutades Amazon EMR-failisüsteemi (EMRFS), integreerituna Amazon EC2 koht turg ja AWS liim Andmekataloog ja EMR-i hallatud skaleerimine, et lisada või eemaldada oma klastrist eksemplare. Amazon EMR stuudio on integreeritud arenduskeskkond (IDE), mis muudab andmeteadlaste ja andmeinseneride jaoks R-is, Pythonis, Scalas ja PySparkis kirjutatud andmetehnika ja andmeteaduse rakenduste arendamise, visualiseerimise ja silumise lihtsaks. EMR Studio pakub silumise lihtsustamiseks täielikult hallatavaid Jupyteri sülearvuteid ja tööriistu, nagu Spark UI ja YARN Timeline Service.
Andmekogudes peituva potentsiaali avamiseks on oluline minna kaugemale traditsioonilisest analüütikast. Sisenege generatiivsesse AI-sse, tipptehnoloogiasse, mis ühendab ML loovusega, et luua inimsarnast teksti, kunsti ja isegi koodi. Amazonase aluspõhi on kõige lihtsam viis generatiivsete AI-rakenduste loomiseks ja skaleerimiseks alusmudelitega (FM-idega). Amazon Bedrock on täielikult hallatav teenus, mis teeb Amazoni ja juhtivate tehisintellekti ettevõtete FM-id API kaudu kättesaadavaks, et saaksite mänguväljakul kiiresti katsetada erinevate FM-idega ja kasutada järelduste tegemiseks ühte API-d, olenemata valitud mudelitest, andes võimaldab teil paindlikult kasutada erinevate pakkujate FM-e ja olla kursis uusimate mudeliversioonidega minimaalsete koodimuudatustega.
Selles postituses uurime, kuidas saate oma andmeanalüüsi generatiivse AI-ga täiendada, kasutades Amazon EMR-i, Amazon Bedrocki ja pyspark-ai raamatukogu. Pyspark-ai teek on Apache Sparki ingliskeelne SDK. See võtab ingliskeelsed juhised ja kompileerib need PySparki objektideks, nagu DataFrames. See muudab Sparkiga töötamise lihtsaks, võimaldades teil keskenduda andmetest väärtuse hankimisele.
Lahenduse ülevaade
Järgmine diagramm illustreerib generatiivse AI kasutamise arhitektuuri Amazon EMR-i ja Amazon Bedrockiga.
EMR Studio on veebipõhine IDE täielikult hallatavate Jupyteri sülearvutite jaoks, mis töötavad EMR-klastrites. Suhtleme töötava EMR-klastriga ühendatud EMR Studio tööruumidega ja käitame selle postituse osana pakutavat märkmikku. Me kasutame New Yorgi takso andmed, et koguda ülevaadet kasutajate erinevatest taksosõitudest. Esitame küsimused loomulikus keeles lisaks Spark DataFrame'i laaditud andmetele. Pyspark-ai teek kasutab seejärel Amazon Bedrocki Amazon Titan Text FM-i, et luua loomuliku keele küsimuse põhjal SQL-päring. Pyspark-ai teek võtab SQL-päringu, käivitab selle Spark SQL-i abil ja annab tulemused kasutajale tagasi.
Selles lahenduses saate luua ja konfigureerida oma AWS-i kontol vajalikud ressursid, kasutades AWS CloudFormation malli. Mall loob AWS liim andmebaas ja tabelid, S3 ämber, VPC ja muud AWS-i identiteedi- ja juurdepääsuhaldus (IAM) ressursid, mida lahenduses kasutatakse.
Mall on loodud selleks, et demonstreerida EMR Studio kasutamist pyspark-ai paketi ja Amazon Bedrockiga ning see ei ole ette nähtud tootmiseks ilma muutmata. Lisaks kasutab mall us-east-1
piirkonnas ja ei pruugi muudes piirkondades ilma muudatusteta töötada. Mall loob ressursid, mis tekitavad kasutamise ajal kulusid. Ressursside kustutamiseks ja tarbetute tasude vältimiseks järgige selle postituse lõpus olevaid puhastamise samme.
Eeldused
Enne CloudFormationi virna käivitamist veenduge, et teil oleks järgmine.
- AWS-i konto, mis pakub juurdepääsu AWS-i teenustele
- IAM-i kasutaja, kellel on juurdepääsuvõti ja salavõti AWS-i CLI konfigureerimiseks ning õigused luua AWS CloudFormationis IAM-i roll, IAM-poliitikad ja virnad
- Mudel Titan Text G1 – Express on praegu eelvaates, nii et selle postituse osana kasutamiseks peab teil olema eelvaate juurdepääs
Looge ressursse AWS CloudFormationiga
CloudFormation loob järgmised AWS-i ressursid:
- Privaatsete ja avalike alamvõrkudega VPC-pinn, mida saab kasutada koos EMR Studio, marsruuditabelite ja NAT-lüüsiga.
- EMR-klaster, millesse on installitud Python 3.9. Kasutame Python 3.9 ja muude asjakohaste pakettide, näiteks pyspark-ai ja Amazon Bedrocki sõltuvuste installimiseks alglaadimistoimingut. (Lisateabe saamiseks vaadake bootstrap skript.)
- S3 ämber EMR Studio tööruumi ja sülearvuti hoidmiseks.
- IAM-i rollid ja eeskirjad EMR Studio seadistamiseks, Amazon Bedrocki juurdepääsuks ja sülearvutite käitamiseks
Alustamiseks toimige järgmiselt.
CloudFormationi virna valmimine võtab umbes 20–30 minutit. Selle edenemist saate jälgida AWS CloudFormationi konsoolil. Kui selle olek loeb CREATE_COMPLETE
, on teie AWS-i kontol selle lahenduse rakendamiseks vajalikud ressursid.
Looge EMR Studio
Nüüd saate sülearvuti koodiga töötamiseks luua EMR Studio ja tööruumi. Tehke järgmised sammud.
- Valige EMR Studio konsoolil Looge stuudio.
- Märkida Stuudio nimi as
GenAI-EMR-Studio
ja esitage kirjeldus. - aasta Võrgundus ja turvalisus jaotises täpsustage järgmist:
- eest VPC, valige VPC, mille lõite juurutatud CloudFormationi virna osana. Hankige VPC ID, kasutades VPCID võtme jaoks CloudFormationi väljundeid.
- eest Alamvõrgud, valige kõik neli alamvõrku.
- eest Turvalisus ja juurdepääsvalige Kohandatud turvarühm.
- eest Klastri/otspunkti turberühm, vali
EMRSparkAI-Cluster-Endpoint-SG
. - eest Tööruumi turvagrupp, vali
EMRSparkAI-Workspace-SG
.
- aasta Stuudioteeninduse roll jaotises täpsustage järgmist:
- eest Autentiminevalige AWS-i identiteedi ja juurdepääsu haldus (IAM).
- eest AWS IAM-i teenuse roll, vali
EMRSparkAI-StudioServiceRole
.
- aasta Tööruumi salvestusruum jaotist sirvige ja valige S3-ämber ladustamiseks, alustades
emr-sparkai-<account-id>
. - Vali Looge stuudio.
- Kui EMR Studio on loodud, valige all olev link Stuudio juurdepääsu URL et pääseda stuudiosse.
- Kui olete stuudios, valige Looge tööruum.
- lisama
emr-genai
tööruumi nimeks ja valige Looge tööruum. - Kui tööruum on loodud, valige tööruumi käivitamiseks selle nimi (veenduge, et olete kõik hüpikakende blokeerijad keelanud).
Suurandmete analüüs, kasutades Apache Sparki koos Amazon EMR-i ja generatiivse AI-ga
Nüüd, kui oleme nõutava seadistuse lõpetanud, saame hakata tegema suurandmete analüüsi, kasutades Apache Sparki koos Amazon EMR-i ja generatiivse AI-ga.
Esimese sammuna laadime märkmiku, millel on kasutusjuhtumiga töötamiseks vajalik kood ja näited. Kasutame NY Taxi andmestikku, mis sisaldab üksikasju taksosõitude kohta.
- Laadige alla märkmiku fail NYTaxi.ipynb ja laadige see üles oma tööruumi, valides üleslaadimise ikooni.
- Pärast märkmiku importimist avage märkmik ja valige
PySpark
kui tuum.
PySpark AI vaikimisi kasutab LLM-mudelina OpenAI ChatGPT4.0, kuid saate ühendada ka Amazon Bedrocki mudeleid, Amazon SageMaker JumpStartja muud kolmanda osapoole mudelid. Selle postituse jaoks näitame, kuidas integreerida Amazon Bedrock Titani mudelit SQL-päringute genereerimiseks ja käitada seda Apache Sparkiga Amazon EMR-is.
- Märkmikuga alustamiseks peate tööruumi seostama arvutuskihiga. Selleks valige Arvutama ikooni navigeerimispaanil ja valige CloudFormationi virna loodud EMR-klaster.
- Seadistage Pythoni parameetrid, et kasutada värskendatud Python 3.9 paketti koos Amazon EMR-iga:
- Importige vajalikud teegid:
- Pärast teekide importimist saate Amazon Bedrockist määrata LLM-mudeli. Sel juhul kasutame amazon.titan-text-express-v1. Peate sisestama piirkonna ja Amazon Bedrocki lõpp-punkti URL-i, võttes aluseks teie eelvaate juurdepääsu Titan Text G1 – Express mudelile.
- Ühendage Spark AI Amazon Bedrocki LLM-i mudeliga SQL-päringute genereerimiseks loomulikus keeles esitatud küsimuste põhjal:
Siin oleme initsialiseerinud Spark AI väärtusega verbose=False; üksikasjade nägemiseks saate määrata ka verbose=True.
Nüüd saate lugeda NYC Taxi andmeid Spark DataFrame'is ja kasutada Sparkis generatiivse AI võimsust.
- Näiteks võite küsida andmestiku kirjete arvu:
Saame järgmise vastuse:
Spark AI kasutab sisemiselt LangChain ja SQL-i kett, mis varjavad Sparkis päringutega töötavate lõppkasutajate keerukust.
Sülearvutil on veel mõned näidisstsenaariumid, et uurida generatiivse AI võimsust Apache Sparki ja Amazon EMR-iga.
Koristage
Tühjendage S3 ämbri sisu emr-sparkai-<account-id>
, kustutage selle postituse osana loodud EMR Studio tööruum ja seejärel juurutatud CloudFormationi virn.
Järeldus
See postitus näitas, kuidas saate Apache Sparki abiga Amazon EMR-i ja Amazon Bedrocki abil oma suurandmete analüütikat täiendada. PySpark AI pakett võimaldab teil saada oma andmetest sisukaid teadmisi. See aitab vähendada arendus- ja analüüsiaega, lühendades käsitsi päringute kirjutamiseks kuluvat aega ja võimaldades teil keskenduda oma ärilisele kasutusjuhtumile.
Autoritest
Saurabh Bhutyani on AWS-i peamine analüüsispetsialisti lahenduste arhitekt. Ta on kirglik uute tehnoloogiate vastu. Ta liitus AWS-iga 2019. aastal ja teeb klientidega koostööd, et pakkuda arhitektuurilisi juhiseid generatiivsete AI kasutusjuhtude, skaleeritavate analüütikalahenduste ja andmevõrgu arhitektuuride käitamiseks, kasutades AWS teenuseid, nagu Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation, ja Amazon DataZone.
Karm Vardhan on AWS-i vanemlahenduste arhitekt, kes on spetsialiseerunud analüütikale. Tal on üle 8-aastane suurandmete ja andmeteaduse valdkonnas töötamise kogemus. Ta soovib kirglikult aidata klientidel parimaid tavasid kasutusele võtta ja oma andmetest teadmisi leida.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
- PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
- PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
- PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/
- :on
- :on
- :mitte
- $ UP
- 1
- 10
- 100
- 107
- 11
- 20
- 200
- 2019
- 320
- 500
- 521
- 7
- 8
- 9
- 990
- a
- MEIST
- juurdepääs
- juurdepääsu haldamine
- konto
- kinnitada
- tegevus
- lisama
- Täiendavad lisad
- Lisaks
- vastu võtma
- AI
- ai kasutusjuhtumeid
- Materjal: BPA ja flataatide vaba plastik
- Lubades
- võimaldab
- Ka
- Amazon
- Amazonase Athena
- Amazon EMR
- Amazon SageMaker
- Amazon Web Services
- summad
- an
- analüüs
- analytics
- ja
- vastus
- mistahes
- Apache
- Apache Spark
- API
- rakendused
- umbes
- arhitektuuri-
- arhitektuur
- OLEME
- Kunst
- AS
- küsima
- Partner
- At
- saadaval
- vältima
- AWS
- AWS CloudFormation
- AWS liim
- AWS järve kihistu
- tagasi
- põhineb
- BEST
- parimaid tavasid
- Peale
- Suur
- Big andmed
- Bootstrap
- ehitama
- äri
- kuid
- nupp
- by
- CAN
- juhul
- juhtudel
- kataloog
- kett
- Vaidluste lahendamine
- koormuste
- Vali
- valimine
- Linn
- Cloud
- pilve suurandmed
- Cluster
- kood
- ühendab
- Ettevõtted
- täitma
- Lõpetatud
- keerukus
- Arvutama
- seotud
- Side
- konsool
- pidevalt
- sisaldab
- sisu
- kulud
- looma
- loodud
- loob
- loovus
- Praegu
- Kliendid
- viimase peal
- andmed
- Andmete analüüs
- andmetöötlus
- andmeteadus
- andmebaas
- andmekogumid
- kuupäev
- vaikimisi
- määratlema
- näitama
- sõltuvused
- lähetatud
- kõrvalekalle
- kirjeldus
- kavandatud
- detailid
- arendama
- & Tarkvaraarendus
- erinev
- blokeeritud
- avastama
- do
- tõhusalt
- sundimatult
- lõpp
- Lõpp-punkt
- Inseneriteadus
- Inseneride
- Inglise
- tagama
- sisene
- Sisse
- keskkond
- Ajastu
- oluline
- Eeter (ETH)
- Isegi
- näide
- näited
- kogemus
- eksperiment
- uurima
- ekspress
- väljavõte
- KIIRE
- FUNKTSIOONID
- vähe
- väli
- fail
- lõplik
- esimene
- Paindlikkus
- Keskenduma
- järgima
- Järel
- eest
- moodustamine
- Sihtasutus
- neli
- raamistikud
- Alates
- täielikult
- g1
- garner
- värav
- tekitama
- põlvkond
- generatiivne
- Generatiivne AI
- saama
- andmine
- Go
- juhised
- Olema
- he
- aitama
- aidates
- aitab
- varjatud
- varjama
- Kuidas
- Kuidas
- http
- HTTPS
- i
- IAM
- ICON
- ID
- Identity
- identiteedi ja juurdepääsu haldamine
- illustreerib
- rakendada
- import
- in
- Teistes
- Kaasa arvatud
- juhtivad
- info
- uuenduslik
- sisend
- teadmisi
- paigaldama
- juhtumid
- juhised
- integreerima
- integreeritud
- integratsioon
- ette nähtud
- suhelda
- interaktiivne
- sisemiselt
- sisse
- IT
- ITS
- liitunud
- jpg
- hoidma
- Võti
- Teadma
- järv
- keel
- suur
- hiljemalt
- algatama
- kiht
- juhtivate
- õppimine
- raamatukogud
- Raamatukogu
- nagu
- joon
- LINK
- koormus
- masin
- masinõpe
- tegema
- TEEB
- juhitud
- juhtimine
- käsiraamat
- Turg
- mai..
- tähendusrikas
- silma
- minimaalne
- protokoll
- ML
- mudel
- mudelid
- Jälgida
- rohkem
- kõige
- nimi
- Natural
- Loomulik keel
- NAVIGATSIOON
- vajalik
- Vajadus
- vaja
- võrgustike loomine
- Uus
- Uued tehnoloogiad
- märkmik
- märkmikud
- nüüd
- number
- NY
- NYC
- esemeid
- tähelepanek
- of
- Pakkumised
- on
- avatud
- avatud lähtekoodiga
- or
- organisatsioonid
- Muu
- väljundid
- üle
- ülevaade
- pakend
- pakette
- pane
- parameetrid
- osa
- kirglik
- esitades
- Õigused
- Koht
- Platon
- Platoni andmete intelligentsus
- PlatoData
- mänguväljak
- pistik
- Poliitika
- pop-up
- post
- potentsiaal
- võim
- tavad
- Eelvaade
- Peamine
- era-
- protsess
- töötlemine
- Produktsioon
- Edu
- anda
- tingimusel
- pakkujad
- annab
- avalik
- Python
- päringud
- küsimus
- Küsimused
- kiiresti
- R
- Lugenud
- andmed
- vähendama
- vähendamine
- viitama
- Sõltumata sellest
- piirkond
- piirkondades
- asjakohane
- kõrvaldama
- nõutav
- Vahendid
- vastus
- Tulemused
- seljas
- Roll
- rollid
- Marsruut
- jooks
- jooksmine
- jookseb
- salveitegija
- Scala
- Skaalautuvus
- skaalautuvia
- Skaala
- ketendamine
- stsenaariumid
- teadus
- teadlased
- SDK
- otsimine
- Saladus
- turvalisus
- vaata
- valima
- vanem
- teenus
- Teenused
- komplekt
- seade
- näitama
- näitas
- lihtne
- lihtsustama
- ühekordne
- So
- lahendus
- Lahendused
- allikas
- Säde
- spetsialist
- spetsialiseerunud
- kiirus
- SQL
- Kestab
- Hoidla
- algus
- alustatud
- Käivitus
- olek
- Samm
- Sammud
- ladustamine
- lihtne
- stuudio
- alamvõrgud
- selline
- Ülelaadimine
- kindel
- süsteem
- tabel
- võtnud
- võtab
- Tehnoloogiad
- Tehnoloogia
- šabloon
- tekst
- et
- .
- oma
- Neile
- SIIS
- nad
- kolmanda osapoole
- see
- arvasin
- Läbi
- aeg
- ajakava
- Titan
- et
- töövahendid
- ülemine
- traditsiooniline
- ui
- all
- avamine
- ajakohastatud
- URL
- kasutama
- kasutage juhtumit
- Kasutatud
- Kasutaja
- Kasutajad
- kasutusalad
- kasutamine
- väärtus
- sort
- eri
- suur
- visualiseeri
- Tee..
- kuidas
- we
- web
- veebiteenused
- Veebipõhine
- millal
- mis
- kuigi
- will
- koos
- jooksul
- ilma
- Töö
- töö
- töötab
- ülemaailmne
- kirjutama
- kirjalik
- aastat
- york
- sa
- Sinu
- sephyrnet