V tej dobi velikih podatkov organizacije po vsem svetu nenehno iščejo inovativne načine za pridobivanje vrednosti in vpogledov iz svojih ogromnih naborov podatkov. Apache Spark ponuja razširljivost in hitrost, potrebno za učinkovito obdelavo velikih količin podatkov.
Amazonski EMR je vodilna rešitev za velike podatke v oblaku za petabajtno obdelavo podatkov, interaktivno analitiko in strojno učenje (ML) z uporabo odprtokodnih okvirov, kot je Apache Spark, Apache panjin Presto. Amazon EMR je najboljše mesto za zagon Apache Spark. Hitro in brez truda lahko ustvarite upravljane gruče Spark iz Konzola za upravljanje AWS, Vmesnik ukazne vrstice AWS (AWS CLI) ali Amazon EMR API. Uporabite lahko tudi dodatne funkcije Amazon EMR, vključno s hitrim Preprosta storitev shranjevanja Amazon (Amazon S3) povezljivost z uporabo datotečnega sistema Amazon EMR (EMRFS), integracija z Amazon EC2 Spot trg in AWS lepilo Data Catalog in EMR Managed Scaling za dodajanje ali odstranjevanje primerkov iz vaše gruče. Amazon EMR Studio je integrirano razvojno okolje (IDE), ki podatkovnim znanstvenikom in podatkovnim inženirjem olajša razvoj, vizualizacijo in odpravljanje napak v aplikacijah za podatkovno inženirstvo in podatkovno znanost, napisanih v R, Python, Scala in PySpark. EMR Studio ponuja popolnoma upravljane prenosnike Jupyter in orodja, kot sta Spark UI in YARN Timeline Service, za poenostavitev odpravljanja napak.
Da bi odklenili potencial, skrit v zalogah podatkov, je bistveno preseči tradicionalno analitiko. Vstopite v generativni AI, vrhunsko tehnologijo, ki združuje ML z ustvarjalnostjo za ustvarjanje besedila, umetnosti in celo kode, podobnega človeku. Amazon Bedrock je najpreprostejši način za gradnjo in povečanje generativnih aplikacij AI s temeljnimi modeli (FM). Amazon Bedrock je popolnoma upravljana storitev, ki omogoča FM-je Amazona in vodilnih podjetij AI na voljo prek API-ja, tako da lahko hitro eksperimentirate z različnimi FM-ji na igrišču in uporabite en sam API za sklepanje ne glede na modele, ki jih izberete, kar daje imate prilagodljivost pri uporabi FM-jev različnih ponudnikov in na tekočem z najnovejšimi različicami modelov z minimalnimi spremembami kode.
V tej objavi raziskujemo, kako lahko nadgradite svojo podatkovno analitiko z generativnim AI z uporabo Amazon EMR, Amazon Bedrock in pyspark-ai knjižnica. Knjižnica pyspark-ai je angleški SDK za Apache Spark. Prevzame navodila v angleškem jeziku in jih prevede v objekte PySpark, kot je DataFrames. Zaradi tega je delo s Sparkom preprosto, kar vam omogoča, da se osredotočite na pridobivanje vrednosti iz svojih podatkov.
Pregled rešitev
Naslednji diagram ponazarja arhitekturo za uporabo generativne umetne inteligence z Amazon EMR in Amazon Bedrock.
EMR Studio je spletni IDE za popolnoma upravljane prenosne računalnike Jupyter, ki delujejo v gručah EMR. Sodelujemo z delovnimi prostori EMR Studio, ki so povezani z delujočo gručo EMR, in izvajamo prenosni računalnik, ki je na voljo kot del te objave. Uporabljamo New York City Taxi podatke za pridobitev vpogleda v različne vožnje s taksijem uporabnikov. Vprašanja postavljamo v naravnem jeziku poleg podatkov, naloženih v Spark DataFrame. Knjižnica pyspark-ai nato uporabi Amazon Titan Text FM podjetja Amazon Bedrock za ustvarjanje poizvedbe SQL na podlagi vprašanja naravnega jezika. Knjižnica pyspark-ai sprejme poizvedbo SQL, jo zažene s pomočjo Spark SQL in uporabniku vrne rezultate.
V tej rešitvi lahko ustvarite in konfigurirate potrebne vire v svojem računu AWS z Oblikovanje oblaka AWS predlogo. Predloga ustvari AWS lepilo baza podatkov in tabel, vedro S3, VPC in drugo AWS upravljanje identitete in dostopa (IAM), ki se uporabljajo v rešitvi.
Predloga je zasnovana tako, da pokaže, kako uporabljati EMR Studio s paketom pyspark-ai in Amazon Bedrock, in ni namenjena produkcijski uporabi brez sprememb. Poleg tega predloga uporablja us-east-1
Regija in morda ne bo delovala v drugih regijah brez sprememb. Predloga ustvarja vire, ki povzročajo stroške, medtem ko so v uporabi. Sledite korakom za čiščenje na koncu te objave, da izbrišete vire in se izognete nepotrebnim stroškom.
Predpogoji
Preden zaženete sklad CloudFormation, zagotovite, da imate naslednje:
- Račun AWS, ki omogoča dostop do storitev AWS
- Uporabnik IAM s ključem za dostop in skrivnim ključem za konfiguracijo AWS CLI ter dovoljenji za ustvarjanje vloge IAM, pravilnikov IAM in skladov v AWS CloudFormation
- Model Titan Text G1 – Express je trenutno v predogledu, zato morate imeti dostop do predogleda, če ga želite uporabiti kot del te objave
Ustvarite vire z AWS CloudFormation
CloudFormation ustvari naslednje vire AWS:
- Sklad VPC z zasebnimi in javnimi podomrežji za uporabo z EMR Studio, usmerjevalnimi tabelami in prehodom NAT.
- Grozd EMR z nameščenim Pythonom 3.9. Za namestitev Pythona 3.9 in drugih ustreznih paketov, kot sta odvisnosti pyspark-ai in Amazon Bedrock, uporabljamo dejanje zagona. (Za več informacij glejte zagonski skript.)
- Vedro S3 za delovni prostor EMR Studio in shranjevanje prenosnih računalnikov.
- Vloge in pravilniki IAM za nastavitev EMR Studio, dostop do Amazon Bedrock in tekoče prenosnike
Če želite začeti, izvedite naslednje korake:
Dokončanje sklada CloudFormation traja približno 20–30 minut. Njegov napredek lahko spremljate na konzoli AWS CloudFormation. Ko se njegovo stanje glasi CREATE_COMPLETE
, bo imel vaš račun AWS potrebna sredstva za implementacijo te rešitve.
Ustvari EMR Studio
Zdaj lahko ustvarite EMR Studio in delovni prostor za delo s kodo prenosnika. Izvedite naslednje korake:
- Na konzoli EMR Studio izberite Ustvari Studio.
- Vpišite Ime studia as
GenAI-EMR-Studio
in podajte opis. - v Mreženje in varnost razdelku navedite naslednje:
- za VPC, izberite VPC, ki ste ga ustvarili kot del sklada CloudFormation, ki ste ga uvedli. Pridobite ID VPC z izhodi CloudFormation za ključ VPCID.
- za Podomrežja, izberite vsa štiri podomrežja.
- za Varnost in dostoptako, da izberete Varnostna skupina po meri.
- za Varnostna skupina gruče/končne točke, izberite
EMRSparkAI-Cluster-Endpoint-SG
. - za Varnostna skupina delovnega prostora, izberite
EMRSparkAI-Workspace-SG
.
- v Vloga storitve studia razdelku navedite naslednje:
- za Preverjanje pristnostitako, da izberete AWS upravljanje identitete in dostopa (IAM).
- za Vloga storitve AWS IAM, izberite
EMRSparkAI-StudioServiceRole
.
- v Shranjevanje delovnega prostora prebrskajte in izberite vedro S3 za shranjevanje, začenši z
emr-sparkai-<account-id>
. - Izberite Ustvari Studio.
- Ko je EMR Studio ustvarjen, izberite povezavo pod URL za dostop do studia za dostop do studia.
- Ko ste v Studiu, izberite Ustvari delovni prostor.
- Dodaj
emr-genai
kot ime za delovni prostor in izberite Ustvari delovni prostor. - Ko je delovni prostor ustvarjen, izberite njegovo ime za zagon delovnega prostora (prepričajte se, da ste onemogočili morebitne blokatorje pojavnih oken).
Analitika velikih podatkov z uporabo Apache Spark z Amazon EMR in generativnim AI
Zdaj, ko smo dokončali zahtevano nastavitev, lahko začnemo izvajati analitiko velikih podatkov z uporabo Apache Spark z Amazon EMR in generativnim AI.
Kot prvi korak naložimo zvezek z zahtevano kodo in primeri za delo s primerom uporabe. Uporabljamo nabor podatkov NY Taxi, ki vsebuje podrobnosti o vožnjah s taksijem.
- Prenesite datoteko z zvezkom NYTaxi.ipynb in ga naložite v svoj delovni prostor tako, da izberete ikono za nalaganje.
- Ko je zvezek uvožen, odprite zvezek in izberite
PySpark
kot jedro.
PySpark AI privzeto uporablja OpenAI's ChatGPT4.0 kot model LLM, vendar lahko priključite tudi modele iz Amazon Bedrock, Amazon SageMaker JumpStart, in drugi modeli tretjih oseb. Za to objavo pokažemo, kako integrirati model Amazon Bedrock Titan za generiranje poizvedb SQL in ga zagnati z Apache Spark v Amazon EMR.
- Če želite začeti uporabljati prenosni računalnik, morate delovni prostor povezati z računalniško plastjo. Če želite to narediti, izberite Izračunajte ikono v navigacijskem podoknu in izberite gručo EMR, ki jo je ustvaril sklad CloudFormation.
- Konfigurirajte parametre Python za uporabo posodobljenega paketa Python 3.9 z Amazon EMR:
- Uvozite potrebne knjižnice:
- Ko so knjižnice uvožene, lahko definirate model LLM iz Amazon Bedrock. V tem primeru uporabimo amazon.titan-text-express-v1. Vnesti morate URL končne točke regije in Amazon Bedrock glede na vaš dostop do predogleda za model Titan Text G1 – Express.
- Povežite Spark AI z modelom Amazon Bedrock LLM za generiranje poizvedb SQL na podlagi vprašanj v naravnem jeziku:
Tukaj smo inicializirali Spark AI z verbose=False; lahko tudi nastavite verbose=True, da vidite več podrobnosti.
Zdaj lahko berete podatke NYC Taxi v Spark DataFrame in uporabite moč generativne umetne inteligence v Spark.
- Vprašate lahko na primer število zapisov v naboru podatkov:
Dobimo naslednji odgovor:
Spark AI interno uporablja LangChain in verigo SQL, ki skrijeta kompleksnost pred končnimi uporabniki, ki delajo s poizvedbami v Sparku.
Beležnica vsebuje še nekaj primerov scenarijev za raziskovanje moči generativne umetne inteligence z Apache Spark in Amazon EMR.
Čiščenje
Izpraznite vsebino vedra S3 emr-sparkai-<account-id>
, izbrišite delovni prostor EMR Studio, ustvarjen kot del te objave, in nato izbrišite sklad CloudFormation, ki ste ga uvedli.
zaključek
Ta objava je pokazala, kako lahko nadgradite svojo analitiko velikih podatkov s pomočjo Apache Spark z Amazon EMR in Amazon Bedrock. Paket AI PySpark vam omogoča, da iz svojih podatkov pridobite pomembne vpoglede. Pomaga skrajšati čas razvoja in analize, skrajša čas za pisanje ročnih poizvedb in vam omogoča, da se osredotočite na svoj poslovni primer uporabe.
O avtorjih
Saurabh Bhutyani je glavni arhitekt specialist za analitiko pri AWS. Navdušen je nad novimi tehnologijami. AWS se je pridružil leta 2019 in sodeluje s strankami pri zagotavljanju arhitekturnih smernic za izvajanje generativnih primerov uporabe umetne inteligence, razširljivih analitičnih rešitev in arhitektur podatkovnih mrež z uporabo storitev AWS, kot so Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation, in Amazon DataZone.
Hud Vardhan je višji arhitekt rešitev AWS, specializiran za analitiko. Ima več kot 8 let delovnih izkušenj na področju velikih podatkov in podatkovne znanosti. Strastno želi pomagati strankam, da sprejmejo najboljše prakse in odkrijejo vpoglede iz njihovih podatkov.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/
- :ima
- : je
- :ne
- $GOR
- 1
- 10
- 100
- 107
- 11
- 20
- 200
- 2019
- 320
- 500
- 521
- 7
- 8
- 9
- 990
- a
- O meni
- dostop
- upravljanje dostopa
- Račun
- potrditi
- Ukrep
- dodajte
- Dodatne
- Poleg tega
- sprejme
- AI
- primeri uporabe ai
- vsi
- Dovoli
- omogoča
- Prav tako
- Amazon
- Amazonska Atena
- Amazonski EMR
- Amazon SageMaker
- Amazon Web Services
- zneski
- an
- Analiza
- analitika
- in
- odgovor
- kaj
- Apache
- Apache Spark
- API
- aplikacije
- približno
- architectural
- Arhitektura
- SE
- Umetnost
- AS
- vprašati
- Sodelavec
- At
- Na voljo
- izogniti
- AWS
- Oblikovanje oblaka AWS
- AWS lepilo
- Oblikovanje jezera AWS
- nazaj
- temeljijo
- BEST
- najboljše prakse
- Poleg
- Big
- Big Podatki
- Bootstrap
- izgradnjo
- poslovni
- vendar
- Gumb
- by
- CAN
- primeru
- primeri
- Katalog
- verige
- Spremembe
- Stroški
- Izberite
- izbiri
- mesto
- Cloud
- veliki podatki v oblaku
- Grozd
- Koda
- združuje
- Podjetja
- dokončanje
- Končana
- kompleksnost
- Izračunajte
- povezane
- Povezovanje
- Konzole
- nenehno
- Vsebuje
- Vsebina
- stroški
- ustvarjajo
- ustvaril
- ustvari
- ustvarjalnost
- Trenutno
- Stranke, ki so
- vrhunsko
- datum
- Podatkovna analiza
- obdelava podatkov
- znanost o podatkih
- Baze podatkov
- nabor podatkov
- Datum
- privzeto
- opredeliti
- izkazati
- odvisnosti
- razporejeni
- drift
- opis
- zasnovan
- Podrobnosti
- Razvoj
- Razvoj
- drugačen
- onemogočena
- odkriti
- do
- učinkovito
- truda
- konec
- Končna točka
- Inženiring
- Inženirji
- Angleščina
- zagotovitev
- Vnesite
- V
- okolje
- Era
- bistvena
- Eter (ETH)
- Tudi
- Primer
- Primeri
- izkušnje
- poskus
- raziskuje
- express
- ekstrakt
- FAST
- Lastnosti
- Nekaj
- Polje
- file
- končna
- prva
- prilagodljivost
- Osredotočite
- sledi
- po
- za
- Oblikovanje
- Fundacija
- štiri
- okviri
- iz
- v celoti
- g1
- okrasiti
- Prehod
- ustvarjajo
- generacija
- generativno
- Generativna AI
- dobili
- Giving
- Go
- Navodila
- Imajo
- he
- pomoč
- pomoč
- Pomaga
- skrita
- Skrij
- Kako
- Kako
- http
- HTTPS
- i
- IAM
- ICON
- ID
- identiteta
- upravljanje identitete in dostopa
- ponazarja
- izvajati
- uvoz
- in
- V drugi
- Vključno
- vodilne
- Podatki
- inovativne
- vhod
- vpogledi
- namestitev
- primerov
- Navodila
- integrirati
- integrirana
- integracija
- namenjen
- interakcijo
- interaktivno
- interno
- v
- IT
- ITS
- pridružil
- jpg
- Imejte
- Ključne
- Vedite
- Jezero
- jezik
- velika
- Zadnji
- kosilo
- plast
- vodi
- učenje
- knjižnice
- Knjižnica
- kot
- vrstica
- LINK
- obremenitev
- stroj
- strojno učenje
- Znamka
- IZDELA
- upravlja
- upravljanje
- Navodilo
- Tržna
- Maj ..
- smiselna
- očesa
- minimalna
- min
- ML
- Model
- modeli
- monitor
- več
- Najbolj
- Ime
- naravna
- Naravni jezik
- ostalo
- potrebno
- Nimate
- potrebna
- mreženje
- Novo
- Nove tehnologije
- prenosnik
- zvezki
- zdaj
- Številka
- NY
- NYC
- predmeti
- Opazovanje
- of
- Ponudbe
- on
- odprite
- open source
- or
- organizacije
- Ostalo
- izhodi
- več
- pregled
- paket
- pakete
- podokno
- parametri
- del
- strastno
- izvajati
- Dovoljenja
- Kraj
- platon
- Platonova podatkovna inteligenca
- PlatoData
- igrišče
- Vtič
- politike
- pop-up
- Prispevek
- potencial
- moč
- vaje
- predogled
- , ravnateljica
- zasebna
- Postopek
- obravnavati
- proizvodnja
- Napredek
- zagotavljajo
- če
- ponudniki
- zagotavlja
- javnega
- Python
- poizvedbe
- vprašanje
- vprašanja
- hitro
- R
- Preberi
- evidence
- zmanjša
- zmanjšanje
- glejte
- Ne glede na to
- okolica
- regije
- pomembno
- odstrani
- obvezna
- viri
- Odgovor
- Rezultati
- vožnja
- vloga
- vloge
- Pot
- Run
- tek
- deluje
- sagemaker
- Lestvica
- Prilagodljivost
- razširljive
- Lestvica
- skaliranje
- scenariji
- Znanost
- Znanstveniki
- SDK
- iskanje
- skrivnost
- varnost
- glej
- izberite
- višji
- Storitev
- Storitve
- nastavite
- nastavitev
- Prikaži
- je pokazala,
- Enostavno
- poenostavitev
- sam
- So
- Rešitev
- rešitve
- vir
- Spark
- specialist
- specializacijo
- hitrost
- SQL
- sveženj
- Skladovnice
- Začetek
- začel
- Začetek
- Status
- Korak
- Koraki
- shranjevanje
- naravnost
- studio
- podomrežja
- taka
- Doplačilo
- Preverite
- sistem
- miza
- sprejeti
- meni
- Tehnologije
- Tehnologija
- Predloga
- besedilo
- da
- O
- njihove
- Njih
- POTEM
- jih
- tretjih oseb
- ta
- mislil
- skozi
- čas
- časovnica
- titan
- do
- orodja
- vrh
- tradicionalna
- ui
- pod
- odklepanje
- posodobljeno
- URL
- uporaba
- primeru uporabe
- Rabljeni
- uporabnik
- Uporabniki
- uporablja
- uporabo
- vrednost
- raznolikost
- različnih
- Popravljeno
- vizualizirati
- način..
- načini
- we
- web
- spletne storitve
- Web-Based
- kdaj
- ki
- medtem
- bo
- z
- v
- brez
- delo
- deluje
- deluje
- po vsem svetu
- pisati
- pisni
- let
- york
- jo
- Vaša rutina za
- zefirnet