Tällä big datan aikakaudella organisaatiot ympäri maailmaa etsivät jatkuvasti innovatiivisia tapoja poimia arvoa ja oivalluksia laajoista tietojoukoistaan. Apache Spark tarjoaa skaalautuvuuden ja nopeuden, jota tarvitaan suurten tietomäärien tehokkaaseen käsittelyyn.
Amazonin EMR on alan johtava pilvibig data -ratkaisu petatavun mittakaavan tiedonkäsittelyyn, interaktiiviseen analytiikkaan ja koneoppimiseen (ML) käyttämällä avoimen lähdekoodin kehyksiä, kuten Apache Spark, Apache Hiveja Presto. Amazon EMR on paras paikka käyttää Apache Sparkia. Voit luoda hallittuja Spark-klustereita nopeasti ja vaivattomasti AWS-hallintakonsoli, AWS-komentoriviliitäntä (AWS CLI) tai Amazon EMR API. Voit myös käyttää muita Amazon EMR -ominaisuuksia, mukaan lukien nopea Amazonin yksinkertainen tallennuspalvelu (Amazon S3) liitettävyyttä käyttämällä Amazon EMR File System (EMRFS), integrointi Amazon EC2 -paikka markkinat ja AWS-liima Data Catalog ja EMR Managed Scaling lisätäksesi esiintymiä klusteriisi tai poistaaksesi niistä. Amazon EMR Studio on integroitu kehitysympäristö (IDE), jonka avulla datatieteilijät ja tietosuunnittelijat voivat helposti kehittää, visualisoida ja korjata R-, Python-, Scala- ja PySpark-kielillä kirjoitettuja tietotekniikan ja datatieteen sovelluksia. EMR Studio tarjoaa täysin hallittuja Jupyter-kannettavia ja työkaluja, kuten Spark UI ja YARN Timeline Service, jotka yksinkertaistavat virheenkorjausta.
Tietovarastoissa piilevän potentiaalin avaamiseksi on välttämätöntä mennä perinteistä analytiikkaa pidemmälle. Siirry generatiiviseen tekoälyyn, huipputeknologiaan, joka yhdistää ML:n luovuuteen luodakseen ihmisen kaltaista tekstiä, taidetta ja jopa koodia. Amazonin kallioperä on yksinkertaisin tapa rakentaa ja skaalata generatiivisia tekoälysovelluksia perustusmalleilla (FM). Amazon Bedrock on täysin hallittu palvelu, joka tarjoaa Amazonin ja johtavien tekoälyyritysten FM-laitteet saataville API:n kautta, joten voit nopeasti kokeilla erilaisia FM-laitteita leikkikentällä ja käyttää yhtä APIa johtopäätösten tekemiseen valitsemistasi malleista riippumatta. sinulla on joustavuus käyttää eri palveluntarjoajien FM-laitteita ja pysyä ajan tasalla uusimpien malliversioiden kanssa minimaalisilla koodimuutoksilla.
Tässä viestissä tutkimme, kuinka voit tehostaa data-analytiikkaasi generatiivisella tekoälyllä käyttämällä Amazon EMR:ää, Amazon Bedrockia ja pyspark-ai kirjasto. Pyspark-ai-kirjasto on englanninkielinen SDK Apache Sparkille. Se ottaa englanninkieliset ohjeet ja kokoaa ne PySpark-objekteiksi, kuten DataFrames. Tämä tekee työskentelystä Sparkin kanssa yksinkertaista, jolloin voit keskittyä arvon poimimiseen tiedoistasi.
Ratkaisun yleiskatsaus
Seuraava kaavio havainnollistaa generatiivisen AI:n arkkitehtuuria Amazon EMR:n ja Amazon Bedrockin kanssa.
EMR Studio on verkkopohjainen IDE täysin hallituille Jupyter-kannettaville, jotka toimivat EMR-klustereissa. Olemme vuorovaikutuksessa käynnissä olevaan EMR-klusteriin yhdistettyjen EMR Studio Workspaces -työtilojen kanssa ja käytämme tämän viestin osana toimitettua muistikirjaa. Käytämme New Yorkin taksi tietoja kerätäkseen näkemyksiä käyttäjien erilaisista taksimatkoista. Esitämme kysymykset luonnollisella kielellä Spark DataFrameen ladattujen tietojen lisäksi. Pyspark-ai-kirjasto käyttää sitten Amazon Bedrockin Amazon Titan Text FM:ää SQL-kyselyn luomiseen luonnollisen kielen kysymyksen perusteella. Pyspark-ai-kirjasto ottaa SQL-kyselyn, suorittaa sen Spark SQL:llä ja toimittaa tulokset takaisin käyttäjälle.
Tässä ratkaisussa voit luoda ja määrittää tarvittavat resurssit AWS-tililläsi AWS-pilven muodostuminen sapluuna. Malli luo AWS-liima tietokanta ja taulukot, S3-ämpäri, VPC ja muut AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) resurssit, joita ratkaisussa käytetään.
Malli on suunniteltu havainnollistamaan EMR Studion käyttöä pyspark-ai-paketin ja Amazon Bedrockin kanssa, eikä sitä ole tarkoitettu tuotantokäyttöön ilman muutoksia. Lisäksi malli käyttää us-east-1
Alueella, eikä se välttämättä toimi muilla alueilla ilman muutoksia. Malli luo resursseja, joista aiheutuu kuluja käytön aikana. Noudata tämän viestin lopussa olevia puhdistusvaiheita poistaaksesi resurssit ja välttääksesi tarpeettomat maksut.
Edellytykset
Ennen kuin käynnistät CloudFormation-pinon, varmista, että sinulla on seuraavat asiat:
- AWS-tili, joka tarjoaa pääsyn AWS-palveluihin
- IAM-käyttäjä, jolla on pääsyavain ja salainen avain AWS-CLI:n määrittämiseen ja oikeudet luoda IAM-rooli, IAM-käytännöt ja pinot AWS CloudFormationissa.
- Titan Text G1 - Express -malli on tällä hetkellä esikatselussa, joten sinulla on oltava esikatseluoikeus käyttääksesi sitä osana tätä viestiä
Luo resursseja AWS CloudFormationilla
CloudFormation luo seuraavat AWS-resurssit:
- VPC-pino yksityisillä ja julkisilla aliverkoilla käytettäväksi EMR Studion, reittitaulukoiden ja NAT-yhdyskäytävän kanssa.
- EMR-klusteri, johon on asennettu Python 3.9. Käytämme Bootstrap-toimintoa Python 3.9:n ja muiden asiaankuuluvien pakettien, kuten pyspark-ai- ja Amazon Bedrock -riippuvuuksien asentamiseen. (Lisätietoja saat osoitteesta bootstrap-skripti.)
- S3-ämpäri EMR Studio Workspacelle ja muistikirjan säilytykseen.
- IAM-roolit ja -käytännöt EMR Studion asennukseen, Amazon Bedrockin käyttöön ja muistikirjojen käyttöön
Aloita tekemällä seuraavat vaiheet:
CloudFormation-pinon valmistuminen kestää noin 20–30 minuuttia. Voit seurata sen edistymistä AWS CloudFormation -konsolissa. Kun sen tila lukee CREATE_COMPLETE
, AWS-tililläsi on tarvittavat resurssit tämän ratkaisun toteuttamiseen.
Luo EMR Studio
Nyt voit luoda EMR Studion ja Workspacen työskennelläksesi muistikirjan koodin kanssa. Suorita seuraavat vaiheet:
- Valitse EMR Studio -konsolissa Luo Studio.
- Anna Studion nimi as
GenAI-EMR-Studio
ja anna kuvaus. - In Verkottuminen ja tietoturva osiossa määritä seuraavat tiedot:
- varten VPC, valitse VPC, jonka loit osana käyttämääsi CloudFormation-pinoa. Hanki VPC-tunnus käyttämällä VPCID-avaimen CloudFormation-lähtöjä.
- varten Aliverkot, valitse kaikki neljä aliverkkoa.
- varten Turvallisuus ja pääsyvalitse Mukautettu suojausryhmä.
- varten Klusterin/päätepisteen suojausryhmä, valitse
EMRSparkAI-Cluster-Endpoint-SG
. - varten Työtilan suojaryhmä, valitse
EMRSparkAI-Workspace-SG
.
- In Studion palvelurooli osiossa määritä seuraavat tiedot:
- varten Authenticationvalitse AWS-identiteetin ja käyttöoikeuksien hallinta (IAM).
- varten AWS IAM -palvelurooli, valitse
EMRSparkAI-StudioServiceRole
.
- In Työtilan varastointi -osio, selaa ja valitse S3-ämpäri varastointia varten alkaen
emr-sparkai-<account-id>
. - Valita Luo Studio.
- Kun EMR Studio on luotu, valitse alla oleva linkki Studion käyttöoikeuden URL-osoite päästäksesi Studioon.
- Kun olet Studiossa, valitse Luo työtila.
- Lisää
emr-genai
työtilan nimeksi ja valitse Luo työtila. - Kun työtila on luotu, käynnistä työtila valitsemalla sen nimi (varmista, että olet poistanut ponnahdusikkunoiden estotoiminnot käytöstä).
Big data analytics käyttäen Apache Sparkia Amazon EMR:n ja generatiivisen tekoälyn avulla
Nyt kun olemme saaneet tarvittavat asetukset valmiiksi, voimme aloittaa big data-analytiikan suorittamisen käyttämällä Apache Sparkia Amazon EMR:n ja generatiivisen AI:n kanssa.
Ensimmäisenä vaiheena lataamme muistikirjan, jossa on tarvittava koodi ja esimerkit käyttötapauksen kanssa toimimiseen. Käytämme NY Taxi -tietoaineistoa, joka sisältää tietoja taksimatkoista.
- Lataa muistikirjatiedosto NYTaxi.ipynb ja lataa se työtilaan valitsemalla latauskuvake.
- Kun muistikirja on tuotu, avaa muistikirja ja valitse
PySpark
ytimenä.
PySpark AI oletusarvoisesti käyttää OpenAI:n ChatGPT4.0:aa LLM-mallina, mutta voit myös liittää malleja Amazon Bedrockista, Amazon SageMaker JumpStartja muut kolmannen osapuolen mallit. Tässä viestissä näytämme kuinka integroida Amazon Bedrock Titan -malli SQL-kyselyjen luomiseen ja suorittaa se Apache Sparkilla Amazon EMR:ssä.
- Muistikirjan käytön aloittamiseksi sinun on yhdistettävä työtila laskentatasoon. Voit tehdä tämän valitsemalla Laskea -kuvaketta navigointiruudussa ja valitse CloudFormation-pinon luoma EMR-klusteri.
- Määritä Python-parametrit käyttämään päivitettyä Python 3.9 -pakettia Amazon EMR:n kanssa:
- Tuo tarvittavat kirjastot:
- Kun kirjastot on tuotu, voit määrittää LLM-mallin Amazon Bedrockista. Tässä tapauksessa käytämme tiedostoa amazon.titan-text-express-v1. Sinun on annettava Region- ja Amazon Bedrock -päätepisteen URL-osoite Titan Text G1 – Express -mallin esikatseluoikeutesi perusteella.
- Yhdistä Spark AI Amazon Bedrock LLM -malliin SQL-kyselyjen luomiseksi luonnollisella kielellä oleviin kysymyksiin:
Tässä olemme alustaneet Spark AI:n verbose=False; voit myös asettaa verbose=True nähdäksesi lisätietoja.
Nyt voit lukea NYC Taxi -dataa Spark DataFrame -kehyksessä ja käyttää generatiivisen tekoälyn tehoa Sparkissa.
- Voit esimerkiksi kysyä tietojoukon tietueiden lukumäärää:
Saamme seuraavan vastauksen:
Spark AI käyttää sisäisesti LangChain ja SQL-ketju, joka piilottaa monimutkaisuuden Sparkissa kyselyitä käsitteleviltä loppukäyttäjiltä.
Muistikirjassa on muutama esimerkki skenaariosta, joilla voit tutkia generatiivisen tekoälyn tehoa Apache Sparkilla ja Amazon EMR:llä.
Puhdistaa
Tyhjennä S3-ämpärin sisältö emr-sparkai-<account-id>
, poista osana tätä viestiä luotu EMR Studio Workspace ja poista sitten käyttöönottamasi CloudFormation-pino.
Yhteenveto
Tämä viesti osoitti, kuinka voit ladata big data-analytiikkaasi Apache Sparkin avulla Amazon EMR:n ja Amazon Bedrockin kanssa. PySpark AI -paketin avulla voit saada merkityksellisiä oivalluksia tiedoistasi. Se auttaa vähentämään kehitys- ja analysointiaikaa, lyhentää manuaalisten kyselyiden kirjoittamiseen kuluvaa aikaa ja antaa sinun keskittyä liiketoimintaasi.
Tietoja Tekijät
Saurabh Bhutyani on pääasiallinen Analytics Specialist Solutions -arkkitehti AWS:ssä. Hän on intohimoinen uusiin teknologioihin. Hän liittyi AWS:ään vuonna 2019 ja työskentelee asiakkaiden kanssa tarjotakseen arkkitehtonista ohjausta generatiivisten tekoälyn käyttötapausten, skaalautuvien analytiikkaratkaisujen ja dataverkkoarkkitehtuurien suorittamiseen käyttämällä AWS-palveluita, kuten Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation, ja Amazon DataZone.
Harsh Vardhan on AWS Senior Solutions Architect, joka on erikoistunut analytiikkaan. Hänellä on yli 8 vuoden kokemus big datan ja datatieteen alalta. Hän haluaa auttaa asiakkaita ottamaan käyttöön parhaat käytännöt ja löytämään oivalluksia heidän tiedoistaan.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/
- :on
- :On
- :ei
- $ YLÖS
- 1
- 10
- 100
- 107
- 11
- 20
- 200
- 2019
- 320
- 500
- 521
- 7
- 8
- 9
- 990
- a
- Meistä
- pääsy
- käyttöoikeuksien hallinta
- Tili
- tunnustaa
- Toiminta
- lisätä
- lisä-
- Lisäksi
- hyväksyä
- AI
- ai käyttötapauksia
- Kaikki
- Salliminen
- mahdollistaa
- Myös
- Amazon
- Amazon Athena
- Amazonin EMR
- Amazon Sage Maker
- Amazon Web Services
- määrät
- an
- analyysi
- Analytics
- ja
- vastaus
- Kaikki
- Apache
- Apache Spark
- api
- sovellukset
- suunnilleen
- arkkitehtuurin
- arkkitehtuuri
- OVAT
- Art
- AS
- kysyä
- Työtoveri
- At
- saatavissa
- välttää
- AWS
- AWS-pilven muodostuminen
- AWS-liima
- AWS-järvien muodostuminen
- takaisin
- perustua
- PARAS
- parhaat käytännöt
- Jälkeen
- Iso
- Big Data
- Bootstrap
- rakentaa
- liiketoiminta
- mutta
- nappia
- by
- CAN
- tapaus
- tapauksissa
- luettelo
- ketju
- Muutokset
- maksut
- Valita
- valita
- Kaupunki
- pilvi
- pilvi big data
- Cluster
- koodi
- yhdistää
- Yritykset
- täydellinen
- Valmistunut
- monimutkaisuus
- Laskea
- kytketty
- Liitännät
- Console
- alituisesti
- sisältää
- sisältö
- kustannukset
- luoda
- luotu
- luo
- luovuus
- Tällä hetkellä
- Asiakkaat
- leikkaamisreuna
- tiedot
- Data Analytics
- tietojenkäsittely
- tietojenkäsittely
- tietokanta
- aineistot
- Päivämäärä
- oletusarvo
- määritellä
- osoittaa
- riippuvuudet
- käyttöön
- ajelehtia
- kuvaus
- suunniteltu
- yksityiskohdat
- kehittää
- Kehitys
- eri
- vammaiset
- löytää
- do
- tehokkaasti
- vaivattomasti
- loppu
- päätepiste
- Tekniikka
- Engineers
- Englanti
- varmistaa
- enter
- kirjoittamalla
- ympäristö
- Aikakausi
- olennainen
- Eetteri (ETH)
- Jopa
- esimerkki
- Esimerkit
- experience
- kokeilu
- tutkia
- ilmaista
- uute
- FAST
- Ominaisuudet
- harvat
- ala
- filee
- lopullinen
- Etunimi
- Joustavuus
- Keskittää
- seurata
- jälkeen
- varten
- muodostus
- perusta
- neljä
- puitteet
- alkaen
- täysin
- g1
- kerätä
- portti
- tuottaa
- sukupolvi
- generatiivinen
- Generatiivinen AI
- saada
- Antaminen
- Go
- ohjaus
- Olla
- he
- auttaa
- auttaa
- auttaa
- kätketty
- Piilottaa
- Miten
- Miten
- http
- HTTPS
- i
- IAM
- ICON
- ID
- Identiteetti
- identiteetin ja pääsyn hallinta
- havainnollistaa
- toteuttaa
- tuoda
- in
- Muilla
- Mukaan lukien
- alan johtava
- tiedot
- innovatiivinen
- panos
- oivalluksia
- asentaa
- tapauksia
- ohjeet
- yhdistää
- integroitu
- integraatio
- tarkoitettu
- olla vuorovaikutuksessa
- vuorovaikutteinen
- sisäisesti
- tulee
- IT
- SEN
- liittyi
- jpg
- Pitää
- avain
- Tietää
- järvi
- Kieli
- suuri
- uusin
- käynnistää
- kerros
- johtava
- oppiminen
- kirjastot
- Kirjasto
- pitää
- linja
- LINK
- kuormitus
- kone
- koneoppiminen
- tehdä
- TEE
- onnistui
- johto
- manuaalinen
- markkinat
- Saattaa..
- mielekäs
- verkko
- minimi
- pöytäkirja
- ML
- malli
- mallit
- monitori
- lisää
- eniten
- nimi
- Luonnollinen
- Luonnollinen kieli
- suunnistus
- välttämätön
- Tarve
- tarvitaan
- verkostoituminen
- Uusi
- Uudet teknologiat
- muistikirja
- kannettavat tietokoneet
- nyt
- numero
- NY
- NYC
- esineet
- havainto
- of
- Tarjoukset
- on
- avata
- avoimen lähdekoodin
- or
- organisaatioiden
- Muut
- lähdöt
- yli
- yleiskatsaus
- paketti
- paketit
- lasi
- parametrit
- osa
- intohimoinen
- esittävä
- Oikeudet
- Paikka
- Platon
- Platonin tietotieto
- PlatonData
- leikkipuisto
- pistoke
- politiikkaa
- pop-up
- Kirje
- mahdollinen
- teho
- käytännöt
- preview
- Pääasiallinen
- yksityinen
- prosessi
- käsittely
- tuotanto
- Edistyminen
- toimittaa
- mikäli
- tarjoajat
- tarjoaa
- julkinen
- Python
- kyselyt
- kysymys
- kysymykset
- nopeasti
- R
- Lue
- asiakirjat
- vähentää
- vähentämällä
- katso
- riippumatta
- alue
- alueet
- merkityksellinen
- poistaa
- tarvitaan
- Esittelymateriaalit
- vastaus
- tulokset
- ratsastaa
- Rooli
- roolit
- Reitti
- ajaa
- juoksu
- toimii
- sagemaker
- Scala
- skaalautuvuus
- skaalautuva
- Asteikko
- skaalaus
- skenaariot
- tiede
- tutkijat
- sdk
- haku
- salaisuus
- turvallisuus
- nähdä
- valita
- vanhempi
- palvelu
- Palvelut
- setti
- setup
- näyttää
- osoittivat
- Yksinkertainen
- yksinkertaistaa
- single
- So
- ratkaisu
- Ratkaisumme
- lähde
- Kipinä
- asiantuntija
- erikoistunut
- nopeus
- SQL
- pino
- Stacks
- Alkaa
- alkoi
- Aloita
- Tila
- Vaihe
- Askeleet
- Levytila
- suora
- studio
- aliverkkoon
- niin
- Ahtaa
- varma
- järjestelmä
- taulukko
- otettava
- vie
- Technologies
- Elektroniikka
- sapluuna
- teksti
- että
- -
- heidän
- Niitä
- sitten
- ne
- kolmannen osapuolen
- tätä
- ajatus
- Kautta
- aika
- aikajana
- Titaani
- että
- työkalut
- ylin
- perinteinen
- ui
- varten
- avata
- päivitetty
- URL
- käyttää
- käyttölaukku
- käytetty
- käyttäjä
- Käyttäjät
- käyttötarkoituksiin
- käyttämällä
- arvo
- lajike
- eri
- valtava
- havainnollistaa
- Tapa..
- tavalla
- we
- verkko
- verkkopalvelut
- Web-pohjainen
- kun
- joka
- vaikka
- tulee
- with
- sisällä
- ilman
- Referenssit
- työskentely
- toimii
- maailmanlaajuisesti
- kirjoittaa
- kirjallinen
- vuotta
- york
- te
- Sinun
- zephyrnet