Käytä generatiivista tekoälyä Amazon EMR:n, Amazon Bedrockin ja englanninkielisen SDK:n kanssa Apache Sparkille avataksesi oivalluksia | Amazon Web Services

Julkaissut Platon

seuraajia: 0

Tällä big datan aikakaudella organisaatiot ympäri maailmaa etsivät jatkuvasti innovatiivisia tapoja poimia arvoa ja oivalluksia laajoista tietojoukoistaan. Apache Spark tarjoaa skaalautuvuuden ja nopeuden, jota tarvitaan suurten tietomäärien tehokkaaseen käsittelyyn.

Amazonin EMR on alan johtava pilvibig data -ratkaisu petatavun mittakaavan tiedonkäsittelyyn, interaktiiviseen analytiikkaan ja koneoppimiseen (ML) käyttämällä avoimen lähdekoodin kehyksiä, kuten Apache Spark, Apache Hiveja Presto. Amazon EMR on paras paikka käyttää Apache Sparkia. Voit luoda hallittuja Spark-klustereita nopeasti ja vaivattomasti AWS-hallintakonsoli, AWS-komentoriviliitäntä (AWS CLI) tai Amazon EMR API. Voit myös käyttää muita Amazon EMR -ominaisuuksia, mukaan lukien nopea Amazonin yksinkertainen tallennuspalvelu (Amazon S3) liitettävyyttä käyttämällä Amazon EMR File System (EMRFS), integrointi Amazon EC2 -paikka markkinat ja AWS-liima Data Catalog ja EMR Managed Scaling lisätäksesi esiintymiä klusteriisi tai poistaaksesi niistä. Amazon EMR Studio on integroitu kehitysympäristö (IDE), jonka avulla datatieteilijät ja tietosuunnittelijat voivat helposti kehittää, visualisoida ja korjata R-, Python-, Scala- ja PySpark-kielillä kirjoitettuja tietotekniikan ja datatieteen sovelluksia. EMR Studio tarjoaa täysin hallittuja Jupyter-kannettavia ja työkaluja, kuten Spark UI ja YARN Timeline Service, jotka yksinkertaistavat virheenkorjausta.

Tietovarastoissa piilevän potentiaalin avaamiseksi on välttämätöntä mennä perinteistä analytiikkaa pidemmälle. Siirry generatiiviseen tekoälyyn, huipputeknologiaan, joka yhdistää ML:n luovuuteen luodakseen ihmisen kaltaista tekstiä, taidetta ja jopa koodia. Amazonin kallioperä on yksinkertaisin tapa rakentaa ja skaalata generatiivisia tekoälysovelluksia perustusmalleilla (FM). Amazon Bedrock on täysin hallittu palvelu, joka tarjoaa Amazonin ja johtavien tekoälyyritysten FM-laitteet saataville API:n kautta, joten voit nopeasti kokeilla erilaisia FM-laitteita leikkikentällä ja käyttää yhtä APIa johtopäätösten tekemiseen valitsemistasi malleista riippumatta. sinulla on joustavuus käyttää eri palveluntarjoajien FM-laitteita ja pysyä ajan tasalla uusimpien malliversioiden kanssa minimaalisilla koodimuutoksilla.

Tässä viestissä tutkimme, kuinka voit tehostaa data-analytiikkaasi generatiivisella tekoälyllä käyttämällä Amazon EMR:ää, Amazon Bedrockia ja pyspark-ai kirjasto. Pyspark-ai-kirjasto on englanninkielinen SDK Apache Sparkille. Se ottaa englanninkieliset ohjeet ja kokoaa ne PySpark-objekteiksi, kuten DataFrames. Tämä tekee työskentelystä Sparkin kanssa yksinkertaista, jolloin voit keskittyä arvon poimimiseen tiedoistasi.

Ratkaisun yleiskatsaus

Seuraava kaavio havainnollistaa generatiivisen AI:n arkkitehtuuria Amazon EMR:n ja Amazon Bedrockin kanssa.

Ratkaisun yleiskatsaus

EMR Studio on verkkopohjainen IDE täysin hallituille Jupyter-kannettaville, jotka toimivat EMR-klustereissa. Olemme vuorovaikutuksessa käynnissä olevaan EMR-klusteriin yhdistettyjen EMR Studio Workspaces -työtilojen kanssa ja käytämme tämän viestin osana toimitettua muistikirjaa. Käytämme New Yorkin taksi tietoja kerätäkseen näkemyksiä käyttäjien erilaisista taksimatkoista. Esitämme kysymykset luonnollisella kielellä Spark DataFrameen ladattujen tietojen lisäksi. Pyspark-ai-kirjasto käyttää sitten Amazon Bedrockin Amazon Titan Text FM:ää SQL-kyselyn luomiseen luonnollisen kielen kysymyksen perusteella. Pyspark-ai-kirjasto ottaa SQL-kyselyn, suorittaa sen Spark SQL:llä ja toimittaa tulokset takaisin käyttäjälle.

Tässä ratkaisussa voit luoda ja määrittää tarvittavat resurssit AWS-tililläsi AWS-pilven muodostuminen sapluuna. Malli luo AWS-liima tietokanta ja taulukot, S3-ämpäri, VPC ja muut AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) resurssit, joita ratkaisussa käytetään.

Malli on suunniteltu havainnollistamaan EMR Studion käyttöä pyspark-ai-paketin ja Amazon Bedrockin kanssa, eikä sitä ole tarkoitettu tuotantokäyttöön ilman muutoksia. Lisäksi malli käyttää us-east-1 Alueella, eikä se välttämättä toimi muilla alueilla ilman muutoksia. Malli luo resursseja, joista aiheutuu kuluja käytön aikana. Noudata tämän viestin lopussa olevia puhdistusvaiheita poistaaksesi resurssit ja välttääksesi tarpeettomat maksut.

Edellytykset

Ennen kuin käynnistät CloudFormation-pinon, varmista, että sinulla on seuraavat asiat:

AWS-tili, joka tarjoaa pääsyn AWS-palveluihin
IAM-käyttäjä, jolla on pääsyavain ja salainen avain AWS-CLI:n määrittämiseen ja oikeudet luoda IAM-rooli, IAM-käytännöt ja pinot AWS CloudFormationissa.
Titan Text G1 - Express -malli on tällä hetkellä esikatselussa, joten sinulla on oltava esikatseluoikeus käyttääksesi sitä osana tätä viestiä

Luo resursseja AWS CloudFormationilla

CloudFormation luo seuraavat AWS-resurssit:

VPC-pino yksityisillä ja julkisilla aliverkoilla käytettäväksi EMR Studion, reittitaulukoiden ja NAT-yhdyskäytävän kanssa.
EMR-klusteri, johon on asennettu Python 3.9. Käytämme Bootstrap-toimintoa Python 3.9:n ja muiden asiaankuuluvien pakettien, kuten pyspark-ai- ja Amazon Bedrock -riippuvuuksien asentamiseen. (Lisätietoja saat osoitteesta bootstrap-skripti.)
S3-ämpäri EMR Studio Workspacelle ja muistikirjan säilytykseen.
IAM-roolit ja -käytännöt EMR Studion asennukseen, Amazon Bedrockin käyttöön ja muistikirjojen käyttöön

Aloita tekemällä seuraavat vaiheet:

Valita Käynnistä pino:
valita Ymmärrän, että tämä malli saattaa luoda IAM-resursseja.

CloudFormation-pinon valmistuminen kestää noin 20–30 minuuttia. Voit seurata sen edistymistä AWS CloudFormation -konsolissa. Kun sen tila lukee CREATE_COMPLETE, AWS-tililläsi on tarvittavat resurssit tämän ratkaisun toteuttamiseen.

Luo EMR Studio

Nyt voit luoda EMR Studion ja Workspacen työskennelläksesi muistikirjan koodin kanssa. Suorita seuraavat vaiheet:

Valitse EMR Studio -konsolissa Luo Studio.
Anna Studion nimi as GenAI-EMR-Studio ja anna kuvaus.
In Verkottuminen ja tietoturva osiossa määritä seuraavat tiedot:
- varten VPC, valitse VPC, jonka loit osana käyttämääsi CloudFormation-pinoa. Hanki VPC-tunnus käyttämällä VPCID-avaimen CloudFormation-lähtöjä.
- varten Aliverkot, valitse kaikki neljä aliverkkoa.
- varten Turvallisuus ja pääsyvalitse Mukautettu suojausryhmä.
- varten Klusterin/päätepisteen suojausryhmä, valitse EMRSparkAI-Cluster-Endpoint-SG.
- varten Työtilan suojaryhmä, valitse EMRSparkAI-Workspace-SG.
In Studion palvelurooli osiossa määritä seuraavat tiedot:
- varten Authenticationvalitse AWS-identiteetin ja käyttöoikeuksien hallinta (IAM).
- varten AWS IAM -palvelurooli, valitse EMRSparkAI-StudioServiceRole.
In Työtilan varastointi -osio, selaa ja valitse S3-ämpäri varastointia varten alkaen emr-sparkai-<account-id>.
Valita Luo Studio.
Kun EMR Studio on luotu, valitse alla oleva linkki Studion käyttöoikeuden URL-osoite päästäksesi Studioon.
Kun olet Studiossa, valitse Luo työtila.
Lisää emr-genai työtilan nimeksi ja valitse Luo työtila.
Kun työtila on luotu, käynnistä työtila valitsemalla sen nimi (varmista, että olet poistanut ponnahdusikkunoiden estotoiminnot käytöstä).

Big data analytics käyttäen Apache Sparkia Amazon EMR:n ja generatiivisen tekoälyn avulla

Nyt kun olemme saaneet tarvittavat asetukset valmiiksi, voimme aloittaa big data-analytiikan suorittamisen käyttämällä Apache Sparkia Amazon EMR:n ja generatiivisen AI:n kanssa.

Ensimmäisenä vaiheena lataamme muistikirjan, jossa on tarvittava koodi ja esimerkit käyttötapauksen kanssa toimimiseen. Käytämme NY Taxi -tietoaineistoa, joka sisältää tietoja taksimatkoista.

Lataa muistikirjatiedosto NYTaxi.ipynb ja lataa se työtilaan valitsemalla latauskuvake.
Kun muistikirja on tuotu, avaa muistikirja ja valitse PySpark ytimenä.

PySpark AI oletusarvoisesti käyttää OpenAI:n ChatGPT4.0:aa LLM-mallina, mutta voit myös liittää malleja Amazon Bedrockista, Amazon SageMaker JumpStartja muut kolmannen osapuolen mallit. Tässä viestissä näytämme kuinka integroida Amazon Bedrock Titan -malli SQL-kyselyjen luomiseen ja suorittaa se Apache Sparkilla Amazon EMR:ssä.

Muistikirjan käytön aloittamiseksi sinun on yhdistettävä työtila laskentatasoon. Voit tehdä tämän valitsemalla Laskea -kuvaketta navigointiruudussa ja valitse CloudFormation-pinon luoma EMR-klusteri.

Määritä Python-parametrit käyttämään päivitettyä Python 3.9 -pakettia Amazon EMR:n kanssa:

%%configure -f
{
"conf": {
"spark.executorEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9"
}
}

Tuo tarvittavat kirjastot:

from pyspark_ai import SparkAI
from pyspark.sql import SparkSession
from langchain.chat_models import ChatOpenAI
from langchain.llms.bedrock import Bedrock
import boto3
import os

Kun kirjastot on tuotu, voit määrittää LLM-mallin Amazon Bedrockista. Tässä tapauksessa käytämme tiedostoa amazon.titan-text-express-v1. Sinun on annettava Region- ja Amazon Bedrock -päätepisteen URL-osoite Titan Text G1 – Express -mallin esikatseluoikeutesi perusteella.
```
boto3_bedrock = boto3.client('bedrock-runtime', '<region>', endpoint_url='<bedrock endpoint url>')
llm = Bedrock(
model_id="amazon.titan-text-express-v1",
client=boto3_bedrock)
```
Yhdistä Spark AI Amazon Bedrock LLM -malliin SQL-kyselyjen luomiseksi luonnollisella kielellä oleviin kysymyksiin:
```
#Connecting Spark AI to the Bedrock Titan LLM
spark_ai = SparkAI(llm = llm, verbose=False)
spark_ai.activate()
```

Tässä olemme alustaneet Spark AI:n verbose=False; voit myös asettaa verbose=True nähdäksesi lisätietoja.

Nyt voit lukea NYC Taxi -dataa Spark DataFrame -kehyksessä ja käyttää generatiivisen tekoälyn tehoa Sparkissa.

Voit esimerkiksi kysyä tietojoukon tietueiden lukumäärää:

taxi_records.ai.transform("count the number of records in this dataset").show()

Saamme seuraavan vastauksen:

> Entering new AgentExecutor chain...
Thought: I need to count the number of records in the table.
Action: query_validation
Action Input: SELECT count(*) FROM spark_ai_temp_view_ee3325
Observation: OK
Thought: I now know the final answer.
Final Answer: SELECT count(*) FROM spark_ai_temp_view_ee3325
> Finished chain.
+----------+
| count(1)|
+----------+
|2870781820|
+----------+

Spark AI käyttää sisäisesti LangChain ja SQL-ketju, joka piilottaa monimutkaisuuden Sparkissa kyselyitä käsitteleviltä loppukäyttäjiltä.

Muistikirjassa on muutama esimerkki skenaariosta, joilla voit tutkia generatiivisen tekoälyn tehoa Apache Sparkilla ja Amazon EMR:llä.

Puhdistaa

Tyhjennä S3-ämpärin sisältö emr-sparkai-<account-id>, poista osana tätä viestiä luotu EMR Studio Workspace ja poista sitten käyttöönottamasi CloudFormation-pino.

Yhteenveto

Tämä viesti osoitti, kuinka voit ladata big data-analytiikkaasi Apache Sparkin avulla Amazon EMR:n ja Amazon Bedrockin kanssa. PySpark AI -paketin avulla voit saada merkityksellisiä oivalluksia tiedoistasi. Se auttaa vähentämään kehitys- ja analysointiaikaa, lyhentää manuaalisten kyselyiden kirjoittamiseen kuluvaa aikaa ja antaa sinun keskittyä liiketoimintaasi.

Tietoja Tekijät

Saurabh Bhutyani on pääasiallinen Analytics Specialist Solutions -arkkitehti AWS:ssä. Hän on intohimoinen uusiin teknologioihin. Hän liittyi AWS:ään vuonna 2019 ja työskentelee asiakkaiden kanssa tarjotakseen arkkitehtonista ohjausta generatiivisten tekoälyn käyttötapausten, skaalautuvien analytiikkaratkaisujen ja dataverkkoarkkitehtuurien suorittamiseen käyttämällä AWS-palveluita, kuten Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation, ja Amazon DataZone.

Harsh Vardhan on AWS Senior Solutions Architect, joka on erikoistunut analytiikkaan. Hänellä on yli 8 vuoden kokemus big datan ja datatieteen alalta. Hän haluaa auttaa asiakkaita ottamaan käyttöön parhaat käytännöt ja löytämään oivalluksia heidän tiedoistaan.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
Lähde: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/

Aikaleima: Marraskuussa 16, 2023

Aikaleima: Marraskuu 15, 2023

Käytä generatiivista tekoälyä Amazon EMR:n, Amazon Bedrockin ja englanninkielisen SDK:n kanssa Apache Sparkille saadaksesi hyödyllisiä tietoja | Amazon Web Services

Julkaissut Platon

Ratkaisun yleiskatsaus

Edellytykset

Luo resursseja AWS CloudFormationilla

Luo EMR Studio

Big data analytics käyttäen Apache Sparkia Amazon EMR:n ja generatiivisen tekoälyn avulla

Puhdistaa

Yhteenveto

Tietoja Tekijät

Lisää aiheesta AWS Big Data

Amazon QuickSight auttaa TalentReefin asiakkaita tekemään tietoisempia palkkauspäätöksiä

Lataa tiedot asteittain tapahtumatietojärvistä tietovarastoihin | Amazon Web Services

Visualisoi monimuuttujadataa käyttämällä Amazon QuickSightin tutkakaaviota

Esittelyssä jaettu VPC-tuki Amazon MWAA:ssa | Amazon Web Services

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili