Bruk generativ kunstig intelligens med Amazon EMR, Amazon Bedrock og engelsk SDK for Apache Spark for å låse opp innsikt | Amazon Web Services

Publisert av Platon

Følgere: 0

I denne epoken med big data, søker organisasjoner over hele verden konstant etter innovative måter å trekke ut verdi og innsikt fra sine enorme datasett. Apache Spark tilbyr skalerbarheten og hastigheten som trengs for å behandle store datamengder effektivt.

Amazon EMR er den bransjeledende cloud big data-løsningen for petabyte-skala databehandling, interaktiv analyse og maskinlæring (ML) ved bruk av åpen kildekode-rammeverk som Apache Spark, Apache Hiveog Presto. Amazon EMR er det beste stedet å kjøre Apache Spark. Du kan raskt og enkelt lage administrerte Spark-klynger fra AWS-administrasjonskonsoll, AWS kommandolinjegrensesnitt (AWS CLI), eller Amazon EMR API. Du kan også bruke flere Amazon EMR-funksjoner, inkludert rask Amazon enkel lagringstjeneste (Amazon S3) tilkobling ved hjelp av Amazon EMR File System (EMRFS), integrasjon med Amazon EC2 Spot markedet og AWS Lim Data Catalog og EMR Managed Scaling for å legge til eller fjerne forekomster fra klyngen din. Amazon EMR Studio er et integrert utviklingsmiljø (IDE) som gjør det enkelt for dataforskere og dataingeniører å utvikle, visualisere og feilsøke applikasjoner for datateknikk og datavitenskap skrevet i R, Python, Scala og PySpark. EMR Studio tilbyr fullt administrerte Jupyter-notatbøker og verktøy som Spark UI og YARN Timeline Service for å forenkle feilsøking.

For å låse opp potensialet som er skjult i databankene, er det viktig å gå utover tradisjonell analyse. Gå inn i generativ AI, en banebrytende teknologi som kombinerer ML med kreativitet for å generere menneskelignende tekst, kunst og til og med kode. Amazonas grunnfjell er den enkleste måten å bygge og skalere generative AI-applikasjoner med grunnmodeller (FM). Amazon Bedrock er en fullt administrert tjeneste som gjør FM-er fra Amazon og ledende AI-selskaper tilgjengelige gjennom et API, slik at du raskt kan eksperimentere med en rekke FM-er på lekeplassen, og bruke en enkelt API for slutninger uavhengig av modellene du velger, noe som gir du fleksibiliteten til å bruke FM-er fra forskjellige leverandører og holde deg oppdatert med de nyeste modellversjonene med minimale kodeendringer.

I dette innlegget utforsker vi hvordan du kan overlade dataanalysen din med generativ AI ved å bruke Amazon EMR, Amazon Bedrock og pyspark-ai bibliotek. Pyspark-ai-biblioteket er en engelsk SDK for Apache Spark. Den tar instruksjoner på engelsk og kompilerer dem til PySpark-objekter som DataFrames. Dette gjør det enkelt å jobbe med Spark, slik at du kan fokusere på å hente ut verdi fra dataene dine.

Løsningsoversikt

Følgende diagram illustrerer arkitekturen for bruk av generativ AI med Amazon EMR og Amazon Bedrock.

Løsningsoversikt

EMR Studio er en nettbasert IDE for fullt administrerte Jupyter-notatbøker som kjører på EMR-klynger. Vi samhandler med EMR Studio Workspaces koblet til en løpende EMR-klynge og kjører notatboken som er en del av dette innlegget. Vi bruker New York City Taxi data for å få innsikt i ulike taxiturer tatt av brukere. Vi stiller spørsmålene på naturlig språk på toppen av dataene som er lastet inn i Spark DataFrame. Pyspark-ai-biblioteket bruker deretter Amazon Titan Text FM fra Amazon Bedrock for å lage en SQL-spørring basert på spørsmålet om naturlig språk. Pyspark-ai-biblioteket tar SQL-spørringen, kjører den ved hjelp av Spark SQL, og gir resultater tilbake til brukeren.

I denne løsningen kan du opprette og konfigurere de nødvendige ressursene i AWS-kontoen din med en AWS skyformasjon mal. Malen lager AWS Lim database og tabeller, S3-bøtte, VPC og annet AWS identitets- og tilgangsadministrasjon (IAM) ressurser som brukes i løsningen.

Malen er designet for å demonstrere hvordan du bruker EMR Studio med pyspark-ai-pakken og Amazon Bedrock, og er ikke ment for produksjonsbruk uten modifikasjoner. I tillegg bruker malen us-east-1 Region og fungerer kanskje ikke i andre regioner uten endringer. Malen lager ressurser som medfører kostnader mens de er i bruk. Følg oppryddingstrinnene på slutten av dette innlegget for å slette ressursene og unngå unødvendige kostnader.

Forutsetninger

Før du starter CloudFormation-stakken, sørg for at du har følgende:

En AWS-konto som gir tilgang til AWS-tjenester
En IAM-bruker med en tilgangsnøkkel og hemmelig nøkkel for å konfigurere AWS CLI, og tillatelser til å opprette en IAM-rolle, IAM-policyer og stabler i AWS CloudFormation
Titan Text G1 – Express-modellen er for øyeblikket i forhåndsvisning, så du må ha forhåndsvisningstilgang for å bruke den som en del av dette innlegget

Opprett ressurser med AWS CloudFormation

CloudFormation oppretter følgende AWS-ressurser:

En VPC-stabel med private og offentlige undernett til bruk med EMR Studio, rutetabeller og NAT-gateway.
En EMR-klynge med Python 3.9 installert. Vi bruker en bootstrap-handling for å installere Python 3.9 og andre relevante pakker som pyspark-ai og Amazon Bedrock-avhengigheter. (For mer informasjon, se bootstrap-skript.)
En S3-bøtte for EMR Studio Workspace og oppbevaring av bærbare.
IAM-roller og policyer for EMR Studio-oppsett, Amazon Bedrock-tilgang og kjørende notatbøker

Gjør følgende for å komme i gang:

Velg Lanseringsstabel:
Plukke ut Jeg erkjenner at denne malen kan skape IAM-ressurser.

CloudFormation-stakken tar omtrent 20–30 minutter å fullføre. Du kan overvåke fremdriften på AWS CloudFormation-konsollen. Når statusen leser CREATE_COMPLETE, vil AWS-kontoen din ha ressursene som er nødvendige for å implementere denne løsningen.

Lag EMR Studio

Nå kan du opprette et EMR-studio og arbeidsområde for å jobbe med notatbokkoden. Fullfør følgende trinn:

På EMR Studio-konsollen velger du Lag Studio.
Angi Studio navn as GenAI-EMR-Studio og gi en beskrivelse.
på Nettverk og sikkerhet seksjon, spesifiser følgende:
- Til VPC, velg VPC-en du opprettet som en del av CloudFormation-stakken du distribuerte. Få VPC-ID-en ved å bruke CloudFormation-utgangene for VPCID-nøkkelen.
- Til subnett, velg alle fire undernett.
- Til Sikkerhet og tilgang, plukke ut Tilpasset sikkerhetsgruppe.
- Til Klynge/endepunktsikkerhetsgruppe, velg EMRSparkAI-Cluster-Endpoint-SG.
- Til Sikkerhetsgruppe for arbeidsområde, velg EMRSparkAI-Workspace-SG.
på Studioservicerolle seksjon, spesifiser følgende:
- Til Autentisering, plukke ut AWS Identity and Access Management (IAM).
- Til AWS IAM tjenesterolle, velg EMRSparkAI-StudioServiceRole.
på Oppbevaring av arbeidsplass seksjonen, bla gjennom og velg S3-bøtten for oppbevaring fra og med emr-sparkai-<account-id>.
Velg Lag Studio.
Når EMR Studio er opprettet, velg lenken under Studio Access URL for å få tilgang til studioet.
Når du er i studioet, velg Lag arbeidsområde.
Legg til emr-genai som navn på arbeidsområdet og velg Lag arbeidsområde.
Når arbeidsområdet er opprettet, velg navnet for å starte arbeidsområdet (sørg for at du har deaktivert popup-blokkering).

Big data-analyse ved hjelp av Apache Spark med Amazon EMR og generativ AI

Nå som vi har fullført det nødvendige oppsettet, kan vi begynne å utføre store dataanalyser ved å bruke Apache Spark med Amazon EMR og generativ AI.

Som et første trinn laster vi inn en notatbok som har den nødvendige koden og eksempler for å jobbe med brukssaken. Vi bruker NY Taxi datasett, som inneholder detaljer om drosjeturer.

Last ned notatbokfilen NYTaxi.ipynb og last det opp til arbeidsområdet ditt ved å velge opplastingsikonet.
Etter at notatboken er importert, åpner du den og velger PySpark som kjernen.

PySpark AI bruker som standard OpenAIs ChatGPT4.0 som LLM-modellen, men du kan også plugge inn modeller fra Amazon Bedrock, Amazon SageMaker JumpStart, og andre tredjepartsmodeller. For dette innlegget viser vi hvordan du integrerer Amazon Bedrock Titan-modellen for generering av SQL-spørringer og kjører den med Apache Spark i Amazon EMR.

For å komme i gang med notatboken, må du knytte arbeidsområdet til et datalag. For å gjøre det, velg Beregn ikonet i navigasjonsruten og velg EMR-klyngen opprettet av CloudFormation-stakken.

Konfigurer Python-parametrene for å bruke den oppdaterte Python 3.9-pakken med Amazon EMR:

%%configure -f
{
"conf": {
"spark.executorEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9"
}
}

Importer de nødvendige bibliotekene:

from pyspark_ai import SparkAI
from pyspark.sql import SparkSession
from langchain.chat_models import ChatOpenAI
from langchain.llms.bedrock import Bedrock
import boto3
import os

Etter at bibliotekene er importert, kan du definere LLM-modellen fra Amazon Bedrock. I dette tilfellet bruker vi amazon.titan-text-express-v1. Du må angi region- og Amazon Bedrock-endepunkt-URL basert på forhåndsvisningstilgangen for Titan Text G1 – Express-modellen.
```
boto3_bedrock = boto3.client('bedrock-runtime', '<region>', endpoint_url='<bedrock endpoint url>')
llm = Bedrock(
model_id="amazon.titan-text-express-v1",
client=boto3_bedrock)
```
Koble Spark AI til Amazon Bedrock LLM-modellen for generering av SQL-spørringer basert på spørsmål på naturlig språk:
```
#Connecting Spark AI to the Bedrock Titan LLM
spark_ai = SparkAI(llm = llm, verbose=False)
spark_ai.activate()
```

Her har vi initialisert Spark AI med verbose=False; du kan også sette verbose=True for å se flere detaljer.

Nå kan du lese NYC Taxi-dataene i en Spark DataFrame og bruke kraften til generativ AI i Spark.

Du kan for eksempel spørre om antall poster i datasettet:

taxi_records.ai.transform("count the number of records in this dataset").show()

Vi får følgende svar:

> Entering new AgentExecutor chain...
Thought: I need to count the number of records in the table.
Action: query_validation
Action Input: SELECT count(*) FROM spark_ai_temp_view_ee3325
Observation: OK
Thought: I now know the final answer.
Final Answer: SELECT count(*) FROM spark_ai_temp_view_ee3325
> Finished chain.
+----------+
| count(1)|
+----------+
|2870781820|
+----------+

Spark AI bruker internt Langkjede og SQL-kjede, som skjuler kompleksiteten for sluttbrukere som arbeider med spørringer i Spark.

Den bærbare datamaskinen har noen flere eksempelscenarier for å utforske kraften til generativ AI med Apache Spark og Amazon EMR.

Rydd opp

Tøm innholdet i S3-bøtten emr-sparkai-<account-id>, slett EMR Studio-arbeidsområdet opprettet som en del av dette innlegget, og slett CloudFormation-stakken du distribuerte.

konklusjonen

Dette innlegget viste hvordan du kan overlade stordataanalysen din ved hjelp av Apache Spark med Amazon EMR og Amazon Bedrock. PySpark AI-pakken lar deg utlede meningsfull innsikt fra dataene dine. Det bidrar til å redusere utviklings- og analysetiden, reduserer tiden til å skrive manuelle spørringer og lar deg fokusere på din forretningsbruk.

Om forfatterne

Saurabh Bhutyani er en Principal Analytics Specialist Solutions Architect hos AWS. Han brenner for ny teknologi. Han begynte i AWS i 2019 og jobber med kunder for å gi arkitektonisk veiledning for å kjøre generative AI-brukstilfeller, skalerbare analyseløsninger og datamaskeringsarkitekturer ved å bruke AWS-tjenester som Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation, og Amazon DataZone.

Harde Vardhan er en AWS Senior Solutions Architect, som spesialiserer seg på analyse. Han har over 8 års erfaring med arbeid innen big data og datavitenskap. Han brenner for å hjelpe kunder med å ta i bruk beste praksis og oppdage innsikt fra dataene deres.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/

Tidstempel: November 16, 2023

Tidstempel: November 15, 2023

Bruk generativ AI med Amazon EMR, Amazon Bedrock og engelsk SDK for Apache Spark for å låse opp innsikt | Amazon Web Services

Publisert av Platon

Løsningsoversikt

Forutsetninger

Opprett ressurser med AWS CloudFormation

Lag EMR Studio

Big data-analyse ved hjelp av Apache Spark med Amazon EMR og generativ AI

Rydd opp

konklusjonen

Om forfatterne

Mer fra AWS Big Data

Amazon QuickSight hjelper TalentReef med å styrke kundene sine til å ta mer informerte ansettelsesbeslutninger

Last inn data trinnvis fra transaksjonelle datainnsjøer til datavarehus | Amazon Web Services

Visualiser multivariate data ved hjelp av et radardiagram i Amazon QuickSight

Introduserer delt VPC-støtte på Amazon MWAA | Amazon Web Services

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn