Brug Generativ AI med Amazon EMR, Amazon Bedrock og engelsk SDK til Apache Spark for at låse op for indsigt | Amazon Web Services

Genudgivet af Platon

Abonnenter: 0

I denne æra med big data søger organisationer verden over konstant efter innovative måder at udvinde værdi og indsigt fra deres enorme datasæt. Apache Spark tilbyder den skalerbarhed og hastighed, der er nødvendig for at behandle store mængder data effektivt.

Amazon EMR er den brancheførende cloud big data-løsning til petabyte-skala databehandling, interaktiv analyse og maskinlæring (ML) ved hjælp af open source-rammeværker såsom Apache Spark, Apache Hiveog Presto. Amazon EMR er det bedste sted at køre Apache Spark. Du kan hurtigt og ubesværet oprette administrerede Spark-klynger fra AWS Management Console, AWS kommandolinjegrænseflade (AWS CLI) eller Amazon EMR API. Du kan også bruge yderligere Amazon EMR-funktioner, herunder hurtig Amazon Simple Storage Service (Amazon S3) tilslutning ved hjælp af Amazon EMR File System (EMRFS), integration med Amazon EC2 Spot markedet og AWS Lim Data Catalog og EMR Managed Scaling for at tilføje eller fjerne forekomster fra din klynge. Amazon EMR Studio er et integreret udviklingsmiljø (IDE), der gør det nemt for datavidenskabsfolk og dataingeniører at udvikle, visualisere og fejlsøge datateknik og datavidenskabsapplikationer skrevet i R, Python, Scala og PySpark. EMR Studio leverer fuldt administrerede Jupyter-notebooks og værktøjer som Spark UI og YARN Timeline Service for at forenkle fejlfinding.

For at låse op for det potentiale, der er gemt i datamagasinerne, er det vigtigt at gå ud over traditionelle analyser. Indtast generativ AI, en banebrydende teknologi, der kombinerer ML med kreativitet for at generere menneskelignende tekst, kunst og endda kode. Amazonas grundfjeld er den mest ligetil måde at bygge og skalere generative AI-applikationer med fundamentmodeller (FM'er). Amazon Bedrock er en fuldt administreret tjeneste, der gør FM'er fra Amazon og førende AI-virksomheder tilgængelige via en API, så du hurtigt kan eksperimentere med en række forskellige FM'er på legepladsen og bruge en enkelt API til slutninger uanset de modeller, du vælger, hvilket giver du fleksibiliteten til at bruge FM'er fra forskellige udbydere og holde dig ajour med de nyeste modelversioner med minimale kodeændringer.

I dette indlæg udforsker vi, hvordan du kan superlade din dataanalyse med generativ AI ved hjælp af Amazon EMR, Amazon Bedrock og pyspark-ai bibliotek. pyspark-ai-biblioteket er et engelsk SDK til Apache Spark. Det tager instruktioner på engelsk og kompilerer dem til PySpark-objekter som DataFrames. Dette gør det nemt at arbejde med Spark, så du kan fokusere på at udvinde værdi fra dine data.

Løsningsoversigt

Følgende diagram illustrerer arkitekturen for brug af generativ AI med Amazon EMR og Amazon Bedrock.

Løsningsoversigt

EMR Studio er en webbaseret IDE til fuldt administrerede Jupyter-notebooks, der kører på EMR-klynger. Vi interagerer med EMR Studio Workspaces, der er forbundet til en kørende EMR-klynge, og kører den notesbog, der leveres som en del af dette indlæg. Vi bruger New York City Taxa data for at få indsigt i forskellige taxature, som brugerne tager. Vi stiller spørgsmålene i naturligt sprog oven på de data, der er indlæst i Spark DataFrame. Pyspark-ai-biblioteket bruger derefter Amazon Titan Text FM fra Amazon Bedrock til at oprette en SQL-forespørgsel baseret på spørgsmålet om det naturlige sprog. pyspark-ai-biblioteket tager SQL-forespørgslen, kører den ved hjælp af Spark SQL og leverer resultater tilbage til brugeren.

I denne løsning kan du oprette og konfigurere de nødvendige ressourcer på din AWS-konto med en AWS CloudFormation skabelon. Skabelonen skaber AWS Lim database og tabeller, S3 bucket, VPC og andet AWS identitets- og adgangsstyring (IAM) ressourcer, der bruges i løsningen.

Skabelonen er designet til at demonstrere, hvordan man bruger EMR Studio med pyspark-ai-pakken og Amazon Bedrock, og er ikke beregnet til produktionsbrug uden ændringer. Derudover bruger skabelonen us-east-1 Region og må ikke arbejde i andre regioner uden ændringer. Skabelonen opretter ressourcer, der medfører omkostninger, mens de er i brug. Følg oprydningstrinnene i slutningen af dette indlæg for at slette ressourcerne og undgå unødvendige gebyrer.

Forudsætninger

Før du starter CloudFormation-stakken, skal du sikre dig, at du har følgende:

En AWS-konto, der giver adgang til AWS-tjenester
En IAM-bruger med en adgangsnøgle og hemmelig nøgle til at konfigurere AWS CLI og tilladelser til at oprette en IAM-rolle, IAM-politikker og stakke i AWS CloudFormation
Titan Text G1 – Express-modellen er i øjeblikket i preview, så du skal have preview-adgang for at bruge den som en del af dette indlæg

Opret ressourcer med AWS CloudFormation

CloudFormation opretter følgende AWS-ressourcer:

En VPC-stak med private og offentlige undernet til brug med EMR Studio, rutetabeller og NAT-gateway.
En EMR-klynge med Python 3.9 installeret. Vi bruger en bootstrap-handling til at installere Python 3.9 og andre relevante pakker som pyspark-ai og Amazon Bedrock-afhængigheder. (For mere information, se bootstrap script.)
En S3-spand til EMR Studio Workspace og notebook-opbevaring.
IAM-roller og -politikker for EMR Studio-opsætning, Amazon Bedrock-adgang og kørende notebooks

For at komme i gang skal du udføre følgende trin:

Vælg Start stak:
Type Jeg anerkender, at denne skabelon kan skabe IAM-ressourcer.

CloudFormation-stakken tager cirka 20-30 minutter at fuldføre. Du kan overvåge dens fremskridt på AWS CloudFormation-konsollen. Når dens status lyder CREATE_COMPLETE, vil din AWS-konto have de nødvendige ressourcer til at implementere denne løsning.

Opret EMR Studio

Nu kan du oprette et EMR-studie og -arbejdsområde til at arbejde med notebook-koden. Udfør følgende trin:

På EMR Studio-konsollen skal du vælge Opret Studio.
Indtast Studio navn as GenAI-EMR-Studio og giv en beskrivelse.
I Netværk og sikkerhed afsnit, angiv følgende:
- Til VPC, skal du vælge den VPC, du oprettede som en del af CloudFormation-stakken, som du implementerede. Få VPC-id'et ved hjælp af CloudFormation-output for VPCID-nøglen.
- Til Undernet, vælg alle fire undernet.
- Til Sikkerhed og adgang, Vælg Brugerdefineret sikkerhedsgruppe.
- Til Klynge/endepunkt sikkerhedsgruppe, vælg EMRSparkAI-Cluster-Endpoint-SG.
- Til Arbejdspladssikkerhedsgruppe, vælg EMRSparkAI-Workspace-SG.
I Studio service rolle afsnit, angiv følgende:
- Til Godkendelse, Vælg AWS Identity and Access Management (IAM).
- Til AWS IAM servicerolle, vælg EMRSparkAI-StudioServiceRole.
I Opbevaring af arbejdsrum sektion, gennemse og vælg S3-spanden til opbevaring startende med emr-sparkai-<account-id>.
Vælg Opret Studio.
Når EMR Studio er oprettet, skal du vælge linket under Studio Access URL for at få adgang til studiet.
Når du er i studiet, skal du vælge Skab arbejdsrum.
Tilføj emr-genai som navn for arbejdsområdet og vælg Skab arbejdsrum.
Når arbejdsområdet er oprettet, skal du vælge dets navn for at starte arbejdsområdet (sørg for, at du har deaktiveret pop op-blokkere).

Big data-analyse ved hjælp af Apache Spark med Amazon EMR og generativ AI

Nu hvor vi har fuldført den påkrævede opsætning, kan vi begynde at udføre big data-analyse ved hjælp af Apache Spark med Amazon EMR og generativ AI.

Som et første trin indlæser vi en notesbog, der har den nødvendige kode og eksempler til at arbejde med use casen. Vi bruger NY Taxi-datasæt, som indeholder detaljer om taxakørsel.

Download notebook-filen NYTaxi.ipynb og upload det til dit Workspace ved at vælge upload-ikonet.
Når notesbogen er importeret, skal du åbne notesbogen og vælge PySpark som kernen.

PySpark AI bruger som standard OpenAIs ChatGPT4.0 som LLM-modellen, men du kan også tilslutte modeller fra Amazon Bedrock, Amazon SageMaker JumpStart, og andre tredjepartsmodeller. Til dette indlæg viser vi, hvordan man integrerer Amazon Bedrock Titan-modellen til SQL-forespørgselsgenerering og kører den med Apache Spark i Amazon EMR.

For at komme i gang med notesbogen skal du knytte arbejdsområdet til et computerlag. For at gøre det skal du vælge Compute ikonet i navigationsruden, og vælg den EMR-klynge, der er oprettet af CloudFormation-stakken.

Konfigurer Python-parametrene til at bruge den opdaterede Python 3.9-pakke med Amazon EMR:

%%configure -f
{
"conf": {
"spark.executorEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9"
}
}

Importer de nødvendige biblioteker:

from pyspark_ai import SparkAI
from pyspark.sql import SparkSession
from langchain.chat_models import ChatOpenAI
from langchain.llms.bedrock import Bedrock
import boto3
import os

Efter at bibliotekerne er importeret, kan du definere LLM-modellen fra Amazon Bedrock. I dette tilfælde bruger vi amazon.titan-text-express-v1. Du skal indtaste Region og Amazon Bedrock-endepunkts-URL baseret på din forhåndsvisningsadgang for Titan Text G1 – Express-modellen.
```
boto3_bedrock = boto3.client('bedrock-runtime', '<region>', endpoint_url='<bedrock endpoint url>')
llm = Bedrock(
model_id="amazon.titan-text-express-v1",
client=boto3_bedrock)
```
Forbind Spark AI til Amazon Bedrock LLM-modellen til generering af SQL-forespørgsler baseret på spørgsmål i naturligt sprog:
```
#Connecting Spark AI to the Bedrock Titan LLM
spark_ai = SparkAI(llm = llm, verbose=False)
spark_ai.activate()
```

Her har vi initialiseret Spark AI med verbose=False; du kan også indstille verbose=True for at se flere detaljer.

Nu kan du læse NYC Taxi-dataene i en Spark DataFrame og bruge kraften i generativ AI i Spark.

For eksempel kan du spørge om antallet af poster i datasættet:

taxi_records.ai.transform("count the number of records in this dataset").show()

Vi får følgende svar:

> Entering new AgentExecutor chain...
Thought: I need to count the number of records in the table.
Action: query_validation
Action Input: SELECT count(*) FROM spark_ai_temp_view_ee3325
Observation: OK
Thought: I now know the final answer.
Final Answer: SELECT count(*) FROM spark_ai_temp_view_ee3325
> Finished chain.
+----------+
| count(1)|
+----------+
|2870781820|
+----------+

Spark AI bruger internt Langkæde og SQL-kæde, som skjuler kompleksiteten for slutbrugere, der arbejder med forespørgsler i Spark.

Notebook'en har et par flere eksempler på scenarier til at udforske kraften i generativ AI med Apache Spark og Amazon EMR.

Ryd op

Tøm indholdet af S3-spanden emr-sparkai-<account-id>, slet EMR Studio-arbejdsområdet, der er oprettet som en del af dette indlæg, og slet derefter CloudFormation-stakken, som du implementerede.

Konklusion

Dette indlæg viste, hvordan du kan superlade din big data-analyse ved hjælp af Apache Spark med Amazon EMR og Amazon Bedrock. PySpark AI-pakken giver dig mulighed for at udlede meningsfuld indsigt fra dine data. Det hjælper med at reducere udviklings- og analysetid, reducerer tiden til at skrive manuelle forespørgsler og giver dig mulighed for at fokusere på din forretningsanvendelse.

Om forfatterne

Saurabh Bhutyani er Principal Analytics Specialist Solutions Architect hos AWS. Han brænder for nye teknologier. Han kom til AWS i 2019 og arbejder med kunder for at give arkitektonisk vejledning til at køre generative AI use cases, skalerbare analyseløsninger og data mesh-arkitekturer ved hjælp af AWS-tjenester som Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation, og Amazon DataZone.

Hård Vardhan er en AWS Senior Solutions Architect med speciale i analytics. Han har over 8 års erfaring med at arbejde inden for big data og data science. Han brænder for at hjælpe kunder med at vedtage bedste praksis og opdage indsigt fra deres data.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/

Tidsstempel: November 16, 2023

Tidsstempel: November 15, 2023

Brug generativ kunstig intelligens med Amazon EMR, Amazon Bedrock og engelsk SDK til Apache Spark for at låse op for indsigt | Amazon Web Services

Genudgivet af Platon

Løsningsoversigt

Forudsætninger

Opret ressourcer med AWS CloudFormation

Opret EMR Studio

Big data-analyse ved hjælp af Apache Spark med Amazon EMR og generativ AI

Ryd op

Konklusion

Om forfatterne

Mere fra AWS Big Data

Amazon QuickSight hjælper TalentReef med at give sine kunder mulighed for at træffe mere informerede ansættelsesbeslutninger

Indlæs data trinvist fra transaktionsdatasøer til datavarehuse | Amazon Web Services

Visualiser multivariate data ved hjælp af et radardiagram i Amazon QuickSight

Introduktion af delt VPC-support på Amazon MWAA | Amazon Web Services

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto