Gebruik generatieve AI met Amazon EMR, Amazon Bedrock en Engelse SDK voor Apache Spark om inzichten te ontgrendelen

Heruitgegeven door Plato

volgers: 0

In dit tijdperk van big data zijn organisaties over de hele wereld voortdurend op zoek naar innovatieve manieren om waarde en inzichten uit hun enorme datasets te halen. Apache Spark biedt de schaalbaarheid en snelheid die nodig zijn om grote hoeveelheden gegevens efficiënt te verwerken.

Amazon EMR is de toonaangevende cloud-big data-oplossing voor gegevensverwerking op petabyte-schaal, interactieve analyses en machine learning (ML) met behulp van open source-frameworks zoals Apache Spark, Apache-bijenkorf en Presto. Amazon EMR is de beste plaats om Apache Spark uit te voeren. U kunt snel en moeiteloos beheerde Spark-clusters maken vanuit de AWS-beheerconsole, AWS-opdrachtregelinterface (AWS CLI) of Amazon EMR API. Je kunt ook extra Amazon EMR-functies gebruiken, waaronder snel Amazon eenvoudige opslagservice (Amazon S3) connectiviteit met behulp van het Amazon EMR File System (EMRFS), integratie met de Amazon EC2-spot markt en de AWS lijm Data Catalog en EMR Managed Scaling om instanties aan uw cluster toe te voegen of te verwijderen. Amazon EMR-studio is een geïntegreerde ontwikkelomgeving (IDE) die het voor datawetenschappers en data-ingenieurs eenvoudig maakt om data engineering- en data science-applicaties geschreven in R, Python, Scala en PySpark te ontwikkelen, visualiseren en debuggen. EMR Studio biedt volledig beheerde Jupyter-notebooks en tools zoals Spark UI en YARN Timeline Service om het opsporen van fouten te vereenvoudigen.

Om het potentieel dat verborgen ligt in de dataschatten te ontsluiten, is het essentieel om verder te gaan dan traditionele analyses. Maak kennis met generatieve AI, een geavanceerde technologie die ML combineert met creativiteit om mensachtige tekst, kunst en zelfs code te genereren. Amazonebodem is de meest eenvoudige manier om generatieve AI-applicaties te bouwen en te schalen met basismodellen (FM's). Amazon Bedrock is een volledig beheerde service die FM's van Amazon en toonaangevende AI-bedrijven beschikbaar maakt via een API, zodat je snel kunt experimenteren met een verscheidenheid aan FM's op de speelplaats en één enkele API kunt gebruiken voor gevolgtrekking, ongeacht de modellen die je kiest, waardoor u hebt de flexibiliteit om FM's van verschillende providers te gebruiken en op de hoogte te blijven van de nieuwste modelversies met minimale codewijzigingen.

In dit bericht onderzoeken we hoe u uw data-analyse een boost kunt geven met generatieve AI met behulp van Amazon EMR, Amazon Bedrock en de pyspark-ai bibliotheek. De pyspark-ai-bibliotheek is een Engelse SDK voor Apache Spark. Er zijn instructies in de Engelse taal nodig en deze worden gecompileerd in PySpark-objecten zoals DataFrames. Dit maakt het eenvoudig om met Spark te werken, zodat u zich kunt concentreren op het extraheren van waarde uit uw data.

Overzicht oplossingen

Het volgende diagram illustreert de architectuur voor het gebruik van generatieve AI met Amazon EMR en Amazon Bedrock.

Overzicht oplossingen

EMR Studio is een webgebaseerde IDE voor volledig beheerde Jupyter-notebooks die op EMR-clusters draaien. We communiceren met EMR Studio Workspaces die zijn aangesloten op een actief EMR-cluster en gebruiken de notebook die als onderdeel van dit bericht wordt geleverd. Wij gebruiken de Stadstaxi New York gegevens om inzicht te krijgen in de verschillende taxiritten die gebruikers maken. We stellen de vragen in natuurlijke taal bovenop de gegevens die in Spark DataFrame zijn geladen. De pyspark-ai-bibliotheek gebruikt vervolgens de Amazon Titan Text FM van Amazon Bedrock om een SQL-query te maken op basis van de natuurlijke taalvraag. De pyspark-ai-bibliotheek neemt de SQL-query, voert deze uit met Spark SQL en levert resultaten terug aan de gebruiker.

In deze oplossing kunt u de benodigde bronnen in uw AWS-account aanmaken en configureren met een AWS CloudFormatie sjabloon. De sjabloon maakt de AWS lijm database en tabellen, S3-bucket, VPC en andere AWS Identiteits- en toegangsbeheer (IAM)-resources die in de oplossing worden gebruikt.

De sjabloon is ontworpen om te demonstreren hoe u EMR Studio kunt gebruiken met het pyspark-ai-pakket en Amazon Bedrock, en is niet bedoeld voor productiegebruik zonder aanpassingen. Bovendien gebruikt de sjabloon de us-east-1 Regio en werkt mogelijk niet zonder wijziging in andere regio's. De sjabloon maakt resources die kosten met zich meebrengen terwijl ze in gebruik zijn. Volg de opschoonstappen aan het einde van dit bericht om de bronnen te verwijderen en onnodige kosten te voorkomen.

Voorwaarden

Zorg ervoor dat u over het volgende beschikt voordat u de CloudFormation-stack start:

Een AWS-account dat toegang biedt tot AWS-services
Een IAM-gebruiker met een toegangssleutel en geheime sleutel om de AWS CLI te configureren, en machtigingen om een IAM-rol, IAM-beleid en stapels te creëren in AWS CloudFormation
Het Titan Text G1 – Express-model is momenteel in preview, dus je hebt preview-toegang nodig om het te gebruiken als onderdeel van dit bericht

Creëer resources met AWS CloudFormation

De CloudFormation creëert de volgende AWS-bronnen:

Een VPC-stack met privé- en openbare subnetten voor gebruik met EMR Studio, routetabellen en NAT-gateway.
Een EMR-cluster waarop Python 3.9 is geïnstalleerd. We gebruiken een bootstrap-actie om Python 3.9 en andere relevante pakketten zoals pyspark-ai en Amazon Bedrock-afhankelijkheden te installeren. (Voor meer informatie, zie de bootstrap-script.)
Een S3-bucket voor de EMR Studio Workspace en notebookopslag.
IAM-rollen en -beleid voor het instellen van EMR Studio, toegang tot Amazon Bedrock en het uitvoeren van notebooks

Voer de volgende stappen uit om aan de slag te gaan:

Kies Start stapel:
kies Ik erken dat deze sjabloon IAM-bronnen kan creëren.

Het duurt ongeveer 20 tot 30 minuten om de CloudFormation-stack te voltooien. U kunt de voortgang ervan volgen op de AWS CloudFormation-console. Wanneer de status luidt CREATE_COMPLETE, beschikt uw AWS-account over de middelen die nodig zijn om deze oplossing te implementeren.

EMR-studio maken

Nu kunt u een EMR Studio en Workspace maken om met de notebookcode te werken. Voer de volgende stappen uit:

Kies op de EMR Studio-console Studio maken.
Voer de Studio naam as GenAI-EMR-Studio en geef een beschrijving.
In het Netwerken en beveiliging sectie, specificeer het volgende:
- Voor VPC, kiest u de VPC die u hebt gemaakt als onderdeel van de CloudFormation-stack die u hebt geïmplementeerd. Haal de VPC ID op met behulp van de CloudFormation-uitvoer voor de VPCID-sleutel.
- Voor subnetten, kies alle vier de subnetten.
- Voor Beveiliging en toegangselecteer Aangepaste beveiligingsgroep.
- Voor Cluster-/eindpuntbeveiligingsgroep, kiezen EMRSparkAI-Cluster-Endpoint-SG.
- Voor Beveiligingsgroep voor werkruimte, kiezen EMRSparkAI-Workspace-SG.
In het Rol van studioservice sectie, specificeer het volgende:
- Voor authenticatieselecteer AWS identiteits- en toegangsbeheer (IAM).
- Voor AWS IAM-servicerol, kiezen EMRSparkAI-StudioServiceRole.
In het Opslag van werkruimte sectie, blader en kies de S3-bucket voor opslag, beginnend met emr-sparkai-<account-id>.
Kies Studio maken.
Wanneer de EMR Studio is aangemaakt, kiest u de onderstaande link Studiotoegangs-URL om toegang te krijgen tot de Studio.
Als je in de Studio bent, kies dan Werkruimte maken.
Toevoegen emr-genai als de naam voor de werkruimte en kies Werkruimte maken.
Wanneer de werkruimte is gemaakt, kiest u de naam ervan om de werkruimte te starten (zorg ervoor dat u eventuele pop-upblokkeringen hebt uitgeschakeld).

Big data-analyse met Apache Spark met Amazon EMR en generatieve AI

Nu we de vereiste instellingen hebben voltooid, kunnen we beginnen met het uitvoeren van big data-analyses met Apache Spark met Amazon EMR en generatieve AI.

Als eerste stap laden we een notebook met de vereiste code en voorbeelden om met de use case te werken. We gebruiken de NY Taxi-dataset, die details over taxiritten bevat.

Download het notebookbestand NYTaxi.ipynb en upload het naar uw werkruimte door het uploadpictogram te kiezen.
Nadat het notebook is geïmporteerd, opent u het notebook en kiest u PySpark als de pit.

PySpark-AI gebruikt standaard OpenAI's ChatGPT4.0 als het LLM-model, maar je kunt ook modellen van Amazon Bedrock aansluiten, Amazon SageMaker JumpStarten andere modellen van derden. Voor dit bericht laten we zien hoe je het Amazon Bedrock Titan-model kunt integreren voor het genereren van SQL-query's en het kunt uitvoeren met Apache Spark in Amazon EMR.

Om aan de slag te gaan met de notebook, moet u de werkruimte aan een rekenlaag koppelen. Kies hiervoor de Berekenen -pictogram in het navigatievenster en kies het EMR-cluster dat is gemaakt door de CloudFormation-stack.

Configureer de Python-parameters om het bijgewerkte Python 3.9-pakket te gebruiken met Amazon EMR:

%%configure -f
{
"conf": {
"spark.executorEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9"
}
}

Importeer de benodigde bibliotheken:

from pyspark_ai import SparkAI
from pyspark.sql import SparkSession
from langchain.chat_models import ChatOpenAI
from langchain.llms.bedrock import Bedrock
import boto3
import os

Nadat de bibliotheken zijn geïmporteerd, kunt u het LLM-model vanuit Amazon Bedrock definiëren. In dit geval gebruiken we amazon.titan-text-express-v1. U moet de URL van het Regio- en Amazon Bedrock-eindpunt invoeren op basis van uw preview-toegang voor het Titan Text G1 – Express-model.
```
boto3_bedrock = boto3.client('bedrock-runtime', '<region>', endpoint_url='<bedrock endpoint url>')
llm = Bedrock(
model_id="amazon.titan-text-express-v1",
client=boto3_bedrock)
```
Verbind Spark AI met het Amazon Bedrock LLM-model voor het genereren van SQL-query's op basis van vragen in natuurlijke taal:
```
#Connecting Spark AI to the Bedrock Titan LLM
spark_ai = SparkAI(llm = llm, verbose=False)
spark_ai.activate()
```

Hier hebben we Spark AI geïnitialiseerd met verbose=False; Je kunt ook verbose=True instellen om meer details te zien.

Nu kunt u de NYC Taxi-gegevens in een Spark DataFrame lezen en de kracht van generatieve AI in Spark gebruiken.

U kunt bijvoorbeeld de telling van het aantal records in de dataset opvragen:

taxi_records.ai.transform("count the number of records in this dataset").show()

We krijgen de volgende reactie:

> Entering new AgentExecutor chain...
Thought: I need to count the number of records in the table.
Action: query_validation
Action Input: SELECT count(*) FROM spark_ai_temp_view_ee3325
Observation: OK
Thought: I now know the final answer.
Final Answer: SELECT count(*) FROM spark_ai_temp_view_ee3325
> Finished chain.
+----------+
| count(1)|
+----------+
|2870781820|
+----------+

Spark AI gebruikt intern LangChain en SQL-keten, die de complexiteit verbergen voor eindgebruikers die met query's in Spark werken.

De notebook heeft nog een paar voorbeeldscenario's om de kracht van generatieve AI met Apache Spark en Amazon EMR te verkennen.

Opruimen

Leeg de inhoud van de S3-emmer emr-sparkai-<account-id>, verwijder de EMR Studio Workspace die is gemaakt als onderdeel van dit bericht en verwijder vervolgens de CloudFormation-stack die u hebt geïmplementeerd.

Conclusie

Dit bericht liet zien hoe u uw big data-analyse een boost kunt geven met behulp van Apache Spark met Amazon EMR en Amazon Bedrock. Met het PySpark AI-pakket kunt u betekenisvolle inzichten uit uw gegevens halen. Het helpt de ontwikkelings- en analysetijd te verminderen, waardoor u minder tijd hoeft te besteden aan het schrijven van handmatige query's en u zich kunt concentreren op uw zakelijke gebruiksscenario.

Over de auteurs

Saurabh Bhutyani is een Principal Analytics Specialist Solutions Architect bij AWS. Hij heeft een passie voor nieuwe technologieën. Hij kwam in 2019 bij AWS en werkt samen met klanten om architecturale begeleiding te bieden voor het uitvoeren van generatieve AI-gebruiksscenario's, schaalbare analyseoplossingen en data mesh-architecturen met behulp van AWS-services zoals Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation, en Amazon DataZone.

Moeilijk Vardhan is een AWS Senior Solutions Architect, gespecialiseerd in analytics. Hij heeft ruim 8 jaar ervaring op het gebied van big data en data science. Hij heeft een passie voor het helpen van klanten bij het toepassen van best practices en het ontdekken van inzichten uit hun data.

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
Bron: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/

Tijdstempel: 16 november 2023

Tijdstempel: Oktober 2, 2023

Gebruik generatieve AI met Amazon EMR, Amazon Bedrock en Engelse SDK voor Apache Spark om inzichten te ontsluiten | Amazon-webservices

Heruitgegeven door Plato

Overzicht oplossingen

Voorwaarden

Creëer resources met AWS CloudFormation

EMR-studio maken

Big data-analyse met Apache Spark met Amazon EMR en generatieve AI

Opruimen

Conclusie

Over de auteurs

Meer van AWS-bigdata

Implementeer een serverloos CDC-proces met Apache Iceberg met behulp van Amazon DynamoDB en Amazon Athena | Amazon-webservices

Sluit u aan bij een streaming gegevensbron met CDC-gegevens voor realtime serverloze gegevensanalyse met behulp van AWS Glue, AWS DMS en Amazon DynamoDB | Amazon-webservices

Defontana levert bedrijfsadministratieve oplossingen aan Latijns-Amerikaanse klanten met behulp van Amazon QuickSight | Amazon-webservices

Maak verbinding met Amazon MSK Serverless vanaf uw lokale netwerk

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account