Utilizați IA generativă cu Amazon EMR, Amazon Bedrock și SDK pentru limba engleză pentru Apache Spark pentru a debloca informații | Amazon Web Services

Republicat de Platon

Urmaritori: 0

În această eră a datelor mari, organizațiile din întreaga lume caută în mod constant modalități inovatoare de a extrage valoare și informații din seturile lor vaste de date. Apache Spark oferă scalabilitatea și viteza necesare procesării eficiente a unor cantități mari de date.

Amazon EMR este soluția de big data în cloud lider în industrie pentru procesarea datelor la scară petabyte, analiză interactivă și învățare automată (ML) folosind framework-uri open source, cum ar fi Apache Spark, Apache Hive, și Presto. Amazon EMR este cel mai bun loc pentru a rula Apache Spark. Puteți crea rapid și fără efort clustere Spark gestionate din Consola de administrare AWS, Interfața liniei de comandă AWS (AWS CLI) sau Amazon EMR API. De asemenea, puteți utiliza funcții Amazon EMR suplimentare, inclusiv cele rapide Serviciul Amazon de stocare simplă (Amazon S3) conectivitate folosind Amazon EMR File System (EMRFS), integrare cu Amazon EC2 Spot piata si cel AWS Adeziv Data Catalog și EMR Managed Scaling pentru a adăuga sau elimina instanțe din cluster. Amazon EMR Studio este un mediu de dezvoltare integrat (IDE) care permite oamenilor de știință și inginerilor de date să dezvolte, să vizualizeze și să depaneze aplicații de inginerie și știință a datelor scrise în R, Python, Scala și PySpark. EMR Studio oferă notebook-uri Jupyter complet gestionate și instrumente precum Spark UI și YARN Timeline Service pentru a simplifica depanarea.

Pentru a debloca potențialul ascuns în depozitele de date, este esențial să depășim analiza tradițională. Introduceți AI generativă, o tehnologie de ultimă oră care combină ML cu creativitatea pentru a genera text, artă și chiar cod de tip uman. Amazon Bedrock este cel mai simplu mod de a construi și scala aplicații AI generative cu modele de fundație (FM). Amazon Bedrock este un serviciu complet gestionat care face ca FM-urile de la Amazon și de la companiile de IA de top să fie disponibile printr-un API, astfel încât să puteți experimenta rapid cu o varietate de FM în terenul de joacă și să utilizați un singur API pentru inferență, indiferent de modelele pe care le alegeți, oferind aveți flexibilitatea de a utiliza FM de la diferiți furnizori și de a fi la curent cu cele mai recente versiuni de model, cu modificări minime de cod.

În această postare, explorăm modul în care vă puteți supraalimenta analiza datelor cu IA generativă folosind Amazon EMR, Amazon Bedrock și pyspark-ai bibliotecă. Biblioteca pyspark-ai este un SDK în limba engleză pentru Apache Spark. Preia instrucțiuni în limba engleză și le compilează în obiecte PySpark precum DataFrames. Acest lucru facilitează lucrul cu Spark, permițându-vă să vă concentrați pe extragerea valorii din datele dvs.

Prezentare generală a soluțiilor

Următoarea diagramă ilustrează arhitectura pentru utilizarea AI generativă cu Amazon EMR și Amazon Bedrock.

Prezentare generală a soluției

EMR Studio este un IDE bazat pe web pentru notebook-uri Jupyter complet gestionate care rulează pe clustere EMR. Interacționăm cu EMR Studio Workspaces conectat la un cluster EMR care rulează și rulăm notebook-ul furnizat ca parte a acestei postări. Noi folosim Taxi din New York date pentru a aduna informații despre diferite curse cu taxiul efectuate de utilizatori. Adresăm întrebările în limbaj natural pe lângă datele încărcate în Spark DataFrame. Biblioteca pyspark-ai utilizează apoi Amazon Titan Text FM de la Amazon Bedrock pentru a crea o interogare SQL bazată pe întrebarea în limbaj natural. Biblioteca pyspark-ai preia interogarea SQL, o rulează folosind Spark SQL și oferă rezultate înapoi utilizatorului.

În această soluție, puteți crea și configura resursele necesare în contul dvs. AWS cu un Formarea AWS Cloud șablon. Șablonul creează AWS Adeziv bază de date și tabele, compartiment S3, VPC și altele Gestionarea identității și accesului AWS (IAM) resurse care sunt utilizate în soluție.

Șablonul este conceput pentru a demonstra cum să utilizați EMR Studio cu pachetul pyspark-ai și Amazon Bedrock și nu este destinat utilizării în producție fără modificări. În plus, șablonul folosește us-east-1 Regiune și este posibil să nu funcționeze în alte regiuni fără modificări. Șablonul creează resurse care implică costuri în timp ce sunt în uz. Urmați pașii de curățare de la sfârșitul acestei postări pentru a șterge resursele și pentru a evita taxele inutile.

Cerințe preliminare

Înainte de a lansa stiva CloudFormation, asigurați-vă că aveți următoarele:

Un cont AWS care oferă acces la serviciile AWS
Un utilizator IAM cu o cheie de acces și o cheie secretă pentru a configura AWS CLI și permisiuni pentru a crea un rol IAM, politici IAM și stive în AWS CloudFormation
Modelul Titan Text G1 – Express este în prezent în previzualizare, așa că trebuie să aveți acces la previzualizare pentru a-l folosi ca parte a acestei postări

Creați resurse cu AWS CloudFormation

CloudFormation creează următoarele resurse AWS:

O stivă VPC cu subrețele private și publice de utilizat cu EMR Studio, tabele de rute și gateway-ul NAT.
Un cluster EMR cu Python 3.9 instalat. Folosim o acțiune de bootstrap pentru a instala Python 3.9 și alte pachete relevante, cum ar fi dependențele pyspark-ai și Amazon Bedrock. (Pentru mai multe informații, consultați script bootstrap.)
O găleată S3 pentru spațiul de lucru EMR Studio și stocarea notebook-urilor.
Rolurile și politicile IAM pentru configurarea EMR Studio, accesul Amazon Bedrock și rularea notebook-urilor

Pentru a începe, parcurgeți următorii pași:

Alege Lansați stiva:
Selectați Recunosc că acest șablon poate crea resurse IAM.

Stiva CloudFormation durează aproximativ 20-30 de minute. Puteți monitoriza progresul acestuia pe consola AWS CloudFormation. Când starea lui se citește CREATE_COMPLETE, contul dvs. AWS va avea resursele necesare pentru a implementa această soluție.

Creați EMR Studio

Acum puteți crea un EMR Studio și un spațiu de lucru pentru a lucra cu codul notebook-ului. Parcurgeți următorii pași:

Pe consola EMR Studio, alegeți Creați Studio.
Introduceţi Numele studioului as GenAI-EMR-Studio și furnizați o descriere.
În Rețea și securitate secțiunea, specificați următoarele:
- Pentru VPC, alegeți VPC-ul pe care l-ați creat ca parte a stivei CloudFormation pe care l-ați implementat. Obțineți ID-ul VPC folosind ieșirile CloudFormation pentru cheia VPCID.
- Pentru Subrețele, alegeți toate cele patru subrețele.
- Pentru Securitate și acces, Selectați Grup de securitate personalizat.
- Pentru Grup de securitate cluster/endpoint, alege EMRSparkAI-Cluster-Endpoint-SG.
- Pentru Grup de securitate pentru spațiul de lucru, alege EMRSparkAI-Workspace-SG.
În Rol de serviciu în studio secțiunea, specificați următoarele:
- Pentru Autentificare, Selectați AWS Identity and Access Management (IAM).
- Pentru Rol de serviciu AWS IAM, alege EMRSparkAI-StudioServiceRole.
În Depozitarea spațiului de lucru secțiunea, răsfoiți și alegeți găleata S3 pentru stocare începând cu emr-sparkai-<account-id>.
Alege Creați Studio.
Când este creat EMR Studio, alegeți linkul de sub Adresa URL de acces la Studio pentru a accesa Studioul.
Când sunteți în Studio, alegeți Creați spațiu de lucru.
Adăuga emr-genai ca nume pentru spațiul de lucru și alegeți Creați spațiu de lucru.
Când spațiul de lucru este creat, alegeți-i numele pentru a lansa spațiul de lucru (asigurați-vă că ați dezactivat blocarea ferestrelor pop-up).

Analiza datelor mari folosind Apache Spark cu Amazon EMR și AI generativă

Acum că am finalizat configurarea necesară, putem începe să efectuăm analize de date mari folosind Apache Spark cu Amazon EMR și AI generativă.

Ca prim pas, încărcăm un notebook care are codul necesar și exemple pentru a lucra cu cazul de utilizare. Folosim setul de date NY Taxi, care conține detalii despre călătoriile cu taxiul.

Descărcați fișierul caiet NYTaxi.ipynb și încărcați-l în spațiul dvs. de lucru alegând pictograma de încărcare.
După ce caietul este importat, deschideți blocnotesul și alegeți PySpark ca nucleu.

PySpark AI folosește în mod implicit ChatGPT4.0 de la OpenAI ca model LLM, dar puteți conecta și modele de la Amazon Bedrock, Amazon SageMaker JumpStart, și alte modele terțe. Pentru această postare, arătăm cum să integrăm modelul Amazon Bedrock Titan pentru generarea de interogări SQL și să îl rulăm cu Apache Spark în Amazon EMR.

Pentru a începe cu blocnotesul, trebuie să asociați spațiul de lucru unui strat de calcul. Pentru a face acest lucru, alegeți Calcula pictograma din panoul de navigare și alegeți clusterul EMR creat de stiva CloudFormation.

Configurați parametrii Python pentru a utiliza pachetul actualizat Python 3.9 cu Amazon EMR:

%%configure -f
{
"conf": {
"spark.executorEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9"
}
}

Importă bibliotecile necesare:

from pyspark_ai import SparkAI
from pyspark.sql import SparkSession
from langchain.chat_models import ChatOpenAI
from langchain.llms.bedrock import Bedrock
import boto3
import os

După ce bibliotecile sunt importate, puteți defini modelul LLM de la Amazon Bedrock. În acest caz, folosim amazon.titan-text-express-v1. Trebuie să introduceți adresa URL pentru regiunea și punctul final Amazon Bedrock pe baza accesului dvs. de previzualizare pentru modelul Titan Text G1 – Express.
```
boto3_bedrock = boto3.client('bedrock-runtime', '<region>', endpoint_url='<bedrock endpoint url>')
llm = Bedrock(
model_id="amazon.titan-text-express-v1",
client=boto3_bedrock)
```
Conectați Spark AI la modelul Amazon Bedrock LLM pentru generarea de interogări SQL bazate pe întrebări în limbaj natural:
```
#Connecting Spark AI to the Bedrock Titan LLM
spark_ai = SparkAI(llm = llm, verbose=False)
spark_ai.activate()
```

Aici, am inițializat Spark AI cu verbose=False; De asemenea, puteți seta verbose=True pentru a vedea mai multe detalii.

Acum puteți citi datele NYC Taxi într-un cadru de date Spark și puteți utiliza puterea AI generativă în Spark.

De exemplu, puteți cere numărul de înregistrări din setul de date:

taxi_records.ai.transform("count the number of records in this dataset").show()

Primim următorul răspuns:

> Entering new AgentExecutor chain...
Thought: I need to count the number of records in the table.
Action: query_validation
Action Input: SELECT count(*) FROM spark_ai_temp_view_ee3325
Observation: OK
Thought: I now know the final answer.
Final Answer: SELECT count(*) FROM spark_ai_temp_view_ee3325
> Finished chain.
+----------+
| count(1)|
+----------+
|2870781820|
+----------+

Spark AI folosește intern LangChain și lanțul SQL, care ascund complexitatea utilizatorilor finali care lucrează cu interogări în Spark.

Notebook-ul mai are câteva exemple de scenarii pentru a explora puterea AI generativă cu Apache Spark și Amazon EMR.

A curăța

Goliți conținutul găleții S3 emr-sparkai-<account-id>, ștergeți spațiul de lucru EMR Studio creat ca parte a acestei postări, apoi ștergeți stiva CloudFormation pe care ați implementat-o.

Concluzie

Această postare a arătat cum vă puteți supraalimenta analiza de date mari cu ajutorul Apache Spark cu Amazon EMR și Amazon Bedrock. Pachetul PySpark AI vă permite să obțineți informații semnificative din datele dvs. Ajută la reducerea timpului de dezvoltare și analiză, reducând timpul necesar pentru scrierea interogărilor manuale și permițându-vă să vă concentrați pe cazul dvs. de utilizare în afaceri.

Despre Autori

Saurabh Bhutyani este arhitect principal de soluții specialist în analiză la AWS. Este pasionat de noile tehnologii. S-a alăturat AWS în 2019 și lucrează cu clienții pentru a oferi îndrumări arhitecturale pentru rularea cazurilor de utilizare AI generative, soluții de analiză scalabile și arhitecturi de rețea de date folosind servicii AWS precum Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation, și Amazon DataZone.

Vardhan aspru este un AWS Senior Solutions Architect, specializat în analiză. Are peste 8 ani de experiență în domeniul big data și al științei datelor. Este pasionat de a ajuta clienții să adopte cele mai bune practici și să descopere perspective din datele lor.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
PlatoESG. carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
Sursa: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/

Timestamp-ul: Noiembrie 16, 2023

Timestamp-ul: Noiembrie 15, 2023

Utilizați IA generativă cu Amazon EMR, Amazon Bedrock și SDK pentru limba engleză pentru Apache Spark pentru a debloca informații | Amazon Web Services

Republicat de Platon

Prezentare generală a soluțiilor

Cerințe preliminare

Creați resurse cu AWS CloudFormation

Creați EMR Studio

Analiza datelor mari folosind Apache Spark cu Amazon EMR și AI generativă

A curăța

Concluzie

Despre Autori

Mai mult de la AWS Big Data

Amazon QuickSight ajută TalentReef să-și dezvolte clienții să ia decizii de angajare mai informate

Încărcați datele în mod incremental de la lacurile de date tranzacționale în depozitele de date | Amazon Web Services

Vizualizați date multivariate folosind o diagramă radar în Amazon QuickSight

Prezentarea suportului VPC partajat pe Amazon MWAA | Amazon Web Services

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont