Uporabite Generative AI z Amazon EMR, Amazon Bedrock in English SDK za Apache Spark za odklepanje vpogledov | Spletne storitve Amazon

Ponovno objavil Platon

Spremljevalci: 0

V tej dobi velikih podatkov organizacije po vsem svetu nenehno iščejo inovativne načine za pridobivanje vrednosti in vpogledov iz svojih ogromnih naborov podatkov. Apache Spark ponuja razširljivost in hitrost, potrebno za učinkovito obdelavo velikih količin podatkov.

Amazonski EMR je vodilna rešitev za velike podatke v oblaku za petabajtno obdelavo podatkov, interaktivno analitiko in strojno učenje (ML) z uporabo odprtokodnih okvirov, kot je Apache Spark, Apache panjin Presto. Amazon EMR je najboljše mesto za zagon Apache Spark. Hitro in brez truda lahko ustvarite upravljane gruče Spark iz Konzola za upravljanje AWS, Vmesnik ukazne vrstice AWS (AWS CLI) ali Amazon EMR API. Uporabite lahko tudi dodatne funkcije Amazon EMR, vključno s hitrim Preprosta storitev shranjevanja Amazon (Amazon S3) povezljivost z uporabo datotečnega sistema Amazon EMR (EMRFS), integracija z Amazon EC2 Spot trg in AWS lepilo Data Catalog in EMR Managed Scaling za dodajanje ali odstranjevanje primerkov iz vaše gruče. Amazon EMR Studio je integrirano razvojno okolje (IDE), ki podatkovnim znanstvenikom in podatkovnim inženirjem olajša razvoj, vizualizacijo in odpravljanje napak v aplikacijah za podatkovno inženirstvo in podatkovno znanost, napisanih v R, Python, Scala in PySpark. EMR Studio ponuja popolnoma upravljane prenosnike Jupyter in orodja, kot sta Spark UI in YARN Timeline Service, za poenostavitev odpravljanja napak.

Da bi odklenili potencial, skrit v zalogah podatkov, je bistveno preseči tradicionalno analitiko. Vstopite v generativni AI, vrhunsko tehnologijo, ki združuje ML z ustvarjalnostjo za ustvarjanje besedila, umetnosti in celo kode, podobnega človeku. Amazon Bedrock je najpreprostejši način za gradnjo in povečanje generativnih aplikacij AI s temeljnimi modeli (FM). Amazon Bedrock je popolnoma upravljana storitev, ki omogoča FM-je Amazona in vodilnih podjetij AI na voljo prek API-ja, tako da lahko hitro eksperimentirate z različnimi FM-ji na igrišču in uporabite en sam API za sklepanje ne glede na modele, ki jih izberete, kar daje imate prilagodljivost pri uporabi FM-jev različnih ponudnikov in na tekočem z najnovejšimi različicami modelov z minimalnimi spremembami kode.

V tej objavi raziskujemo, kako lahko nadgradite svojo podatkovno analitiko z generativnim AI z uporabo Amazon EMR, Amazon Bedrock in pyspark-ai knjižnica. Knjižnica pyspark-ai je angleški SDK za Apache Spark. Prevzame navodila v angleškem jeziku in jih prevede v objekte PySpark, kot je DataFrames. Zaradi tega je delo s Sparkom preprosto, kar vam omogoča, da se osredotočite na pridobivanje vrednosti iz svojih podatkov.

Pregled rešitev

Naslednji diagram ponazarja arhitekturo za uporabo generativne umetne inteligence z Amazon EMR in Amazon Bedrock.

Pregled rešitve

EMR Studio je spletni IDE za popolnoma upravljane prenosne računalnike Jupyter, ki delujejo v gručah EMR. Sodelujemo z delovnimi prostori EMR Studio, ki so povezani z delujočo gručo EMR, in izvajamo prenosni računalnik, ki je na voljo kot del te objave. Uporabljamo New York City Taxi podatke za pridobitev vpogleda v različne vožnje s taksijem uporabnikov. Vprašanja postavljamo v naravnem jeziku poleg podatkov, naloženih v Spark DataFrame. Knjižnica pyspark-ai nato uporabi Amazon Titan Text FM podjetja Amazon Bedrock za ustvarjanje poizvedbe SQL na podlagi vprašanja naravnega jezika. Knjižnica pyspark-ai sprejme poizvedbo SQL, jo zažene s pomočjo Spark SQL in uporabniku vrne rezultate.

V tej rešitvi lahko ustvarite in konfigurirate potrebne vire v svojem računu AWS z Oblikovanje oblaka AWS predlogo. Predloga ustvari AWS lepilo baza podatkov in tabel, vedro S3, VPC in drugo AWS upravljanje identitete in dostopa (IAM), ki se uporabljajo v rešitvi.

Predloga je zasnovana tako, da pokaže, kako uporabljati EMR Studio s paketom pyspark-ai in Amazon Bedrock, in ni namenjena produkcijski uporabi brez sprememb. Poleg tega predloga uporablja us-east-1 Regija in morda ne bo delovala v drugih regijah brez sprememb. Predloga ustvarja vire, ki povzročajo stroške, medtem ko so v uporabi. Sledite korakom za čiščenje na koncu te objave, da izbrišete vire in se izognete nepotrebnim stroškom.

Predpogoji

Preden zaženete sklad CloudFormation, zagotovite, da imate naslednje:

Račun AWS, ki omogoča dostop do storitev AWS
Uporabnik IAM s ključem za dostop in skrivnim ključem za konfiguracijo AWS CLI ter dovoljenji za ustvarjanje vloge IAM, pravilnikov IAM in skladov v AWS CloudFormation
Model Titan Text G1 – Express je trenutno v predogledu, zato morate imeti dostop do predogleda, če ga želite uporabiti kot del te objave

Ustvarite vire z AWS CloudFormation

CloudFormation ustvari naslednje vire AWS:

Sklad VPC z zasebnimi in javnimi podomrežji za uporabo z EMR Studio, usmerjevalnimi tabelami in prehodom NAT.
Grozd EMR z nameščenim Pythonom 3.9. Za namestitev Pythona 3.9 in drugih ustreznih paketov, kot sta odvisnosti pyspark-ai in Amazon Bedrock, uporabljamo dejanje zagona. (Za več informacij glejte zagonski skript.)
Vedro S3 za delovni prostor EMR Studio in shranjevanje prenosnih računalnikov.
Vloge in pravilniki IAM za nastavitev EMR Studio, dostop do Amazon Bedrock in tekoče prenosnike

Če želite začeti, izvedite naslednje korake:

Izberite Zagonski sklad:
Izberite Potrjujem, da lahko ta predloga ustvari vire IAM.

Dokončanje sklada CloudFormation traja približno 20–30 minut. Njegov napredek lahko spremljate na konzoli AWS CloudFormation. Ko se njegovo stanje glasi CREATE_COMPLETE, bo imel vaš račun AWS potrebna sredstva za implementacijo te rešitve.

Ustvari EMR Studio

Zdaj lahko ustvarite EMR Studio in delovni prostor za delo s kodo prenosnika. Izvedite naslednje korake:

Na konzoli EMR Studio izberite Ustvari Studio.
Vpišite Ime studia as GenAI-EMR-Studio in podajte opis.
v Mreženje in varnost razdelku navedite naslednje:
- za VPC, izberite VPC, ki ste ga ustvarili kot del sklada CloudFormation, ki ste ga uvedli. Pridobite ID VPC z izhodi CloudFormation za ključ VPCID.
- za Podomrežja, izberite vsa štiri podomrežja.
- za Varnost in dostoptako, da izberete Varnostna skupina po meri.
- za Varnostna skupina gruče/končne točke, izberite EMRSparkAI-Cluster-Endpoint-SG.
- za Varnostna skupina delovnega prostora, izberite EMRSparkAI-Workspace-SG.
v Vloga storitve studia razdelku navedite naslednje:
- za Preverjanje pristnostitako, da izberete AWS upravljanje identitete in dostopa (IAM).
- za Vloga storitve AWS IAM, izberite EMRSparkAI-StudioServiceRole.
v Shranjevanje delovnega prostora prebrskajte in izberite vedro S3 za shranjevanje, začenši z emr-sparkai-<account-id>.
Izberite Ustvari Studio.
Ko je EMR Studio ustvarjen, izberite povezavo pod URL za dostop do studia za dostop do studia.
Ko ste v Studiu, izberite Ustvari delovni prostor.
Dodaj emr-genai kot ime za delovni prostor in izberite Ustvari delovni prostor.
Ko je delovni prostor ustvarjen, izberite njegovo ime za zagon delovnega prostora (prepričajte se, da ste onemogočili morebitne blokatorje pojavnih oken).

Analitika velikih podatkov z uporabo Apache Spark z Amazon EMR in generativnim AI

Zdaj, ko smo dokončali zahtevano nastavitev, lahko začnemo izvajati analitiko velikih podatkov z uporabo Apache Spark z Amazon EMR in generativnim AI.

Kot prvi korak naložimo zvezek z zahtevano kodo in primeri za delo s primerom uporabe. Uporabljamo nabor podatkov NY Taxi, ki vsebuje podrobnosti o vožnjah s taksijem.

Prenesite datoteko z zvezkom NYTaxi.ipynb in ga naložite v svoj delovni prostor tako, da izberete ikono za nalaganje.
Ko je zvezek uvožen, odprite zvezek in izberite PySpark kot jedro.

PySpark AI privzeto uporablja OpenAI's ChatGPT4.0 kot model LLM, vendar lahko priključite tudi modele iz Amazon Bedrock, Amazon SageMaker JumpStart, in drugi modeli tretjih oseb. Za to objavo pokažemo, kako integrirati model Amazon Bedrock Titan za generiranje poizvedb SQL in ga zagnati z Apache Spark v Amazon EMR.

Če želite začeti uporabljati prenosni računalnik, morate delovni prostor povezati z računalniško plastjo. Če želite to narediti, izberite Izračunajte ikono v navigacijskem podoknu in izberite gručo EMR, ki jo je ustvaril sklad CloudFormation.

Konfigurirajte parametre Python za uporabo posodobljenega paketa Python 3.9 z Amazon EMR:

%%configure -f
{
"conf": {
"spark.executorEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9"
}
}

Uvozite potrebne knjižnice:

from pyspark_ai import SparkAI
from pyspark.sql import SparkSession
from langchain.chat_models import ChatOpenAI
from langchain.llms.bedrock import Bedrock
import boto3
import os

Ko so knjižnice uvožene, lahko definirate model LLM iz Amazon Bedrock. V tem primeru uporabimo amazon.titan-text-express-v1. Vnesti morate URL končne točke regije in Amazon Bedrock glede na vaš dostop do predogleda za model Titan Text G1 – Express.
```
boto3_bedrock = boto3.client('bedrock-runtime', '<region>', endpoint_url='<bedrock endpoint url>')
llm = Bedrock(
model_id="amazon.titan-text-express-v1",
client=boto3_bedrock)
```
Povežite Spark AI z modelom Amazon Bedrock LLM za generiranje poizvedb SQL na podlagi vprašanj v naravnem jeziku:
```
#Connecting Spark AI to the Bedrock Titan LLM
spark_ai = SparkAI(llm = llm, verbose=False)
spark_ai.activate()
```

Tukaj smo inicializirali Spark AI z verbose=False; lahko tudi nastavite verbose=True, da vidite več podrobnosti.

Zdaj lahko berete podatke NYC Taxi v Spark DataFrame in uporabite moč generativne umetne inteligence v Spark.

Vprašate lahko na primer število zapisov v naboru podatkov:

taxi_records.ai.transform("count the number of records in this dataset").show()

Dobimo naslednji odgovor:

> Entering new AgentExecutor chain...
Thought: I need to count the number of records in the table.
Action: query_validation
Action Input: SELECT count(*) FROM spark_ai_temp_view_ee3325
Observation: OK
Thought: I now know the final answer.
Final Answer: SELECT count(*) FROM spark_ai_temp_view_ee3325
> Finished chain.
+----------+
| count(1)|
+----------+
|2870781820|
+----------+

Spark AI interno uporablja LangChain in verigo SQL, ki skrijeta kompleksnost pred končnimi uporabniki, ki delajo s poizvedbami v Sparku.

Beležnica vsebuje še nekaj primerov scenarijev za raziskovanje moči generativne umetne inteligence z Apache Spark in Amazon EMR.

Čiščenje

Izpraznite vsebino vedra S3 emr-sparkai-<account-id>, izbrišite delovni prostor EMR Studio, ustvarjen kot del te objave, in nato izbrišite sklad CloudFormation, ki ste ga uvedli.

zaključek

Ta objava je pokazala, kako lahko nadgradite svojo analitiko velikih podatkov s pomočjo Apache Spark z Amazon EMR in Amazon Bedrock. Paket AI PySpark vam omogoča, da iz svojih podatkov pridobite pomembne vpoglede. Pomaga skrajšati čas razvoja in analize, skrajša čas za pisanje ročnih poizvedb in vam omogoča, da se osredotočite na svoj poslovni primer uporabe.

O avtorjih

Saurabh Bhutyani je glavni arhitekt specialist za analitiko pri AWS. Navdušen je nad novimi tehnologijami. AWS se je pridružil leta 2019 in sodeluje s strankami pri zagotavljanju arhitekturnih smernic za izvajanje generativnih primerov uporabe umetne inteligence, razširljivih analitičnih rešitev in arhitektur podatkovnih mrež z uporabo storitev AWS, kot so Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation, in Amazon DataZone.

Hud Vardhan je višji arhitekt rešitev AWS, specializiran za analitiko. Ima več kot 8 let delovnih izkušenj na področju velikih podatkov in podatkovne znanosti. Strastno želi pomagati strankam, da sprejmejo najboljše prakse in odkrijejo vpoglede iz njihovih podatkov.

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
vir: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/

Časovni žig: November 16, 2023

Časovni žig: November 15, 2023

Uporabite generativni AI z Amazon EMR, Amazon Bedrock in English SDK za Apache Spark za odklepanje vpogledov | Spletne storitve Amazon

Ponovno objavil Platon

Pregled rešitev

Predpogoji

Ustvarite vire z AWS CloudFormation

Ustvari EMR Studio

Analitika velikih podatkov z uporabo Apache Spark z Amazon EMR in generativnim AI

Čiščenje

zaključek

O avtorjih

Več od Veliki podatki AWS

Amazon QuickSight pomaga TalentReefu opolnomočiti svoje stranke, da sprejemajo bolj premišljene odločitve pri zaposlovanju

Postopno nalaganje podatkov iz transakcijskih podatkovnih jezer v podatkovna skladišča | Spletne storitve Amazon

Vizualizirajte večvariatne podatke z radarsko karto v Amazon QuickSight

Predstavljamo skupno podporo VPC na Amazon MWAA | Spletne storitve Amazon

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun