Használja a Generatív mesterséges intelligenciát az Amazon EMR-rel, az Amazon Bedrock-kal és az angol SDK-val az Apache Spark-hoz az Insights feltárásához | Amazon Web Services

Újra kiadta Platón

Követő: 0

A big data korszakában a szervezetek világszerte folyamatosan innovatív módszereket keresnek, hogy értéket és betekintést nyerjenek hatalmas adatkészleteikből. Apache Spark méretezhetőséget és sebességet kínál a nagy mennyiségű adat hatékony feldolgozásához.

Amazon EMR az iparág vezető felhőalapú big data megoldása petabájtos méretű adatfeldolgozáshoz, interaktív elemzéshez és gépi tanuláshoz (ML) olyan nyílt forráskódú keretrendszerek használatával, mint az Apache Spark, Apache Hiveés Gyors. Az Amazon EMR a legjobb hely az Apache Spark futtatására. Gyorsan és könnyedén létrehozhat felügyelt Spark-fürtöket a AWS felügyeleti konzol, AWS parancssori interfész (AWS CLI), vagy Amazon EMR API. Használhat további Amazon EMR-szolgáltatásokat is, beleértve a gyors Amazon egyszerű tárolási szolgáltatás (Amazon S3) csatlakoztathatósága az Amazon EMR fájlrendszer (EMRFS) használatával, integráció a Amazon EC2 Spot piac és a AWS ragasztó Data Catalog és EMR Managed Scaling példányok hozzáadásához vagy eltávolításához a fürtből. Amazon EMR Studio egy integrált fejlesztői környezet (IDE), amely egyszerűvé teszi az adattudósok és adatmérnökök számára az R, Python, Scala és PySpark nyelven írt adatmérnöki és adattudományi alkalmazások fejlesztését, megjelenítését és hibakeresését. Az EMR Studio teljes körűen felügyelt Jupyter notebookokat és olyan eszközöket biztosít, mint a Spark UI és a YARN Timeline Service a hibakeresés egyszerűsítésére.

Az adatbányákban rejlő lehetőségek felszabadításához elengedhetetlen, hogy túllépjünk a hagyományos analitikán. Lépjen be a generatív AI-ba, egy olyan élvonalbeli technológiába, amely az ML-t a kreativitással ötvözi, így emberszerű szöveget, művészetet, sőt kódot is generál. Amazon alapkőzet ez a legegyszerűbb módja a generatív AI-alkalmazások létrehozásának és méretezésének alapmodellekkel (FM). Az Amazon Bedrock egy teljesen felügyelt szolgáltatás, amely API-n keresztül elérhetővé teszi az Amazon és a vezető AI-cégek FM-jeit, így gyorsan kísérletezhet különféle FM-ekkel a játszótéren, és egyetlen API-t használhat a következtetésekhez, függetlenül a választott modelltől. rugalmasan használhatja a különböző szolgáltatók FM-jeit, és minimális kódmódosítással naprakész lehet a legújabb modellverziókkal.

Ebben a bejegyzésben megvizsgáljuk, hogyan töltheti fel adatelemzését generatív mesterséges intelligencia segítségével az Amazon EMR, az Amazon Bedrock és a pyspark-ai könyvtár. A pyspark-ai könyvtár az Apache Spark angol SDK-ja. Angol nyelvű utasításokat vesz, és PySpark objektumokká, például DataFrames-ekké fordítja le. Ez egyszerűvé teszi a Sparkkal való munkát, lehetővé téve, hogy az adatokból való érték kinyerésére összpontosítson.

Megoldás áttekintése

A következő diagram bemutatja a generatív mesterséges intelligencia használatának architektúráját az Amazon EMR-rel és az Amazon Bedrock-kal.

Megoldás áttekintése

Az EMR Studio egy webalapú IDE a teljesen felügyelt Jupyter notebookokhoz, amelyek EMR-fürtökön futnak. Együttműködünk a futó EMR-fürthöz kapcsolódó EMR Studio munkaterületekkel, és futtatjuk a bejegyzés részeként biztosított notebookot. Használjuk a New York City Taxi adatok, amelyek segítségével betekintést nyerhet a felhasználók különböző taxizásaiba. A kérdéseket természetes nyelven tesszük fel a Spark DataFrame-be betöltött adatokon felül. A pyspark-ai könyvtár ezután az Amazon Bedrock Amazon Titan Text FM-jét használja, hogy SQL-lekérdezést hozzon létre a természetes nyelvi kérdés alapján. A pyspark-ai könyvtár veszi az SQL-lekérdezést, Spark SQL használatával futtatja, és visszaküldi az eredményeket a felhasználónak.

Ebben a megoldásban létrehozhatja és konfigurálhatja a szükséges erőforrásokat az AWS-fiókjában egy AWS felhőképződés sablon. A sablon létrehozza a AWS ragasztó adatbázis és táblák, S3 vödör, VPC és egyéb AWS Identity and Access Management (IAM) erőforrások, amelyeket a megoldásban használnak.

A sablon célja, hogy bemutassa az EMR Studio használatát a pyspark-ai csomaggal és az Amazon Bedrock-kal, és nem készült módosítás nélküli éles használatra. Ezenkívül a sablon a us-east-1 régióban, és módosítás nélkül nem működhet más régiókban. A sablon olyan erőforrásokat hoz létre, amelyek használatuk során költségekkel járnak. Kövesse a bejegyzés végén található tisztítási lépéseket az erőforrások törléséhez és a felesleges költségek elkerüléséhez.

Előfeltételek

A CloudFormation verem elindítása előtt győződjön meg arról, hogy rendelkezik a következőkkel:

Egy AWS-fiók, amely hozzáférést biztosít az AWS-szolgáltatásokhoz
Egy IAM-felhasználó hozzáférési kulccsal és titkos kulccsal az AWS CLI konfigurálásához, valamint engedélyekkel IAM-szerepkör, IAM-házirendek és veremek létrehozására az AWS CloudFormationben
A Titan Text G1 – Express modell jelenleg előnézetben van, ezért előzetes hozzáféréssel kell rendelkeznie, hogy a bejegyzés részeként használhassa.

Hozzon létre erőforrásokat az AWS CloudFormation segítségével

A CloudFormation a következő AWS-erőforrásokat hozza létre:

VPC-verem privát és nyilvános alhálózatokkal az EMR Stúdióval, útvonaltáblázatokkal és NAT-átjáróval használható.
Egy EMR-fürt Python 3.9 telepítve. Bootstrap műveletet használunk a Python 3.9 és más releváns csomagok, például a pyspark-ai és az Amazon Bedrock függőségek telepítéséhez. (További információért lásd a bootstrap szkript.)
Egy S3-as vödör az EMR Studio Workspace-hez és notebook tárolóhoz.
IAM-szerepek és szabályzatok az EMR Studio beállításához, az Amazon Bedrock hozzáféréshez és a notebookok futtatásához

A kezdéshez hajtsa végre a következő lépéseket:

A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Verem indítása:
választ Tudomásul veszem, hogy ez a sablon IAM-erőforrásokat hozhat létre.

A CloudFormation verem körülbelül 20–30 percet vesz igénybe. A folyamat előrehaladását az AWS CloudFormation konzolon követheti nyomon. Amikor az állapota olvasható CREATE_COMPLETE, az AWS-fiókja rendelkezik majd a megoldás megvalósításához szükséges erőforrásokkal.

Hozzon létre EMR Stúdiót

Most létrehozhat egy EMR Stúdiót és Munkaterületet a notebook kóddal való munkavégzéshez. Hajtsa végre a következő lépéseket:

Az EMR Studio konzolon válassza a lehetőséget Stúdió létrehozása.
Lépjen be a Stúdió neve as GenAI-EMR-Studio és adjon leírást.
A Hálózat és biztonság szakaszban adja meg a következőket:
- A VPC, válassza ki azt a VPC-t, amelyet a telepített CloudFormation-verem részeként hozott létre. Szerezze meg a VPC-azonosítót a VPCID-kulcs CloudFormation-kimeneteinek használatával.
- A Alhálózatok, válassza ki mind a négy alhálózatot.
- A Biztonság és hozzáférésválassza Egyéni biztonsági csoport.
- A Fürt/végpont biztonsági csoport, választ EMRSparkAI-Cluster-Endpoint-SG.
- A Munkaterület biztonsági csoport, választ EMRSparkAI-Workspace-SG.
A Stúdió szolgáltatási szerepkör szakaszban adja meg a következőket:
- A Hitelesítésválassza AWS Identity and Access Management (IAM).
- A AWS IAM szolgáltatási szerepkör, választ EMRSparkAI-StudioServiceRole.
A Munkaterület tárolása szakaszt, böngésszen és válassza ki az S3 vödröt a tároláshoz emr-sparkai-<account-id>.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Stúdió létrehozása.
Az EMR Stúdió létrehozásakor válassza ki az alábbi hivatkozást Studio hozzáférési URL a Stúdió eléréséhez.
Amikor a Stúdióban tartózkodik, válasszon Hozzon létre munkaterületet.
hozzáad emr-genai a Munkaterület neveként, és válassza a lehetőséget Hozzon létre munkaterületet.
A munkaterület létrehozásakor válassza ki a nevét a munkaterület elindításához (győződjön meg arról, hogy letiltotta az előugró ablakok blokkolását).

Nagy adatelemzés az Apache Spark segítségével, az Amazon EMR-rel és a generatív mesterséges intelligenciával

Most, hogy elvégeztük a szükséges beállítást, megkezdhetjük a nagy adatelemzést az Apache Spark, az Amazon EMR és a generatív mesterséges intelligencia használatával.

Első lépésként betöltünk egy notebookot, amely tartalmazza a szükséges kódot és példákat a használati esethez. NY Taxi adatkészletet használunk, amely a taxizás részleteit tartalmazza.

Töltse le a notebook fájlt NYTaxi.ipynb és töltse fel a munkaterületére a feltöltés ikon kiválasztásával.
A jegyzetfüzet importálása után nyissa meg a jegyzetfüzetet, és válassza a lehetőséget PySpark mint a kernel.

PySpark AI alapértelmezés szerint az OpenAI ChatGPT4.0-ját használja LLM-modellként, de az Amazon Bedrock modelljeit is csatlakoztathatja, Amazon SageMaker JumpStartés más harmadik féltől származó modellek. Ebben a bejegyzésben bemutatjuk, hogyan integrálható az Amazon Bedrock Titan modell az SQL-lekérdezések generálásához, és hogyan futtatható az Apache Spark segítségével az Amazon EMR-ben.

A jegyzetfüzet használatának megkezdéséhez hozzá kell rendelnie a munkaterületet egy számítási réteghez. Ehhez válassza a Kiszámít ikont a navigációs panelen, és válassza ki a CloudFormation verem által létrehozott EMR-fürtöt.

Állítsa be a Python-paramétereket a frissített Python 3.9-es csomag használatához az Amazon EMR-rel:

%%configure -f
{
"conf": {
"spark.executorEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9"
}
}

Importálja a szükséges könyvtárakat:

from pyspark_ai import SparkAI
from pyspark.sql import SparkSession
from langchain.chat_models import ChatOpenAI
from langchain.llms.bedrock import Bedrock
import boto3
import os

A könyvtárak importálása után meghatározhatja az LLM-modellt az Amazon Bedrockból. Ebben az esetben az amazon.titan-text-express-v1-et használjuk. Meg kell adnia a régió és az Amazon Bedrock végpont URL-jét a Titan Text G1 – Express modell előnézeti hozzáférése alapján.
```
boto3_bedrock = boto3.client('bedrock-runtime', '<region>', endpoint_url='<bedrock endpoint url>')
llm = Bedrock(
model_id="amazon.titan-text-express-v1",
client=boto3_bedrock)
```
Csatlakoztassa a Spark AI-t az Amazon Bedrock LLM modellhez az SQL lekérdezések generálásához természetes nyelvű kérdések alapján:
```
#Connecting Spark AI to the Bedrock Titan LLM
spark_ai = SparkAI(llm = llm, verbose=False)
spark_ai.activate()
```

Itt a Spark AI-t verbose=False; beállíthatja a verbose=True értéket is a további részletek megtekintéséhez.

Most már olvashatja a NYC Taxi adatait egy Spark DataFrame-ben, és használhatja a generatív mesterséges intelligencia erejét a Sparkban.

Például megkérdezheti az adatkészlet rekordjainak számát:

taxi_records.ai.transform("count the number of records in this dataset").show()

A következő választ kapjuk:

> Entering new AgentExecutor chain...
Thought: I need to count the number of records in the table.
Action: query_validation
Action Input: SELECT count(*) FROM spark_ai_temp_view_ee3325
Observation: OK
Thought: I now know the final answer.
Final Answer: SELECT count(*) FROM spark_ai_temp_view_ee3325
> Finished chain.
+----------+
| count(1)|
+----------+
|2870781820|
+----------+

A Spark AI belsőleg használ LangChain és SQL-lánc, amely elrejti a bonyolultságot a Sparkban lekérdezésekkel dolgozó végfelhasználók elől.

A notebook még néhány példa forgatókönyvet tartalmaz a generatív mesterséges intelligencia erejének felfedezéséhez az Apache Spark és az Amazon EMR segítségével.

Tisztítsuk meg

Ürítse ki az S3 vödör tartalmát emr-sparkai-<account-id>, törölje a bejegyzés részeként létrehozott EMR Studio Workspace-t, majd törölje a telepített CloudFormation-vereget.

Következtetés

Ez a bejegyzés bemutatta, hogyan töltheti fel a nagy adathalmazok elemzését az Apache Spark segítségével az Amazon EMR és az Amazon Bedrock segítségével. A PySpark AI csomag lehetővé teszi, hogy értelmes betekintést nyerjen adataiból. Segít csökkenteni a fejlesztési és elemzési időt, csökkenti a kézi lekérdezések írási idejét, és lehetővé teszi, hogy az üzleti felhasználási esetre összpontosítson.

A szerzőkről

Szaurabh Bhutyani az AWS vezető analitikai megoldásokra szakosodott építésze. Szenvedélyesen rajong az új technológiákért. 2019-ben csatlakozott az AWS-hez, és az ügyfelekkel együttműködve építészeti útmutatást nyújt a generatív mesterségesintelligencia-használati esetek, a méretezhető analitikai megoldások és az olyan AWS-szolgáltatásokat használó adatháló-architektúrák futtatásához, mint az Amazon Bedrock, az Amazon SageMaker, az Amazon EMR, az Amazon Athena, az AWS Glue, az AWS Lake Formation, és az Amazon DataZone.

Kemény Vardhan az AWS Senior Solutions Architect, az analitikára szakosodott. Több mint 8 éves tapasztalattal rendelkezik a big data és adattudomány területén. Szenvedélyesen segíti ügyfeleit a bevált gyakorlatok átvételében és az adataikból származó betekintések felfedezésében.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/

Időbélyeg: November 16, 2023

Időbélyeg: 15. november 2023.

Használjon generatív mesterséges intelligenciát az Amazon EMR-rel, az Amazon Bedrock-kal és az Apache Spark angol SDK-val, hogy betekintést nyerjen | Amazon webszolgáltatások

Újra kiadta Platón

Megoldás áttekintése

Előfeltételek

Hozzon létre erőforrásokat az AWS CloudFormation segítségével

Hozzon létre EMR Stúdiót

Nagy adatelemzés az Apache Spark segítségével, az Amazon EMR-rel és a generatív mesterséges intelligenciával

Tisztítsuk meg

Következtetés

A szerzőkről

Még több AWS Big Data

Az Amazon QuickSight segítségével a TalentReef képessé teszi ügyfeleit arra, hogy megalapozottabb munkaerő-felvételi döntéseket hozzanak

Adatok fokozatos betöltése a tranzakciós adattókból az adattárházakba | Amazon webszolgáltatások

Vizualizálja a többváltozós adatokat az Amazon QuickSight radardiagramjával

Megosztott VPC-támogatás bevezetése az Amazon MWAA |-on Amazon webszolgáltatások

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók