A big data korszakában a szervezetek világszerte folyamatosan innovatív módszereket keresnek, hogy értéket és betekintést nyerjenek hatalmas adatkészleteikből. Apache Spark méretezhetőséget és sebességet kínál a nagy mennyiségű adat hatékony feldolgozásához.
Amazon EMR az iparág vezető felhőalapú big data megoldása petabájtos méretű adatfeldolgozáshoz, interaktív elemzéshez és gépi tanuláshoz (ML) olyan nyílt forráskódú keretrendszerek használatával, mint az Apache Spark, Apache Hiveés Gyors. Az Amazon EMR a legjobb hely az Apache Spark futtatására. Gyorsan és könnyedén létrehozhat felügyelt Spark-fürtöket a AWS felügyeleti konzol, AWS parancssori interfész (AWS CLI), vagy Amazon EMR API. Használhat további Amazon EMR-szolgáltatásokat is, beleértve a gyors Amazon egyszerű tárolási szolgáltatás (Amazon S3) csatlakoztathatósága az Amazon EMR fájlrendszer (EMRFS) használatával, integráció a Amazon EC2 Spot piac és a AWS ragasztó Data Catalog és EMR Managed Scaling példányok hozzáadásához vagy eltávolításához a fürtből. Amazon EMR Studio egy integrált fejlesztői környezet (IDE), amely egyszerűvé teszi az adattudósok és adatmérnökök számára az R, Python, Scala és PySpark nyelven írt adatmérnöki és adattudományi alkalmazások fejlesztését, megjelenítését és hibakeresését. Az EMR Studio teljes körűen felügyelt Jupyter notebookokat és olyan eszközöket biztosít, mint a Spark UI és a YARN Timeline Service a hibakeresés egyszerűsítésére.
Az adatbányákban rejlő lehetőségek felszabadításához elengedhetetlen, hogy túllépjünk a hagyományos analitikán. Lépjen be a generatív AI-ba, egy olyan élvonalbeli technológiába, amely az ML-t a kreativitással ötvözi, így emberszerű szöveget, művészetet, sőt kódot is generál. Amazon alapkőzet ez a legegyszerűbb módja a generatív AI-alkalmazások létrehozásának és méretezésének alapmodellekkel (FM). Az Amazon Bedrock egy teljesen felügyelt szolgáltatás, amely API-n keresztül elérhetővé teszi az Amazon és a vezető AI-cégek FM-jeit, így gyorsan kísérletezhet különféle FM-ekkel a játszótéren, és egyetlen API-t használhat a következtetésekhez, függetlenül a választott modelltől. rugalmasan használhatja a különböző szolgáltatók FM-jeit, és minimális kódmódosítással naprakész lehet a legújabb modellverziókkal.
Ebben a bejegyzésben megvizsgáljuk, hogyan töltheti fel adatelemzését generatív mesterséges intelligencia segítségével az Amazon EMR, az Amazon Bedrock és a pyspark-ai könyvtár. A pyspark-ai könyvtár az Apache Spark angol SDK-ja. Angol nyelvű utasításokat vesz, és PySpark objektumokká, például DataFrames-ekké fordítja le. Ez egyszerűvé teszi a Sparkkal való munkát, lehetővé téve, hogy az adatokból való érték kinyerésére összpontosítson.
Megoldás áttekintése
A következő diagram bemutatja a generatív mesterséges intelligencia használatának architektúráját az Amazon EMR-rel és az Amazon Bedrock-kal.
Az EMR Studio egy webalapú IDE a teljesen felügyelt Jupyter notebookokhoz, amelyek EMR-fürtökön futnak. Együttműködünk a futó EMR-fürthöz kapcsolódó EMR Studio munkaterületekkel, és futtatjuk a bejegyzés részeként biztosított notebookot. Használjuk a New York City Taxi adatok, amelyek segítségével betekintést nyerhet a felhasználók különböző taxizásaiba. A kérdéseket természetes nyelven tesszük fel a Spark DataFrame-be betöltött adatokon felül. A pyspark-ai könyvtár ezután az Amazon Bedrock Amazon Titan Text FM-jét használja, hogy SQL-lekérdezést hozzon létre a természetes nyelvi kérdés alapján. A pyspark-ai könyvtár veszi az SQL-lekérdezést, Spark SQL használatával futtatja, és visszaküldi az eredményeket a felhasználónak.
Ebben a megoldásban létrehozhatja és konfigurálhatja a szükséges erőforrásokat az AWS-fiókjában egy AWS felhőképződés sablon. A sablon létrehozza a AWS ragasztó adatbázis és táblák, S3 vödör, VPC és egyéb AWS Identity and Access Management (IAM) erőforrások, amelyeket a megoldásban használnak.
A sablon célja, hogy bemutassa az EMR Studio használatát a pyspark-ai csomaggal és az Amazon Bedrock-kal, és nem készült módosítás nélküli éles használatra. Ezenkívül a sablon a us-east-1
régióban, és módosítás nélkül nem működhet más régiókban. A sablon olyan erőforrásokat hoz létre, amelyek használatuk során költségekkel járnak. Kövesse a bejegyzés végén található tisztítási lépéseket az erőforrások törléséhez és a felesleges költségek elkerüléséhez.
Előfeltételek
A CloudFormation verem elindítása előtt győződjön meg arról, hogy rendelkezik a következőkkel:
- Egy AWS-fiók, amely hozzáférést biztosít az AWS-szolgáltatásokhoz
- Egy IAM-felhasználó hozzáférési kulccsal és titkos kulccsal az AWS CLI konfigurálásához, valamint engedélyekkel IAM-szerepkör, IAM-házirendek és veremek létrehozására az AWS CloudFormationben
- A Titan Text G1 – Express modell jelenleg előnézetben van, ezért előzetes hozzáféréssel kell rendelkeznie, hogy a bejegyzés részeként használhassa.
Hozzon létre erőforrásokat az AWS CloudFormation segítségével
A CloudFormation a következő AWS-erőforrásokat hozza létre:
- VPC-verem privát és nyilvános alhálózatokkal az EMR Stúdióval, útvonaltáblázatokkal és NAT-átjáróval használható.
- Egy EMR-fürt Python 3.9 telepítve. Bootstrap műveletet használunk a Python 3.9 és más releváns csomagok, például a pyspark-ai és az Amazon Bedrock függőségek telepítéséhez. (További információért lásd a bootstrap szkript.)
- Egy S3-as vödör az EMR Studio Workspace-hez és notebook tárolóhoz.
- IAM-szerepek és szabályzatok az EMR Studio beállításához, az Amazon Bedrock hozzáféréshez és a notebookok futtatásához
A kezdéshez hajtsa végre a következő lépéseket:
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Verem indítása:
- választ Tudomásul veszem, hogy ez a sablon IAM-erőforrásokat hozhat létre.
A CloudFormation verem körülbelül 20–30 percet vesz igénybe. A folyamat előrehaladását az AWS CloudFormation konzolon követheti nyomon. Amikor az állapota olvasható CREATE_COMPLETE
, az AWS-fiókja rendelkezik majd a megoldás megvalósításához szükséges erőforrásokkal.
Hozzon létre EMR Stúdiót
Most létrehozhat egy EMR Stúdiót és Munkaterületet a notebook kóddal való munkavégzéshez. Hajtsa végre a következő lépéseket:
- Az EMR Studio konzolon válassza a lehetőséget Stúdió létrehozása.
- Lépjen be a Stúdió neve as
GenAI-EMR-Studio
és adjon leírást. - A Hálózat és biztonság szakaszban adja meg a következőket:
- A VPC, válassza ki azt a VPC-t, amelyet a telepített CloudFormation-verem részeként hozott létre. Szerezze meg a VPC-azonosítót a VPCID-kulcs CloudFormation-kimeneteinek használatával.
- A Alhálózatok, válassza ki mind a négy alhálózatot.
- A Biztonság és hozzáférésválassza Egyéni biztonsági csoport.
- A Fürt/végpont biztonsági csoport, választ
EMRSparkAI-Cluster-Endpoint-SG
. - A Munkaterület biztonsági csoport, választ
EMRSparkAI-Workspace-SG
.
- A Stúdió szolgáltatási szerepkör szakaszban adja meg a következőket:
- A Hitelesítésválassza AWS Identity and Access Management (IAM).
- A AWS IAM szolgáltatási szerepkör, választ
EMRSparkAI-StudioServiceRole
.
- A Munkaterület tárolása szakaszt, böngésszen és válassza ki az S3 vödröt a tároláshoz
emr-sparkai-<account-id>
. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Stúdió létrehozása.
- Az EMR Stúdió létrehozásakor válassza ki az alábbi hivatkozást Studio hozzáférési URL a Stúdió eléréséhez.
- Amikor a Stúdióban tartózkodik, válasszon Hozzon létre munkaterületet.
- hozzáad
emr-genai
a Munkaterület neveként, és válassza a lehetőséget Hozzon létre munkaterületet. - A munkaterület létrehozásakor válassza ki a nevét a munkaterület elindításához (győződjön meg arról, hogy letiltotta az előugró ablakok blokkolását).
Nagy adatelemzés az Apache Spark segítségével, az Amazon EMR-rel és a generatív mesterséges intelligenciával
Most, hogy elvégeztük a szükséges beállítást, megkezdhetjük a nagy adatelemzést az Apache Spark, az Amazon EMR és a generatív mesterséges intelligencia használatával.
Első lépésként betöltünk egy notebookot, amely tartalmazza a szükséges kódot és példákat a használati esethez. NY Taxi adatkészletet használunk, amely a taxizás részleteit tartalmazza.
- Töltse le a notebook fájlt NYTaxi.ipynb és töltse fel a munkaterületére a feltöltés ikon kiválasztásával.
- A jegyzetfüzet importálása után nyissa meg a jegyzetfüzetet, és válassza a lehetőséget
PySpark
mint a kernel.
PySpark AI alapértelmezés szerint az OpenAI ChatGPT4.0-ját használja LLM-modellként, de az Amazon Bedrock modelljeit is csatlakoztathatja, Amazon SageMaker JumpStartés más harmadik féltől származó modellek. Ebben a bejegyzésben bemutatjuk, hogyan integrálható az Amazon Bedrock Titan modell az SQL-lekérdezések generálásához, és hogyan futtatható az Apache Spark segítségével az Amazon EMR-ben.
- A jegyzetfüzet használatának megkezdéséhez hozzá kell rendelnie a munkaterületet egy számítási réteghez. Ehhez válassza a Kiszámít ikont a navigációs panelen, és válassza ki a CloudFormation verem által létrehozott EMR-fürtöt.
- Állítsa be a Python-paramétereket a frissített Python 3.9-es csomag használatához az Amazon EMR-rel:
- Importálja a szükséges könyvtárakat:
- A könyvtárak importálása után meghatározhatja az LLM-modellt az Amazon Bedrockból. Ebben az esetben az amazon.titan-text-express-v1-et használjuk. Meg kell adnia a régió és az Amazon Bedrock végpont URL-jét a Titan Text G1 – Express modell előnézeti hozzáférése alapján.
- Csatlakoztassa a Spark AI-t az Amazon Bedrock LLM modellhez az SQL lekérdezések generálásához természetes nyelvű kérdések alapján:
Itt a Spark AI-t verbose=False; beállíthatja a verbose=True értéket is a további részletek megtekintéséhez.
Most már olvashatja a NYC Taxi adatait egy Spark DataFrame-ben, és használhatja a generatív mesterséges intelligencia erejét a Sparkban.
- Például megkérdezheti az adatkészlet rekordjainak számát:
A következő választ kapjuk:
A Spark AI belsőleg használ LangChain és SQL-lánc, amely elrejti a bonyolultságot a Sparkban lekérdezésekkel dolgozó végfelhasználók elől.
A notebook még néhány példa forgatókönyvet tartalmaz a generatív mesterséges intelligencia erejének felfedezéséhez az Apache Spark és az Amazon EMR segítségével.
Tisztítsuk meg
Ürítse ki az S3 vödör tartalmát emr-sparkai-<account-id>
, törölje a bejegyzés részeként létrehozott EMR Studio Workspace-t, majd törölje a telepített CloudFormation-vereget.
Következtetés
Ez a bejegyzés bemutatta, hogyan töltheti fel a nagy adathalmazok elemzését az Apache Spark segítségével az Amazon EMR és az Amazon Bedrock segítségével. A PySpark AI csomag lehetővé teszi, hogy értelmes betekintést nyerjen adataiból. Segít csökkenteni a fejlesztési és elemzési időt, csökkenti a kézi lekérdezések írási idejét, és lehetővé teszi, hogy az üzleti felhasználási esetre összpontosítson.
A szerzőkről
Szaurabh Bhutyani az AWS vezető analitikai megoldásokra szakosodott építésze. Szenvedélyesen rajong az új technológiákért. 2019-ben csatlakozott az AWS-hez, és az ügyfelekkel együttműködve építészeti útmutatást nyújt a generatív mesterségesintelligencia-használati esetek, a méretezhető analitikai megoldások és az olyan AWS-szolgáltatásokat használó adatháló-architektúrák futtatásához, mint az Amazon Bedrock, az Amazon SageMaker, az Amazon EMR, az Amazon Athena, az AWS Glue, az AWS Lake Formation, és az Amazon DataZone.
Kemény Vardhan az AWS Senior Solutions Architect, az analitikára szakosodott. Több mint 8 éves tapasztalattal rendelkezik a big data és adattudomány területén. Szenvedélyesen segíti ügyfeleit a bevált gyakorlatok átvételében és az adataikból származó betekintések felfedezésében.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/
- :van
- :is
- :nem
- $ UP
- 1
- 10
- 100
- 107
- 11
- 20
- 200
- 2019
- 320
- 500
- 521
- 7
- 8
- 9
- 990
- a
- Rólunk
- hozzáférés
- jogosultság kezelés
- Fiók
- elismerni
- Akció
- hozzá
- További
- Ezen kívül
- elfogadja
- AI
- ai használati esetek
- Minden termék
- lehetővé téve
- lehetővé teszi, hogy
- Is
- amazon
- Amazon Athéné
- Amazon EMR
- Amazon SageMaker
- Az Amazon Web Services
- Összegek
- an
- elemzés
- analitika
- és a
- válasz
- bármilyen
- Apache
- Apache Spark
- api
- alkalmazások
- körülbelül
- építészeti
- építészet
- VANNAK
- Művészet
- AS
- kérdez
- Társult
- At
- elérhető
- elkerülése érdekében
- AWS
- AWS felhőképződés
- AWS ragasztó
- AWS-tó formáció
- vissza
- alapján
- BEST
- legjobb gyakorlatok
- Túl
- Nagy
- Big adatok
- Bootstrap
- épít
- üzleti
- de
- gomb
- by
- TUD
- eset
- esetek
- katalógus
- lánc
- Változások
- díjak
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- választja
- Város
- felhő
- felhő big data
- Fürt
- kód
- kombájnok
- Companies
- teljes
- Befejezett
- bonyolultság
- Kiszámít
- összefüggő
- Connectivity
- Konzol
- állandóan
- tartalmaz
- tartalom
- kiadások
- teremt
- készítette
- teremt
- kreativitás
- Jelenleg
- Ügyfelek
- élvonalbeli
- dátum
- Adatelemzés
- adatfeldolgozás
- adat-tudomány
- adatbázis
- adatkészletek
- találka
- alapértelmezett
- meghatározott
- bizonyítani
- függőségek
- telepített
- származik
- leírás
- tervezett
- részletek
- Fejleszt
- Fejlesztés
- különböző
- Tiltva
- felfedez
- do
- eredményesen
- erőfeszítés nélkül
- végén
- Endpoint
- Mérnöki
- Mérnökök
- Angol
- biztosítására
- belép
- belépés
- Környezet
- Ez volt
- alapvető
- Eter (ETH)
- Még
- példa
- példák
- tapasztalat
- kísérlet
- feltárása
- expressz
- kivonat
- GYORS
- Jellemzők
- kevés
- mező
- filé
- utolsó
- vezetéknév
- Rugalmasság
- Összpontosít
- következik
- következő
- A
- képződés
- Alapítvány
- négy
- keretek
- ból ből
- teljesen
- g1
- csűr
- gateway
- generál
- generáció
- nemző
- Generatív AI
- kap
- Giving
- Go
- útmutatást
- Legyen
- he
- segít
- segít
- segít
- Rejtett
- elrejt
- Hogyan
- How To
- http
- HTTPS
- i
- IAM
- ICON
- ID
- Identitás
- identitás- és hozzáférés-kezelés
- illusztrálja
- végre
- importál
- in
- Más
- Beleértve
- iparágvezető
- információ
- újító
- bemenet
- meglátások
- telepíteni
- példányok
- utasítás
- integrálni
- integrált
- integráció
- szándékolt
- kölcsönhatásba
- interaktív
- belsőleg
- bele
- IT
- ITS
- csatlakozott
- jpg
- Tart
- Kulcs
- Ismer
- tó
- nyelv
- nagy
- legutolsó
- indít
- réteg
- vezető
- tanulás
- könyvtárak
- könyvtár
- mint
- vonal
- LINK
- kiszámításának
- gép
- gépi tanulás
- csinál
- KÉSZÍT
- sikerült
- vezetés
- kézikönyv
- piacára
- Lehet..
- jelentőségteljes
- háló
- minimális
- jegyzőkönyv
- ML
- modell
- modellek
- monitor
- több
- a legtöbb
- név
- Természetes
- Természetes nyelv
- Navigáció
- elengedhetetlen
- Szükség
- szükséges
- hálózatba
- Új
- Új technológiák
- jegyzetfüzet
- laptopok
- Most
- szám
- NY
- NYC
- objektumok
- megfigyelés
- of
- Ajánlatok
- on
- nyitva
- nyílt forráskódú
- or
- szervezetek
- Más
- kimenetek
- felett
- áttekintés
- csomag
- csomagok
- üvegtábla
- paraméterek
- rész
- szenvedélyes
- előadó
- engedélyek
- Hely
- Plató
- Platón adatintelligencia
- PlatoData
- játszótér
- dugó
- Politikák
- pop-up
- állás
- potenciális
- hatalom
- gyakorlat
- Preview
- Fő
- magán
- folyamat
- feldolgozás
- Termelés
- Haladás
- ad
- feltéve,
- szolgáltatók
- biztosít
- nyilvános
- Piton
- lekérdezések
- kérdés
- Kérdések
- gyorsan
- R
- Olvass
- nyilvántartások
- csökkenteni
- csökkentő
- utal
- Tekintet nélkül
- vidék
- régiók
- eltávolítása
- kötelező
- Tudástár
- válasz
- Eredmények
- túrák
- Szerep
- szerepek
- Útvonal
- futás
- futás
- fut
- sagemaker
- Scala
- skálázhatóság
- skálázható
- Skála
- skálázás
- forgatókönyvek
- Tudomány
- tudósok
- sdk
- keres
- Titkos
- biztonság
- lát
- válasszuk
- idősebb
- szolgáltatás
- Szolgáltatások
- készlet
- felépítés
- előadás
- kimutatta,
- Egyszerű
- egyszerűsítése
- egyetlen
- So
- megoldások
- Megoldások
- forrás
- Szikra
- szakember
- szakosodott
- sebesség
- SQL
- verem
- Stacks
- kezdet
- kezdődött
- Kezdve
- Állapot
- Lépés
- Lépései
- tárolás
- egyértelmű
- stúdió
- alhálózatok
- ilyen
- Túltöltés
- biztos
- rendszer
- táblázat
- meghozott
- tart
- Technologies
- Technológia
- sablon
- szöveg
- hogy
- A
- azok
- Őket
- akkor
- ők
- harmadik fél
- ezt
- gondoltam
- Keresztül
- idő
- időrendben
- titán-
- nak nek
- szerszámok
- felső
- hagyományos
- ui
- alatt
- kinyit
- frissítve
- URL
- használ
- használati eset
- használt
- használó
- Felhasználók
- használ
- segítségével
- érték
- fajta
- különféle
- Hatalmas
- Képzeld
- Út..
- módon
- we
- háló
- webes szolgáltatások
- web-alapú
- amikor
- ami
- míg
- lesz
- val vel
- belül
- nélkül
- Munka
- dolgozó
- művek
- világszerte
- ír
- írott
- év
- york
- te
- A te
- zephyrnet