Użyj generatywnej sztucznej inteligencji z Amazon EMR, Amazon Bedrock i angielskim pakietem SDK dla Apache Spark, aby odblokować spostrzeżenia | Usługi internetowe Amazon

Opublikowane ponownie przez Plato

Obserwuje: 0

W epoce dużych zbiorów danych organizacje na całym świecie nieustannie poszukują innowacyjnych sposobów wydobywania wartości i spostrzeżeń ze swoich ogromnych zbiorów danych. Apache Spark oferuje skalowalność i szybkość niezbędną do wydajnego przetwarzania dużych ilości danych.

Amazon EMR to wiodące w branży rozwiązanie Big Data w chmurze do przetwarzania danych w skali petabajtowej, interaktywnej analizy i uczenia maszynowego (ML) przy użyciu platform open source, takich jak Apache Spark, Ula Apache, presto. Amazon EMR to najlepsze miejsce do uruchomienia Apache Spark. Możesz szybko i bez wysiłku tworzyć zarządzane klastry Spark z poziomu Konsola zarządzania AWS, Interfejs wiersza poleceń AWS (AWS CLI) lub API Amazon EMR. Możesz także skorzystać z dodatkowych funkcji Amazon EMR, w tym szybkich Usługa Amazon Simple Storage (Amazon S3) łączność za pomocą systemu plików Amazon EMR (EMRFS), integracja z Punkt Amazon EC2 rynek i Klej AWS Data Catalog i skalowanie zarządzane EMR umożliwiające dodawanie lub usuwanie instancji z klastra. Studio Amazon EMR to zintegrowane środowisko programistyczne (IDE), które ułatwia analitykom i inżynierom danych tworzenie, wizualizację i debugowanie aplikacji do inżynierii danych i nauki o danych napisanych w językach R, Python, Scala i PySpark. EMR Studio zapewnia w pełni zarządzane notatniki Jupyter oraz narzędzia, takie jak interfejs Spark UI i usługa osi czasu YARN, aby uprościć debugowanie.

Aby uwolnić potencjał drzemiący w zbiorach danych, konieczne jest wyjście poza tradycyjną analitykę. Poznaj generatywną sztuczną inteligencję, najnowocześniejszą technologię, która łączy uczenie maszynowe z kreatywnością, aby generować tekst, grafikę, a nawet kod przypominający człowieka. Amazońska skała macierzysta to najprostszy sposób tworzenia i skalowania generatywnych aplikacji AI za pomocą modeli podstawowych (FM). Amazon Bedrock to w pełni zarządzana usługa, która udostępnia FM firmy Amazon i wiodących firm zajmujących się sztuczną inteligencją za pośrednictwem interfejsu API, dzięki czemu możesz szybko eksperymentować z różnymi FM na placu zabaw i korzystać z jednego API do wnioskowania niezależnie od wybranych modeli, dając zapewnia elastyczność korzystania z FM od różnych dostawców i bycie na bieżąco z najnowszymi wersjami modeli przy minimalnych zmianach kodu.

W tym poście odkrywamy, w jaki sposób możesz usprawnić analizę danych za pomocą generatywnej sztucznej inteligencji, korzystając z Amazon EMR, Amazon Bedrock i pyspark-ai biblioteka. Biblioteka pyspark-ai to angielski zestaw SDK dla Apache Spark. Pobiera instrukcje w języku angielskim i kompiluje je do obiektów PySpark, takich jak DataFrames. Ułatwia to pracę ze Sparkiem i pozwala skupić się na wydobywaniu wartości z danych.

Omówienie rozwiązania

Poniższy diagram ilustruje architekturę wykorzystania generatywnej sztucznej inteligencji w Amazon EMR i Amazon Bedrock.

Omówienie rozwiązania

EMR Studio to internetowe środowisko IDE dla w pełni zarządzanych notatników Jupyter działających w klastrach EMR. Wchodzimy w interakcję z obszarami roboczymi EMR Studio podłączonymi do działającego klastra EMR i uruchamiamy notatnik dostarczony w ramach tego postu. Używamy Taksówka z Nowego Jorku dane w celu uzyskania wglądu w różne przejazdy taksówkami użytkowników. Zadajemy pytania w języku naturalnym na podstawie danych załadowanych do Spark DataFrame. Następnie biblioteka pyspark-ai wykorzystuje Amazon Titan Text FM z Amazon Bedrock do utworzenia zapytania SQL w oparciu o pytanie w języku naturalnym. Biblioteka pyspark-ai pobiera zapytanie SQL, uruchamia je przy użyciu Spark SQL i dostarcza wyniki użytkownikowi.

W tym rozwiązaniu możesz utworzyć i skonfigurować wymagane zasoby na swoim koncie AWS za pomocą pliku Tworzenie chmury AWS szablon. Szablon tworzy plik Klej AWS baza danych i tabele, wiadro S3, VPC i inne AWS Zarządzanie tożsamością i dostępem (IAM) zasobów używanych w rozwiązaniu.

Szablon ma na celu zademonstrowanie sposobu używania EMR Studio z pakietem pyspark-ai i Amazon Bedrock i nie jest przeznaczony do użytku produkcyjnego bez modyfikacji. Dodatkowo szablon wykorzystuje us-east-1 Regionu i może nie działać w innych Regionach bez modyfikacji. Szablon tworzy zasoby, które ponoszą koszty w trakcie ich używania. Wykonaj kroki czyszczenia opisane na końcu tego posta, aby usunąć zasoby i uniknąć niepotrzebnych opłat.

Wymagania wstępne

Przed uruchomieniem stosu CloudFormation upewnij się, że masz następujące elementy:

Konto AWS zapewniające dostęp do usług AWS
Użytkownik IAM z kluczem dostępu i tajnym kluczem do konfiguracji interfejsu CLI AWS oraz uprawnieniami do tworzenia roli IAM, zasad IAM i stosów w AWS CloudFormation
Model Titan Text G1 – Express jest obecnie w wersji zapoznawczej, więc musisz mieć dostęp do podglądu, aby móc go używać w ramach tego posta

Twórz zasoby za pomocą AWS CloudFormation

CloudFormation tworzy następujące zasoby AWS:

Stos VPC z podsieciami prywatnymi i publicznymi do użytku z EMR Studio, tabelami tras i bramą NAT.
Klaster EMR z zainstalowanym językiem Python 3.9. Używamy akcji bootstrap, aby zainstalować Python 3.9 i inne odpowiednie pakiety, takie jak zależności pyspark-ai i Amazon Bedrock. (Więcej informacji można znaleźć w skrypt startowy.)
Wiadro S3 do przestrzeni roboczej EMR Studio i miejsca na notebooka.
Role i zasady IAM dotyczące konfiguracji EMR Studio, dostępu do Amazon Bedrock i uruchamiania notatników

Aby rozpocząć, wykonaj następujące czynności:

Dodaj Uruchom stos:
Wybierz Przyjmuję do wiadomości, że ten szablon może tworzyć zasoby IAM.

Ukończenie stosu CloudFormation zajmuje około 20–30 minut. Możesz monitorować jego postęp na konsoli AWS CloudFormation. Kiedy jego status brzmi CREATE_COMPLETE, Twoje konto AWS będzie miało zasoby niezbędne do wdrożenia tego rozwiązania.

Utwórz Studio EMR

Teraz możesz utworzyć Studio i obszar roboczy EMR do pracy z kodem notatnika. Wykonaj następujące kroki:

W konsoli EMR Studio wybierz Utwórz Studio.
Wpisz Nazwa studia as GenAI-EMR-Studio i podaj opis.
W Sieci i bezpieczeństwo sekcji, podaj następujące informacje:
- W razie zamówieenia projektu VPC, wybierz VPC utworzoną jako część wdrożonego stosu CloudFormation. Uzyskaj identyfikator VPC, korzystając z danych wyjściowych CloudFormation dla klucza VPCID.
- W razie zamówieenia projektu Podsieci, wybierz wszystkie cztery podsieci.
- W razie zamówieenia projektu Bezpieczeństwo i dostęp, Wybierz Niestandardowa grupa zabezpieczeń.
- W razie zamówieenia projektu Grupa zabezpieczeń klastra/punktu końcowegowybierz EMRSparkAI-Cluster-Endpoint-SG.
- W razie zamówieenia projektu Grupa zabezpieczeń obszaru roboczegowybierz EMRSparkAI-Workspace-SG.
W Rola obsługi studia sekcji, podaj następujące informacje:
- W razie zamówieenia projektu Uwierzytelnianie, Wybierz Zarządzanie tożsamością i dostępem AWS (IAM).
- W razie zamówieenia projektu Rola usługi AWS IAMwybierz EMRSparkAI-StudioServiceRole.
W Przechowywanie przestrzeni roboczej sekcję, przeglądaj i wybierz wiadro S3 do przechowywania, zaczynając od emr-sparkai-<account-id>.
Dodaj Utwórz studio.
Po utworzeniu Studia EMR wybierz link poniżej Adres URL dostępu do Studio aby uzyskać dostęp do Studia.
Kiedy będziesz w Studio, wybierz Utwórz obszar roboczy.
Dodaj emr-genai jako nazwę obszaru roboczego i wybierz Utwórz obszar roboczy.
Po utworzeniu obszaru roboczego wybierz jego nazwę, aby uruchomić obszar roboczy (upewnij się, że wyłączyłeś wszelkie blokady wyskakujących okienek).

Analityka Big Data przy użyciu Apache Spark z Amazon EMR i generatywną sztuczną inteligencją

Teraz, gdy zakończyliśmy wymaganą konfigurację, możemy rozpocząć analizę dużych zbiorów danych przy użyciu Apache Spark z Amazon EMR i generatywną sztuczną inteligencją.

W pierwszym kroku ładujemy notatnik, który zawiera wymagany kod i przykłady do pracy z przypadkiem użycia. Korzystamy ze zbioru danych NY Taxi, który zawiera szczegółowe informacje na temat przejazdów taksówkami.

Pobierz plik notatnika NYTaxi.ipynb i prześlij go do swojego obszaru roboczego, wybierając ikonę przesyłania.
Po zaimportowaniu notatnika otwórz notatnik i wybierz PySpark jako jądro.

Sztuczna inteligencja PySpark domyślnie używa ChatGPT4.0 OpenAI jako modelu LLM, ale możesz także podłączyć modele z Amazon Bedrock, Amazon SageMaker JumpStarti inne modele innych firm. W tym poście pokazujemy, jak zintegrować model Amazon Bedrock Titan do generowania zapytań SQL i uruchomić go za pomocą Apache Spark w Amazon EMR.

Aby rozpocząć pracę z notatnikiem, musisz powiązać obszar roboczy z warstwą obliczeniową. W tym celu wybierz obliczać w panelu nawigacji i wybierz klaster EMR utworzony przez stos CloudFormation.

Skonfiguruj parametry Pythona, aby używać zaktualizowanego pakietu Python 3.9 z Amazon EMR:

%%configure -f
{
"conf": {
"spark.executorEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9"
}
}

Zaimportuj niezbędne biblioteki:

from pyspark_ai import SparkAI
from pyspark.sql import SparkSession
from langchain.chat_models import ChatOpenAI
from langchain.llms.bedrock import Bedrock
import boto3
import os

Po zaimportowaniu bibliotek możesz zdefiniować model LLM z Amazon Bedrock. W tym przypadku używamy amazon.titan-text-express-v1. Musisz wprowadzić adres URL regionu i punktu końcowego Amazon Bedrock w oparciu o dostęp do podglądu modelu Titan Text G1 – Express.
```
boto3_bedrock = boto3.client('bedrock-runtime', '<region>', endpoint_url='<bedrock endpoint url>')
llm = Bedrock(
model_id="amazon.titan-text-express-v1",
client=boto3_bedrock)
```
Połącz Spark AI z modelem Amazon Bedrock LLM w celu generowania zapytań SQL na podstawie pytań w języku naturalnym:
```
#Connecting Spark AI to the Bedrock Titan LLM
spark_ai = SparkAI(llm = llm, verbose=False)
spark_ai.activate()
```

Tutaj zainicjowaliśmy Spark AI za pomocą verbose=False; możesz także ustawić verbose=True, aby zobaczyć więcej szczegółów.

Teraz możesz czytać dane NYC Taxi w ramce danych Spark i korzystać z mocy generatywnej sztucznej inteligencji w Spark.

Możesz na przykład zapytać o liczbę rekordów w zbiorze danych:

taxi_records.ai.transform("count the number of records in this dataset").show()

Otrzymujemy następującą odpowiedź:

> Entering new AgentExecutor chain...
Thought: I need to count the number of records in the table.
Action: query_validation
Action Input: SELECT count(*) FROM spark_ai_temp_view_ee3325
Observation: OK
Thought: I now know the final answer.
Final Answer: SELECT count(*) FROM spark_ai_temp_view_ee3325
> Finished chain.
+----------+
| count(1)|
+----------+
|2870781820|
+----------+

Spark AI wykorzystuje wewnętrznie LangChain i łańcuch SQL, które ukrywają złożoność przed użytkownikami końcowymi pracującymi z zapytaniami w Spark.

W notatniku znajduje się jeszcze kilka przykładowych scenariuszy pozwalających zbadać możliwości generatywnej sztucznej inteligencji za pomocą Apache Spark i Amazon EMR.

Sprzątać

Opróżnij zawartość wiadra S3 emr-sparkai-<account-id>, usuń obszar roboczy EMR Studio utworzony w ramach tego posta, a następnie usuń wdrożony stos CloudFormation.

Wnioski

W tym poście pokazano, jak możesz usprawnić analizę dużych zbiorów danych za pomocą Apache Spark z Amazon EMR i Amazon Bedrock. Pakiet PySpark AI umożliwia wyciąganie znaczących wniosków z danych. Pomaga skrócić czas programowania i analizy, skracając czas ręcznego pisania zapytań i umożliwiając skupienie się na biznesowym przypadku użycia.

O autorach

Saurabha Bhutyaniego jest głównym specjalistą ds. analityki i architektem rozwiązań w AWS. Pasjonuje się nowymi technologiami. Dołączył do AWS w 2019 roku i współpracuje z klientami, aby zapewnić wskazówki architektoniczne dotyczące uruchamiania generatywnych przypadków użycia sztucznej inteligencji, skalowalnych rozwiązań analitycznych i architektur siatki danych przy użyciu usług AWS, takich jak Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation, i Amazon DataZone.

Harsh Vardhan jest starszym architektem rozwiązań AWS, specjalizującym się w analityce. Posiada ponad 8-letnie doświadczenie w pracy w obszarze big data i data science. Jego pasją jest pomaganie klientom w przyjmowaniu najlepszych praktyk i odkrywaniu wniosków z ich danych.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
Źródło: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/

Znak czasu: Listopad 16, 2023

Znak czasu: Listopada 15, 2023

Użyj generatywnej sztucznej inteligencji z Amazon EMR, Amazon Bedrock i angielskim SDK dla Apache Spark, aby odblokować spostrzeżenia | Usługi internetowe Amazona

Opublikowane ponownie przez Plato

Omówienie rozwiązania

Wymagania wstępne

Twórz zasoby za pomocą AWS CloudFormation

Utwórz Studio EMR

Analityka Big Data przy użyciu Apache Spark z Amazon EMR i generatywną sztuczną inteligencją

Sprzątać

Wnioski

O autorach

Więcej z Duże zbiory danych AWS!

Amazon QuickSight pomaga TalentReef wspierać swoich klientów w podejmowaniu bardziej świadomych decyzji o zatrudnieniu

Ładuj dane przyrostowo z transakcyjnych jezior danych do hurtowni danych | Usługi internetowe Amazona

Wizualizuj wielowymiarowe dane za pomocą wykresu radarowego w Amazon QuickSight

Przedstawiamy współdzieloną obsługę VPC na Amazon MWAA | Usługi internetowe Amazona

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto