Utilisez l'IA générative avec Amazon EMR, Amazon Bedrock et le SDK anglais pour Apache Spark pour débloquer des informations

Republié par Platon

Suiveurs: 0

À l’ère du Big Data, les organisations du monde entier sont constamment à la recherche de moyens innovants pour extraire de la valeur et des informations de leurs vastes ensembles de données. Apache Spark offre l’évolutivité et la vitesse nécessaires pour traiter efficacement de grandes quantités de données.

Amazon DME est la solution cloud Big Data leader du secteur pour le traitement de données à l'échelle du pétaoctet, l'analyse interactive et l'apprentissage automatique (ML) utilisant des frameworks open source tels qu'Apache Spark, Ruche Apacheet une Presto. Amazon EMR est le meilleur endroit pour exécuter Apache Spark. Vous pouvez créer rapidement et sans effort des clusters Spark gérés à partir du Console de gestion AWS, Interface de ligne de commande AWS (AWS CLI) ou API Amazon EMR. Vous pouvez également utiliser des fonctionnalités Amazon EMR supplémentaires, notamment Service de stockage simple Amazon (Amazon S3) à l'aide du système de fichiers Amazon EMR (EMRFS), intégration avec le Point Amazon EC2 marché et le Colle AWS Data Catalog et EMR Managed Scaling pour ajouter ou supprimer des instances de votre cluster. Amazon EMRStudio est un environnement de développement intégré (IDE) qui permet aux data scientists et aux ingénieurs de données de développer, visualiser et déboguer des applications d'ingénierie et de science des données écrites en R, Python, Scala et PySpark. EMR Studio fournit des notebooks Jupyter entièrement gérés et des outils tels que Spark UI et YARN Timeline Service pour simplifier le débogage.

Pour libérer le potentiel caché dans les réserves de données, il est essentiel d’aller au-delà de l’analyse traditionnelle. Entrez dans l'IA générative, une technologie de pointe qui combine le ML et la créativité pour générer du texte, des œuvres d'art et même du code de type humain. Socle amazonien est le moyen le plus simple de créer et de faire évoluer des applications d'IA générative avec des modèles de base (FM). Amazon Bedrock est un service entièrement géré qui rend les FM d'Amazon et des principales sociétés d'IA disponibles via une API, afin que vous puissiez rapidement expérimenter une variété de FM dans le terrain de jeu et utiliser une seule API pour l'inférence quels que soient les modèles que vous choisissez, ce qui donne vous avez la possibilité d'utiliser les FM de différents fournisseurs et de vous tenir à jour avec les dernières versions de modèles avec un minimum de modifications de code.

Dans cet article, nous explorons comment vous pouvez dynamiser vos analyses de données avec l'IA générative à l'aide d'Amazon EMR, d'Amazon Bedrock et du pyspark-ai bibliothèque. La bibliothèque pyspark-ai est un SDK anglais pour Apache Spark. Il prend des instructions en anglais et les compile dans des objets PySpark comme DataFrames. Cela facilite le travail avec Spark, vous permettant de vous concentrer sur l'extraction de valeur de vos données.

Vue d'ensemble de la solution

Le diagramme suivant illustre l'architecture d'utilisation de l'IA générative avec Amazon EMR et Amazon Bedrock.

Présentation de la solution

EMR Studio est un IDE basé sur le Web pour les notebooks Jupyter entièrement gérés qui s'exécutent sur des clusters EMR. Nous interagissons avec les espaces de travail EMR Studio connectés à un cluster EMR en cours d'exécution et exécutons le bloc-notes fourni dans le cadre de cet article. Nous utilisons le Taxi de la ville de New York données pour obtenir des informations sur les différents trajets en taxi effectués par les utilisateurs. Nous posons les questions en langage naturel en plus des données chargées dans Spark DataFrame. La bibliothèque pyspark-ai utilise ensuite Amazon Titan Text FM d'Amazon Bedrock pour créer une requête SQL basée sur la question en langage naturel. La bibliothèque pyspark-ai prend la requête SQL, l'exécute à l'aide de Spark SQL et fournit les résultats à l'utilisateur.

Dans cette solution, vous pouvez créer et configurer les ressources requises dans votre compte AWS avec un AWS CloudFormation modèle. Le modèle crée le Colle AWS base de données et tables, compartiment S3, VPC et autres Gestion des identités et des accès AWS (IAM) utilisées dans la solution.

Le modèle est conçu pour montrer comment utiliser EMR Studio avec le package pyspark-ai et Amazon Bedrock, et n'est pas destiné à une utilisation en production sans modification. De plus, le modèle utilise le us-east-1 Région et peut ne pas fonctionner dans d’autres régions sans modification. Le modèle crée des ressources qui génèrent des coûts pendant leur utilisation. Suivez les étapes de nettoyage à la fin de cet article pour supprimer les ressources et éviter des frais inutiles.

Pré-requis

Avant de lancer la pile CloudFormation, assurez-vous de disposer des éléments suivants :

Un compte AWS qui donne accès aux services AWS
Un utilisateur IAM avec une clé d'accès et une clé secrète pour configurer l'AWS CLI, ainsi que des autorisations pour créer un rôle IAM, des stratégies IAM et des piles dans AWS CloudFormation.
Le modèle Titan Text G1 – Express est actuellement en avant-première, vous devez donc disposer d'un accès en avant-première pour l'utiliser dans le cadre de cet article.

Créer des ressources avec AWS CloudFormation

CloudFormation crée les ressources AWS suivantes :

Une pile VPC avec des sous-réseaux privés et publics à utiliser avec EMR Studio, les tables de routage et la passerelle NAT.
Un cluster EMR avec Python 3.9 installé. Nous utilisons une action d'amorçage pour installer Python 3.9 et d'autres packages pertinents tels que les dépendances pyspark-ai et Amazon Bedrock. (Pour plus d'informations, reportez-vous au script d'amorçage.)
Un compartiment S3 pour l'espace de travail EMR Studio et le stockage des ordinateurs portables.
Rôles et stratégies IAM pour la configuration d'EMR Studio, l'accès à Amazon Bedrock et l'exécution de blocs-notes

Pour commencer, procédez comme suit:

Selectionnez Pile de lancement :
Sélectionnez Je reconnais que ce modèle peut créer des ressources IAM.

La pile CloudFormation prend environ 20 à 30 minutes. Vous pouvez surveiller sa progression sur la console AWS CloudFormation. Lorsque son statut indique CREATE_COMPLETE, votre compte AWS disposera des ressources nécessaires à la mise en œuvre de cette solution.

Créer un studio DME

Vous pouvez désormais créer un studio et un espace de travail EMR pour travailler avec le code du notebook. Effectuez les étapes suivantes :

Sur la console EMR Studio, choisissez Créer un studio.
Entrer le Nom du studio as GenAI-EMR-Studio et fournissez une description.
Dans le Réseau et sécurité section, précisez les éléments suivants :
- Pour VPC, choisissez le VPC que vous avez créé dans le cadre de la pile CloudFormation que vous avez déployée. Obtenez l'ID du VPC à l'aide des sorties CloudFormation pour la clé VPCID.
- Pour Sous-réseaux, choisissez les quatre sous-réseaux.
- Pour Sécurité et accès, sélectionnez Groupe de sécurité personnalisé.
- Pour Groupe de sécurité du cluster/point de terminaison, choisissez EMRSparkAI-Cluster-Endpoint-SG.
- Pour Groupe de sécurité de l'espace de travail, choisissez EMRSparkAI-Workspace-SG.
Dans le Rôle du service Studio section, précisez les éléments suivants :
- Pour Authentification, sélectionnez Gestion des identités et des accès AWS (IAM).
- Pour Rôle de service AWS IAM, choisissez EMRSparkAI-StudioServiceRole.
Dans le Stockage de l'espace de travail , parcourez et choisissez le compartiment S3 pour le stockage en commençant par emr-sparkai-<account-id>.
Selectionnez Créer un atelier.
Lorsque le Studio EMR est créé, choisissez le lien sous URL d'accès au Studio pour accéder au Studio.
Lorsque vous êtes dans le Studio, choisissez Créer un espace de travail.
Ajouter emr-genai comme nom de l'espace de travail et choisissez Créer un espace de travail.
Une fois l'espace de travail créé, choisissez son nom pour lancer l'espace de travail (assurez-vous d'avoir désactivé tous les bloqueurs de pop-up).

Analyse de Big Data à l'aide d'Apache Spark avec Amazon EMR et l'IA générative

Maintenant que nous avons terminé la configuration requise, nous pouvons commencer à effectuer des analyses Big Data à l'aide d'Apache Spark avec Amazon EMR et l'IA générative.

Dans un premier temps, nous chargeons un bloc-notes contenant le code et les exemples requis pour travailler avec le cas d'utilisation. Nous utilisons l'ensemble de données NY Taxi, qui contient des détails sur les trajets en taxi.

Téléchargez le fichier du cahier NYTaxi.ipynb et téléchargez-le sur votre espace de travail en choisissant l'icône de téléchargement.
Une fois le bloc-notes importé, ouvrez-le et choisissez PySpark comme noyau.

IA PySpark utilise par défaut ChatGPT4.0 d'OpenAI comme modèle LLM, mais vous pouvez également connecter des modèles d'Amazon Bedrock, Amazon SageMaker JumpStart, et d'autres modèles tiers. Pour cet article, nous montrons comment intégrer le modèle Amazon Bedrock Titan pour la génération de requêtes SQL et l'exécuter avec Apache Spark dans Amazon EMR.

Pour démarrer avec le notebook, vous devez associer l'espace de travail à une couche de calcul. Pour ce faire, choisissez le calcul dans le volet de navigation et choisissez le cluster EMR créé par la pile CloudFormation.

Configurez les paramètres Python pour utiliser le package Python 3.9 mis à jour avec Amazon EMR :

%%configure -f
{
"conf": {
"spark.executorEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9"
}
}

Importez les bibliothèques nécessaires :

from pyspark_ai import SparkAI
from pyspark.sql import SparkSession
from langchain.chat_models import ChatOpenAI
from langchain.llms.bedrock import Bedrock
import boto3
import os

Une fois les bibliothèques importées, vous pouvez définir le modèle LLM depuis Amazon Bedrock. Dans ce cas, nous utilisons amazon.titan-text-express-v1. Vous devez saisir la région et l'URL du point de terminaison Amazon Bedrock en fonction de votre accès en aperçu pour le modèle Titan Text G1 – Express.
```
boto3_bedrock = boto3.client('bedrock-runtime', '<region>', endpoint_url='<bedrock endpoint url>')
llm = Bedrock(
model_id="amazon.titan-text-express-v1",
client=boto3_bedrock)
```
Connectez Spark AI au modèle Amazon Bedrock LLM pour la génération de requêtes SQL basées sur des questions en langage naturel :
```
#Connecting Spark AI to the Bedrock Titan LLM
spark_ai = SparkAI(llm = llm, verbose=False)
spark_ai.activate()
```

Ici, nous avons initialisé Spark AI avec verbose=False ; vous pouvez également définir verbose=True pour voir plus de détails.

Vous pouvez désormais lire les données de NYC Taxi dans un Spark DataFrame et utiliser la puissance de l'IA générative dans Spark.

Par exemple, vous pouvez demander le nombre d'enregistrements dans l'ensemble de données :
```
taxi_records.ai.transform("count the number of records in this dataset").show()
```

Nous obtenons la réponse suivante:

> Entering new AgentExecutor chain...
Thought: I need to count the number of records in the table.
Action: query_validation
Action Input: SELECT count(*) FROM spark_ai_temp_view_ee3325
Observation: OK
Thought: I now know the final answer.
Final Answer: SELECT count(*) FROM spark_ai_temp_view_ee3325
> Finished chain.
+----------+
| count(1)|
+----------+
|2870781820|
+----------+

Spark AI utilise en interne LangChaîne et la chaîne SQL, qui cachent la complexité aux utilisateurs finaux travaillant avec des requêtes dans Spark.

Le bloc-notes contient quelques exemples de scénarios supplémentaires pour explorer la puissance de l'IA générative avec Apache Spark et Amazon EMR.

Nettoyer

Vider le contenu du bucket S3 emr-sparkai-<account-id>, supprimez l'espace de travail EMR Studio créé dans le cadre de cet article, puis supprimez la pile CloudFormation que vous avez déployée.

Conclusion

Cet article montre comment vous pouvez dynamiser vos analyses Big Data à l'aide d'Apache Spark avec Amazon EMR et Amazon Bedrock. Le package PySpark AI vous permet de tirer des informations significatives de vos données. Il permet de réduire le temps de développement et d'analyse, en réduisant le temps d'écriture de requêtes manuelles et en vous permettant de vous concentrer sur votre cas d'utilisation professionnel.

À propos des auteurs

Saurabh Bhutyani est architecte principal de solutions spécialisées en analyse chez AWS. Il est passionné par les nouvelles technologies. Il a rejoint AWS en 2019 et travaille avec les clients pour fournir des conseils architecturaux pour l'exécution de cas d'utilisation d'IA générative, de solutions d'analyse évolutives et d'architectures de maillage de données utilisant des services AWS comme Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation, et Amazon DataZone.

Harsh Vardhan est un architecte de solutions senior AWS, spécialisé dans l'analyse. Il possède plus de 8 ans d’expérience dans le domaine du big data et de la science des données. Il a pour passion d'aider les clients à adopter les meilleures pratiques et à découvrir des informations à partir de leurs données.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/

Horodatage: 16 novembre 2023

Horodatage: Le 15 novembre 2023

Utilisez l'IA générative avec Amazon EMR, Amazon Bedrock et le SDK anglais pour Apache Spark pour obtenir des informations | Services Web Amazon

Republié par Platon

Vue d'ensemble de la solution

Pré-requis

Créer des ressources avec AWS CloudFormation

Créer un studio DME

Analyse de Big Data à l'aide d'Apache Spark avec Amazon EMR et l'IA générative

Nettoyer

Conclusion

À propos des auteurs

Plus de Big Data AWS

Amazon QuickSight aide TalentReef à donner à ses clients les moyens de prendre des décisions d'embauche plus éclairées

Charger les données de manière incrémentielle depuis les lacs de données transactionnels vers les entrepôts de données | Services Web Amazon

Visualisez des données multivariées à l'aide d'un graphique radar dans Amazon QuickSight

Présentation de la prise en charge des VPC partagés sur Amazon MWAA | Services Web Amazon

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte