Utilice IA generativa con Amazon EMR, Amazon Bedrock y el SDK en inglés para Apache Spark para desbloquear información | Servicios web de Amazon

Reeditado por Platón

seguidores: 0

En esta era de big data, las organizaciones de todo el mundo buscan constantemente formas innovadoras de extraer valor e información de sus vastos conjuntos de datos. Apache Spark Ofrece la escalabilidad y velocidad necesarias para procesar grandes cantidades de datos de manera eficiente.

EMR de Amazon es la solución de big data en la nube líder en la industria para procesamiento de datos a escala de petabytes, análisis interactivos y aprendizaje automático (ML) utilizando marcos de código abierto como Apache Spark. Colmena Apachey presto. Amazon EMR es el mejor lugar para ejecutar Apache Spark. Puede crear de forma rápida y sencilla clústeres de Spark administrados desde Consola de administración de AWS, Interfaz de línea de comandos de AWS (AWS CLI) o API de Amazon EMR. También puede utilizar funciones adicionales de Amazon EMR, incluida la rápida Servicio de almacenamiento simple de Amazon (Amazon S3) mediante el sistema de archivos de Amazon EMR (EMRFS), integración con el Punto de Amazon EC2 mercado y el Pegamento AWS Catálogo de datos y escalado administrado de EMR para agregar o eliminar instancias de su clúster. Estudio de Amazon EMR es un entorno de desarrollo integrado (IDE) que facilita a los científicos e ingenieros de datos desarrollar, visualizar y depurar aplicaciones de ingeniería y ciencia de datos escritas en R, Python, Scala y PySpark. EMR Studio proporciona cuadernos Jupyter totalmente administrados y herramientas como Spark UI y YARN Timeline Service para simplificar la depuración.

Para desbloquear el potencial oculto en los tesoros de datos, es esencial ir más allá del análisis tradicional. Ingrese a la IA generativa, una tecnología de vanguardia que combina el aprendizaje automático con la creatividad para generar texto, arte e incluso código similar al humano. lecho rocoso del amazonas es la forma más sencilla de crear y escalar aplicaciones de IA generativa con modelos básicos (FM). Amazon Bedrock es un servicio totalmente administrado que hace que los FM de Amazon y de las principales empresas de IA estén disponibles a través de una API, de modo que pueda experimentar rápidamente con una variedad de FM en el patio de recreo y utilizar una única API para realizar inferencias independientemente de los modelos que elija, lo que le brinda Le brinda la flexibilidad de utilizar FM de diferentes proveedores y mantenerse actualizado con las últimas versiones de los modelos con cambios mínimos de código.

En esta publicación, exploramos cómo puede potenciar sus análisis de datos con IA generativa utilizando Amazon EMR, Amazon Bedrock y pyspark-ai biblioteca. La biblioteca pyspark-ai es un SDK en inglés para Apache Spark. Toma instrucciones en idioma inglés y las compila en objetos PySpark como DataFrames. Esto hace que trabajar con Spark sea sencillo, lo que le permite concentrarse en extraer valor de sus datos.

Resumen de la solución

El siguiente diagrama ilustra la arquitectura para utilizar IA generativa con Amazon EMR y Amazon Bedrock.

Descripción general de la solución

EMR Studio es un IDE basado en web para portátiles Jupyter totalmente administrados que se ejecutan en clústeres de EMR. Interactuamos con los espacios de trabajo de EMR Studio conectados a un clúster de EMR en ejecución y ejecutamos el cuaderno proporcionado como parte de esta publicación. Usamos el Taxi de la ciudad de Nueva York datos para obtener información sobre varios viajes en taxi realizados por los usuarios. Hacemos las preguntas en lenguaje natural además de los datos cargados en Spark DataFrame. Luego, la biblioteca pyspark-ai utiliza Amazon Titan Text FM de Amazon Bedrock para crear una consulta SQL basada en la pregunta en lenguaje natural. La biblioteca pyspark-ai toma la consulta SQL, la ejecuta utilizando Spark SQL y proporciona los resultados al usuario.

En esta solución, puede crear y configurar los recursos necesarios en su cuenta de AWS con un Formación en la nube de AWS plantilla. La plantilla crea el Pegamento AWS bases de datos y tablas, depósito S3, VPC y otros Gestión de identidades y accesos de AWS (IAM) recursos que se utilizan en la solución.

La plantilla está diseñada para demostrar cómo utilizar EMR Studio con el paquete pyspark-ai y Amazon Bedrock, y no está diseñada para uso en producción sin modificaciones. Además, la plantilla utiliza el us-east-1 Región y es posible que no funcione en otras regiones sin modificaciones. La plantilla crea recursos que generan costos mientras están en uso. Siga los pasos de limpieza al final de esta publicación para eliminar los recursos y evitar cargos innecesarios.

Requisitos previos

Antes de iniciar la pila de CloudFormation, asegúrese de tener lo siguiente:

Una cuenta de AWS que proporciona acceso a los servicios de AWS
Un usuario de IAM con una clave de acceso y una clave secreta para configurar la CLI de AWS y permisos para crear un rol de IAM, políticas de IAM y pilas en AWS CloudFormation.
El modelo Titan Text G1 – Express se encuentra actualmente en versión preliminar, por lo que necesitas tener acceso a la vista previa para usarlo como parte de esta publicación.

Cree recursos con AWS CloudFormation

CloudFormation crea los siguientes recursos de AWS:

Una pila de VPC con subredes públicas y privadas para usar con EMR Studio, tablas de enrutamiento y puerta de enlace NAT.
Un clúster EMR con Python 3.9 instalado. Estamos utilizando una acción de arranque para instalar Python 3.9 y otros paquetes relevantes como las dependencias de pyspark-ai y Amazon Bedrock. (Para obtener más información, consulte la secuencia de comandos de arranque.)
Un depósito S3 para EMR Studio Workspace y almacenamiento de portátiles.
Roles y políticas de IAM para la configuración de EMR Studio, el acceso a Amazon Bedrock y la ejecución de cuadernos

Para comenzar, complete los siguientes pasos:

Elige Pila de lanzamiento:
Seleccione Acepto que esta plantilla puede crear recursos de IAM.

La pila de CloudFormation tarda aproximadamente entre 20 y 30 minutos en completarse. Puede monitorear su progreso en la consola de AWS CloudFormation. Cuando su estado dice CREATE_COMPLETE, su cuenta de AWS tendrá los recursos necesarios para implementar esta solución.

Crear estudio EMR

Ahora puede crear un EMR Studio y un espacio de trabajo para trabajar con el código del cuaderno. Complete los siguientes pasos:

En la consola de EMR Studio, elija Crear estudio.
Escriba la Nombre del estudio as GenAI-EMR-Studio y proporcione una descripción.
En Redes y seguridad sección, especifique lo siguiente:
- VPC, elija la VPC que creó como parte de la pila de CloudFormation que implementó. Obtenga el ID de VPC utilizando las salidas de CloudFormation para la clave VPCID.
- Subredes, elija las cuatro subredes.
- Seguridad y acceso., seleccione Grupo de seguridad personalizado.
- Grupo de seguridad de clúster/punto final, escoger EMRSparkAI-Cluster-Endpoint-SG.
- Grupo de seguridad del espacio de trabajo, escoger EMRSparkAI-Workspace-SG.
En Rol de servicio de estudio sección, especifique lo siguiente:
- Autenticación, seleccione Administración de acceso e identidad de AWS (IAM).
- Rol del servicio AWS IAM, escoger EMRSparkAI-StudioServiceRole.
En Almacenamiento del espacio de trabajo sección, busque y elija el depósito S3 para el almacenamiento que comienza con emr-sparkai-<account-id>.
Elige Crear estudio.
Cuando se crea EMR Studio, elija el enlace debajo URL de acceso al estudio para acceder al Estudio.
Cuando estés en Studio, elige Crear espacio de trabajo.
Añada emr-genai como nombre del espacio de trabajo y elija Crear espacio de trabajo.
Cuando se crea el espacio de trabajo, elija su nombre para iniciarlo (asegúrese de haber desactivado los bloqueadores de ventanas emergentes).

Análisis de big data utilizando Apache Spark con Amazon EMR e IA generativa

Ahora que hemos completado la configuración requerida, podemos comenzar a realizar análisis de big data utilizando Apache Spark con Amazon EMR e IA generativa.

Como primer paso, cargamos un cuaderno que tiene el código y los ejemplos necesarios para trabajar con el caso de uso. Utilizamos el conjunto de datos de NY Taxi, que contiene detalles sobre viajes en taxi.

Descargar el archivo del cuaderno NYTaxi.ipynb y cárguelo en su espacio de trabajo eligiendo el icono de carga.
Después de importar el cuaderno, ábralo y elija PySpark como el kernel.

PySpark AI de forma predeterminada utiliza ChatGPT4.0 de OpenAI como modelo LLM, pero también puede conectar modelos de Amazon Bedrock, JumpStart de Amazon SageMakery otros modelos de terceros. Para esta publicación, mostramos cómo integrar el modelo Amazon Bedrock Titan para la generación de consultas SQL y ejecutarlo con Apache Spark en Amazon EMR.

Para comenzar con el cuaderno, debe asociar el espacio de trabajo a una capa informática. Para ello, elija el Calcular en el panel de navegación y elija el clúster EMR creado por la pila de CloudFormation.

Configure los parámetros de Python para utilizar el paquete Python 3.9 actualizado con Amazon EMR:

%%configure -f
{
"conf": {
"spark.executorEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9"
}
}

Importe las bibliotecas necesarias:

from pyspark_ai import SparkAI
from pyspark.sql import SparkSession
from langchain.chat_models import ChatOpenAI
from langchain.llms.bedrock import Bedrock
import boto3
import os

Una vez importadas las bibliotecas, puede definir el modelo LLM desde Amazon Bedrock. En este caso, utilizamos amazon.titan-text-express-v1. Debe ingresar la región y la URL del punto final de Amazon Bedrock según su acceso a la vista previa para el modelo Titan Text G1 – Express.
```
boto3_bedrock = boto3.client('bedrock-runtime', '<region>', endpoint_url='<bedrock endpoint url>')
llm = Bedrock(
model_id="amazon.titan-text-express-v1",
client=boto3_bedrock)
```
Conecte Spark AI al modelo de Amazon Bedrock LLM para la generación de consultas SQL basadas en preguntas en lenguaje natural:
```
#Connecting Spark AI to the Bedrock Titan LLM
spark_ai = SparkAI(llm = llm, verbose=False)
spark_ai.activate()
```

Aquí, hemos inicializado Spark AI con detallado=False; También puedes establecer verbose=True para ver más detalles.

Ahora puede leer los datos de NYC Taxi en un Spark DataFrame y utilizar el poder de la IA generativa en Spark.

Por ejemplo, puede preguntar el recuento de la cantidad de registros en el conjunto de datos:
```
taxi_records.ai.transform("count the number of records in this dataset").show()
```

Obtenemos la siguiente respuesta:

> Entering new AgentExecutor chain...
Thought: I need to count the number of records in the table.
Action: query_validation
Action Input: SELECT count(*) FROM spark_ai_temp_view_ee3325
Observation: OK
Thought: I now know the final answer.
Final Answer: SELECT count(*) FROM spark_ai_temp_view_ee3325
> Finished chain.
+----------+
| count(1)|
+----------+
|2870781820|
+----------+

Spark AI utiliza internamente LangChain y cadena SQL, que oculta la complejidad a los usuarios finales que trabajan con consultas en Spark.

El cuaderno tiene algunos escenarios de ejemplo más para explorar el poder de la IA generativa con Apache Spark y Amazon EMR.

Limpiar

Vaciar el contenido del depósito S3 emr-sparkai-<account-id>, elimine el espacio de trabajo de EMR Studio creado como parte de esta publicación y luego elimine la pila de CloudFormation que implementó.

Conclusión

Esta publicación mostró cómo puede potenciar sus análisis de big data con la ayuda de Apache Spark con Amazon EMR y Amazon Bedrock. El paquete PySpark AI le permite obtener información significativa de sus datos. Ayuda a reducir el tiempo de desarrollo y análisis, reduciendo el tiempo para escribir consultas manuales y permitiéndole centrarse en su caso de uso empresarial.

Acerca de los autores

Saurabh Butyani es arquitecto principal de soluciones especialista en análisis en AWS. Es un apasionado de las nuevas tecnologías. Se unió a AWS en 2019 y trabaja con clientes para brindar orientación arquitectónica para ejecutar casos de uso de IA generativa, soluciones de análisis escalables y arquitecturas de malla de datos utilizando servicios de AWS como Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation, y Amazon DataZone.

Harsh Vardhan es un arquitecto senior de soluciones de AWS, especializado en análisis. Tiene más de 8 años de experiencia trabajando en el campo de big data y ciencia de datos. Le apasiona ayudar a los clientes a adoptar las mejores prácticas y descubrir conocimientos a partir de sus datos.

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
Fuente: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/

Sello de tiempo: 16 de noviembre.

Sello de tiempo: Nov 15, 2023

Utilice IA generativa con Amazon EMR, Amazon Bedrock y el SDK en inglés para Apache Spark para obtener información valiosa | Servicios web de Amazon

Reeditado por Platón

Resumen de la solución

Requisitos previos

Cree recursos con AWS CloudFormation

Crear estudio EMR

Análisis de big data utilizando Apache Spark con Amazon EMR e IA generativa

Limpiar

Conclusión

Acerca de los autores

Mas de Big Data de AWS

Amazon QuickSight ayuda a TalentReef a empoderar a sus clientes para que tomen decisiones de contratación más informadas

Cargue datos de forma incremental desde lagos de datos transaccionales a almacenes de datos | Servicios web de Amazon

Visualice datos multivariados mediante un gráfico de radar en Amazon QuickSight

Presentamos compatibilidad con VPC compartida en Amazon MWAA | Servicios web de Amazon

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta