Используйте генеративный искусственный интеллект с Amazon EMR, Amazon Bedrock и английским SDK для Apache Spark, чтобы получить ценную информацию

Переиздано Платоном

Читают: 0

В эпоху больших данных организации по всему миру постоянно ищут инновационные способы извлечения ценности и информации из своих огромных наборов данных. Apache Spark предлагает масштабируемость и скорость, необходимые для эффективной обработки больших объемов данных.

Амазонка ЭМИ — это ведущее в отрасли облачное решение для больших данных для обработки петабайтных данных, интерактивной аналитики и машинного обучения (ML) с использованием платформ с открытым исходным кодом, таких как Apache Spark, Апачский улейи Presto. Amazon EMR — лучшее место для запуска Apache Spark. Вы можете быстро и легко создавать управляемые кластеры Spark из Консоль управления AWS, Интерфейс командной строки AWS (AWS CLI) или Amazon EMR API. Вы также можете использовать дополнительные функции Amazon EMR, в том числе быструю Простой сервис хранения Amazon (Amazon S3) подключение с использованием файловой системы Amazon EMR (EMRFS), интеграция с Спот Amazon EC2 рынок и Клей AWS Каталог данных и управляемое масштабирование EMR для добавления или удаления экземпляров из вашего кластера. Студия Amazon EMR — это интегрированная среда разработки (IDE), которая позволяет ученым и инженерам данных легко разрабатывать, визуализировать и отлаживать приложения для обработки данных и обработки данных, написанные на R, Python, Scala и PySpark. EMR Studio предоставляет полностью управляемые блокноты Jupyter и такие инструменты, как Spark UI и YARN Timeline Service, для упрощения отладки.

Чтобы раскрыть потенциал, скрытый в хранилищах данных, важно выйти за рамки традиционной аналитики. Познакомьтесь с генеративным искусственным интеллектом — передовой технологией, которая сочетает в себе машинное обучение и творчество для создания человекоподобного текста, изображений и даже кода. Коренная порода Амазонки — это самый простой способ создания и масштабирования генеративных приложений ИИ с помощью базовых моделей (FM). Amazon Bedrock — это полностью управляемый сервис, который делает FM от Amazon и ведущих компаний, занимающихся искусственным интеллектом, доступными через API, поэтому вы можете быстро экспериментировать с различными FM на игровой площадке и использовать единый API для вывода независимо от выбранных вами моделей, предоставляя вы получаете возможность использовать FM от разных поставщиков и быть в курсе последних версий моделей с минимальными изменениями кода.

В этой статье мы рассмотрим, как можно усовершенствовать анализ данных с помощью генеративного искусственного интеллекта с помощью Amazon EMR, Amazon Bedrock и pyspark-ай библиотека. Библиотека pyspark-ai — это английский SDK для Apache Spark. Он принимает инструкции на английском языке и компилирует их в объекты PySpark, такие как DataFrames. Это упрощает работу со Spark, позволяя вам сосредоточиться на извлечении пользы из ваших данных.

Обзор решения

На следующей диаграмме показана архитектура использования генеративного ИИ с Amazon EMR и Amazon Bedrock.

Обзор решения

EMR Studio — это веб-среда IDE для полностью управляемых ноутбуков Jupyter, работающих в кластерах EMR. Мы взаимодействуем с рабочими пространствами EMR Studio, подключенными к работающему кластеру EMR, и запускаем блокнот, предоставленный в рамках этого поста. Мы используем Такси Нью-Йорка данные для получения информации о различных поездках пользователей на такси. Мы задаем вопросы на естественном языке поверх данных, загруженных в Spark DataFrame. Затем библиотека pyspark-ai использует Amazon Titan Text FM от Amazon Bedrock для создания SQL-запроса на основе вопроса на естественном языке. Библиотека pyspark-ai принимает SQL-запрос, запускает его с помощью Spark SQL и возвращает результаты пользователю.

В этом решении вы можете создать и настроить необходимые ресурсы в своей учетной записи AWS с помощью AWS CloudFormation шаблон. Шаблон создает Клей AWS база данных и таблицы, корзина S3, VPC и другое Управление идентификацией и доступом AWS (IAM), которые используются в решении.

Шаблон предназначен для демонстрации использования EMR Studio с пакетом pyspark-ai и Amazon Bedrock и не предназначен для промышленного использования без изменений. Кроме того, в шаблоне используется us-east-1 Регион и может не работать в других регионах без изменений. Шаблон создает ресурсы, использование которых требует затрат. Следуйте инструкциям по очистке, приведенным в конце этого сообщения, чтобы удалить ресурсы и избежать ненужных расходов.

Предпосылки

Прежде чем запускать стек CloudFormation, убедитесь, что у вас есть следующее:

Учетная запись AWS, предоставляющая доступ к сервисам AWS.
Пользователь IAM с ключом доступа и секретным ключом для настройки интерфейса командной строки AWS, а также разрешениями на создание роли IAM, политик IAM и стеков в AWS CloudFormation.
Модель Titan Text G1 – Express в настоящее время находится в предварительной версии, поэтому вам необходимо иметь доступ к предварительной версии, чтобы использовать ее в рамках этого поста.

Создавайте ресурсы с помощью AWS CloudFormation

CloudFormation создает следующие ресурсы AWS:

Стек VPC с частными и общедоступными подсетями для использования с EMR Studio, таблицами маршрутов и шлюзом NAT.
Кластер EMR с установленным Python 3.9. Мы используем действие начальной загрузки для установки Python 3.9 и других соответствующих пакетов, таких как зависимости pyspark-ai и Amazon Bedrock. (Для получения дополнительной информации см. сценарий начальной загрузки.)
Корзина S3 для рабочей области EMR Studio и хранилища ноутбуков.
Роли и политики IAM для настройки EMR Studio, доступа к Amazon Bedrock и запуска блокнотов

Для начала выполните следующие шаги:

Выберите Стек запуска:
Выберите Я признаю, что этот шаблон может создавать ресурсы IAM.

Создание стека CloudFormation занимает примерно 20–30 минут. Вы можете следить за его ходом в консоли AWS CloudFormation. Когда его статус читается CREATE_COMPLETE, в вашей учетной записи AWS будут ресурсы, необходимые для реализации этого решения.

Создать студию EMR

Теперь вы можете создать EMR Studio и Workspace для работы с кодом блокнота. Выполните следующие шаги:

На консоли EMR Studio выберите Создать студию.
Введите Название студии as GenAI-EMR-Studio и дайте описание.
В Сеть и безопасность разделе укажите следующее:
- Что касается VPC, выберите VPC, который вы создали как часть развернутого вами стека CloudFormation. Получите идентификатор VPC, используя выходные данные CloudFormation для ключа VPCID.
- Что касается Subnets, выберите все четыре подсети.
- Что касается Безопасность и доступ, наведите на Пользовательская группа безопасности.
- Что касается Группа безопасности кластера/конечной точки, выберите EMRSparkAI-Cluster-Endpoint-SG.
- Что касается Группа безопасности рабочей области, выберите EMRSparkAI-Workspace-SG.
В Роль службы студии разделе укажите следующее:
- Что касается Аутентификация, наведите на Управление идентификацией и доступом AWS (IAM).
- Что касается Роль сервиса AWS IAM, выберите EMRSparkAI-StudioServiceRole.
В Хранение рабочего места раздел, просмотрите и выберите корзину S3 для хранения, начиная с emr-sparkai-<account-id>.
Выберите Создать студию.
Когда EMR Studio будет создана, выберите ссылку под URL-адрес доступа к студии для доступа в Студию.
Находясь в Студии, выберите Создать рабочее пространство.
Добавить emr-genai в качестве имени рабочей области и выберите Создать рабочее пространство.
Когда рабочая область будет создана, выберите ее имя, чтобы запустить рабочую область (убедитесь, что вы отключили все блокировщики всплывающих окон).

Аналитика больших данных с использованием Apache Spark, Amazon EMR и генеративного искусственного интеллекта

Теперь, когда мы завершили необходимую настройку, мы можем приступить к анализу больших данных с помощью Apache Spark с Amazon EMR и генеративного искусственного интеллекта.

В качестве первого шага мы загружаем блокнот с необходимым кодом и примерами для работы с вариантом использования. Мы используем набор данных NY Taxi, который содержит подробную информацию о поездках на такси.

Загрузите файл блокнота NYTaxi.ipynb и загрузите его в свою рабочую область, выбрав значок загрузки.
После импорта записной книжки откройте записную книжку и выберите PySpark как ядро.

ПиСпарк ИИ по умолчанию в качестве модели LLM используется OpenAI ChatGPT4.0, но вы также можете подключить модели из Amazon Bedrock, Amazon SageMaker JumpStartи другие модели сторонних производителей. В этой статье мы покажем, как интегрировать модель Amazon Bedrock Titan для генерации SQL-запросов и запустить ее с Apache Spark в Amazon EMR.

Чтобы начать работу с записной книжкой, вам необходимо связать рабочую область с вычислительным слоем. Для этого выберите Вычисление на панели навигации и выберите кластер EMR, созданный стеком CloudFormation.

Настройте параметры Python для использования обновленного пакета Python 3.9 с Amazon EMR:

%%configure -f
{
"conf": {
"spark.executorEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9"
}
}

Импортируйте необходимые библиотеки:

from pyspark_ai import SparkAI
from pyspark.sql import SparkSession
from langchain.chat_models import ChatOpenAI
from langchain.llms.bedrock import Bedrock
import boto3
import os

После импорта библиотек вы можете определить модель LLM из Amazon Bedrock. В данном случае мы используем amazon.titan-text-express-v1. Вам необходимо ввести регион и URL-адрес конечной точки Amazon Bedrock на основе вашего доступа к предварительной версии модели Titan Text G1 – Express.
```
boto3_bedrock = boto3.client('bedrock-runtime', '<region>', endpoint_url='<bedrock endpoint url>')
llm = Bedrock(
model_id="amazon.titan-text-express-v1",
client=boto3_bedrock)
```
Подключите Spark AI к модели Amazon Bedrock LLM для генерации SQL-запросов на основе вопросов на естественном языке:
```
#Connecting Spark AI to the Bedrock Titan LLM
spark_ai = SparkAI(llm = llm, verbose=False)
spark_ai.activate()
```

Здесь мы инициализировали Spark AI с помощью verbose=False; вы также можете установить verbose=True, чтобы просмотреть более подробную информацию.

Теперь вы можете читать данные такси Нью-Йорка в Spark DataFrame и использовать возможности генеративного искусственного интеллекта в Spark.

Например, вы можете запросить подсчет количества записей в наборе данных:
```
taxi_records.ai.transform("count the number of records in this dataset").show()
```

Получаем такой ответ:

> Entering new AgentExecutor chain...
Thought: I need to count the number of records in the table.
Action: query_validation
Action Input: SELECT count(*) FROM spark_ai_temp_view_ee3325
Observation: OK
Thought: I now know the final answer.
Final Answer: SELECT count(*) FROM spark_ai_temp_view_ee3325
> Finished chain.
+----------+
| count(1)|
+----------+
|2870781820|
+----------+

Spark AI использует внутри себя Лангчейн и цепочка SQL, которые скрывают сложность от конечных пользователей, работающих с запросами в Spark.

В записной книжке есть еще несколько примеров сценариев, позволяющих изучить возможности генеративного искусственного интеллекта с помощью Apache Spark и Amazon EMR.

Убирать

Очистите содержимое ведра S3. emr-sparkai-<account-id>, удалите рабочую область EMR Studio, созданную в рамках этой публикации, а затем удалите развернутый вами стек CloudFormation.

Заключение

В этом посте показано, как можно повысить эффективность анализа больших данных с помощью Apache Spark с Amazon EMR и Amazon Bedrock. Пакет PySpark AI позволяет вам получать ценную информацию из ваших данных. Это помогает сократить время разработки и анализа, сокращая время на написание запросов вручную и позволяя вам сосредоточиться на сценарии использования в вашем бизнесе.

Об авторах

Саурабх Бхутиани — главный специалист по архитектуре аналитических решений в AWS. Он увлечен новыми технологиями. Он присоединился к AWS в 2019 году и работает с клиентами, предоставляя рекомендации по архитектуре для реализации вариантов использования генеративного ИИ, масштабируемых аналитических решений и архитектур ячеек данных с использованием таких сервисов AWS, как Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation, и Amazon DataZone.

Суровый Вардхан — старший архитектор решений AWS, специализирующийся на аналитике. Имеет более 8 лет опыта работы в области больших данных и науки о данных. Он с энтузиазмом помогает клиентам внедрять лучшие практики и получать ценную информацию из своих данных.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/

Отметка времени: 16 ноября 2023

Отметка времени: 15 ноября, 2023

Используйте генеративный искусственный интеллект с Amazon EMR, Amazon Bedrock и английским SDK для Apache Spark, чтобы получить ценную информацию | Веб-сервисы Amazon

Переиздано Платоном

Обзор решения

Предпосылки

Создавайте ресурсы с помощью AWS CloudFormation

Создать студию EMR

Аналитика больших данных с использованием Apache Spark, Amazon EMR и генеративного искусственного интеллекта

Убирать

Заключение

Об авторах

Больше от AWS Большие данные

Amazon QuickSight помогает TalentReef предоставлять своим клиентам возможность принимать более обоснованные решения о найме

Поэтапная загрузка данных из озер транзакционных данных в хранилища данных | Веб-сервисы Amazon

Визуализируйте многомерные данные с помощью радарной диаграммы в Amazon QuickSight.

Представляем поддержку общего VPC в Amazon MWAA | Веб-сервисы Amazon

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись