В эпоху больших данных организации по всему миру постоянно ищут инновационные способы извлечения ценности и информации из своих огромных наборов данных. Apache Spark предлагает масштабируемость и скорость, необходимые для эффективной обработки больших объемов данных.
Амазонка ЭМИ — это ведущее в отрасли облачное решение для больших данных для обработки петабайтных данных, интерактивной аналитики и машинного обучения (ML) с использованием платформ с открытым исходным кодом, таких как Apache Spark, Апачский улейи Presto. Amazon EMR — лучшее место для запуска Apache Spark. Вы можете быстро и легко создавать управляемые кластеры Spark из Консоль управления AWS, Интерфейс командной строки AWS (AWS CLI) или Amazon EMR API. Вы также можете использовать дополнительные функции Amazon EMR, в том числе быструю Простой сервис хранения Amazon (Amazon S3) подключение с использованием файловой системы Amazon EMR (EMRFS), интеграция с Спот Amazon EC2 рынок и Клей AWS Каталог данных и управляемое масштабирование EMR для добавления или удаления экземпляров из вашего кластера. Студия Amazon EMR — это интегрированная среда разработки (IDE), которая позволяет ученым и инженерам данных легко разрабатывать, визуализировать и отлаживать приложения для обработки данных и обработки данных, написанные на R, Python, Scala и PySpark. EMR Studio предоставляет полностью управляемые блокноты Jupyter и такие инструменты, как Spark UI и YARN Timeline Service, для упрощения отладки.
Чтобы раскрыть потенциал, скрытый в хранилищах данных, важно выйти за рамки традиционной аналитики. Познакомьтесь с генеративным искусственным интеллектом — передовой технологией, которая сочетает в себе машинное обучение и творчество для создания человекоподобного текста, изображений и даже кода. Коренная порода Амазонки — это самый простой способ создания и масштабирования генеративных приложений ИИ с помощью базовых моделей (FM). Amazon Bedrock — это полностью управляемый сервис, который делает FM от Amazon и ведущих компаний, занимающихся искусственным интеллектом, доступными через API, поэтому вы можете быстро экспериментировать с различными FM на игровой площадке и использовать единый API для вывода независимо от выбранных вами моделей, предоставляя вы получаете возможность использовать FM от разных поставщиков и быть в курсе последних версий моделей с минимальными изменениями кода.
В этой статье мы рассмотрим, как можно усовершенствовать анализ данных с помощью генеративного искусственного интеллекта с помощью Amazon EMR, Amazon Bedrock и pyspark-ай библиотека. Библиотека pyspark-ai — это английский SDK для Apache Spark. Он принимает инструкции на английском языке и компилирует их в объекты PySpark, такие как DataFrames. Это упрощает работу со Spark, позволяя вам сосредоточиться на извлечении пользы из ваших данных.
Обзор решения
На следующей диаграмме показана архитектура использования генеративного ИИ с Amazon EMR и Amazon Bedrock.
EMR Studio — это веб-среда IDE для полностью управляемых ноутбуков Jupyter, работающих в кластерах EMR. Мы взаимодействуем с рабочими пространствами EMR Studio, подключенными к работающему кластеру EMR, и запускаем блокнот, предоставленный в рамках этого поста. Мы используем Такси Нью-Йорка данные для получения информации о различных поездках пользователей на такси. Мы задаем вопросы на естественном языке поверх данных, загруженных в Spark DataFrame. Затем библиотека pyspark-ai использует Amazon Titan Text FM от Amazon Bedrock для создания SQL-запроса на основе вопроса на естественном языке. Библиотека pyspark-ai принимает SQL-запрос, запускает его с помощью Spark SQL и возвращает результаты пользователю.
В этом решении вы можете создать и настроить необходимые ресурсы в своей учетной записи AWS с помощью AWS CloudFormation шаблон. Шаблон создает Клей AWS база данных и таблицы, корзина S3, VPC и другое Управление идентификацией и доступом AWS (IAM), которые используются в решении.
Шаблон предназначен для демонстрации использования EMR Studio с пакетом pyspark-ai и Amazon Bedrock и не предназначен для промышленного использования без изменений. Кроме того, в шаблоне используется us-east-1
Регион и может не работать в других регионах без изменений. Шаблон создает ресурсы, использование которых требует затрат. Следуйте инструкциям по очистке, приведенным в конце этого сообщения, чтобы удалить ресурсы и избежать ненужных расходов.
Предпосылки
Прежде чем запускать стек CloudFormation, убедитесь, что у вас есть следующее:
- Учетная запись AWS, предоставляющая доступ к сервисам AWS.
- Пользователь IAM с ключом доступа и секретным ключом для настройки интерфейса командной строки AWS, а также разрешениями на создание роли IAM, политик IAM и стеков в AWS CloudFormation.
- Модель Titan Text G1 – Express в настоящее время находится в предварительной версии, поэтому вам необходимо иметь доступ к предварительной версии, чтобы использовать ее в рамках этого поста.
Создавайте ресурсы с помощью AWS CloudFormation
CloudFormation создает следующие ресурсы AWS:
- Стек VPC с частными и общедоступными подсетями для использования с EMR Studio, таблицами маршрутов и шлюзом NAT.
- Кластер EMR с установленным Python 3.9. Мы используем действие начальной загрузки для установки Python 3.9 и других соответствующих пакетов, таких как зависимости pyspark-ai и Amazon Bedrock. (Для получения дополнительной информации см. сценарий начальной загрузки.)
- Корзина S3 для рабочей области EMR Studio и хранилища ноутбуков.
- Роли и политики IAM для настройки EMR Studio, доступа к Amazon Bedrock и запуска блокнотов
Для начала выполните следующие шаги:
Создание стека CloudFormation занимает примерно 20–30 минут. Вы можете следить за его ходом в консоли AWS CloudFormation. Когда его статус читается CREATE_COMPLETE
, в вашей учетной записи AWS будут ресурсы, необходимые для реализации этого решения.
Создать студию EMR
Теперь вы можете создать EMR Studio и Workspace для работы с кодом блокнота. Выполните следующие шаги:
- На консоли EMR Studio выберите Создать студию.
- Введите Название студии as
GenAI-EMR-Studio
и дайте описание. - В Сеть и безопасность разделе укажите следующее:
- Что касается VPC, выберите VPC, который вы создали как часть развернутого вами стека CloudFormation. Получите идентификатор VPC, используя выходные данные CloudFormation для ключа VPCID.
- Что касается Subnets, выберите все четыре подсети.
- Что касается Безопасность и доступ, наведите на Пользовательская группа безопасности.
- Что касается Группа безопасности кластера/конечной точки, выберите
EMRSparkAI-Cluster-Endpoint-SG
. - Что касается Группа безопасности рабочей области, выберите
EMRSparkAI-Workspace-SG
.
- В Роль службы студии разделе укажите следующее:
- Что касается Аутентификация, наведите на Управление идентификацией и доступом AWS (IAM).
- Что касается Роль сервиса AWS IAM, выберите
EMRSparkAI-StudioServiceRole
.
- В Хранение рабочего места раздел, просмотрите и выберите корзину S3 для хранения, начиная с
emr-sparkai-<account-id>
. - Выберите Создать студию.
- Когда EMR Studio будет создана, выберите ссылку под URL-адрес доступа к студии для доступа в Студию.
- Находясь в Студии, выберите Создать рабочее пространство.
- Добавить
emr-genai
в качестве имени рабочей области и выберите Создать рабочее пространство. - Когда рабочая область будет создана, выберите ее имя, чтобы запустить рабочую область (убедитесь, что вы отключили все блокировщики всплывающих окон).
Аналитика больших данных с использованием Apache Spark, Amazon EMR и генеративного искусственного интеллекта
Теперь, когда мы завершили необходимую настройку, мы можем приступить к анализу больших данных с помощью Apache Spark с Amazon EMR и генеративного искусственного интеллекта.
В качестве первого шага мы загружаем блокнот с необходимым кодом и примерами для работы с вариантом использования. Мы используем набор данных NY Taxi, который содержит подробную информацию о поездках на такси.
- Загрузите файл блокнота NYTaxi.ipynb и загрузите его в свою рабочую область, выбрав значок загрузки.
- После импорта записной книжки откройте записную книжку и выберите
PySpark
как ядро.
ПиСпарк ИИ по умолчанию в качестве модели LLM используется OpenAI ChatGPT4.0, но вы также можете подключить модели из Amazon Bedrock, Amazon SageMaker JumpStartи другие модели сторонних производителей. В этой статье мы покажем, как интегрировать модель Amazon Bedrock Titan для генерации SQL-запросов и запустить ее с Apache Spark в Amazon EMR.
- Чтобы начать работу с записной книжкой, вам необходимо связать рабочую область с вычислительным слоем. Для этого выберите Вычисление на панели навигации и выберите кластер EMR, созданный стеком CloudFormation.
- Настройте параметры Python для использования обновленного пакета Python 3.9 с Amazon EMR:
- Импортируйте необходимые библиотеки:
- После импорта библиотек вы можете определить модель LLM из Amazon Bedrock. В данном случае мы используем amazon.titan-text-express-v1. Вам необходимо ввести регион и URL-адрес конечной точки Amazon Bedrock на основе вашего доступа к предварительной версии модели Titan Text G1 – Express.
- Подключите Spark AI к модели Amazon Bedrock LLM для генерации SQL-запросов на основе вопросов на естественном языке:
Здесь мы инициализировали Spark AI с помощью verbose=False; вы также можете установить verbose=True, чтобы просмотреть более подробную информацию.
Теперь вы можете читать данные такси Нью-Йорка в Spark DataFrame и использовать возможности генеративного искусственного интеллекта в Spark.
- Например, вы можете запросить подсчет количества записей в наборе данных:
Получаем такой ответ:
Spark AI использует внутри себя Лангчейн и цепочка SQL, которые скрывают сложность от конечных пользователей, работающих с запросами в Spark.
В записной книжке есть еще несколько примеров сценариев, позволяющих изучить возможности генеративного искусственного интеллекта с помощью Apache Spark и Amazon EMR.
Убирать
Очистите содержимое ведра S3. emr-sparkai-<account-id>
, удалите рабочую область EMR Studio, созданную в рамках этой публикации, а затем удалите развернутый вами стек CloudFormation.
Заключение
В этом посте показано, как можно повысить эффективность анализа больших данных с помощью Apache Spark с Amazon EMR и Amazon Bedrock. Пакет PySpark AI позволяет вам получать ценную информацию из ваших данных. Это помогает сократить время разработки и анализа, сокращая время на написание запросов вручную и позволяя вам сосредоточиться на сценарии использования в вашем бизнесе.
Об авторах
Саурабх Бхутиани — главный специалист по архитектуре аналитических решений в AWS. Он увлечен новыми технологиями. Он присоединился к AWS в 2019 году и работает с клиентами, предоставляя рекомендации по архитектуре для реализации вариантов использования генеративного ИИ, масштабируемых аналитических решений и архитектур ячеек данных с использованием таких сервисов AWS, как Amazon Bedrock, Amazon SageMaker, Amazon EMR, Amazon Athena, AWS Glue, AWS Lake Formation, и Amazon DataZone.
Суровый Вардхан — старший архитектор решений AWS, специализирующийся на аналитике. Имеет более 8 лет опыта работы в области больших данных и науки о данных. Он с энтузиазмом помогает клиентам внедрять лучшие практики и получать ценную информацию из своих данных.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/
- :имеет
- :является
- :нет
- $UP
- 1
- 10
- 100
- 107
- 11
- 20
- 200
- 2019
- 320
- 500
- 521
- 7
- 8
- 9
- 990
- a
- О нас
- доступ
- управление доступом
- Учетная запись
- признавать
- Действие
- Добавить
- дополнительный
- Дополнительно
- принять
- AI
- варианты использования ИИ
- Все
- Позволяющий
- позволяет
- причислены
- Amazon
- Амазонка Афина
- Амазонка ЭМИ
- Создатель мудреца Амазонки
- Amazon Web Services
- суммы
- an
- анализ
- аналитика
- и
- ответ
- любой
- апаш
- Apache Spark
- API
- Приложения
- примерно
- архитектурный
- архитектура
- МЫ
- Искусство
- AS
- спросить
- Юрист
- At
- доступен
- избежать
- AWS
- AWS CloudFormation
- Клей AWS
- Формирование озера AWS
- назад
- основанный
- ЛУЧШЕЕ
- лучшие практики
- Beyond
- большой
- Big Data
- Начальная загрузка
- строить
- бизнес
- но
- кнопка
- by
- CAN
- случаев
- случаев
- каталог
- цепь
- изменения
- расходы
- Выберите
- Выбирая
- Город
- облако
- облачные большие данные
- Кластер
- код
- комбинаты
- Компании
- полный
- Заполненная
- сложность
- Вычисление
- подключенный
- связь
- Консоли
- постоянно
- содержит
- содержание
- Расходы
- Создайте
- создали
- создает
- креативность
- В настоящее время
- Клиенты
- передовой
- данным
- Анализ данных
- обработка данных
- наука о данных
- База данных
- Наборы данных
- Время
- По умолчанию
- определять
- демонстрировать
- Зависимости
- развернуть
- выводить
- описание
- предназначенный
- подробнее
- развивать
- Развитие
- различный
- инвалид
- обнаружить
- do
- эффективно
- легко
- конец
- Конечная точка
- Проект и
- Инженеры
- Английский
- обеспечивать
- Enter
- входящий
- Окружающая среда
- Эпоха
- существенный
- Эфир (ETH)
- Даже
- пример
- Примеры
- опыт
- эксперимент
- Больше
- экспресс
- извлечение
- БЫСТРО
- Особенности
- несколько
- поле
- Файл
- окончательный
- Во-первых,
- Трансформируемость
- Фокус
- следовать
- после
- Что касается
- образование
- Год основания
- 4
- каркасы
- от
- полностью
- g1
- запасать
- шлюз
- порождать
- поколение
- генеративный
- Генеративный ИИ
- получить
- Отдаете
- Go
- руководство
- Есть
- he
- помощь
- помощь
- помогает
- Скрытый
- Спрятать
- Как
- How To
- HTTP
- HTTPS
- i
- IAM
- ICON
- ID
- Личность
- управление идентификацией и доступом
- иллюстрирует
- осуществлять
- Импортировать
- in
- В других
- В том числе
- отрасли
- информация
- инновационный
- вход
- размышления
- устанавливать
- случаев
- инструкции
- интегрировать
- интегрированный
- интеграции.
- предназначенных
- взаимодействовать
- интерактивный
- внутренне
- в
- IT
- ЕГО
- присоединился
- JPG
- Сохранить
- Основные
- Знать
- озеро
- язык
- большой
- последний
- запуск
- слой
- ведущий
- изучение
- библиотеки
- Библиотека
- такое как
- линия
- LINK
- загрузка
- машина
- обучение с помощью машины
- сделать
- ДЕЛАЕТ
- управляемого
- управление
- руководство
- рынок
- Май..
- значимым
- сетке
- минимальный
- минут
- ML
- модель
- Модели
- монитор
- БОЛЕЕ
- самых
- имя
- натуральный
- Естественный язык
- Навигация
- необходимо
- Необходимость
- необходимый
- сетей
- Новые
- Новые технологии
- ноутбук
- ноутбуки
- сейчас
- номер
- NY
- Нью-Йорк
- объекты
- наблюдение
- of
- Предложения
- on
- открытый
- с открытым исходным кодом
- or
- организации
- Другое
- выходы
- за
- обзор
- пакет
- пакеты
- хлеб
- параметры
- часть
- страстный
- выполнения
- Разрешения
- Часть
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- детская площадка
- штекер
- сборах
- сообщения
- После
- потенциал
- мощностью
- практиками
- предварительный просмотр
- Основной
- частная
- процесс
- обработка
- Производство
- Прогресс
- обеспечивать
- при условии
- поставщики
- приводит
- что такое варган?
- Питон
- Запросы
- вопрос
- Вопросы
- быстро
- R
- Читать
- учет
- уменьшить
- снижение
- относиться
- Несмотря на
- область
- районы
- соответствующие
- удаление
- обязательный
- Полезные ресурсы
- ответ
- Итоги
- аттракционы
- Роли
- роли
- дорога
- Run
- Бег
- работает
- sagemaker
- масштаб
- Масштабируемость
- масштабируемые
- Шкала
- масштабирование
- Сценарии
- Наука
- Ученые
- SDK
- поиск
- Secret
- безопасность
- посмотреть
- выберите
- старший
- обслуживание
- Услуги
- набор
- установка
- показывать
- показал
- просто
- упростить
- одинарной
- So
- Решение
- Решения
- Источник
- Искриться
- специалист
- специализация
- скорость
- SQL
- стек
- Стеки
- Начало
- и политические лидеры
- Начало
- Статус:
- Шаг
- Шаги
- диск
- простой
- студия
- подсеть
- такие
- перегружать
- Убедитесь
- система
- ТАБЛИЦЫ
- приняты
- принимает
- технологии
- Технологии
- шаблон
- текст
- который
- Ассоциация
- их
- Их
- тогда
- они
- сторонние
- этой
- мысль
- Через
- время
- Сроки
- исполин
- в
- инструменты
- топ
- традиционный
- ui
- под
- отпереть
- обновление
- URL
- использование
- прецедент
- используемый
- Информация о пользователе
- пользователей
- использования
- через
- ценностное
- разнообразие
- различный
- Огромная
- визуализации
- Путь..
- способы
- we
- Web
- веб-сервисы
- Web-Based
- когда
- который
- в то время как
- будете
- в
- без
- Работа
- работает
- работает
- по всему миру
- записывать
- письменный
- лет
- йорк
- являетесь
- ВАШЕ
- зефирнет