Клиенты используют Амазонка Redshift выполнять важную для бизнеса аналитику на петабайтах структурированных и полуструктурированных данных. Apache Spark — это популярная платформа, которую можно использовать для создания приложений для таких сценариев использования, как ETL (извлечение, преобразование и загрузка), интерактивная аналитика и машинное обучение (ML). Apache Spark позволяет создавать приложения на различных языках, таких как Java, Scala и Python, путем доступа к данным в хранилище данных Amazon Redshift.
Интеграция Amazon Redshift с Apache Spark помогает разработчикам легко создавать и запускать приложения Apache Spark на данных Amazon Redshift. Разработчики могут использовать аналитику AWS и сервисы машинного обучения, такие как Амазонка ЭМИ, Клей AWSи Создатель мудреца Амазонки без особых усилий создавать приложения Apache Spark, которые считывают и записывают данные в хранилище данных Amazon Redshift. Вы можете сделать это без ущерба для производительности ваших приложений или согласованности транзакций ваших данных.
В этом посте мы обсудим, почему интеграция Amazon Redshift для Apache Spark важна и эффективна для аналитики и машинного обучения. Кроме того, мы обсудим варианты использования, которые используют интеграцию Amazon Redshift с Apache Spark для повышения эффективности бизнеса. Наконец, мы рассмотрим пошаговые примеры того, как использовать этот официальный коннектор AWS в приложении Apache Spark.
Интеграция Amazon Redshift для Apache Spark
Интеграция Amazon Redshift для Apache Spark сводит к минимуму трудоемкий и часто выполняемый вручную процесс настройки соединителя spark-redshift (версия сообщества) и сокращает время, необходимое для подготовки к задачам аналитики и машинного обучения. Вам нужно только указать подключение к вашему хранилищу данных, и вы сможете начать работу с данными Amazon Redshift из своих приложений на основе Apache Spark в течение нескольких минут.
Вы можете использовать несколько возможностей pushdown для таких операций, как сортировка, агрегирование, ограничение, объединение и скалярные функции, чтобы только релевантные данные перемещались из хранилища данных Amazon Redshift в потребляющее приложение Apache Spark. Это позволяет повысить производительность ваших приложений. Администраторы Amazon Redshift могут легко идентифицировать SQL, сгенерированный приложениями на основе Spark. В этом посте мы покажем, как узнать SQL, сгенерированный заданием Apache Spark.
Более того, интеграция Amazon Redshift для Apache Spark использует формат файла Parquet при размещении данных во временном каталоге. Amazon Redshift использует инструкцию UNLOAD SQL для хранения этих временных данных в Простой сервис хранения Amazon (Амазон С3). Приложение Apache Spark извлекает результаты из временного каталога (хранящегося в формате файла Parquet), что повышает производительность.
Вы также можете сделать свои приложения более безопасными, используя Управление идентификацией и доступом AWS (IAM) для подключения к Amazon Redshift.
Интеграция Amazon Redshift для Apache Spark основана на соединителе spark-redshift (версия сообщества) и улучшает его производительность и безопасность, помогая повысить производительность приложений до 10 раз.
Примеры использования интеграции Amazon Redshift с Apache Spark
В нашем случае руководство продуктовой компании хочет знать продажи каждого продукта на нескольких рынках. Поскольку продажи компании динамично колеблются, для руководства стало сложной задачей отслеживать продажи на нескольких рынках. Тем не менее, общие продажи снижаются, и руководство компании хочет выяснить, какие рынки не работают, чтобы они могли ориентироваться на эти рынки для рекламных кампаний.
Для продаж на нескольких рынках данные о продажах продуктов, такие как заказы, транзакции и данные об отгрузке, доступны на Amazon S3 в озере данных. Команда инженеров данных может использовать Apache Spark с Amazon EMR или AWS Glue для анализа этих данных в Amazon S3.
Данные инвентаризации доступны в Amazon Redshift. Аналогичным образом группа инженеров данных может анализировать эти данные с помощью Apache Spark с помощью Amazon EMR или задания AWS Glue, используя интеграцию Amazon Redshift для Apache Spark для выполнения агрегирования и преобразования. Агрегированный и преобразованный набор данных можно сохранить обратно в Amazon Redshift с помощью интеграции Amazon Redshift с Apache Spark.
Использование распределенной платформы, такой как Apache Spark, с интеграцией Amazon Redshift для Apache Spark может обеспечить прозрачность озера данных и хранилища данных для получения аналитических сведений о продажах. Эти аналитические данные могут быть доступны заинтересованным сторонам бизнеса и ряду бизнес-пользователей в Amazon Redshift для принятия обоснованных решений о проведении целевых рекламных акций для сегментов рынка с низким доходом.
Кроме того, мы можем использовать интеграцию Amazon Redshift с Apache Spark в следующих случаях:
- Клиент Amazon EMR или AWS Glue, выполняющий задания Apache Spark, хочет преобразовать данные и записать их в Amazon Redshift в рамках конвейера ETL.
- Клиент машинного обучения использует Apache Spark с SageMaker для разработки функций для доступа и преобразования данных в Amazon Redshift.
- Клиент Amazon EMR, AWS Glue или SageMaker использует Apache Spark для интерактивного анализа данных с данными в Amazon Redshift из ноутбуков.
Примеры интеграции Amazon Redshift для Apache Spark в приложении Apache Spark
В этом посте мы покажем, как подключить Amazon Redshift к Amazon EMR на Эластичное вычислительное облако Amazon (Амазон EC2), Amazon EMR без сервераи AWS Glue с помощью общего скрипта. В следующем примере кода мы создаем отчет, показывающий квартальные продажи за 2008 год. Для этого мы объединяем две таблицы Amazon Redshift с помощью Apache Spark DataFrame, запускаем предикатное преобразование, агрегируем и сортируем данные, а затем записываем преобразованный данные обратно в Amazon Redshift. Скрипт использует PySpark
Скрипт использует Аутентификация на основе IAM для Amazon Redshift. Роли IAM, используемые Amazon EMR и AWS Glue, должны иметь соответствующие разрешения для аутентификации Amazon Redshift и доступ к корзине S3 для временного хранения данных.
В следующем примере политика позволяет роли IAM вызывать GetClusterCredentials
операции:
Следующий пример политики разрешает доступ к корзине S3 для временного хранения данных:
Полный сценарий выглядит следующим образом:
Если вы планируете использовать предыдущий сценарий в своей среде, убедитесь, что вы заменили значения для следующих переменных соответствующими значениями для вашей среды: jdbc_iam_url
, temp_dir
и aws_role
.
В следующем разделе мы рассмотрим шаги по запуску этого скрипта для агрегирования образца набора данных, доступного в Amazon Redshift.
Предпосылки
Прежде чем мы начнем, убедитесь, что выполнены следующие предварительные условия:
Развертывание ресурсов с помощью AWS CloudFormation
Выполните следующие шаги, чтобы развернуть стек CloudFormation:
- Войдите в Консоль управления AWS, затем запустите стек CloudFormation:
Вы также можете скачать шаблон CloudFormation для создания ресурсов, упомянутых в этом посте, с помощью инфраструктуры как кода (IaC). Используйте этот шаблон при запуске нового стека CloudFormation.
- Прокрутите вниз до конца страницы, чтобы выбрать Я признаю, что AWS CloudFormation может создавать ресурсы IAM под Возможности, а затем выберите Создать стек.
Процесс создания стека занимает 15–20 минут. Шаблон CloudFormation создает следующие ресурсы:
-
- Amazon VPC с необходимыми подсетями, таблицами маршрутов и шлюзом NAT.
- Сегмент S3 с именем
redshift-spark-databucket-xxxxxxx
(обратите внимание, что xxxxxxx — это случайная строка, чтобы сделать имя корзины уникальным) - Кластер Amazon Redshift с образцами данных, загруженными в базу данных.
dev
и основной пользовательredshiftmasteruser
. Для целей этого сообщения в блогеredshiftmasteruser
с правами администратора. Однако в производственной среде рекомендуется использовать пользователя с детальным контролем доступа. - Роль IAM, которая будет использоваться для Amazon Redshift с возможностью запрашивать временные учетные данные из базы данных разработки кластера Amazon Redshift.
- Студия Amazon EMR с необходимыми ролями IAM
- Выпуск Amazon EMR версии 6.9.0 в кластере EC2 с необходимыми ролями IAM
- Выпуск приложения Amazon EMR Serverless версии 6.9.0
- Соединение с AWS Glue и задание AWS Glue версии 4.0
- A Блокнот Jupyter для запуска с помощью Amazon EMR Studio с помощью Amazon EMR в кластере EC2
- Сценарий PySpark для запуска с использованием Amazon EMR Studio и Amazon EMR Serverless.
- После завершения создания стека выберите имя стека
redshift-spark
и перейдите в Выходы
Мы используем эти выходные значения позже в этом посте.
В следующих разделах мы покажем шаги по интеграции Amazon Redshift для Apache Spark из Amazon EMR в Amazon EC2, Amazon EMR Serverless и AWS Glue.
Используйте интеграцию Amazon Redshift с Apache Spark в Amazon EMR на EC2.
Начиная с версии выпуска Amazon EMR 6.9.0 и выше, коннектор, использующий интеграцию Amazon Redshift для Apache Spark, и драйвер Amazon Redshift JDBC доступны локально в Amazon EMR. Эти файлы находятся под /usr/share/aws/redshift/
каталог. Однако в предыдущих версиях Amazon EMR сообщество версия spark-redshift
соединитель доступна.
В следующем примере показано, как подключиться к Amazon Redshift с помощью ядра PySpark через Студия Amazon EMR блокнот. Стек CloudFormation создал Amazon EMR Studio, Amazon EMR в кластере EC2 и блокнот Jupyter, доступный для запуска. Чтобы пройти этот пример, выполните следующие шаги:
- Загрузите записную книжку Jupyter, доступную в корзине S3:
- В выходных данных стека CloudFormation найдите значение для
EMRStudioNotebook
, который должен указывать наredshift-spark-emr.ipynb
ноутбук доступен в корзине S3. - Выберите ссылку или откройте ссылку в новой вкладке, скопировав URL-адрес блокнота.
- После того, как вы откроете ссылку, загрузите блокнот, выбрав Скачать, который сохранит файл локально на вашем компьютере.
- В выходных данных стека CloudFormation найдите значение для
- Получите доступ к Amazon EMR Studio, выбрав или скопировав ссылку, указанную в выходных данных стека CloudFormation для ключа.
EMRStudioURL
. - На панели навигации выберите Workspaces.
- Выберите Создать рабочее пространство.
- Укажите имя для рабочей области, например
redshift-spark
. - Развернуть Расширенная конфигурация раздел и выберите Присоединение рабочей области к кластеру EMR.
- Под Присоединение к кластеру EMR, выберите кластер EMR с именем
emrCluster-Redshift-Spark
. - Выберите Создать рабочее пространство.
- После того, как рабочая область Amazon EMR Studio создана и находится в состоянии «Подключено», вы можете получить доступ к рабочей области, выбрав имя рабочей области.
Это должно открыть рабочую область в новой вкладке. Обратите внимание: если у вас есть блокировщик всплывающих окон, вам может потребоваться разрешить рабочей области открывать или отключить блокировщик всплывающих окон.
Теперь в рабочую область Amazon EMR Studio мы загружаем записную книжку Jupyter, которую скачали ранее.
- Выберите Загрузите чтобы просмотреть локальную файловую систему и загрузить блокнот Jupyter (
redshift-spark-emr.ipynb
). - Выберите (двойной щелчок)
redshift-spark-emr.ipynb
Блокнот в рабочей области, чтобы открыть блокнот.
Блокнот предоставляет подробную информацию о различных задачах, которые он выполняет. Обратите внимание, что в разделе Определите переменные для подключения к кластеру Amazon Redshift., вам не нужно обновлять значения для jdbc_iam_url
, temp_dir
и aws_role
потому что они обновляются для вас AWS CloudFormation. AWS CloudFormation также выполнил шаги, упомянутые в Предпосылки раздел записной книжки.
Теперь вы можете запустить ноутбук.
- Запустите отдельные ячейки, выбрав их, а затем выбрав Играть.
Вы также можете использовать комбинацию клавиш Shift + Enter or Shift+Возврат. Кроме того, вы можете запустить все ячейки, выбрав Запустить все ячейки на Run .
- Найдите операцию предиката pushdown, выполняемую в кластере Amazon Redshift интеграцией Amazon Redshift для Apache Spark.
Мы также можем видеть временные данные, хранящиеся на Amazon S3, в оптимизированном формате Parquet. Результат можно увидеть при запуске ячейки в разделе Получить последний запрос, выполненный в Amazon Redshift.
- Чтобы проверить таблицу, созданную заданием из Amazon EMR в Amazon EC2, перейдите в консоль Amazon Redshift и выберите кластер.
redshift-spark-redshift-cluster
на Панель подготовленных кластеров стр. - В сведениях о кластере на Данные запроса Меню, выберите Запрос в редакторе запросов v2.
- Выберите кластер на панели навигации и подключитесь к кластеру Amazon Redshift, когда он запросит аутентификацию.
- Выберите Временные учетные данные.
- Что касается База данных, войти
dev
. - Что касается , войти
redshiftmasteruser
. - Выберите Сохранить.
- В области навигации разверните кластер
redshift-spark-redshift-cluster
, расширить базу данных разработчиков, расширитьtickit
, и развернуть таблицы чтобы перечислить все таблицы внутри схемыtickit
.
Вы должны найти стол test_emr
.
- Выберите (щелкните правой кнопкой мыши) таблицу
test_emr
, а затем выберите Выбрать стол для запроса таблицы. - Выберите Run для запуска оператора SQL.
Используйте интеграцию Amazon Redshift с Apache Spark в Amazon EMR Serverless
Выпуск Amazon EMR версии 6.9.0 и выше обеспечивает интеграцию Amazon Redshift с JAR-файлами Apache Spark (управляемыми Amazon Redshift) и JAR-файлами JDBC Amazon Redshift локально в Amazon EMR Serverless. Эти файлы находятся под /usr/share/aws/redshift/
каталог. В следующем примере мы используем скрипт Python, доступный в корзине S3 с помощью стека CloudFormation, который мы создали ранее.
- В выходных данных стека CloudFormation запишите значение для
EMRServerlessExecutionScript
, где находится скрипт Python в корзине S3. - Также обратите внимание на значение для
EMRServerlessJobExecutionRole
, которая представляет собой роль IAM, используемую при выполнении задания Amazon EMR Serverless. - Получите доступ к Amazon EMR Studio, выбрав или скопировав ссылку, указанную в выходных данных стека CloudFormation для ключа.
EMRStudioURL
. - Выберите Приложения под Serverless в навигационной панели.
Вы найдете приложение EMR, созданное стеком CloudFormation, с именем emr-spark-redshift
.
- Выберите имя приложения, чтобы отправить задание.
- Выберите Отправить работу.
- Под Детали работы, Для Имя, введите идентифицируемое имя задания.
- Что касается Роль времени выполнения, выберите роль IAM, которую вы отметили в выходных данных стека CloudFormation ранее.
- Что касается Расположение скрипта, укажите путь к сценарию Python, указанному ранее в выходных данных стека CloudFormation.
- Развернуть раздел Искровые свойства и выберите Изменить в тексте
- Введите следующее значение в текстовое поле, которое указывает путь к
redshift-connector
, драйвер Amazon Redshift JDBC,spark-avro
JAR иminimal-json
JAR-файлы: - Выберите Отправить работу.
- Подождите, пока задание завершится и статус выполнения отобразится как Успех.
- Перейдите к редактору запросов Amazon Redshift, чтобы проверить, успешно ли создана таблица.
- Проверьте выполнение запросов pushdown для группы запросов Amazon Redshift.
emr-serverless-redshift
. Вы можете запустить следующую инструкцию SQL для базы данныхdev
:
Вы можете видеть, что запрос pushdown и возвращаемые результаты хранятся в формате файла Parquet на Amazon S3.
Используйте интеграцию Amazon Redshift с Apache Spark на AWS Glue
Начиная с AWS Glue версии 4.0 и выше, задания Apache Spark, подключающиеся к Amazon Redshift, могут использовать интеграцию Amazon Redshift для драйвера Apache Spark и Amazon Redshift JDBC. Существующие задания AWS Glue, которые уже используют Amazon Redshift в качестве источника или цели, можно обновить до AWS Glue 4.0, чтобы воспользоваться преимуществами этого нового соединителя. Шаблон CloudFormation, представленный в этом посте, создает следующие ресурсы AWS Glue:
- Подключение AWS Glue для Amazon Redshift – Соединение для установки соединения из AWS Glue с Amazon Redshift с использованием интеграции Amazon Redshift для Apache Spark.
- Роль IAM, прикрепленная к заданию AWS Glue – Роль IAM для управления разрешениями на выполнение задания AWS Glue.
- AWS Glue работа – Скрипт для задания AWS Glue, выполняющего преобразования и агрегации с использованием интеграции Amazon Redshift для Apache Spark.
В следующем примере используется соединение AWS Glue, прикрепленное к заданию AWS Glue с PySpark, и включает следующие шаги:
- На консоли AWS Glue выберите Коммутация в навигационной панели.
- Под Коммутация, выберите подключение AWS Glue для Amazon Redshift, созданное с помощью шаблона CloudFormation.
- Проверьте данные подключения.
Теперь вы можете повторно использовать это соединение в задании или в нескольких заданиях.
- На Соединители выберите задание AWS Glue, созданное стеком CloudFormation, в разделе Ваша работаили получить доступ к заданию AWS Glue, используя URL-адрес, предоставленный для ключа
GlueJob
в выводе стека CloudFormation. - Получите доступ к сценарию для задания AWS Glue и проверьте его.
- На Детали работы вкладку, убедитесь, что Версия клея на Клей 4.0.
Это гарантирует, что в задании используются самые последние redshift-spark
коннектор.
- Расширьте Дополнительные свойства и в Коммутация убедитесь, что соединение, созданное стеком CloudFormation, подключено.
- Проверьте параметры задания, добавленные для задания AWS Glue. Эти значения также доступны в выходных данных для стека CloudFormation.
- Выберите Сохранить , а затем Run.
Вы можете просмотреть статус выполнения задания на Run меню.
- После успешного завершения задания вы можете проверить вывод таблицы test-glue, созданной заданием AWS Glue.
- Мы проверяем выполнение запросов pushdown для группы запросов Amazon Redshift.
glue-redshift
. Вы можете запустить следующую инструкцию SQL для базы данныхdev
:
Лучшие практики
Помните о следующих рекомендациях:
- Рассмотрите возможность использования интеграции Amazon Redshift для Apache Spark из Amazon EMR вместо использования
redshift-spark
коннектор (версия сообщества) для ваших новых заданий Apache Spark. - Если у вас есть существующие задания Apache Spark, использующие
redshift-spark
коннектор (версия сообщества), рассмотрите возможность их обновления, чтобы использовать интеграцию Amazon Redshift для Apache Spark. - Интеграция Amazon Redshift для Apache Spark автоматически применяет предикаты и запросы для оптимизации производительности. Мы рекомендуем использовать поддерживаемые функции (
autopushdown
) в вашем запросе. Интеграция Amazon Redshift для Apache Spark преобразует функцию в SQL-запрос и запускает запрос в Amazon Redshift. Эта оптимизация приводит к извлечению необходимых данных, поэтому Apache Spark может обрабатывать меньше данных и иметь более высокую производительность.- Рассмотрите возможность использования агрегатных функций выталкивания, таких как
avg
,count
,max
,min
иsum
для извлечения отфильтрованных данных для обработки данных. - Рассмотрите возможность использования логических операторов pushdown, таких как
in
,isnull
,isnotnull
,contains
,endswith
иstartswith
для извлечения отфильтрованных данных для обработки данных. - Рассмотрите возможность использования логических операторов pushdown, таких как
and
,or
иnot
(или!
) для извлечения отфильтрованных данных для обработки данных.
- Рассмотрите возможность использования агрегатных функций выталкивания, таких как
- Роль IAM рекомендуется передавать с помощью параметра
aws_iam_role
для аутентификации Amazon Redshift из вашего приложения Apache Spark в Amazon EMR или AWS Glue. Роль IAM должна иметь необходимые разрешения для получения временных учетных данных IAM для аутентификации в Amazon Redshift, как показано в разделе этого блога «Примеры интеграции Amazon Redshift для Apache Spark в приложении Apache Spark». - Благодаря этой функции вам не нужно сохранять имя пользователя и пароль Amazon Redshift в диспетчере секретов и базе данных Amazon Redshift.
- Amazon Redshift использует инструкцию UNLOAD SQL для хранения этих временных данных в Amazon S3. Приложение Apache Spark извлекает результаты из временного каталога (хранящегося в формате файла Parquet). Этот временный каталог на Amazon S3 не очищается автоматически и, следовательно, может привести к дополнительным затратам. Мы рекомендуем использовать Политики жизненного цикла Amazon S3 чтобы определить правила хранения для корзины S3.
- Рекомендуется включить Ведение журнала аудита Amazon Redshift для регистрации информации о подключениях и действиях пользователей в вашей базе данных.
- Рекомендуется включить Шифрование Amazon Redshift при хранении для шифрования ваших данных по мере того, как Amazon Redshift записывает их в свои центры обработки данных, и расшифровывать их для вас при доступе к ним.
- Рекомендуется выполнить обновление до AWS Glue версии 4.0 и выше, чтобы использовать интеграцию Amazon Redshift для Apache Spark, которая доступна по умолчанию. При обновлении до этой версии AWS Glue эта функция будет использоваться автоматически.
- Рекомендуется выполнить обновление до Amazon EMR версии 6.9.0 и выше, чтобы использовать интеграцию Amazon Redshift для Apache Spark. Вам не нужно явно управлять какими-либо драйверами или файлами JAR.
- Рассмотрите возможность использования блокнотов Amazon EMR Studio для взаимодействия с данными Amazon Redshift в приложении Apache Spark.
- Рассмотрите возможность использования AWS Glue Studio для создания заданий Apache Spark с помощью визуального интерфейса. Вы также можете переключиться на написание кода Apache Spark в Scala или PySpark в AWS Glue Studio.
Убирать
Выполните следующие шаги, чтобы очистить ресурсы, созданные как часть шаблона CloudFormation, чтобы гарантировать, что вам не будет выставлен счет за ресурсы, если вы больше не будете их использовать:
- Остановите бессерверное приложение Amazon EMR:
- Получите доступ к Amazon EMR Studio, выбрав или скопировав ссылку, указанную в выходных данных стека CloudFormation для ключа.
EMRStudioURL
. - Выберите Приложения под Serverless в навигационной панели.
- Получите доступ к Amazon EMR Studio, выбрав или скопировав ссылку, указанную в выходных данных стека CloudFormation для ключа.
Вы найдете приложение EMR, созданное стеком CloudFormation, с именем emr-spark-redshift
.
-
- Если статус приложения отображается как «Остановлено», вы можете перейти к следующим шагам. Однако, если статус приложения Запущено, выберите имя приложения, затем выберите Остановить применение и Остановить применение для подтверждения.
- Удалите рабочую область Amazon EMR Studio:
- Получите доступ к Amazon EMR Studio, выбрав или скопировав ссылку, указанную в выходных данных стека CloudFormation для ключа.
EMRStudioURL
. - Выберите Workspaces в навигационной панели.
- Выберите рабочую область, которую вы создали, и выберите Удалить, а затем выберите Удалить для подтверждения.
- Получите доступ к Amazon EMR Studio, выбрав или скопировав ссылку, указанную в выходных данных стека CloudFormation для ключа.
- Удалите стек CloudFormation:
-
- В консоли AWS CloudFormation перейдите к созданному ранее стеку.
- Выберите имя стека, а затем выберите Удалить удалить стек и удалить ресурсы, созданные как часть этого поста.
- На экране подтверждения выберите Удалить стопку.
Заключение
В этом посте мы объяснили, как можно использовать интеграцию Amazon Redshift для Apache Spark для создания и развертывания приложений с помощью Amazon EMR на Amazon EC2, Amazon EMR Serverless и AWS Glue для автоматического применения предикатов и запросов с расталкиванием для оптимизации производительности запросов к данным. в Amazon Redshift. Настоятельно рекомендуется использовать интеграцию Amazon Redshift для Apache Spark для удобного и безопасного подключения к Amazon Redshift из Amazon EMR или AWS Glue.
Вот что некоторые из наших клиентов говорят об интеграции Amazon Redshift с Apache Spark:
«Мы даем возможность нашим инженерам создавать свои конвейеры данных и приложения с помощью Apache Spark, используя Python и Scala. Нам нужно было индивидуальное решение, которое упростило бы операции и обеспечило более быструю и эффективную доставку для наших клиентов, и это то, что мы получили благодаря новой интеграции Amazon Redshift для Apache Spark».
—Гурон Консалтинг
«GE Aerospace использует аналитику AWS и Amazon Redshift для предоставления важных бизнес-идей, которые определяют важные бизнес-решения. Благодаря поддержке автоматического копирования из Amazon S3 мы можем создавать более простые конвейеры данных для перемещения данных из Amazon S3 в Amazon Redshift. Это ускоряет возможности наших специалистов по продуктам данных для доступа к данным и предоставления информации конечным пользователям. Мы тратим больше времени на добавление ценности с помощью данных и меньше времени на интеграцию».
—Дженерал Аэроспейс
«Мы сосредоточены на предоставлении самообслуживания доступа к данным для всех наших пользователей в Goldman Sachs. С помощью Legend, нашей платформы для управления и управления данными с открытым исходным кодом, мы даем пользователям возможность разрабатывать приложения, ориентированные на данные, и получать аналитические данные на основе данных в ходе нашего сотрудничества в сфере финансовых услуг. Благодаря интеграции Amazon Redshift с Apache Spark наша группа по платформе данных сможет получать доступ к данным Amazon Redshift с минимальными ручными действиями, что позволит использовать ETL без кода, что расширит наши возможности, чтобы инженерам было проще сосредоточиться на совершенствовании своего рабочего процесса по мере необходимости. они собирают полную и своевременную информацию. Мы ожидаем повышения производительности приложений и повышения безопасности, поскольку теперь наши пользователи могут легко получать доступ к последним данным в Amazon Redshift».
-Голдман Сакс
Об авторах
Гаган Брахми — старший специалист по архитектуре решений, занимающийся аналитикой больших данных и платформой AI/ML в Amazon Web Services. Гейган имеет более чем 18-летний опыт работы в области информационных технологий. Он помогает клиентам проектировать и создавать высокомасштабируемые, производительные и безопасные облачные решения на AWS. В свободное время он проводит время со своей семьей и исследует новые места.
Вивек Гаутам является архитектором данных со специализацией на озерах данных в AWS Professional Services. Он работает с корпоративными клиентами, создавая продукты для обработки данных, аналитические платформы и решения на AWS. Когда Вивек не занимается созданием и проектированием озер данных, он увлекается едой, а также любит исследовать новые места для путешествий и ходить в походы.
Нареш Гаутам является лидером в области аналитики данных и искусственного интеллекта и машинного обучения в AWS с 20-летним опытом работы. Ему нравится помогать клиентам разрабатывать высокодоступные, высокопроизводительные и экономичные решения для анализа данных и искусственного интеллекта и машинного обучения, чтобы предоставить клиентам возможность принимать решения на основе данных. . В свободное время он любит медитировать и готовить.
Бо Шарифи является инженером-разработчиком программного обеспечения в группе драйверов Amazon Redshift, где он руководит разработкой интеграции Amazon Redshift с коннектором Apache Spark. Он имеет более чем 20-летний опыт создания платформ, управляемых данными, в различных отраслях. В свободное время он любит проводить время со своей семьей и заниматься серфингом.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Чеканка будущего с Эдриенн Эшли. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/big-data/simplify-and-speed-up-apache-spark-applications-on-amazon-redshift-data-with-amazon-redshift-integration-for-apache-spark/
- :имеет
- :является
- :нет
- $UP
- 1
- 10
- 100
- 107
- 11
- 20
- 20 лет
- 7
- 8
- 9
- a
- способность
- в состоянии
- О нас
- выше
- ускоряет
- доступ
- Доступ к данным
- доступа
- признавать
- через
- Действие
- активно
- добавленный
- дополнение
- дополнительный
- административный
- плюс
- Аэрокосмическая индустрия
- против
- AI / ML
- Все
- Позволяющий
- позволяет
- уже
- причислены
- Amazon
- Amazon EC2
- Амазонка ЭМИ
- Amazon Web Services
- an
- анализ
- аналитика
- анализировать
- и
- любой
- апаш
- Apache Spark
- Применение
- Приложения
- Применить
- соответствующий
- МЫ
- AS
- At
- аудит
- проверять подлинность
- Аутентификация
- автоматически
- доступен
- AWS
- AWS CloudFormation
- Клей AWS
- Профессиональные услуги AWS
- назад
- BE
- , так как:
- становиться
- начинать
- не являетесь
- ЛУЧШЕЕ
- лучшие практики
- Лучшая
- большой
- Big Data
- Блог
- Дно
- Коробка
- строить
- строитель
- Строительство
- построенный
- бизнес
- влияние на бизнес
- by
- призывают
- Кампании
- CAN
- возможности
- случаев
- случаев
- Клетки
- Центры
- вызов
- проверка
- Выберите
- Выбирая
- класс
- клиентов
- Кластер
- код
- сотрудничать
- собирать
- COM
- сочетание
- Общий
- сообщество
- Компания
- полный
- зАВЕРШАЕТ
- компромат
- Вычисление
- компьютер
- подтвердить
- подтверждение
- Свяжитесь
- Соединительный
- связи
- Коммутация
- Рассматривать
- Консоли
- контекст
- контроль
- приготовление
- копирование
- Цена
- рентабельным
- может
- Создайте
- создали
- создает
- создание
- Полномочия
- критической
- клиент
- Клиенты
- приборная панель
- данным
- анализ данных
- Анализ данных
- центров обработки данных
- Озеро данных
- управление данными
- Платформа данных
- обработка данных
- хранение данных
- информационное хранилище
- управляемых данными
- База данных
- Время
- Принятие решений
- решения
- Отказ
- Decrypt
- доставить
- поставляется
- развертывание
- проектирование
- направления
- подробнее
- Дев
- развивать
- застройщиков
- Развитие
- различный
- обсуждать
- Дисплей
- распределенный
- Dont
- вниз
- скачать
- управлять
- водитель
- драйверы
- Падение
- динамично
- каждый
- Ранее
- легче
- легко
- редактор
- эффект
- эффективный
- эффективно
- или
- расширение прав и возможностей
- включить
- позволяет
- инженер
- Проект и
- Инженеры
- Усиливает
- обеспечивать
- обеспечивает
- Enter
- Предприятие
- корпоративные клиенты
- энтузиаст
- Окружающая среда
- установить
- Эфир (ETH)
- пример
- Примеры
- существующий
- Расширьте
- ожидать
- опыт
- объяснены
- Больше
- извлечение
- семья
- быстрее
- Особенность
- Файл
- Файлы
- в заключение
- финансовый
- финансовые услуги
- Найдите
- конец
- колебаться
- Фокус
- внимание
- после
- следующим образом
- питание
- Что касается
- формат
- КАДР
- Рамки
- Бесплатно
- от
- функция
- Функции
- Gain
- порождать
- генерируется
- получить
- GitHub
- Go
- Голдман
- Goldman Sachs
- управление
- группы
- Есть
- he
- помощь
- помощь
- помогает
- высокая производительность
- очень
- Hikes
- Как
- How To
- Однако
- HTML
- HTTP
- HTTPS
- МАК
- IAM
- определения
- Личность
- Влияние
- Импортировать
- важную
- улучшать
- улучшенный
- улучшение
- улучшается
- in
- включает в себя
- Увеличение
- individual
- промышленности
- промышленность
- информация
- информационная технология
- сообщил
- Инфраструктура
- инициировать
- размышления
- пример
- вместо
- интеграции.
- интеграций
- взаимодействовать
- интерактивный
- Интерфейс
- в
- инвентаризация
- данные инвентаризации
- IT
- ЕГО
- Java
- работа
- Джобс
- присоединиться
- Jupyter Notebook
- Основные
- Знать
- озеро
- Языки
- Фамилия
- последний
- запуск
- запуск
- лидер
- Наша команда
- Лиды
- изучение
- Lets
- Жизненный цикл
- такое как
- ОГРАНИЧЕНИЯ
- линия
- LINK
- Список
- загрузка
- локальным
- в местном масштабе
- расположенный
- расположение
- логический
- дольше
- посмотреть
- Низкий
- машина
- обучение с помощью машины
- сделанный
- поддерживать
- сделать
- управлять
- управляемого
- управление
- менеджер
- руководство
- рынок
- Области применения:
- Май..
- МЕДИТАЦИЯ
- упомянутый
- Меню
- может быть
- против
- минимальный
- минут
- ML
- БОЛЕЕ
- двигаться
- с разными
- имя
- Откройте
- Навигация
- необходимо
- Необходимость
- необходимый
- Новые
- следующий
- ноутбук
- ноутбуки
- отметил,
- сейчас
- of
- Официальный представитель в Грузии
- on
- только
- открытый
- с открытым исходным кодом
- операция
- Операционный отдел
- Операторы
- оптимизация
- Оптимизировать
- оптимизированный
- Опции
- or
- заказ
- заказы
- наши
- выходной
- за
- общий
- страница
- хлеб
- параметр
- параметры
- часть
- pass
- Пароль
- путь
- совершенствование
- выполнять
- производительность
- выполнения
- выполняет
- Разрешения
- Мест
- план
- Платформа
- Платформы
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Точка
- политика
- сообщения
- Популярное
- После
- практиками
- Подготовить
- предпосылки
- предыдущий
- первичный
- процесс
- обработка
- Продукт
- Производство
- Продукция
- профессиональный
- продвижение
- Спецпредложения
- обеспечивать
- при условии
- приводит
- обеспечение
- цель
- Push
- Питон
- Запросы
- случайный
- Читать
- рекомендовать
- Управление по борьбе с наркотиками (DEA)
- освободить
- соответствующие
- удаление
- замещать
- отчету
- запросить
- Запросы
- обязательный
- ресурс
- Полезные ресурсы
- Итоги
- сохранение
- возвращают
- снова использовать
- доходы
- Щелкните правой кнопкой мыши
- Роли
- роли
- дорога
- условиями,
- Run
- Бег
- Sachs
- sagemaker
- главная
- Пример набора данных
- Сохранить
- масштаб
- масштабируемые
- экран
- бесшовные
- легко
- Раздел
- разделах
- безопасный
- безопасность
- сегментами
- выбор
- Самообслуживание
- старший
- Serverless
- Услуги
- Сессия
- набор
- установка
- несколько
- должен
- показывать
- показанный
- Шоу
- Аналогичным образом
- просто
- упрощенный
- упростить
- So
- Software
- разработка программного обеспечения
- Решение
- Решения
- некоторые
- Источник
- Искриться
- специалист
- скорость
- тратить
- Расходы
- SQL
- стек
- инсценировка
- заинтересованных сторон
- Начало
- и политические лидеры
- заявление
- Статус:
- Шаги
- остановившийся
- диск
- магазин
- хранить
- строка
- структурированный
- студия
- отправить
- подсеть
- Успешно
- такие
- поддержка
- Поддержанный
- Коммутатор
- система
- ТАБЛИЦЫ
- с учетом
- взять
- принимает
- цель
- целевое
- задачи
- команда
- Технологии
- шаблон
- временный
- тестXNUMX
- который
- Ассоциация
- информация
- их
- Их
- следовательно
- Эти
- этой
- Через
- время
- раз
- в
- топ
- трек
- транзакционный
- Сделки
- Transform
- преобразований
- преобразован
- превращение
- путешествовать
- ОЧЕРЕДЬ
- под
- созданного
- Обновление ПО
- обновление
- модернизация
- повышен
- URL
- использование
- прецедент
- используемый
- Информация о пользователе
- пользователей
- использовать
- Использующий
- VALIDATE
- Проверка
- ценностное
- Наши ценности
- разнообразие
- проверить
- версия
- с помощью
- Вид
- видимость
- стремятся
- Склады
- законопроект
- we
- Web
- веб-сервисы
- ЧТО Ж
- Что
- который
- КТО
- будете
- в
- без
- рабочий
- работает
- работает
- записывать
- письмо
- письменный
- YAML
- год
- лет
- являетесь
- ВАШЕ
- зефирнет