В этой статье мы рассмотрим, как использовать Клей AWS встроенный соединитель для Teradata Vantage, позволяющий оптимизировать интеграцию данных и раскрыть весь потенциал ваших данных.
Предприятия часто полагаются на Простой сервис хранения Amazon (Amazon S3) для экономичного и безопасного хранения больших объемов данных из различных источников данных. Для тех, кто использует Teradata для анализа данных, интеграция через собственный соединитель AWS Glue для Teradata Vantage открывает новые возможности. AWS Glue повышает гибкость и эффективность управления данными, позволяя компаниям легко интегрировать свои данные, независимо от их местоположения, с аналитическими возможностями Teradata. Этот новый разъем устраняет технические препятствия, связанные с настройкой, безопасностью и управлением, позволяя компаниям легко экспортировать или импортировать свои наборы данных в Teradata Vantage. В результате компании могут больше сосредоточиться на извлечении значимой информации из своих данных, а не на сложностях интеграции данных.
AWS Glue — это бессерверный сервис интеграции данных, который позволяет пользователям аналитики легко находить, подготавливать, перемещать и интегрировать данные из нескольких источников для аналитики, машинного обучения (ML) и разработки приложений. С помощью AWS Glue вы можете обнаруживать и подключаться к более чем 100 различным источникам данных, а также управлять своими данными в централизованном каталоге данных. Вы можете визуально создавать, запускать и отслеживать конвейеры извлечения, преобразования и загрузки (ETL) для загрузки данных в озера данных.
Корпорация Терадата — это ведущая подключенная мультиоблачная платформа данных для корпоративной аналитики, призванная помочь компаниям использовать все свои данные на предприятии в любом масштабе. Как Компетенция AWS в области данных и аналитики Партнер Teradata предлагает полную облачную платформу для аналитики и данных, в том числе для машинного обучения.
Представляем собственный соединитель AWS Glue для Teradata Vantage
AWS Glue обеспечивает поддержку Teradata, доступную как через AWS Glue Studio, так и через ETL-скрипты AWS Glue. Используя AWS Glue Studio, вы получаете преимущества визуального интерфейса, который упрощает процесс подключения к Teradata, а также создание, запуск и мониторинг заданий AWS Glue ETL. Для разработчиков данных эта поддержка распространяется на ETL-скрипты AWS Glue, где вы можете использовать Python или Scala для создания и управления более конкретными задачами интеграции и преобразования данных.
Собственный соединитель AWS Glue для Teradata Vantage позволяет эффективно читать и записывать данные из Teradata без необходимости устанавливать какие-либо библиотеки соединителей или управлять ими. Вы можете добавить Teradata как источник, так и цель в визуальном интерфейсе AWS Glue Studio, не требующем написания кода, с возможностью перетаскивания или использовать соединитель непосредственно в задании сценария AWS Glue ETL.
Обзор решения
В этом примере вы используете AWS Glue Studio для обогащения и загрузки данных, хранящихся на Amazon S3, в Teradata Vantage. Вы начинаете с объединения файлов Event и Venue из файла БИЛЕТ набор данных. Затем вы фильтруете результаты по одному географическому региону. Наконец, вы загружаете уточненные данные в Teradata Vantage.
Набор данных TICKIT отслеживает активность продаж вымышленного веб-сайта TICKIT, где пользователи покупают и продают онлайн билеты на спортивные мероприятия, шоу и концерты. В этом наборе данных аналитики могут определить движение билетов с течением времени, показатели успеха продавцов, а также самые продаваемые мероприятия, места проведения и сезоны.
В этом примере вы используете AWS Glue Studio для разработки визуального конвейера ETL. Этот конвейер будет считывать данные из Amazon S3, выполнять преобразования, а затем загружать преобразованные данные в Teradata. Следующая диаграмма иллюстрирует эту архитектуру.
К концу этой статьи ваше визуальное задание ETL будет напоминать следующий снимок экрана.
Предпосылки
В этом примере у вас должен быть доступ к существующей конечной точке базы данных Teradata с возможностью доступа к сети из AWS и разрешениями на создание таблиц, а также загрузку и запрос данных.
AWS Glue необходим сетевой доступ к Teradata для чтения или записи данных. Способ настройки зависит от того, где развернута ваша Teradata, и от конкретной конфигурации сети. Для Teradata, развернутого на AWS, вам может потребоваться настроить Пиринг VPC or Приватная ссылка AWS, группы безопасности и списки управления доступом к сети (NACL), чтобы позволить AWS Glue взаимодействовать с Teradata по протоколу TCP. Если Teradata находится за пределами AWS, сетевые сервисы, такие как AWS VPN типа «сеть-сеть» or AWS Direct Connect может потребоваться. Публичный доступ в Интернет не рекомендуется из-за угроз безопасности. Если вы выберете публичный доступ, безопаснее запустить задание AWS Glue в VPC за NAT-шлюз. Этот подход позволяет вам разрешить список только одного IP-адреса для входящего трафика на брандмауэре вашей сети. Для получения дополнительной информации см. Безопасность инфраструктуры в AWS Glue.
Настроить Амазон S3
Каждый объект в Amazon S3 хранится в корзине. Прежде чем вы сможете хранить данные в Amazon S3, вы должны создать ведро S3 для сохранения результатов. Выполните следующие шаги:
- На консоли Amazon S3 выберите Ведра в навигационной панели.
- Выберите Создать ведро.
- Что касается Имя, введите глобально уникальное имя для своего сегмента; например, Ticket8530923.
- Выберите Создать ведро.
- Скачать БИЛЕТ набор данных и разархивируйте его.
- Создайте папку Ticketit в корзине S3 и загрузите файлы allevents_pipe.txt и location_pipe.txt.
Настройка подключений Teradata
Чтобы подключиться к Teradata из AWS Glue, см. Настройка подключения Teradata.
Вы должны создать и сохранить свои учетные данные Teradata в Менеджер секретов AWS секрет, а затем свяжите этот секрет с соединением Teradata AWS Glue. Мы обсудим эти два шага более подробно позже в этом посте.
Создайте роль IAM для задания AWS Glue ETL.
При создании задания AWS Glue ETL вы указываете Управление идентификацией и доступом AWS (IAM) роль, которую будет использовать задание. Роль должна предоставлять доступ ко всем ресурсам, используемым заданием, включая Amazon S3 (для любых источников, целевых объектов, сценариев, файлов драйверов и временных каталогов) и Secrets Manager. Инструкции см. Настройте роль IAM для вашего задания ETL..
Создать таблицу в Teradata
Используя предпочитаемый вами инструмент базы данных, войдите в Teradata. Запустите следующий код, чтобы создать таблицу в Teradata, в которую вы загрузите свои данные:
Храните учетные данные для входа в Teradata
An Соединение AWS Glue — это объект каталога данных, в котором хранятся учетные данные для входа, строки URI и многое другое. Соединителю Teradata требуется Secrets Manager для хранения имени пользователя и пароля Teradata, которые вы используете для подключения к Teradata.
Чтобы сохранить имя пользователя и пароль Teradata в Secrets Manager, выполните следующие действия:
- На консоли диспетчера секретов выберите Секреты в навигационной панели.
- Выберите Храните новый секрет.
- Выберите Другой тип секрета.
- Введите ключ/значение USER и
teradata_user
, а затем выберите Добавить ряд. - Введите ключ/значение ПАРОЛЬ и
teradata_user_password
, а затем выберите Следующая.
- Что касается Секретное имя, введите описательное имя, затем выберите Следующая.
- Выберите Следующая чтобы перейти к этапу проверки, затем выберите Магазин.
Создайте соединение Teradata в AWS Glue.
Теперь вы готовы создать соединение AWS Glue с Teradata. Выполните следующие шаги:
- На консоли AWS Glue выберите Коммутация под Каталог данных в навигационной панели.
- Выберите Создать соединение.
- Что касается Имявведите имя (например,
teradata_connection
). - Что касается Тип соединениявыберите Teradata.
- Что касается URL-адрес Терадаты, войти
jdbc:teradata://url_of_teradata/database=name_of_your_database
. - Что касается Секрет АВС, выберите секрет с вашими учетными данными Teradata, которые вы создали ранее.
Создайте визуальное задание ETL AWS Glue для преобразования и загрузки данных в Teradata.
Выполните следующие шаги, чтобы создать задание AWS Glue ETL:
- На консоли AWS Glue, под ЭТЛ Вакансии на панели навигации выберите Визуальный ETL.
- Выберите Визуальный ETL.
- Выберите значок карандаша, чтобы ввести название своей работы.
Мы добавляем venue_pipe.txt
в качестве нашего первого набора данных.
- Выберите Добавить узлы , а затем выбрать Amazon S3 на Источники меню.
- Введите следующие свойства источника данных:
- Что касается Имя, введите Место проведения.
- Что касается Тип источника S3, наведите на S3 местоположение.
- Что касается URL-адрес S3, введите путь S3 к
venue_pipe.txt
. - Что касается Формат данных, выберите CSV.
- Что касается Разделитель, выберите Pipe.
- Отменить Первая строка исходного файла содержит заголовки столбцов..
Теперь мы добавляем allevents_pipe.txt
в качестве нашего второго набора данных.
- Выберите Добавить узлы , а затем выбрать Amazon S3 на Источники меню.
- Введите следующие свойства источника данных:
- Что касается Имя, введите Событие.
- Что касается Тип источника S3, наведите на S3 местоположение.
- Что касается URL-адрес S3, введите путь S3 к
allevents_pipe.txt
. - Что касается Формат данных, выберите CSV.
- Что касается Разделитель, выберите Pipe.
- Отменить Первая строка исходного файла содержит заголовки столбцов..
Затем мы переименовываем столбцы набора данных Venue.
- Выберите Добавить узлы , а затем выбрать Изменить схему на Трансформации меню.
- Введите следующие свойства преобразования:
- Что касается Имя, введите данные «Переименовать место проведения».
- Что касается Родители узла, выберите Место проведения.
- В Изменить схему раздел, сопоставьте исходные ключи с целевыми ключами:
- столбец0:
venueid
- столбец1:
venuename
- столбец2:
venuecity
- столбец3:
venuestate
- столбец4:
venueseats
- столбец0:
Теперь мы фильтруем набор данных места проведения по определенному географическому региону.
- Выберите Добавить узлы , а затем выбрать ФИЛЬТР на Трансформации меню.
- Введите следующие свойства преобразования:
- Что касается Имя, введите Фильтр местоположения.
- Что касается Родители узла, выберите Место проведения.
- Что касается Состояние фильтра, выберите
venuestate
для Основные , выберите спички для Эксплуатацияи введите DC для Значение.
Теперь мы переименовываем столбцы в наборе данных событий.
- Выберите Добавить узлы , а затем выбрать Изменить схему на Трансформации меню.
- Введите следующие свойства преобразования:
- Что касается Имя, введите данные переименования события.
- Что касается Родители узла, выберите «Событие».
- В Изменить схему раздел, сопоставьте исходные ключи с целевыми ключами:
- столбец0:
eventid
- столбец1:
e_venueid
- столбец2:
catid
- столбец3:
dateid
- столбец4:
eventname
- столбец5:
starttime
- столбец0:
Затем мы объединяем наборы данных «Место проведения» и «Событие».
- Выберите Добавить узлы , а затем выбрать Присоединиться на Трансформации меню.
- Введите следующие свойства преобразования:
- Что касается Имя, введите «Присоединиться».
- Что касается Родители узла, выберите «Фильтр местоположения» и «Переименовать данные о событии».
- Что касается Тип соединениявыберите Внутреннее соединение.
- Что касается Условия участия, выберите
venueid
для Фильтр местоположения иe_venueid
для Переименование данных о событии.
Теперь мы удаляем дублирующийся столбец.
- Выберите Добавить узлы , а затем выбрать Изменить схему на Трансформации меню.
- Введите следующие свойства преобразования:
- Что касается Имя, введите столбец «Отбросить».
- Что касается Родители узла, выберите «Присоединиться».
- В Изменить схему раздел, выберите Падение для
e_venueid
.
Далее мы загружаем данные в таблицу Teradata.
- Выберите Добавить узлы , а затем выбрать Teradata на Цели меню.
- Введите следующие свойства приемника данных:
- Что касается Имя, введите Терадата.
- Что касается Родители узла, выберите «Удалить столбец».
- Что касается Соединение Терадата, выберите
teradata_connection
. - Что касается Название таблицы, войти
schema.tablename
таблицы, которую вы создали в Teradata.
Наконец, мы запускаем задание и загружаем данные в Teradata.
- Выберите Сохранить, а затем выберите Run.
Баннер отобразит, что задание началось.
- Выберите Работает, который отображает статус задания.
Статус выполнения изменится на Преемник когда работа будет завершена.
- Подключитесь к Teradata, а затем запросите таблицу, в которую были загружены данные.
Отфильтрованные и объединенные данные из двух наборов данных будут в таблице.
Убирать
Чтобы избежать дополнительных расходов, вызванных ресурсами, созданными в рамках этой публикации, обязательно удалите элементы, созданные вами в учетной записи AWS для этой публикации:
- Ключ Secrets Manager, созданный для учетных данных Teradata.
- Собственный соединитель AWS Glue для Teradata Vantage
- Данные загружены в корзину S3
- Задание AWS Glue Visual ETL
Заключение
В этом посте вы создали подключение к Teradata с помощью AWS Glue, а затем создали задание AWS Glue для преобразования и загрузки данных в Teradata. Собственный соединитель AWS Glue для Teradata Vantage расширяет возможности анализа данных, обеспечивая простой и эффективный путь интеграции ваших данных с Teradata. Эта новая возможность в AWS Glue не только упрощает рабочие процессы интеграции данных, но и открывает новые возможности для расширенной аналитики, бизнес-аналитики и инноваций в области машинного обучения.
Благодаря AWS Teradata Connector у вас есть лучший инструмент для упрощения задач интеграции данных. Если вы хотите загрузить данные Amazon S3 в Teradata для аналитики, отчетности или бизнес-аналитики, этот новый соединитель оптимизирует процесс, делая его более доступным и экономичным.
Чтобы начать работу с AWS Glue, см. Начало работы с AWS Glue.
Об авторах
Камен Шарланджиев — старший архитектор больших данных и решений ETL, а также эксперт по AWS Glue. Его миссия — облегчить жизнь клиентам, которые сталкиваются со сложными проблемами интеграции данных. Его секретное оружие? Полностью управляемые сервисы AWS с минимальным кодированием, позволяющие выполнить работу с минимальными усилиями и без необходимости написания кода. Следите за Каменом в LinkedIn, чтобы быть в курсе последних новостей об AWS Glue!
Шон Бьюрстром является техническим менеджером по работе с клиентами независимых поставщиков программного обеспечения в Amazon Web Services, где он специализируется на аналитических технологиях и использует свой опыт консультирования для поддержки клиентов в их аналитических и облачных путешествиях. Шон с энтузиазмом помогает компаниям использовать возможности данных для стимулирования инноваций и роста. Помимо работы он любит бегать и участвовал в нескольких марафонах.
Винод Джайендра является руководителем службы поддержки предприятий в отделе поддержки независимых поставщиков программного обеспечения в Amazon Web Services, где он помогает клиентам решать архитектурные, эксплуатационные задачи и проблемы оптимизации затрат. Уделяя особое внимание бессерверным технологиям, он опирается на свой обширный опыт разработки приложений, чтобы помочь клиентам создавать решения высшего уровня. Помимо работы, он находит радость в качественном семейном отдыхе, поездках на велосипеде и тренировках молодежных спортивных команд.
Дуг Мбая — старший партнер-архитектор решений, специализирующийся на аналитике и машинном обучении. Дуг тесно сотрудничает с партнерами AWS и помогает им интегрировать свои решения с решениями AWS для аналитики и машинного обучения в облаке.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/big-data/prepare-and-load-amazon-s3-data-into-teradata-using-aws-glue-through-its-native-connector-for-teradata-vantage/
- :имеет
- :является
- :нет
- :куда
- $UP
- 10
- 100
- 12
- 14
- 16
- 19
- 20
- 22
- 25
- 361
- 400
- 8
- a
- О нас
- доступ
- доступной
- Учетная запись
- Учетные записи
- через
- деятельность
- Добавить
- дополнительный
- адрес
- продвинутый
- приключения
- Все
- позволять
- Позволяющий
- позволяет
- причислены
- Amazon
- Amazon Web Services
- суммы
- an
- анализ
- Аналитики
- Аналитические фармацевтические услуги
- аналитика
- и
- любой
- Применение
- Разработка приложения
- подхода
- архитектурный
- архитектура
- МЫ
- AS
- Юрист
- At
- авторинга
- проспекты
- избежать
- AWS
- Клей AWS
- фон
- баннер
- BE
- до
- за
- польза
- ЛУЧШЕЕ
- Beyond
- большой
- Big Data
- изоферменты печени
- строить
- бизнес
- бизнес-аналитика
- бизнес
- но
- купить
- by
- CAN
- Может получить
- возможности
- возможности
- каталог
- вызванный
- централизованная
- проблемы
- изменение
- расходы
- Выберите
- тесно
- облако
- тренировка
- код
- Кодирование
- Column
- Колонки
- общаться
- Компании
- полный
- комплекс
- концерты
- Конфигурация
- настроить
- Свяжитесь
- подключенный
- Соединительный
- связи
- Консоли
- консалтинг
- содержит
- контроль
- рентабельным
- Создайте
- создали
- Полномочия
- Клиенты
- данным
- анализ данных
- Анализ данных
- Интеграция данных
- управление данными
- Платформа данных
- База данных
- Наборы данных
- Время
- dc
- занимавшийся
- зависит
- развернуть
- подробность
- развивать
- застройщиков
- Развитие
- направлять
- непосредственно
- каталоги
- обнаружить
- обсуждать
- Дисплей
- дисплеев
- распоряжение
- Разное
- сделанный
- Дуг
- рисует
- управлять
- водитель
- Падение
- два
- Ранее
- легче
- затрат
- эффективный
- эффективно
- усилие
- легко
- ликвидирует
- Наделяет
- позволяет
- позволяет
- конец
- Конечная точка
- Усиливает
- обогащать
- Enter
- Предприятие
- Эфир (ETH)
- События
- События
- пример
- существующий
- эксперту
- Больше
- экспорт
- продолжается
- обширный
- извлечение
- всего лишь пяти граммов героина
- семья
- вымышленный
- Файл
- Файлы
- фильтр
- в заключение
- находит
- брандмауэр
- Во-первых,
- Трансформируемость
- поток
- Фокус
- внимание
- следовать
- после
- Что касается
- от
- полный
- полностью
- географический
- получить
- ГЛОБАЛЬНО
- предоставлять
- Группы
- Рост
- упряжь
- Есть
- he
- помощь
- помощь
- помогает
- его
- Как
- How To
- HTML
- HTTP
- HTTPS
- барьерный бег
- i
- IAM
- ICON
- определения
- Личность
- if
- иллюстрирует
- Импортировать
- in
- В том числе
- Входящий
- индекс
- информация
- Инновации
- инновации
- размышления
- устанавливать
- инструкции
- интегрировать
- Интегрируя
- интеграции.
- интеграций
- Интеллекта
- Интерфейс
- Интернет
- доступ в Интернет
- в
- тонкости
- IP
- IP-адрес
- ISV
- IT
- пункты
- ЕГО
- работа
- Джобс
- присоединиться
- присоединился
- присоединение
- путешествие
- Путешествия
- радость
- JPG
- Сохранить
- Основные
- ключи
- озера
- большой
- новее
- последний
- вести
- ведущий
- изучение
- библиотеки
- ЖИЗНЬЮ
- линия
- Список
- Списки
- загрузка
- расположение
- журнал
- Войти
- искать
- машина
- обучение с помощью машины
- сделать
- ДЕЛАЕТ
- Создание
- управлять
- управляемого
- управление
- менеджер
- способ
- карта
- Май..
- значимым
- может быть
- минимальный
- Наша миссия
- ML
- монитор
- Мониторинг
- БОЛЕЕ
- двигаться
- движение
- с разными
- должен
- имя
- родной
- Навигация
- Необходимость
- потребности
- сеть
- Доступ к сети
- сетей
- Новые
- следующий
- нет
- узел
- объект
- of
- Предложения
- .
- on
- ONE
- онлайн
- только
- Откроется
- оперативный
- or
- наши
- внешнюю
- за
- обзор
- хлеб
- часть
- участие
- особый
- партнер
- партнеры
- страстный
- Пароль
- путь
- путь
- выполнять
- Разрешения
- трубопровод
- Платформа
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- возможности,
- После
- потенциал
- мощностью
- привилегированный
- Подготовить
- первичный
- процесс
- свойства
- приводит
- обеспечение
- что такое варган?
- Питон
- Стоимость
- скорее
- Читать
- готовый
- Управление по борьбе с наркотиками (DEA)
- относиться
- рафинированный
- Несмотря на
- область
- Связанный
- полагаться
- Reporting
- обязательный
- требуется
- Полезные ресурсы
- результат
- Итоги
- обзоре
- рисках,
- Роли
- Run
- Бег
- безопаснее
- главная
- масштаб
- Шкала
- скрипт
- скрипты
- бесшовные
- легко
- Шон
- сезоны
- Во-вторых
- Secret
- секреты
- Раздел
- безопасный
- безопасность
- риски безопасности
- посмотреть
- выберите
- продаем
- Продавцы
- старший
- Serverless
- обслуживание
- Услуги
- настройки
- несколько
- должен
- Шоу
- просто
- упрощает
- упрощение
- одинарной
- Решение
- Решения
- РЕШАТЬ
- Источник
- Источники
- специализируется
- конкретный
- Спорт
- Спортивные команды
- Начало
- и политические лидеры
- Статус:
- Шаг
- Шаги
- диск
- магазин
- хранить
- магазины
- простой
- упорядочить
- тока
- студия
- успех
- такие
- поддержка
- Убедитесь
- ТАБЛИЦЫ
- цель
- направлена против
- задачи
- команды
- Технический
- технологии
- временный
- тестXNUMX
- чем
- который
- Ассоциация
- Источник
- их
- Их
- тогда
- Эти
- этой
- те
- Через
- билет
- билеты
- время
- в
- инструментом
- трафик
- Transform
- трансформация
- преобразований
- преобразован
- два
- напишите
- под
- созданного
- отпереть
- URI
- использование
- используемый
- Информация о пользователе
- пользователей
- через
- различный
- место встречи
- центры
- визуальный
- визуально
- законопроект
- we
- Web
- веб-сервисы
- Вебсайт
- когда
- будь то
- который
- КТО
- будете
- в
- без
- Работа
- Рабочие процессы
- работает
- записывать
- являетесь
- ВАШЕ
- молодежь
- зефирнет
- ZIP