У цій публікації ми досліджуємо, як використовувати Клей AWS власний роз’єм для Teradata Vantage для оптимізації інтеграції даних і розкриття повного потенціалу ваших даних.
Підприємства часто покладаються на Служба простого зберігання Amazon (Amazon S3) для економічно ефективного та безпечного зберігання великих обсягів даних із різних джерел даних. Для тих, хто використовує Teradata для аналізу даних, інтеграція через рідний конектор AWS Glue для Teradata Vantage відкриває нові можливості. AWS Glue підвищує гнучкість і ефективність керування даними, дозволяючи компаніям легко інтегрувати свої дані, незалежно від їх розташування, з аналітичними можливостями Teradata. Цей новий з’єднувач усуває технічні перешкоди, пов’язані з конфігурацією, безпекою та керуванням, дозволяючи компаніям без зусиль експортувати чи імпортувати свої набори даних у Teradata Vantage. У результаті компанії можуть більше зосередитися на отриманні значущої інформації зі своїх даних, а не на тонкощах інтеграції даних.
AWS Glue — це безсерверна служба інтеграції даних, яка дозволяє користувачам аналітики легко виявляти, готувати, переміщувати та інтегрувати дані з багатьох джерел для аналітики, машинного навчання (ML) і розробки додатків. За допомогою AWS Glue ви можете виявити та підключитися до понад 100 різноманітних джерел даних і керувати своїми даними в централізованому каталозі даних. Ви можете візуально створювати, запускати та контролювати конвеєри вилучення, трансформації та завантаження (ETL) для завантаження даних у свої озера даних.
Корпорація Терадата це провідна підключена багатохмарна платформа даних для корпоративної аналітики, зосереджена на тому, щоб допомогти компаніям використовувати всі їхні дані в межах підприємства в масштабі. Як ан Компетентність у даних та аналітиці AWS Партнер Teradata пропонує повну хмарну аналітику та платформу даних, у тому числі для машинного навчання.
Представляємо нативний роз’єм AWS Glue для Teradata Vantage
AWS Glue забезпечує підтримку Teradata, доступну через сценарії AWS Glue Studio та AWS Glue ETL. З AWS Glue Studio ви отримуєте переваги від візуального інтерфейсу, який спрощує процес підключення до Teradata та створення, виконання та моніторинг завдань AWS Glue ETL. Для розробників даних ця підтримка поширюється на сценарії AWS Glue ETL, де ви можете використовувати Python або Scala для створення більш конкретних завдань інтеграції та трансформації даних і керування ними.
Власний конектор AWS Glue для Teradata Vantage дозволяє ефективно читати та записувати дані з Teradata без необхідності встановлювати будь-які бібліотеки конекторів або керувати ними. Ви можете додати Teradata і як джерело, і як ціль у візуальному інтерфейсі AWS Glue Studio без використання коду, який функціонує з перетягуванням, або використовувати конектор безпосередньо в завданні сценарію AWS Glue ETL.
Огляд рішення
У цьому прикладі ви використовуєте AWS Glue Studio, щоб збагачувати та завантажувати дані, що зберігаються на Amazon S3, у Teradata Vantage. Ви починаєте з приєднання до файлів події та місця проведення з КВИТОК набір даних. Далі ви фільтруєте результати за одним географічним регіоном. Нарешті ви завантажуєте уточнені дані в Teradata Vantage.
Набір даних TICKIT відстежує продажі вигаданого веб-сайту TICKIT, де користувачі купують і продають онлайн квитки на спортивні заходи, шоу та концерти. У цьому наборі даних аналітики можуть визначити рух квитків з часом, показники успіху для продавців, а також найбільш продавані події, місця та сезони.
У цьому прикладі ви використовуєте AWS Glue Studio для розробки візуального конвеєра ETL. Цей конвеєр читатиме дані з Amazon S3, виконуватиме перетворення, а потім завантажуватиме перетворені дані в Teradata. Наступна діаграма ілюструє цю архітектуру.
До кінця цієї публікації ваше візуальне ETL-завдання буде нагадувати наведений нижче знімок екрана.
Передумови
Для цього прикладу ви повинні мати доступ до існуючої кінцевої точки бази даних Teradata з мережевою доступністю від AWS і дозволами для створення таблиць, завантаження та запиту даних.
AWS Glue потребує мережевого доступу до Teradata для читання або запису даних. Те, як це налаштовано, залежить від того, де розгорнуто ваш Teradata, і конкретної конфігурації мережі. Для Teradata, розгорнутого на AWS, вам може знадобитися налаштувати Піринг VPC or AWS PrivateLink, групи безпеки та списки контролю доступу до мережі (NACL), щоб дозволити AWS Glue обмінюватися даними з відкритим TCP Teradata. Якщо Teradata знаходиться за межами AWS, мережеві служби, такі як AWS Site-to-Site VPN or AWS Direct Connect може знадобитися. Загальнодоступний доступ до Інтернету не рекомендується через загрозу безпеці. Якщо ви обираєте публічний доступ, безпечніше запускати завдання AWS Glue у VPC за a Шлюз NAT. Цей підхід дає змогу дозволити перераховувати лише одну IP-адресу для вхідного трафіку на брандмауері мережі. Для отримання додаткової інформації див Безпека інфраструктури в AWS Glue.
Налаштуйте Amazon S3
Кожен об’єкт в Amazon S3 зберігається у відрі. Перш ніж зберігати дані в Amazon S3, ви повинні створити відро S3 для збереження результатів. Виконайте наступні дії:
- На консолі Amazon S3 виберіть Відра у навігаційній панелі.
- Вибирати Створити відро.
- для ІМ'Я, введіть глобально унікальну назву для свого відра; наприклад, tickit8530923.
- Вибирати Створити відро.
- Завантажити КВИТОК набір даних і розпакуйте його.
- Створіть папку tickit у своєму сегменті S3 і завантажте файли allevents_pipe.txt і venue_pipe.txt.
Налаштуйте підключення Teradata
Щоб підключитися до Teradata від AWS Glue, див Налаштування підключення Teradata.
Ви повинні створити та зберегти свої облікові дані Teradata в Менеджер секретів AWS секрет, а потім пов’яжіть цей секрет із з’єднанням Teradata AWS Glue. Ми обговоримо ці два кроки більш детально далі в цій публікації.
Створіть роль IAM для завдання AWS Glue ETL
Коли ви створюєте завдання AWS Glue ETL, ви вказуєте Управління ідентифікацією та доступом AWS (IAM) роль для завдання. Роль має надавати доступ до всіх ресурсів, які використовуються в роботі, включно з Amazon S3 (для будь-яких джерел, цілей, сценаріїв, файлів драйверів і тимчасових каталогів) і диспетчера секретів. Інструкції див Налаштуйте роль IAM для завдання ETL.
Створіть таблицю в Teradata
Використовуючи бажаний інструмент бази даних, увійдіть до Teradata. Запустіть наступний код, щоб створити таблицю в Teradata, куди ви будете завантажувати свої дані:
Зберігайте облікові дані Teradata для входу
An Клейове з’єднання AWS це об’єкт каталогу даних, який зберігає облікові дані для входу, рядки URI тощо. Конектору Teradata потрібен диспетчер секретів для зберігання імені користувача та пароля Teradata, які ви використовуєте для підключення до Teradata.
Щоб зберегти ім’я користувача та пароль Teradata в диспетчері секретів, виконайте такі дії:
- На консолі Secrets Manager виберіть Секрети у навігаційній панелі.
- Вибирати Зберігайте новий секрет.
- Select Інший тип секрету.
- Введіть ключ/значення USER і
teradata_user
, Потім виберіть Додати рядок. - Введіть ключ/значення ПАРОЛЬ і
teradata_user_password
, Потім виберіть МАЙБУТНІ.
- для Секретна назва, введіть описову назву та виберіть МАЙБУТНІ.
- Вибирати МАЙБУТНІ щоб перейти до етапу перегляду, а потім виберіть Магазин.
Створіть підключення Teradata в AWS Glue
Тепер ви готові створити підключення AWS Glue до Teradata. Виконайте наступні дії:
- На консолі AWS Glue виберіть Зв'язки при Каталог даних у навігаційній панелі.
- Вибирати Створити з'єднання.
- для ІМ'Я, введіть назву (наприклад,
teradata_connection
). - для Тип з'єднання¸ вибрати Терадата.
- для URL-адреса Teradata, введіть
jdbc:teradata://url_of_teradata/database=name_of_your_database
. - для Секрет AWS, виберіть секрет із своїми обліковими даними Teradata, які ви створили раніше.
Створіть візуальне ETL-завдання AWS Glue для перетворення та завантаження даних у Teradata
Виконайте наступні кроки, щоб створити завдання AWS Glue ETL:
- На консолі AWS Glue, під Вакансії ETL на панелі навігації виберіть Візуальний ETL.
- Вибирати Візуальний ETL.
- Виберіть піктограму олівця, щоб ввести назву вашої роботи.
Додаємо venue_pipe.txt
як наш перший набір даних.
- Вибирати Додайте вузли І вибирай Amazon S3 на Джерела Вкладка.
- Введіть такі властивості джерела даних:
- для ІМ'Я, введіть місце проведення.
- для Тип джерела S3виберіть Розташування S3.
- для S3 URL, введіть шлях S3
venue_pipe.txt
. - для Формат данихвиберіть CSV.
- для Delimiterвиберіть Труба.
- Скасувати вибір Перший рядок вихідного файлу містить заголовки стовпців.
Тепер додаємо allevents_pipe.txt
як наш другий набір даних.
- Вибирати Додайте вузли І вибирай Amazon S3 на Джерела Вкладка.
- Введіть такі властивості джерела даних:
- для ІМ'Я, введіть Подія.
- для Тип джерела S3виберіть Розташування S3.
- для S3 URL, введіть шлях S3
allevents_pipe.txt
. - для Формат данихвиберіть CSV.
- для Delimiterвиберіть Труба.
- Скасувати вибір Перший рядок вихідного файлу містить заголовки стовпців.
Далі ми перейменуємо стовпці набору даних Venue.
- Вибирати Додайте вузли І вибирай Змінити схему на Перетворює Вкладка.
- Введіть такі властивості перетворення:
- для ІМ'Я, введіть дані Rename Venue.
- для Батьки вузла, виберіть Місце проведення.
- У Змінити схему зіставте вихідні ключі з цільовими:
- col0:
venueid
- col1:
venuename
- col2:
venuecity
- col3:
venuestate
- col4:
venueseats
- col0:
Тепер ми фільтруємо набір даних Venue за певним географічним регіоном.
- Вибирати Додайте вузли І вибирай фільтр на Перетворює Вкладка.
- Введіть такі властивості перетворення:
- для ІМ'Я, введіть Фільтр розташування.
- для Батьки вузла, виберіть Місце проведення.
- для Стан фільтравиберіть
venuestate
та цінності ключвиберіть сірники та цінності операціяі введіть DC для значення.
Тепер ми перейменуємо стовпці в наборі даних Event.
- Вибирати Додайте вузли І вибирай Змінити схему на Перетворює Вкладка.
- Введіть такі властивості перетворення:
- для ІМ'Я, введіть дані перейменування події.
- для Батьки вузла, виберіть Подія.
- У Змінити схему зіставте вихідні ключі з цільовими:
- col0:
eventid
- col1:
e_venueid
- col2:
catid
- col3:
dateid
- col4:
eventname
- col5:
starttime
- col0:
Далі ми об’єднуємо набори даних Venue і Event.
- Вибирати Додайте вузли І вибирай Приєднайся до на Перетворює Вкладка.
- Введіть такі властивості перетворення:
- для ІМ'Я, введіть Приєднатися.
- для Батьки вузла, виберіть «Фільтр розташування» та «Перейменувати дані події».
- для Тип приєднання¸ вибрати Внутрішнє з'єднання.
- для Умови приєднаннявиберіть
venueid
та цінності Фільтр розташування таe_venueid
та цінності Перейменувати дані події.
Тепер ми видаляємо стовпець-дублікат.
- Вибирати Додайте вузли І вибирай Змінити схему на Перетворює Вкладка.
- Введіть такі властивості перетворення:
- для ІМ'Я, введіть стовпець Drop.
- для Батьки вузла, виберіть Приєднатися.
- У Змінити схему розділ, виберіть Падіння та цінності
e_venueid
.
Далі ми завантажуємо дані в таблицю Teradata.
- Вибирати Додайте вузли І вибирай Терадата на Цілі Вкладка.
- Введіть такі властивості приймача даних:
- для ІМ'Я, введіть Teradata.
- для Батьки вузла, виберіть Відкинути стовпець.
- для Підключення Teradataвиберіть
teradata_connection
. - для назва таблиці, введіть
schema.tablename
таблиці, яку ви створили в Teradata.
Нарешті, ми запускаємо завдання та завантажуємо дані в Teradata.
- Вибирати зберегти, Потім виберіть прогін.
На банері з’явиться повідомлення про початок роботи.
- Вибирати Runs, який відображає статус завдання.
Статус виконання зміниться на Наступник коли робота завершена.
- Підключіться до свого Teradata, а потім запитайте таблицю, у яку завантажено дані.
Відфільтровані та об’єднані дані з двох наборів даних будуть у таблиці.
Прибирати
Щоб уникнути додаткових витрат, спричинених ресурсами, створеними в рамках цієї публікації, переконайтеся, що ви видалили елементи, які ви створили в обліковому записі AWS для цієї публікації:
- Ключ диспетчера секретів, створений для облікових даних Teradata
- Нативний роз’єм AWS Glue для Teradata Vantage
- Дані, завантажені в сегмент S3
- Робота AWS Glue Visual ETL
Висновок
У цій публікації ви створили підключення до Teradata за допомогою AWS Glue, а потім створили завдання AWS Glue для перетворення та завантаження даних у Teradata. Нативний з’єднувач AWS Glue для Teradata Vantage покращує вашу подорож до аналізу даних, забезпечуючи безперебійний та ефективний шлях для інтеграції ваших даних із Teradata. Ця нова функція в AWS Glue не тільки спрощує ваші робочі процеси інтеграції даних, але й відкриває нові можливості для розширеної аналітики, бізнес-аналітики та інновацій машинного навчання.
З AWS Teradata Connector у вашому розпорядженні є найкращий інструмент для спрощення завдань інтеграції даних. Незалежно від того, чи хочете ви завантажити дані Amazon S3 у Teradata для аналітики, звітності чи бізнес-аналітики, цей новий конектор спрощує процес, роблячи його більш доступним і економічно ефективним.
Щоб почати роботу з AWS Glue, див Початок роботи з AWS Glue.
Про авторів
Камен Шарланджиєв є старшим архітектором Big Data та ETL Solutions і експертом з AWS Glue. Його місія — полегшити життя клієнтам, які стикаються зі складними проблемами інтеграції даних. Його секретна зброя? Повністю керовані служби AWS із низьким кодом, які можуть виконувати роботу з мінімальними зусиллями та без кодування. Слідкуйте за Kamen на LinkedIn, щоб бути в курсі останніх новин AWS Glue!
Шон Бюрстром є технічним менеджером із роботи з обліковими записами незалежних постачальників програмного забезпечення в Amazon Web Services, де він спеціалізується на аналітичних технологіях і спирається на свій досвід у консультуванні, щоб підтримати клієнтів у їхніх аналітичних і хмарних подорожах. Шон прагне допомогти компаніям використовувати потужність даних для впровадження інновацій і зростання. Поза роботою він захоплюється бігом і брав участь у кількох марафонах.
Вінод Джаендра є керівником відділу підтримки підприємств в облікових записах постачальників програмного забезпечення Amazon Web Services, де він допомагає клієнтам вирішувати їхні архітектурні, операційні та оптимізаційні проблеми. Приділяючи особливу увагу безсерверним технологіям, він спирається на свій великий досвід розробки додатків, щоб допомогти клієнтам створювати рішення найвищого рівня. Окрім роботи, він знаходить радість у проведенні сімейного часу, їзді на велосипеді та тренуванні молодіжних спортивних команд.
Дуг Мбайя є старшим архітектором партнерських рішень, який спеціалізується на аналітиці та машинному навчанні. Дуг тісно співпрацює з партнерами AWS і допомагає їм інтегрувати свої рішення з аналітикою AWS і рішеннями машинного навчання в хмарі.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://aws.amazon.com/blogs/big-data/prepare-and-load-amazon-s3-data-into-teradata-using-aws-glue-through-its-native-connector-for-teradata-vantage/
- : має
- :є
- : ні
- :де
- $UP
- 10
- 100
- 12
- 14
- 16
- 19
- 20
- 22
- 25
- 361
- 400
- 8
- a
- МЕНЮ
- доступ
- доступною
- рахунки
- Рахунки
- через
- діяльність
- додавати
- Додатковий
- адреса
- просунутий
- пригод
- ВСІ
- дозволяти
- Дозволити
- дозволяє
- Також
- Amazon
- Amazon Web Services
- суми
- an
- аналіз
- аналітики
- Аналітичний
- аналітика
- та
- будь-який
- додаток
- Розробка додатка
- підхід
- архітектурний
- архітектура
- ЕСТЬ
- AS
- Юрист
- At
- авторство
- проспекти
- уникнути
- AWS
- Клей AWS
- фон
- банер
- BE
- перед тим
- за
- користь
- КРАЩЕ
- За
- Великий
- Великий даних
- обидва
- будувати
- бізнес
- бізнес-аналітика
- підприємства
- але
- купити
- by
- CAN
- Може отримати
- можливості
- можливості
- каталог
- викликаний
- централізована
- проблеми
- зміна
- вантажі
- Вибирати
- тісно
- хмара
- тренування
- код
- Кодування
- Колонка
- Колони
- спілкуватися
- Компанії
- повний
- комплекс
- концерти
- конфігурація
- налаштувати
- З'єднуватися
- підключений
- З'єднувальний
- зв'язку
- Консоль
- консалтинг
- містить
- контроль
- рентабельним
- створювати
- створений
- Повноваження
- Клієнти
- дані
- аналіз даних
- Analytics даних
- інтеграція даних
- управління даними
- Платформа даних
- Database
- набори даних
- Дата
- dc
- справу
- залежить
- розгорнути
- деталь
- розвивати
- розробників
- розробка
- прямий
- безпосередньо
- каталоги
- відкрити
- обговорювати
- дисплей
- дисплеїв
- розпорядження
- Різне
- зроблений
- doug
- малює
- управляти
- водій
- Падіння
- два
- Раніше
- легше
- ефективність
- ефективний
- продуктивно
- зусилля
- легко
- Усуває
- повноваження
- дозволяє
- дозволяє
- кінець
- Кінцева точка
- Підсилює
- збагачувати
- Що натомість? Створіть віртуальну версію себе у
- підприємство
- Ефір (ETH)
- Event
- Події
- приклад
- існуючий
- експерт
- дослідити
- експорт
- продовжується
- обширний
- витяг
- облицювання
- сім'я
- вигаданий
- філе
- Файли
- фільтрувати
- в кінці кінців
- знахідки
- брандмауер
- Перший
- Гнучкість
- потік
- Сфокусувати
- увагу
- стежити
- після
- для
- від
- Повний
- повністю
- географічний
- отримати
- Глобально
- надавати
- Групи
- Зростання
- збруя
- Мати
- he
- допомога
- допомогу
- допомагає
- його
- Як
- How To
- HTML
- HTTP
- HTTPS
- Перешкоди
- i
- IAM
- ICON
- ідентифікувати
- Особистість
- if
- ілюструє
- імпорт
- in
- У тому числі
- Вхідний
- індекс
- інформація
- інновація
- інновації
- розуміння
- встановлювати
- інструкції
- інтегрувати
- Інтеграція
- інтеграція
- інтеграцій
- Інтелект
- інтерфейс
- інтернет
- Доступ в інтернет
- в
- тонкощі
- IP
- IP-адреса
- ісв
- IT
- пунктів
- ЙОГО
- робота
- Джобс
- приєднатися
- приєднався
- приєднання
- подорож
- Подорожі
- радість
- JPG
- тримати
- ключ
- ключі
- озера
- великий
- пізніше
- останній
- вести
- провідний
- вивчення
- libraries
- життя
- Лінія
- список
- списки
- загрузка
- розташування
- журнал
- Логін
- шукати
- машина
- навчання за допомогою машини
- зробити
- РОБОТИ
- Робить
- управляти
- вдалося
- управління
- менеджер
- манера
- карта
- Може..
- значущим
- може бути
- мінімальний
- Місія
- ML
- монітор
- моніторинг
- більше
- рухатися
- руху
- множинний
- повинен
- ім'я
- рідний
- навігація
- Необхідність
- потреби
- мережу
- Доступ до мережі
- мережа
- Нові
- наступний
- немає
- вузол
- об'єкт
- of
- Пропозиції
- часто
- on
- ONE
- онлайн
- тільки
- Відкриється
- оперативний
- or
- наші
- поза
- над
- огляд
- pane
- частина
- участь
- приватність
- партнер
- партнери
- пристрасний
- Пароль
- шлях
- шлях
- виконувати
- Дозволи
- трубопровід
- платформа
- plato
- Інформація про дані Платона
- PlatoData
- можливостей
- пошта
- потенціал
- влада
- переважним
- Готувати
- первинний
- процес
- властивості
- забезпечує
- забезпечення
- громадськість
- Python
- якість
- ставки
- швидше
- Читати
- готовий
- рекомендований
- послатися
- рафінований
- Незалежно
- регіон
- пов'язаний
- покладатися
- Звітність
- вимагається
- Вимагається
- ресурси
- результат
- результати
- огляд
- ризики
- Роль
- прогін
- біг
- безпечніше
- продажів
- масштаб
- шкала
- сценарій
- scripts
- безшовні
- плавно
- Шон
- сезони
- другий
- секрет
- секрети
- розділ
- безпечний
- безпеку
- ризики для безпеки
- побачити
- вибрати
- продавати
- Продавці
- старший
- Без сервера
- обслуговування
- Послуги
- налаштування
- кілька
- Повинен
- Шоу
- простий
- спрощує
- спрощення
- один
- рішення
- Рішення
- ВИРІШИТИ
- Source
- Джерела
- спеціалізується
- конкретний
- SPORTS
- Спортивні команди
- старт
- почалася
- Статус
- Крок
- заходи
- зберігання
- зберігати
- зберігати
- магазинів
- просто
- раціоналізувати
- Спрощує
- студія
- успіх
- такі
- підтримка
- Переконайтеся
- таблиця
- Мета
- цілі
- завдання
- команди
- технічний
- Технології
- тимчасовий
- тест
- ніж
- Що
- Команда
- Джерело
- їх
- Їх
- потім
- Ці
- це
- ті
- через
- квиток
- квитки
- час
- до
- інструмент
- трафік
- Перетворення
- Перетворення
- перетворень
- перетворений
- два
- тип
- при
- створеного
- відімкнути
- URI
- використання
- використовуваний
- користувач
- користувачі
- використання
- різний
- Місце зустрічі
- місця проведення
- візуальний
- візуально
- було
- we
- Web
- веб-сервіси
- веб-сайт
- коли
- Чи
- який
- ВООЗ
- волі
- з
- в
- без
- Work
- Робочі процеси
- працює
- запис
- ви
- вашу
- молодь
- зефірнет
- Zip