Це гостьовий пост, написаний у співавторстві з Алексом Наумовим, головним архітектором даних у smava.
smava GmbH є однією з провідних компаній, що надають фінансові послуги в Німеччині, яка робить кредити для особи прозорими, справедливими та доступними для споживачів. На основі цифрових процесів smava порівнює кредитні пропозиції від понад 20 банків. Таким чином, позичальники можуть швидко, оцифровано та ефективно обирати найбільш вигідні для них угоди.
smava вірить у рішення на основі даних і використовує їх, щоб стати лідером ринку. Команда Data Platform відповідає за підтримку рішень на основі даних у smava, надаючи продукти даних для всіх відділів і філій компанії. Відділи включають команди від інженерії до продажів і маркетингу. Філії розрізняються за продуктами, а саме позики B2C, позики B2B, а раніше також іпотечні кредити B2C. Продукти даних, які використовуються всередині компанії, включають статистичні дані про шляхи користувачів, операційні звіти та результати маркетингових кампаній, серед іншого. Платформа даних обслуговує в середньому 60 тисяч запитів на день. Обсяг даних виражається двозначними ТБ із постійним зростанням у міру розвитку бізнесу та джерел даних.
Команда smava Data Platform зіткнулася з проблемою доставки даних зацікавленим сторонам із різними SLA, зберігаючи при цьому гнучкість масштабування вгору та вниз, залишаючись економічно ефективним. Створення щоденного звіту займало до 3 годин, що вплинуло на прийняття бізнес-рішень, коли повторні розрахунки мали відбуватися протягом дня. Щоб пришвидшити аналітику самообслуговування та сприяти інноваціям на основі даних, було потрібне рішення, яке б дозволило будь-якій команді самостійно створювати продукти даних у децентралізований спосіб. Для створення та керування продуктами даних smava використовує Амазонська червона зміна, хмарне сховище даних.
У цій публікації ми показуємо, як smava оптимізувала свою платформу даних за допомогою Amazon Redshift без сервера та Обмін даними Amazon Redshift щоб подолати проблеми підбору правильного розміру для непередбачуваних робочих навантажень і ще більше підвищити співвідношення ціни та продуктивності. Завдяки оптимізації smava досягла до 50% економії коштів і до трьох разів швидше створювала звіти порівняно з попередньою інфраструктурою аналітики.
Огляд рішення
Будучи компанією, що керується даними, smava покладається на AWS Cloud для забезпечення своїх аналітичних випадків. Щоб запропонувати своїм клієнтам найкращі пропозиції та користувацький досвід, smava дотримується сучасна архітектура даних принципи з озером даних як масштабованим, довговічним сховищем даних і спеціально створеними сховищами даних для аналітичної обробки та споживання даних.
smava завантажує дані з різних зовнішніх і внутрішніх джерел даних у посадковий етап озера даних на основі Служба простого зберігання Amazon (Amazon S3). Щоб отримати дані, smava використовує набір популярних сторонніх платформ даних клієнтів, доповнених спеціальними сценаріями.
Після того, як дані потраплять в Amazon S3, smava використовує Клей AWS Каталог даних і сканери для автоматичного каталогізації доступних даних, збору метаданих і надання інтерфейсу, який дозволяє запитувати всі ресурси даних.
Аналітики даних, яким потрібен доступ до необроблених активів на озері даних, використовують Амазонка Афіна, безсерверний інтерактивний аналітичний сервіс для дослідження за допомогою спеціальних запитів. Для подальшого використання всіма відділами в організації команда Data Platform від smava готує відібрані продукти даних відповідно до видобувати, завантажувати та перетворювати (ELT) візерунок. smava використовує Amazon Redshift як хмарне сховище даних для перетворення, зберігання й аналізу даних, а також використовує Спектр червоного зсуву Amazon для ефективного запиту та отримання структурованих і напівструктурованих даних з озера даних за допомогою SQL.
smava слідує за моделювання сховища даних методологія з етапами Raw Vault, Business Vault і Data Mart для підготовки продуктів даних для кінцевих споживачів. Raw Vault описує об’єкти, завантажені безпосередньо з джерел даних, і представляє копію посадкового етапу в озері даних. Business Vault заповнюється даними, отриманими з Raw Vault, і трансформується відповідно до бізнес-правил. Нарешті, дані агрегуються в конкретні продукти даних, орієнтовані на певний напрямок діяльності. Це Data Mart етап. Продукти даних із етапів Business Vault і Data Mart тепер доступні для споживачів. smava вирішила використовувати Tableau для бізнес-аналітики, візуалізації даних і подальшої аналітики. Перетворення даних керуються за допомогою борг для спрощення управління робочим процесом і командної співпраці.
На наступній діаграмі показано архітектуру платформи даних високого рівня до оптимізації.
Еволюція вимог до платформи даних
smava розпочалася з одного кластера Redshift для розміщення всіх трьох етапів даних. Вони вибрали забезпечені вузли кластера Тип RA3 з Зарезервовані екземпляри (RI) для оптимізації витрат. Оскільки обсяг даних зріс на 53% за рік, складність і вимоги до різних аналітичних навантажень також зросли.
smava швидко впоралася зі зростаючими обсягами даних, змінивши правильний розмір кластера та використовуючи Паралельне масштабування Amazon Redshift для пікових навантажень. Крім того, smava хотіла дати всім командам можливість створювати власні продукти даних у режимі самообслуговування, щоб пришвидшити темп інновацій. Щоб уникнути будь-якого втручання в централізовано керовані продукти обробки даних, децентралізовані середовища розробки продукту повинні бути суворо ізольовані. Ця ж вимога також застосовувалася до ізоляції різних етапів продукту, які курувала команда Data Platform.
Оптимізація архітектури за допомогою обміну даними та Redshift Serverless
Щоб задовольнити нові вимоги, smava вирішила розділити робоче навантаження, розділивши єдиний кластер Redshift на кілька сховищ даних, причому кожне сховище обслуговує окремий етап. Крім того, smava додала нові проміжні середовища в Business Vault для розробки нових продуктів даних без ризику втручання в існуючі конвеєри продуктів. Щоб уникнути будь-яких перешкод із централізовано керованими продуктами даних команди Data Platform, smava представила додатковий кластер Redshift, ізолюючи децентралізовані робочі навантаження.
smava шукала готове рішення для досягнення ізоляції робочого навантаження без керування складним конвеєром реплікації даних.
Відразу після запуску Обмін даними червоного зсуву у 2021 році команда Data Platform визнала, що це рішення, яке вони шукали. smava прийняла функцію обміну даними, щоб дані з кластерів-виробників були доступними для читання в різних кластерах споживачів, причому кожен з цих кластерів споживачів обслуговував інший етап.
Обмін даними Redshift забезпечує миттєвий, детальний і швидкий доступ до даних у кластерах Redshift без необхідності копіювати дані. Він забезпечує оперативний доступ до даних, щоб користувачі завжди бачили найновішу та узгоджену інформацію в міру її оновлення в сховищі даних. Завдяки обміну даними ви можете безпечно обмінюватися живими даними з кластерами Redshift в одному або різних облікових записах AWS і в різних регіонах.
Завдяки обміну даними Redshift smava змогла оптимізувати архітектуру даних, розділивши робочі навантаження даних на окремі кластери споживачів без необхідності повторювати дані. Наступна діаграма ілюструє архітектуру платформи даних високого рівня після поділу одного кластера Redshift на кілька кластерів.
Забезпечивши вітрину даних самообслуговування, smava збільшила демократизацію даних, надаючи користувачам доступ до всіх аспектів даних. Вони також надали командам набір спеціальних інструментів для виявлення даних, спеціального аналізу, створення прототипів і керування повним життєвим циклом зрілих продуктів обробки даних.
Після збору операційних даних з окремих кластерів команда Data Platform визначила подальшу потенційну оптимізацію: кластер Raw Vault був під стабільним навантаженням 24/7, але кластери Business Vault оновлювалися лише щоночі. Щоб оптимізувати витрати, smava використала можливості паузи та відновлення кластерів, наданих Redshift. Ці можливості корисні для кластерів, які мають бути доступними в певний час. Поки кластер призупинено, виставлення рахунків за вимогою призупинено. Плата стягується лише за сховище кластера.
Функція призупинення та відновлення допомогла smava оптимізувати витрати, але вимагала додаткових операційних витрат для запуску операцій кластера. Крім того, кластери розробки залишалися залежними від простою в робочий час. Ці проблеми було нарешті вирішено завдяки застосуванню Redshift Serverless у 2022 році. Команда Data Platform вирішила перенести кластери етапу Business Data Vault на Redshift Serverless, що дозволяє їм платити за сховище даних лише під час використання, надійно та ефективно.
Redshift Serverless ідеально підходить для випадків, коли важко передбачити обчислювальні потреби, наприклад змінні робочі навантаження, періодичні робочі навантаження з часом простою та робочі навантаження в стаціонарному стані зі стрибками. Крім того, у міру зростання потреб у використанні з новими робочими навантаженнями та більшою кількістю одночасних користувачів Redshift Serverless автоматично надає потрібні обчислювальні ресурси, а сховище даних масштабується плавно та автоматично, без необхідності ручного втручання. Обмін даними підтримується в обох напрямках між кластерами Redshift Serverless і Redshift із вузлами RA3, тому змінювати архітектуру smava не потрібно. На наступній діаграмі показано налаштування архітектури високого рівня після переходу на Redshift Serverless.
smava поєднала переваги Redshift Serverless і dbt через безперебійний конвеєр CI/CD, використовуючи методологію розробки на основі транка. Зміни в репозиторії Git автоматично розгортаються на етапі тестування та перевіряються за допомогою автоматизованих інтеграційних тестів. Такий підхід збільшив ефективність розробників і скоротив середній час виробництва з днів до хвилин.
smava прийняла архітектуру, яка використовує як резервні, так і безсерверні сховища даних Redshift разом із можливістю обміну даними для ізоляції робочих навантажень. Вибравши правильні архітектурні моделі для своїх потреб, smava змогла досягти наступного:
- Спростіть конвеєри даних і зменшіть накладні витрати
- Скоротіть час випуску функції з днів до хвилин
- Збільште співвідношення ціни та продуктивності за рахунок скорочення часу простою та правильного розміру робочого навантаження
- Створюйте звіти до трьох разів швидше (швидші обчислення та розпаралелювання) за 50% витрат на початкове налаштування
- Підвищення гнучкості всіх відділів і підтримка прийняття рішень на основі даних шляхом демократизації доступу до даних
- Збільште швидкість впровадження інновацій, відкриваючи можливості самообслуговування даних для команд у всіх відділах і посилюючи можливості тестування A/B, щоб охопити повний шлях клієнта
Тепер усі відділи smava використовують доступні продукти обробки даних, щоб приймати точні й гнучкі рішення на основі даних.
Бачення майбутнього
У майбутньому smava планує продовжувати оптимізувати платформу даних на основі операційних показників. Вони розглядають можливість переходу на безсерверні кластери, такі як кластер Self-Service Data Mart. Крім того, smava оптимізує інструментарій оркестровки ELT, щоб збільшити кількість паралельних конвеєрів даних, які потрібно запускати. Це збільшить використання наданих ресурсів Redshift і дозволить зменшити витрати.
З впровадженням децентралізованого самообслуговування для створення продукту даних, smava зробила крок вперед до a архітектура сітки даних. У майбутньому команда Data Platform планує глибше оцінити потреби користувачів своїх послуг і запровадити нові принципи сітки даних, як-от федеративне управління даними.
Висновок
У цій публікації ми показали, як smava оптимізувала свою платформу даних, ізолюючи середовища та робочі навантаження за допомогою Redshift Serverless і функцій обміну даними. Ці середовища Redshift добре інтегровані з їхньою інфраструктурою, гнучкі в масштабуванні на вимогу та високодоступні, а також вимагають мінімальних зусиль адміністрування. Загалом smava збільшила продуктивність у три рази, одночасно зменшивши загальні витрати на платформу на 50%. Крім того, вони зменшили операційні накладні витрати до мінімуму, зберігаючи при цьому існуючі SLA для часу створення звітів. Крім того, smava зміцнила культуру інновацій, надаючи можливості продуктів самообслуговування даних, щоб пришвидшити їх вихід на ринок.
Якщо вам цікаво дізнатися більше про можливості Amazon Redshift, рекомендуємо переглянути останню версію Що нового в сесії Amazon Redshift на каналі AWS Events щоб отримати огляд функцій, нещодавно доданих до служби. Ви також можете вивчити самообслуговування, практичні лабораторії Amazon Redshift щоб керовано експериментувати з ключовими функціями Amazon Redshift.
Ви також можете зануритися глибше Варіанти використання Redshift Serverless та випадки використання обміну даними. Додатково перегляньте найкращі практики обміну даними і дізнайтеся, як інші клієнти, оптимізовані за витратами та продуктивністю за допомогою обміну даними Redshift щоб отримати натхнення для власних робочих навантажень.
Якщо ви віддаєте перевагу книгам, дивіться Redshift Amazon: The Definitive Guide від O’Reilly, де автори докладно описують можливості Amazon Redshift і надають вам уявлення про відповідні шаблони та техніки.
Про авторів
Олексій Наумов є головним архітектором даних у smava GmbH і керує проектами трансформації у відділі даних. Раніше Алекс 10 років працював консультантом і архітектором даних/рішень у різноманітних сферах, таких як телекомунікації, банківська справа, енергетика та фінанси, використовуючи різні стеки технологій і в багатьох різних країнах. Він має велику пристрасть до даних і трансформації організацій, щоб вони стали керованими даними та найкращими у своїй діяльності.
Лінлі Чжен працює менеджером з розвитку бізнесу у всесвітній спеціалізованій організації AWS, підтримуючи клієнтів у регіоні DACH отримати найкращу віддачу від аналітичних послуг Amazon. Маючи понад 12 років досвіду в галузі енергетики, автоматизації та індустрії програмного забезпечення, зосереджуючись на аналітиці даних, штучному інтелекті та машинному обігу, вона прагне допомагати клієнтам досягати відчутних бізнес-результатів за допомогою цифрової трансформації.
Олександр Співак є старшим архітектором рішень для стартапів в AWS, який зосереджується на клієнтах B2B ISV у регіоні EMEA North. До роботи в AWS Олександр працював консультантом у сфері фінансових послуг, включаючи різні ролі в розробці та архітектурі програмного забезпечення. Він захоплений аналітикою даних, безсерверними архітектурами та створенням ефективних організацій.
Цей допис перевірив на предмет технічної точності Девід Грінштейн, старший архітектор аналітичних рішень.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://aws.amazon.com/blogs/big-data/how-smava-makes-loans-transparent-and-affordable-using-amazon-redshift-serverless/
- : має
- :є
- :де
- $UP
- 10
- 100
- 12
- 125
- 20
- 2021
- 2022
- 60
- a
- Здатний
- МЕНЮ
- доступ
- Доступ до даних
- виконувати
- За
- Рахунки
- точність
- точний
- Achieve
- досягнутий
- через
- Ad
- доданий
- доповнення
- Додатковий
- Додатково
- адресований
- адміністрація
- прийнята
- Прийняття
- Перевага
- доступний
- після
- моторний
- AI
- Alex
- Олександр
- ВСІ
- дозволяти
- дозволяє
- Також
- завжди
- Amazon
- Amazon Web Services
- серед
- an
- аналіз
- аналітики
- Аналітичний
- Аналітичний
- аналітика
- аналізувати
- та
- будь-який
- прикладної
- підхід
- архітектурний
- архітектура
- ЕСТЬ
- AS
- аспекти
- Активи
- At
- автор
- authors
- Автоматизований
- автоматично
- Автоматизація
- доступний
- середній
- уникнути
- AWS
- B2B
- B2C
- Banking
- Банки
- заснований
- BE
- ставати
- було
- перед тим
- вважає,
- Переваги
- КРАЩЕ
- між
- біллінг
- Блог
- книги
- позичальники
- обидва
- гілки
- приносити
- бізнес
- розвиток бізнесу
- бізнес-аналітика
- але
- by
- Кампанія
- CAN
- можливості
- можливості
- захоплення
- випадків
- каталог
- виклик
- проблеми
- Зміни
- вантажі
- перевірка
- Вибирати
- Вибираючи
- вибрав
- хмара
- кластер
- співробітництво
- Збір
- комбінований
- Компанії
- компанія
- порівняний
- повний
- комплекс
- складність
- обчислення
- одночасно
- беручи до уваги
- послідовний
- консультант
- споживач
- Споживачі
- споживання
- продовжувати
- Відповідний
- Коштувати
- економія на витратах
- витрати
- країни
- обкладинка
- створювати
- створення
- створення
- культура
- Куратор
- виготовлений на замовлення
- клієнт
- дані про клієнтів
- Клієнти
- щодня
- дані
- доступ до даних
- Analytics даних
- Озеро даних
- Платформа даних
- обмін даними
- візуалізація даних
- сховище даних
- сховища даних
- керовані даними
- Девід
- день
- Днів
- Пропозиції
- Децентралізований
- вирішене
- Прийняття рішень
- рішення
- знизився
- присвячених
- глибше
- остаточний
- доставляти
- Попит
- демократизація
- Демократизувати
- відділ
- відомства
- розгорнути
- деталь
- розвивати
- розробників
- розробка
- DID
- різний
- важкий
- цифровий
- цифрове перетворення
- напрямки
- безпосередньо
- відкрити
- відкриття
- занурення
- do
- домени
- вниз
- під час
- кожен
- ефективність
- ефективний
- продуктивно
- зусилля
- в регіоні EMEA
- дозволяє
- кінець
- енергія
- зобов'язань
- Машинобудування
- середовищах
- встановити
- Ефір (ETH)
- оцінювати
- Події
- еволюціонувати
- еволюціонували
- еволюціонує
- існуючий
- досвід
- експеримент
- дослідження
- дослідити
- зовнішній
- стикаються
- ярмарок
- ШВИДКО
- швидше
- сприятливий
- особливість
- риси
- в кінці кінців
- фінансування
- фінансовий
- фінансові послуги
- Гнучкість
- гнучкий
- Сфокусувати
- фокусування
- після
- слідує
- для
- Для споживачів
- раніше
- Вперед
- Сприяти
- від
- Повний
- функціональні можливості
- далі
- Крім того
- майбутнє
- породжувати
- покоління
- Німеччина
- отримати
- Git
- Давати
- GmBH
- управління
- великий
- виросла
- Зростання
- Зростання
- гість
- Guest Post
- керівництво
- керуватися
- було
- практичний
- траплятися
- Мати
- має
- he
- допоміг
- допомогу
- на вищому рівні
- вище
- дуже
- господар
- ГОДИННИК
- Як
- HTML
- HTTPS
- ідеальний
- ідентифікований
- Idle
- ілюструє
- вплив
- удосконалювати
- in
- включати
- У тому числі
- Augmenter
- збільшений
- індивідуальний
- промисловість
- інформація
- Інфраструктура
- інновація
- всередині
- розуміння
- натхненний
- випадки
- мить
- інтегрований
- інтеграція
- Інтелект
- інтерактивний
- зацікавлений
- інтерфейс
- втручання
- втручається
- внутрішній
- втручання
- в
- введені
- введення
- Вступ
- ізольований
- ізоляція
- ісв
- IT
- Подорожі
- ключ
- озеро
- посадка
- Землі
- запуск
- лідер
- провідний
- Веде за собою
- вивчення
- Життєвий цикл
- як
- Лінія
- жити
- живі дані
- загрузка
- позику
- Кредити
- шукати
- made
- збереження
- зробити
- РОБОТИ
- Робить
- управляти
- вдалося
- менеджер
- управління
- манера
- керівництво
- багато
- ринок
- Лідер ринку
- Маркетинг
- зрілий
- Зустрічатися
- сітці
- метадані
- Методологія
- Метрика
- мінімальний
- протокол
- ML
- більше
- Більше того
- іпотечне кредитування
- найбільш
- рухатися
- множинний
- а саме
- Необхідність
- необхідний
- потреби
- Нові
- немає
- вузли
- На північ
- зараз
- номер
- об'єкти
- of
- Пропозиції
- on
- On-Demand
- ONE
- тільки
- операційний
- оперативний
- операції
- оптимізація
- Оптимізувати
- оптимізований
- оптимізуючий
- варіант
- or
- оркестровка
- порядок
- організація
- організації
- оригінал
- Інше
- інші
- з
- над
- загальний
- Подолати
- огляд
- власний
- алюр
- Паралельні
- пристрасть
- пристрасний
- Викрійки
- моделі
- пауза
- зробив паузу
- Платити
- Peak
- для
- продуктивність
- періодичний
- персонал
- особисті кредити
- трубопровід
- плани
- платформа
- Платформи
- plato
- Інформація про дані Платона
- PlatoData
- популярний
- заселений
- пошта
- потенціал
- влада
- передбачати
- надавати перевагу
- Готувати
- Готує
- попередній
- раніше
- Головний
- Принципи
- попередній
- процеси
- обробка
- виробник
- Product
- розробка продукту
- Production
- Продукти
- проектів
- макетування
- забезпечувати
- за умови
- забезпечує
- забезпечення
- запити
- швидко
- діапазон
- Сировина
- Читати
- останній
- нещодавно
- визнаний
- рекомендувати
- зменшити
- Знижений
- зниження
- скорочення
- регіон
- райони
- звільнити
- залишився
- копіювання
- звітом
- Звітність
- Звіти
- Сховище
- представляє
- вимагати
- вимагається
- вимога
- Вимога
- ресурси
- відповідальний
- результати
- резюме
- відгуки
- право
- Risk
- ролі
- Правила
- прогін
- продажів
- Продажі та маркетинг
- то ж
- Економія
- масштабовані
- шкала
- ваги
- Масштабування
- scripts
- безшовні
- плавно
- безпечно
- побачити
- Самообслуговування
- старший
- окремий
- розділення
- Без сервера
- служить
- обслуговування
- Послуги
- виступаючої
- Сесія
- комплект
- установка
- Поділитись
- поділ
- вона
- Показувати
- показав
- Шоу
- простий
- спростити
- один
- So
- Софтвер
- розробка програмного забезпечення
- рішення
- Рішення
- вирішити
- джерело
- Джерела
- спеціаліст
- конкретний
- швидкість
- шипи
- SQL
- Стеки
- Стажування
- етапи
- інсценування
- зацікавлених сторін
- почалася
- введення в експлуатацію
- перебування
- стійкий
- Крок
- зберігання
- зберігати
- магазинів
- посилений
- зміцнення
- структурований
- тема
- такі
- підтримка
- Підтриманий
- Підтримуючий
- підвісний
- Жива картина
- приймає
- відчутний
- команда
- команди
- технології
- технічний
- методи
- зв'язок
- тест
- Тести
- ніж
- Що
- Команда
- Майбутнє
- їх
- Їх
- Ці
- вони
- третя сторона
- це
- ті
- тисяча
- три
- через
- час
- times
- до
- разом
- прийняли
- інструменти
- Усього:
- до
- Перетворення
- Перетворення
- перетворень
- перетворений
- перетворення
- прозорий
- викликати
- при
- непередбачуваний
- відповідний сучасним вимогам
- оновлений
- Використання
- використання
- використовуваний
- користувач
- User Experience
- користувачі
- використовує
- використання
- використовує
- підтверджено
- значення
- змінна
- різноманітність
- різний
- склеп
- візуалізації
- обсяг
- Обсяги
- хотів
- Склад
- було
- спостереження
- шлях..
- способи
- we
- Web
- веб-сервіси
- ДОБРЕ
- були
- Що
- коли
- який
- в той час як
- ВООЗ
- широкий
- Вікіпедія
- волі
- з
- без
- працював
- робочий
- робочий
- Робочі години
- працює
- Семінари
- світовий
- рік
- років
- ви
- вашу
- YouTube
- зефірнет