Это гостевой пост, написанный в соавторстве с Алексом Наумовым, главным архитектором данных компании smava.
Смава ГмбХ — одна из ведущих компаний в сфере финансовых услуг в Германии, которая делает потребительские кредиты прозрачными, справедливыми и доступными для потребителей. На основе цифровых процессов smava сравнивает кредитные предложения более чем 20 банков. Таким образом, заемщики могут выбирать наиболее выгодные для них сделки быстрым, цифровым и эффективным способом.
smava верит в решения, основанные на данных, и использует их, чтобы стать лидером рынка. Команда платформы данных отвечает за поддержку решений, основанных на данных, в smava, предоставляя продукты данных всем отделам и филиалам компании. В состав отделов входят команды от проектирования до продаж и маркетинга. Филиалы различаются по продуктам, а именно кредитам B2C, кредитам B2B, а ранее также ипотечным кредитам B2C. Продукты данных, используемые внутри компании, включают, среди прочего, информацию о путешествиях пользователей, операционные отчеты и результаты маркетинговых кампаний. Платформа данных обслуживает в среднем 60 тысяч запросов в день. Объем данных исчисляется двузначными числами в ТБ и устойчиво растет по мере развития бизнеса и источников данных.
Команда платформы данных smava столкнулась с проблемой доставки данных заинтересованным сторонам с различными соглашениями об уровне обслуживания, сохраняя при этом гибкость для увеличения и уменьшения масштаба, сохраняя при этом экономическую эффективность. Формирование ежедневной отчетности занимало до 3 часов, что влияло на принятие бизнес-решений, когда перерасчеты приходилось делать в течение дня. Чтобы ускорить аналитику самообслуживания и способствовать инновациям, основанным на данных, требовалось решение, позволяющее любой команде самостоятельно создавать продукты данных децентрализованно. Для создания продуктов данных и управления ими smava использует Амазонка Redshift, облачное хранилище данных.
В этом посте мы покажем, как smava оптимизировала свою платформу данных, используя Amazon Redshift без сервера и Обмен данными Amazon Redshift для решения проблем правильного определения размера непредсказуемых рабочих нагрузок и дальнейшего улучшения соотношения цены и качества. Благодаря оптимизации smava добилась экономии затрат до 50 % и создания отчетов в три раза быстрее по сравнению с предыдущей инфраструктурой аналитики.
Обзор решения
Будучи компанией, ориентированной на данные, smava полагается на облако AWS для реализации своих сценариев использования аналитики. Чтобы предложить своим клиентам лучшие предложения и пользовательский опыт, smava следует современная архитектура данных принципы с озером данных как масштабируемым и надежным хранилищем данных, а также специализированными хранилищами данных для аналитической обработки и потребления данных.
smava принимает данные из различных внешних и внутренних источников данных на посадочную площадку в озере данных на основе Простой сервис хранения Amazon (Амазонка S3). Для приема данных smava использует набор популярных сторонних платформ данных о клиентах, дополненных специальными скриптами.
После того как данные попадают в Amazon S3, smava использует Клей AWS Каталог данных и сканеры для автоматической каталогизации доступных данных, сбора метаданных и предоставления интерфейса, позволяющего запрашивать все активы данных.
Аналитики данных, которым требуется доступ к необработанным ресурсам озера данных, используют Амазонка Афина, бессерверный интерактивный аналитический сервис для исследования с помощью специальных запросов. Для дальнейшего использования всеми отделами организации команда платформы данных smava подготавливает курируемые продукты данных в соответствии с извлекать, загружать и преобразовывать (ELT) шаблон. smava использует Amazon Redshift в качестве облачного хранилища данных для преобразования, хранения и анализа данных, а также использует Спектр красного смещения Амазонки эффективно запрашивать и извлекать структурированные и полуструктурированные данные из озера данных с помощью SQL.
Смава следует за моделирование хранилища данных методология с этапами Raw Vault, Business Vault и Data Mart для подготовки продуктов данных для конечных потребителей. Raw Vault описывает объекты, загруженные непосредственно из источников данных, и представляет собой копию целевой площадки в озере данных. Business Vault заполняется данными, полученными из Raw Vault и преобразуемыми в соответствии с бизнес-правилами. Наконец, данные агрегируются в конкретные информационные продукты, ориентированные на конкретное направление бизнеса. Это Магазин данных этап. Продукты данных на этапах Business Vault и Data Mart теперь доступны для потребителей. smava решила использовать Tableau для бизнес-аналитики, визуализации данных и дальнейшей аналитики. Преобразования данных управляются с помощью DBT упростить управление рабочим процессом и совместную работу команды.
На следующей диаграмме показана архитектура платформы данных высокого уровня до оптимизации.
Эволюция требований к платформе данных
smava начала с одного кластера Redshift, в котором размещались все три этапа обработки данных. Они выбрали подготовленные узлы кластера Тип РА3 Зарезервированные экземпляры (RI) для оптимизации затрат. Объемы данных выросли на 53 % по сравнению с прошлым годом, а вместе с ними возросла сложность и требования к различным аналитическим нагрузкам.
smava быстро справилась с растущими объемами данных, правильно подобрав размер кластера и используя Параллельное масштабирование Amazon Redshift для пиковых нагрузок. Кроме того, smava хотела предоставить всем командам возможность создавать свои собственные информационные продукты в режиме самообслуживания, чтобы ускорить темпы инноваций. Чтобы избежать какого-либо вмешательства в работу централизованно управляемых информационных продуктов, децентрализованные среды разработки продуктов необходимо было строго изолировать. То же требование применялось и для изоляции различных этапов продукта, курируемых командой Data Platform.
Оптимизация архитектуры с помощью совместного использования данных и Redshift Serverless
Чтобы удовлетворить возросшие требования, компания smava решила разделить рабочую нагрузку, разделив один подготовленный кластер Redshift на несколько хранилищ данных, причем каждое хранилище обслуживает отдельный этап. Кроме того, smava добавила в Business Vault новые промежуточные среды для разработки новых продуктов данных без риска вмешательства в существующие конвейеры продуктов. Чтобы избежать какого-либо вмешательства в продукты команды Data Platform с централизованным управлением, smava внедрила дополнительный кластер Redshift, изолирующий децентрализованные рабочие нагрузки.
smava искала готовое решение для обеспечения изоляции рабочей нагрузки без управления сложным конвейером репликации данных.
Сразу после запуска Обмен данными Redshift возможностей в 2021 году, команда Data Platform признала, что это именно то решение, которое они искали. smava внедрила функцию совместного использования данных, чтобы данные из кластеров производителей были доступны для чтения в разных кластерах потребителей, причем каждый из этих кластеров потребителей обслуживал разные этапы.
Совместное использование данных Redshift обеспечивает мгновенный, детализированный и быстрый доступ к данным в кластерах Redshift без необходимости копирования данных. Он обеспечивает доступ к данным в реальном времени, поэтому пользователи всегда видят самую актуальную и согласованную информацию по мере ее обновления в хранилище данных. Благодаря совместному использованию данных вы можете безопасно обмениваться актуальными данными с кластерами Redshift в одной или разных учетных записях AWS и в разных регионах.
Благодаря совместному использованию данных Redshift компания smava смогла оптимизировать архитектуру данных, разделив рабочую нагрузку данных на отдельные потребительские кластеры без необходимости репликации данных. На следующей диаграмме показана архитектура платформы данных высокого уровня после разделения одного кластера Redshift на несколько кластеров.
Предоставляя витрину данных самообслуживания, smava повысила демократизацию данных, предоставив пользователям доступ ко всем аспектам данных. Они также предоставили командам набор специальных инструментов для обнаружения данных, специального анализа, прототипирования и эксплуатации полного жизненного цикла зрелых продуктов данных.
Собрав операционные данные из отдельных кластеров, команда Data Platform выявила дальнейшие потенциальные возможности оптимизации: кластер Raw Vault находился под постоянной нагрузкой 24 часа в сутки, 7 дней в неделю, но кластеры Business Vault обновлялись только каждую ночь. Чтобы оптимизировать затраты, smava использовала возможности паузы и возобновления кластеров Redshift. Эти возможности полезны для кластеров, которые должны быть доступны в определенное время. Пока кластер приостановлен, выставление счетов по требованию приостанавливается. Плата взимается только за хранилище кластера.
Функция паузы и возобновления помогла smava оптимизировать затраты, но потребовала дополнительных операционных затрат для запуска операций кластера. Кроме того, кластеры разработки продолжали простаивать в рабочее время. Эти проблемы были окончательно решены путем внедрения Redshift Serverless в 2022 году. Команда Data Platform решила перевести этапы кластеров Business Data Vault на Redshift Serverless, что позволяет им платить за хранилище данных только во время его использования, надежно и эффективно.
Redshift Serverless идеально подходит для случаев, когда трудно предсказать потребности в вычислительных ресурсах, например при переменных рабочих нагрузках, периодических рабочих нагрузках с периодами простоя и устойчивых рабочих нагрузках с пиками. Кроме того, по мере того, как спрос на использование растет вместе с новыми рабочими нагрузками и увеличением числа одновременных пользователей, Redshift Serverless автоматически выделяет нужные вычислительные ресурсы, а хранилище данных легко и автоматически масштабируется без необходимости ручного вмешательства. Совместное использование данных поддерживается в обоих направлениях между Redshift Serverless и выделенными кластерами Redshift с узлами RA3, поэтому никаких изменений в архитектуре smava не потребовалось. На следующей диаграмме показана высокоуровневая настройка архитектуры после перехода на Redshift Serverless.
smava объединила преимущества Redshift Serverless и dbt посредством единого конвейера CI/CD, приняв методологию разработки на основе магистральной линии. Изменения в репозитории Git автоматически развертываются на этапе тестирования и проверяются с помощью автоматических интеграционных тестов. Такой подход повысил эффективность работы разработчиков и сократил среднее время производства с дней до минут.
smava внедрила архитектуру, в которой используются как выделенные, так и бессерверные хранилища данных Redshift, а также возможность совместного использования данных для изоляции рабочих нагрузок. Выбрав правильные архитектурные модели для своих нужд, smava смогла добиться следующего:
- Упростите конвейеры данных и сократите операционные накладные расходы.
- Сократите время выпуска функции с дней до минут
- Повысьте соотношение цены и качества за счет сокращения времени простоя и правильного определения рабочей нагрузки.
- Достигните в три раза более быстрого создания отчетов (более быстрые вычисления и более высокий уровень распараллеливания) при 50 % первоначальных затрат на установку.
- Повысьте гибкость всех отделов и поддержите принятие решений на основе данных за счет демократизации доступа к данным.
- Повысьте скорость внедрения инноваций, предоставив возможности самообслуживания данных командам во всех отделах и укрепив возможности A/B-тестирования, чтобы охватить весь путь клиента.
Теперь все отделы smava используют доступные продукты данных для принятия основанных на данных, точных и гибких решений.
Будущее видение
В будущем smava планирует продолжить оптимизацию платформы данных на основе операционных показателей. Они рассматривают возможность перевода большего количества подготовленных кластеров, таких как кластер киоска данных самообслуживания, на бессерверные системы. Кроме того, smava оптимизирует набор инструментов оркестрации ELT, чтобы увеличить количество запускаемых параллельных конвейеров данных. Это позволит повысить эффективность использования выделенных ресурсов Redshift и позволит сократить расходы.
С введением децентрализованной системы самообслуживания для создания продуктов данных компания smava сделала шаг вперед к архитектура сетки данных. В будущем команда Data Platform планирует продолжить оценку потребностей пользователей своих услуг и установить дополнительные принципы сетки данных, такие как федеративное управление данными.
Заключение
В этом посте мы показали, как smava оптимизировала свою платформу данных, изолируя среды и рабочие нагрузки с помощью Redshift Serverless и функций совместного использования данных. Эти среды Redshift хорошо интегрированы со своей инфраструктурой, гибки в масштабировании по требованию, имеют высокую доступность и требуют минимальных усилий по администрированию. В целом, smava увеличила производительность в три раза, сократив при этом общую стоимость платформы на 50%. Кроме того, они сократили операционные накладные расходы до минимума, сохранив при этом существующие соглашения об уровне обслуживания в отношении времени создания отчетов. Более того, smava укрепила культуру инноваций, предоставив возможности продуктов самообслуживания для ускорения их выхода на рынок.
Если вы хотите узнать больше о возможностях Amazon Redshift, рекомендуем посмотреть самый последний выпуск Что нового в сеансе Amazon Redshift в канале AWS Events чтобы получить обзор функций, недавно добавленных в услугу. Вы также можете изучить самообслуживание, практические лаборатории Amazon Redshift экспериментировать с ключевыми функциями Amazon Redshift в управляемой форме.
Вы также можете погрузиться глубже в Варианты использования Redshift Serverless и варианты использования обмена данными. Кроме того, ознакомьтесь с лучшие практики обмена данными и узнайте, как другие клиенты оптимизировали затраты и производительность с помощью совместного использования данных Redshift чтобы получить вдохновение для собственных рабочих нагрузок.
Если вы предпочитаете книги, посмотрите Amazon Redshift: полное руководство О’Рейли, где авторы подробно описывают возможности Amazon Redshift и предоставляют информацию о соответствующих шаблонах и методах.
Об авторах
Алекс Наумов является главным архитектором данных в smava GmbH и руководит проектами трансформации в отделе данных. Ранее Алекс 10 лет работал консультантом и архитектором данных/решений в самых разных областях, таких как телекоммуникации, банковское дело, энергетика и финансы, используя различные технологические стеки и во многих разных странах. У него есть большая страсть к данным и преобразованию организаций, чтобы они стали ориентированными на данные и лучшими в своем деле.
Линли Чжэн работает менеджером по развитию бизнеса во всемирной специализированной организации AWS, помогая клиентам в регионе DACH получать максимальную отдачу от аналитических услуг Amazon. Имея более чем 12-летний опыт работы в сфере энергетики, автоматизации и программного обеспечения с упором на анализ данных, искусственный интеллект и машинное обучение, она стремится помочь клиентам достичь ощутимых бизнес-результатов посредством цифровой трансформации.
Александр Спивак — старший архитектор решений для стартапов в AWS, специализирующийся на B2B-клиентах ISV в регионе EMEA North. До AWS Александр работал консультантом в сфере финансовых услуг, включая различные должности в области разработки программного обеспечения и архитектуры. Он увлечен аналитикой данных, бессерверными архитектурами и созданием эффективных организаций.
Этот пост был проверен на предмет технической точности Дэвидом Гринштейном, старшим архитектором аналитических решений.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/big-data/how-smava-makes-loans-transparent-and-affordable-using-amazon-redshift-serverless/
- :имеет
- :является
- :куда
- $UP
- 10
- 100
- 12
- 125
- 20
- 2021
- 2022
- 60
- a
- в состоянии
- О нас
- доступ
- Доступ к данным
- выполнять
- По
- Учетные записи
- точность
- точный
- Достигать
- достигнутый
- через
- Ad
- добавленный
- дополнение
- дополнительный
- Дополнительно
- адресованный
- администрация
- принял
- Принятие
- плюс
- доступной
- После
- проворный
- AI
- Alex
- Alexander
- Все
- позволять
- позволяет
- причислены
- всегда
- Amazon
- Amazon Web Services
- среди
- an
- анализ
- Аналитики
- аналитический
- Аналитические фармацевтические услуги
- аналитика
- анализировать
- и
- любой
- прикладной
- подхода
- архитектурный
- архитектура
- МЫ
- AS
- аспекты
- Активы
- At
- автор
- Авторы
- Автоматизированный
- автоматически
- автоматизация
- доступен
- в среднем
- избежать
- AWS
- B2B
- B2C
- Банковское дело
- Банки
- основанный
- BE
- становиться
- было
- до
- считает,
- Преимущества
- ЛУЧШЕЕ
- между
- биллинг
- Блог
- Книги
- заемщики
- изоферменты печени
- ветви
- приносить
- бизнес
- развитие бизнеса
- бизнес-аналитика
- но
- by
- Кампания
- CAN
- возможности
- возможности
- захватить
- случаев
- каталог
- вызов
- проблемы
- изменения
- расходы
- проверка
- Выберите
- Выбирая
- выбрал
- облако
- Кластер
- сотрудничество
- Сбор
- сочетании
- Компании
- Компания
- сравненный
- полный
- комплекс
- сложность
- Вычисление
- параллельный
- принимая во внимание
- последовательный
- консультант
- потребитель
- Потребители
- потребление
- продолжать
- соответствующий
- Цена
- экономия на издержках
- Расходы
- страны
- чехол для варгана
- Создайте
- Создающий
- создание
- Культура
- Куратор
- изготовленный на заказ
- клиент
- данные клиентов
- Клиенты
- ежедневно
- данным
- доступ к данным
- Анализ данных
- Озеро данных
- Платформа данных
- обмен данными
- визуализация данных
- информационное хранилище
- хранилища данных
- управляемых данными
- Давид
- день
- Дней
- Акции
- децентрализованная
- решенный
- Принятие решений
- решения
- снизилась
- преданный
- более глубокий
- окончательный
- доставить
- Спрос
- демократизация
- Демократизация
- Кафедра
- ведомства
- развернуть
- подробность
- развивать
- застройщиков
- Развитие
- DID
- различный
- трудный
- Интернет
- цифровое преобразование
- инструкция
- непосредственно
- обнаружить
- открытие
- погружение
- do
- доменов
- вниз
- в течение
- каждый
- затрат
- эффективный
- эффективно
- усилия
- в регионе EMEA
- позволяет
- конец
- энергетика
- обязательств
- Проект и
- средах
- установить
- Эфир (ETH)
- оценивать
- События
- развивается
- эволюционировали
- эволюционирует
- существующий
- опыт
- эксперимент
- исследование
- Больше
- и, что лучший способ
- сталкиваются
- ярмарка
- БЫСТРО
- быстрее
- благоприятный
- Особенность
- Особенности
- в заключение
- финансы
- финансовый
- финансовые услуги
- Трансформируемость
- гибкого
- Фокус
- фокусировка
- после
- следующим образом
- Что касается
- Для потребителей
- раньше
- вперед
- Способствовать
- от
- полный
- функциональные возможности
- далее
- Более того
- будущее
- порождать
- поколение
- Germany
- получить
- идти
- Дайте
- ГмбХ
- управление
- большой
- выросли
- Рост
- Рост
- GUEST
- Guest Post
- инструкция
- управляемый
- было
- практический
- происходить
- Есть
- имеющий
- he
- помог
- помощь
- на высшем уровне
- высший
- очень
- кашель
- ЧАСЫ
- Как
- HTML
- HTTPS
- идеальный
- идентифицированный
- Idle
- иллюстрирует
- влияние
- улучшать
- in
- включают
- В том числе
- Увеличение
- расширились
- individual
- промышленность
- информация
- Инфраструктура
- Инновации
- внутри
- размышления
- вдохновленный
- случаев
- мгновение
- интегрированный
- интеграции.
- Интеллекта
- интерактивный
- заинтересованный
- Интерфейс
- вмешательство
- вмешивающийся
- в нашей внутренней среде,
- вмешательство
- в
- выпустили
- введение
- Введение
- изолированный
- изоляция
- ISV
- IT
- Путешествия
- Основные
- озеро
- посадка
- земли
- запуск
- лидер
- ведущий
- Лиды
- изучение
- Жизненный цикл
- такое как
- линия
- жить
- живые данные
- загрузка
- варианты
- Кредиты
- искать
- сделанный
- сохранение
- сделать
- ДЕЛАЕТ
- Создание
- управлять
- управляемого
- менеджер
- управления
- способ
- руководство
- многих
- рынок
- Market Leader
- Маркетинг
- зрелый
- Встречайте
- сетке
- Метаданные
- Методология
- Метрика
- минимальный
- минут
- ML
- БОЛЕЕ
- Более того
- Ипотека
- самых
- двигаться
- с разными
- а именно
- Необходимость
- необходимый
- потребности
- Новые
- нет
- узлы
- север
- сейчас
- номер
- объекты
- of
- Предложения
- on
- On-Demand
- ONE
- только
- операционный
- оперативный
- Операционный отдел
- оптимизация
- Оптимизировать
- оптимизированный
- оптимизирующий
- Опция
- or
- оркестровка
- заказ
- организация
- организации
- оригинал
- Другое
- Другое
- внешний
- за
- общий
- Преодолеть
- обзор
- собственный
- Темп
- Параллельные
- страсть
- страстный
- шаблон
- паттеранами
- Пауза
- приостановлена
- ОПЛАТИТЬ
- Вершина горы
- для
- производительность
- периодический
- личного
- Личные кредиты
- трубопровод
- Планы
- Платформа
- Платформы
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Популярное
- населенный
- После
- потенциал
- мощностью
- предсказывать
- предпочитать
- Подготовить
- Готовит
- предыдущий
- предварительно
- Основной
- Принципы
- Предварительный
- Процессы
- обработка
- производитель
- Продукт
- разработка продукта
- Производство
- Продукция
- проектов
- макетирования
- обеспечивать
- при условии
- приводит
- обеспечение
- Запросы
- быстро
- ассортимент
- Сырье
- Читать
- последний
- недавно
- признанный
- рекомендовать
- уменьшить
- Цена снижена
- снижение
- сокращения
- область
- районы
- освободить
- остались
- копирование
- отчету
- Reporting
- Отчеты
- хранилище
- представляет
- требовать
- обязательный
- требование
- Требования
- Полезные ресурсы
- ответственный
- Итоги
- продолжить
- отзывы
- правую
- Снижение
- роли
- условиями,
- Run
- главная
- Продажи и маркетинг
- то же
- экономия
- масштабируемые
- Шкала
- Весы
- масштабирование
- скрипты
- бесшовные
- легко
- безопасно
- посмотреть
- Самообслуживание
- старший
- отдельный
- отделяющий
- Serverless
- служит
- обслуживание
- Услуги
- выступающей
- Сессия
- набор
- установка
- Поделиться
- разделение
- она
- показывать
- показал
- Шоу
- просто
- упростить
- одинарной
- So
- Software
- разработка программного обеспечения
- Решение
- Решения
- решить
- источников
- Источники
- специалист
- конкретный
- скорость
- шипы
- SQL
- Стеки
- Этап
- этапы
- инсценировка
- заинтересованных сторон
- и политические лидеры
- ввод в эксплуатацию
- пребывание
- устойчивый
- Шаг
- диск
- магазин
- магазины
- усиленный
- укрепление
- структурированный
- предмет
- такие
- поддержка
- Поддержанный
- поддержки
- подвесной
- Живая картина
- принимает
- осязаемый
- команда
- команды
- технологии
- Технический
- снижения вреда
- связь
- тестXNUMX
- тестов
- чем
- который
- Ассоциация
- Будущее
- их
- Их
- Эти
- они
- сторонние
- этой
- те
- тысяча
- три
- Через
- время
- раз
- в
- вместе
- приняли
- инструменты
- Всего
- к
- Transform
- трансформация
- преобразований
- преобразован
- превращение
- прозрачный
- вызвать
- под
- непредсказуемый
- новейший
- обновление
- Применение
- использование
- используемый
- Информация о пользователе
- Пользовательский опыт
- пользователей
- использования
- через
- использует
- подтверждено
- ценностное
- переменная
- разнообразие
- различный
- Хранилище
- визуализация
- объем
- тома
- стремятся
- Склады
- законопроект
- наблюдение
- Путь..
- способы
- we
- Web
- веб-сервисы
- ЧТО Ж
- были
- Что
- когда
- который
- в то время как
- КТО
- широкий
- Википедия.
- будете
- без
- работавший
- рабочий
- работает
- Рабочее время
- работает
- Семинары
- по всему миру
- год
- лет
- являетесь
- ВАШЕ
- YouTube
- зефирнет