Este é um post convidado co-escrito por Alex Naumov, arquiteto de dados principal da smava.
smava GmbH é uma das principais empresas de serviços financeiros na Alemanha, tornando os empréstimos pessoais transparentes, justos e acessíveis para os consumidores. Com base em processos digitais, a smava compara ofertas de empréstimos de mais de 20 bancos. Dessa forma, os mutuários podem escolher as negociações que lhes são mais favoráveis de forma rápida, digitalizada e eficiente.
A smava acredita e aproveita as decisões baseadas em dados para se tornar líder de mercado. A equipe da Plataforma de Dados é responsável por apoiar decisões baseadas em dados na smava, fornecendo produtos de dados em todos os departamentos e filiais da empresa. Os departamentos incluem equipes de engenharia a vendas e marketing. As sucursais variam por produtos, nomeadamente empréstimos B2C, empréstimos B2B e, anteriormente, também hipotecas B2C. Os produtos de dados usados dentro da empresa incluem insights de jornadas de usuários, relatórios operacionais e resultados de campanhas de marketing, entre outros. A plataforma de dados atende em média 60 mil consultas por dia. O volume de dados está em TB de dois dígitos, com crescimento constante à medida que os negócios e as fontes de dados evoluem.
A equipe da plataforma de dados da smava enfrentou o desafio de fornecer dados às partes interessadas com diferentes SLAs, mantendo ao mesmo tempo a flexibilidade para aumentar ou diminuir a escala e, ao mesmo tempo, manter a economia. A geração de relatórios diários demorava até 3 horas, o que impactava a tomada de decisões de negócios quando recálculos precisavam ser feitos durante o dia. Para acelerar a análise de autoatendimento e promover a inovação baseada em dados, era necessária uma solução que fornecesse maneiras de permitir que qualquer equipe criasse produtos de dados por conta própria, de maneira descentralizada. Para criar e gerenciar os produtos de dados, smava usa Amazon RedShift, um armazém de dados em nuvem.
Neste post, mostramos como a smava otimizou sua plataforma de dados usando Sem servidor Amazon Redshift e Compartilhamento de dados do Amazon Redshift para superar desafios de dimensionamento correto para cargas de trabalho imprevisíveis e melhorar ainda mais o desempenho em termos de preço. Por meio das otimizações, a smava obteve economia de custos de até 50% e geração de relatórios até três vezes mais rápida em comparação com a infraestrutura analítica anterior.
Visão geral da solução
Como uma empresa orientada a dados, a smava depende da Nuvem AWS para potencializar seus casos de uso de análise. Para trazer aos seus clientes as melhores ofertas e experiência do usuário, a smava segue o arquitetura de dados moderna princípios com um data lake como um armazenamento de dados escalável e durável e armazenamentos de dados específicos para processamento analítico e consumo de dados.
smava ingere dados de várias fontes de dados externas e internas em um estágio de destino no data lake com base em Serviço de armazenamento simples da Amazon (Amazon S3). Para ingerir os dados, a smava usa um conjunto de plataformas populares de dados de clientes de terceiros, complementadas por scripts personalizados.
Depois que os dados chegam ao Amazon S3, o smava usa o Cola AWS Catálogo de dados e rastreadores catalogar automaticamente os dados disponíveis, capturar os metadados e fornecer uma interface que permite consultar todos os ativos de dados.
Analistas de dados que precisam de acesso aos ativos brutos no uso do data lake Amazona atena, um serviço analítico interativo e sem servidor para exploração com consultas ad hoc. Para o consumo downstream por todos os departamentos da organização, a equipe da plataforma de dados da smava prepara produtos de dados selecionados seguindo as extrair, carregar e transformar (ELT). smava usa o Amazon Redshift como data warehouse em nuvem para transformar, armazenar e analisar dados e usa Espectro Amazon Redshift para consultar e recuperar com eficiência dados estruturados e semiestruturados do data lake usando SQL.
smava segue o modelagem de cofre de dados metodologia com as etapas Raw Vault, Business Vault e Data Mart para preparar os produtos de dados para os consumidores finais. O Raw Vault descreve objetos carregados diretamente das fontes de dados e representa uma cópia do estágio de destino no data lake. O Business Vault é preenchido com dados provenientes do Raw Vault e transformados de acordo com as regras de negócios. Finalmente, os dados são agregados em produtos de dados específicos orientados para uma linha de negócios específica. Isto é o Datamart estágio. Os produtos de dados dos estágios Business Vault e Data Mart já estão disponíveis para os consumidores. smava decidiu usar o Tableau para business intelligence, visualização de dados e análises adicionais. As transformações de dados são gerenciadas com dbt para simplificar a governança do fluxo de trabalho e a colaboração da equipe.
O diagrama a seguir mostra a arquitetura da plataforma de dados de alto nível antes das otimizações.
Evolução dos requisitos da plataforma de dados
smava começou com um único cluster Redshift para hospedar todos os três estágios de dados. Eles escolheram nós de cluster provisionados do Tipo RA3 de Instâncias Reservadas (RIs) para otimização de custos. À medida que os volumes de dados cresciam 53% ano após ano, também cresciam a complexidade e os requisitos de diversas cargas de trabalho analíticas.
smava abordou rapidamente os crescentes volumes de dados dimensionando corretamente o cluster e usando Escalabilidade de simultaneidade do Amazon Redshift para cargas de trabalho de pico. Além disso, a smava queria dar a todas as equipas a opção de criar os seus próprios produtos de dados de forma self-service para aumentar o ritmo da inovação. Para evitar qualquer interferência com os produtos de dados geridos centralmente, os ambientes descentralizados de desenvolvimento de produtos precisavam de ser estritamente isolados. O mesmo requisito também foi aplicado para o isolamento das diferentes etapas do produto com curadoria da equipe da Data Platform.
Otimizando a arquitetura com compartilhamento de dados e Redshift Serverless
Para atender aos requisitos evoluídos, a smava decidiu separar a carga de trabalho dividindo o único cluster Redshift provisionado em vários data warehouses, com cada warehouse servindo um estágio diferente. Além disso, a smava adicionou novos ambientes de teste no Business Vault para desenvolver novos produtos de dados sem o risco de interferir nos pipelines de produtos existentes. Para evitar qualquer interferência com os produtos de dados gerenciados centralmente pela equipe da Plataforma de Dados, a smava introduziu um cluster Redshift adicional, isolando as cargas de trabalho descentralizadas.
A smava estava procurando uma solução pronta para uso para obter isolamento de carga de trabalho sem gerenciar um pipeline complexo de replicação de dados.
Logo após o lançamento de Compartilhamento de dados Redshift capacidades em 2021, a equipe da Plataforma de Dados reconheceu que esta era a solução que procuravam. smava adotou o recurso de compartilhamento de dados para disponibilizar os dados dos clusters de produtores para acesso de leitura em diferentes clusters de consumidores, com cada um desses clusters de consumidores atendendo a um estágio diferente.
O compartilhamento de dados do Redshift permite acesso instantâneo, granular e rápido aos dados em clusters do Redshift sem a necessidade de copiar dados. Ele fornece acesso em tempo real aos dados para que os usuários sempre vejam as informações mais atualizadas e consistentes à medida que são atualizadas no data warehouse. Com o compartilhamento de dados, você pode compartilhar com segurança dados em tempo real com clusters Redshift na mesma ou em diferentes contas da AWS e entre regiões.
Com o compartilhamento de dados do Redshift, a smava conseguiu otimizar a arquitetura de dados separando as cargas de trabalho de dados em clusters de consumidores individuais sem precisar replicar os dados. O diagrama a seguir ilustra a arquitetura da plataforma de dados de alto nível após dividir o cluster único do Redshift em vários clusters.
Ao fornecer um data mart de autoatendimento, a smava aumentou a democratização dos dados, fornecendo aos usuários acesso a todos os aspectos dos dados. Eles também forneceram às equipes um conjunto de ferramentas personalizadas para descoberta de dados, análise ad hoc, prototipagem e operação de todo o ciclo de vida de produtos de dados maduros.
Depois de coletar dados operacionais de clusters individuais, a equipe da Data Platform identificou outras otimizações potenciais: o cluster Raw Vault estava sob carga constante 24 horas por dia, 7 dias por semana, mas os clusters do Business Vault eram atualizados apenas todas as noites. Para otimizar custos, a smava utilizou o recursos de pausa e retomada de clusters provisionados do Redshift. Esses recursos são úteis para clusters que precisam estar disponíveis em horários específicos. Enquanto o cluster estiver pausado, a cobrança sob demanda será suspensa. Apenas o armazenamento do cluster incorre em cobranças.
O recurso de pausa e retomada ajudou o smava a otimizar os custos, mas exigiu sobrecarga operacional adicional para acionar as operações do cluster. Adicionalmente, os clusters de desenvolvimento permaneceram sujeitos a tempos de inatividade durante o horário de trabalho. Esses desafios foram finalmente resolvidos com a adoção do Redshift Serverless em 2022. A equipe da Data Platform decidiu migrar os clusters de estágio do Business Data Vault para o Redshift Serverless, o que lhes permite pagar pelo data warehouse apenas quando estiver em uso, de maneira confiável e eficiente.
O Redshift Serverless é ideal para casos em que é difícil prever necessidades de computação, como cargas de trabalho variáveis, cargas de trabalho periódicas com tempo ocioso e cargas de trabalho em estado estacionário com picos. Além disso, à medida que a demanda de uso evolui com novas cargas de trabalho e mais usuários simultâneos, o Redshift Serverless provisiona automaticamente os recursos de computação certos, e o data warehouse é dimensionado de forma contínua e automática, sem a necessidade de intervenção manual. O compartilhamento de dados é compatível em ambas as direções entre clusters Redshift Serverless e Redshift provisionados com nós RA3, portanto, nenhuma alteração na arquitetura smava foi necessária. O diagrama a seguir mostra a configuração da arquitetura de alto nível após a mudança para o Redshift Serverless.
smava combinou os benefícios do Redshift Serverless e dbt por meio de um pipeline CI/CD contínuo, adotando uma metodologia de desenvolvimento baseada em tronco. As alterações no repositório Git são implementadas automaticamente em um estágio de teste e validadas usando testes de integração automatizados. Essa abordagem aumentou a eficiência dos desenvolvedores e diminuiu o tempo médio de produção de dias para minutos.
smava adotou uma arquitetura que utiliza data warehouses Redshift provisionados e sem servidor, juntamente com a capacidade de compartilhamento de dados para isolar as cargas de trabalho. Ao escolher os padrões arquitetônicos corretos para suas necessidades, a smava conseguiu realizar o seguinte:
- Simplifique os pipelines de dados e reduza a sobrecarga operacional
- Reduza o tempo de lançamento de recursos de dias para minutos
- Aumente o custo-benefício reduzindo os tempos de inatividade e dimensionando corretamente a carga de trabalho
- Obtenha geração de relatórios até três vezes mais rápida (cálculos mais rápidos e maior paralelização) com 50% dos custos de configuração originais
- Aumente a agilidade de todos os departamentos e apoie a tomada de decisões baseada em dados, democratizando o acesso aos dados
- Aumente a velocidade da inovação expondo recursos de dados de autoatendimento para equipes de todos os departamentos e fortalecendo os recursos de teste A/B para cobrir toda a jornada do cliente
Agora, todos os departamentos da smava estão usando os produtos de dados disponíveis para tomar decisões baseadas em dados, precisas e ágeis.
Visão futura
Para o futuro, a smava planeia continuar a otimizar a Plataforma de Dados com base em métricas operacionais. Eles estão considerando mudar clusters mais provisionados, como o cluster Self-Service Data Mart, para servidores sem servidor. Além disso, a smava está otimizando a cadeia de ferramentas de orquestração ELT para aumentar o número de pipelines de dados paralelos a serem executados. Isto aumentará a utilização dos recursos provisionados do Redshift e permitirá reduções de custos.
Com a introdução do autoatendimento descentralizado para criação de produtos de dados, a smava deu um passo em direção a um arquitetura de malha de dados. No futuro, a equipa da Plataforma de Dados planeia avaliar melhor as necessidades dos utilizadores dos seus serviços e estabelecer mais princípios de malha de dados, como a governação de dados federados.
Conclusão
Nesta postagem, mostramos como a smava otimizou sua plataforma de dados isolando ambientes e cargas de trabalho usando Redshift Serverless e recursos de compartilhamento de dados. Esses ambientes Redshift estão bem integrados à sua infraestrutura, são flexíveis no dimensionamento sob demanda e altamente disponíveis, além de exigirem esforços mínimos de administração. No geral, o smava aumentou o desempenho três vezes e reduziu os custos totais da plataforma em 50%. Além disso, reduziram ao mínimo a sobrecarga operacional, mantendo os SLAs existentes para os tempos de geração de relatórios. Além disso, a smava fortaleceu a cultura de inovação ao fornecer recursos de produtos de dados de autoatendimento para acelerar o tempo de lançamento no mercado.
Se você estiver interessado em aprender mais sobre os recursos do Amazon Redshift, recomendamos assistir ao mais recente O que há de novo na sessão do Amazon Redshift no canal AWS Events para obter uma visão geral dos recursos adicionados recentemente ao serviço. Você também pode explorar o Laboratórios práticos e de autoatendimento do Amazon Redshift para experimentar as principais funcionalidades do Amazon Redshift de maneira orientada.
Você também pode se aprofundar Casos de uso sem servidor do Redshift e casos de uso de compartilhamento de dados. Além disso, confira o práticas recomendadas de compartilhamento de dados e descubra como outros clientes otimizados em termos de custo e desempenho com compartilhamento de dados Redshift para se inspirar em suas próprias cargas de trabalho.
Se você preferir livros, confira Amazon Redshift: o guia definitivo de O’Reilly, onde os autores detalham os recursos do Amazon Redshift e fornecem insights sobre padrões e técnicas correspondentes.
Sobre os autores
Alex Naumov é arquiteto de dados principal na smava GmbH e lidera os projetos de transformação no departamento de dados. Alex trabalhou anteriormente por 10 anos como consultor e arquiteto de dados/soluções em uma ampla variedade de domínios, como telecomunicações, bancos, energia e finanças, usando diversas pilhas de tecnologia e em muitos países diferentes. Ele tem uma grande paixão por dados e por transformar organizações para que se tornem orientadas por dados e sejam as melhores no que fazem.
Lingli Zheng trabalha como gerente de desenvolvimento de negócios na organização especializada mundial da AWS, apoiando clientes na região DACH para obter o melhor valor dos serviços analíticos da Amazon. Com mais de 12 anos de experiência na indústria de energia, automação e software, com foco em análise de dados, IA e ML, ela se dedica a ajudar os clientes a alcançar resultados comerciais tangíveis por meio da transformação digital.
Alexandre Spivak é arquiteto sênior de soluções para startups na AWS, com foco em clientes ISV B2B na EMEA Norte. Antes da AWS, Alexander trabalhou como consultor em serviços financeiros, incluindo diversas funções em desenvolvimento e arquitetura de software. Ele é apaixonado por análise de dados, arquiteturas sem servidor e pela criação de organizações eficientes.
Esta postagem foi revisada quanto à precisão técnica por David Greenshtein, arquiteto sênior de soluções analíticas.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/big-data/how-smava-makes-loans-transparent-and-affordable-using-amazon-redshift-serverless/
- :tem
- :é
- :onde
- $UP
- 10
- 100
- 12
- 125
- 20
- 2021
- 2022
- 60
- a
- Capaz
- Sobre
- Acesso
- Acesso a dados
- realizar
- Segundo
- Contas
- precisão
- preciso
- Alcançar
- alcançado
- em
- Ad
- adicionado
- Adição
- Adicional
- Adicionalmente
- endereçado
- administração
- adotado
- Adotando
- Vantagem
- acessível
- Depois de
- ágil
- AI
- alex
- Alexander
- Todos os Produtos
- permitir
- permite
- tb
- sempre
- Amazon
- Amazon Web Services
- entre
- an
- análise
- Analistas
- Analítico
- Análises
- analítica
- analisar
- e
- qualquer
- aplicado
- abordagem
- arquitetônico
- arquitetura
- SOMOS
- AS
- aspectos
- Ativos
- At
- autor
- autores
- Automatizado
- automaticamente
- Automação
- disponível
- média
- evitar
- AWS
- B2B
- B2C
- Bancário
- bancos
- baseado
- BE
- tornam-se
- sido
- antes
- acredita
- Benefícios
- MELHOR
- entre
- morada
- Blog
- Livros
- mutuários
- ambos
- ramos
- trazer
- negócio
- desenvolvimento de negócios
- inteligência de negócios
- mas a
- by
- Campanha
- CAN
- capacidades
- capacidade
- capturar
- casos
- catálogo
- desafiar
- desafios
- Alterações
- acusações
- verificar
- Escolha
- escolha
- escolheu
- Na nuvem
- Agrupar
- colaboração
- Coleta
- combinado
- Empresas
- Empresa
- comparado
- completar
- integrações
- complexidade
- Computar
- concorrente
- considerando
- consistente
- consultor
- consumidor
- Consumidores
- consumo
- continuar
- Correspondente
- Custo
- economia de custos
- custos
- países
- cobrir
- crio
- Criar
- criação
- Cultura
- comissariada
- personalizadas
- cliente
- dados do cliente
- Clientes
- diariamente
- dados,
- acesso a dados
- Análise de Dados
- lago data
- Plataforma de dados
- compartilhamento de dados
- Visualização de dados
- data warehouse
- armazéns de dados
- orientado por dados
- David
- dia
- dias
- Ofertas
- Descentralizada
- decidido
- Tomada de Decisão
- decisões
- diminuiu
- dedicado
- mais profunda
- definitivo
- entregar
- Demanda
- democratização
- Democratizando
- Departamento
- departamentos
- implantado
- detalhe
- desenvolver
- desenvolvedores
- Desenvolvimento
- DID
- diferente
- difícil
- digital
- Transformação Digital
- instruções
- diretamente
- descobrir
- descoberta
- mergulho
- do
- domínios
- down
- durante
- cada
- eficiência
- eficiente
- eficientemente
- esforços
- EMEA
- permite
- final
- energia
- compromissos
- Engenharia
- ambientes
- estabelecer
- Éter (ETH)
- avaliar
- eventos
- evolui
- evoluiu
- evolui
- existente
- vasta experiência
- experimentar
- exploração
- explorar
- externo
- enfrentou
- feira
- RÁPIDO
- mais rápido
- favorável
- Característica
- Funcionalidades
- Finalmente
- financiar
- financeiro
- serviços financeiros
- Flexibilidade
- flexível
- Foco
- focando
- seguinte
- segue
- Escolha
- Para os consumidores
- Antigamente
- para a frente
- Promover
- da
- cheio
- funcionalidades
- mais distante
- Além disso
- futuro
- gerar
- geração
- Alemanha
- ter
- Git
- OFERTE
- GmBH
- governo
- ótimo
- cresceu
- Crescente
- Growth
- Locatário
- Visitante Mensagem
- guia
- dirigido
- tinha
- mãos em
- acontecer
- Ter
- ter
- he
- ajudou
- ajuda
- de alto nível
- superior
- altamente
- hospedeiro
- HORÁRIO
- Como funciona o dobrador de carta de canal
- HTML
- HTTPS
- ideal
- identificado
- inativo
- ilustra
- impactada
- melhorar
- in
- incluir
- Incluindo
- Crescimento
- aumentou
- Individual
- indústria
- INFORMAÇÕES
- Infraestrutura
- Inovação
- dentro
- insights
- inspirado
- instâncias
- instantâneos
- integrado
- integração
- Inteligência
- interativo
- interessado
- Interface
- interferência
- interferente
- interno
- da intervenção
- para dentro
- introduzido
- introduzindo
- Introdução
- isolado
- isolamento
- Isv
- IT
- Viagens
- Chave
- lago
- aterrissagem
- Terras
- lançamento
- líder
- principal
- Leads
- aprendizagem
- wifecycwe
- como
- Line
- viver
- dados ao vivo
- carregar
- empréstimo
- Empréstimos
- procurando
- moldadas
- manutenção
- fazer
- FAZ
- Fazendo
- gerencia
- gerenciados
- Gerente
- gestão
- maneira
- manual
- muitos
- mercado
- Líder de mercado
- Marketing
- maduro
- Conheça
- malha
- metadados
- Metodologia
- Métrica
- mínimo
- minutos
- ML
- mais
- Além disso
- Mortgages
- a maioria
- mover
- múltiplo
- nomeadamente
- você merece...
- necessário
- Cria
- Novo
- não
- nós
- Norte
- agora
- número
- objetos
- of
- Oferece
- on
- Sob demanda
- ONE
- só
- operando
- operacional
- Operações
- otimização
- Otimize
- otimizado
- otimizando
- Opção
- or
- orquestração
- ordem
- organização
- organizações
- original
- Outros
- Outros
- Fora
- Acima de
- global
- Superar
- Visão geral
- próprio
- Paz
- Paralelo
- paixão
- apaixonado
- padrão
- padrões
- pausa
- pausada
- Pagar
- Pico
- para
- atuação
- periodicamente
- pessoal
- Empréstimos pessoais
- oleoduto
- planos
- plataforma
- Plataformas
- platão
- Inteligência de Dados Platão
- PlatãoData
- Popular
- populosa
- Publique
- potencial
- poder
- predizer
- preferir
- Preparar
- Prepara
- anterior
- anteriormente
- Diretor
- princípios
- Prévio
- processos
- em processamento
- produtor
- Produto
- desenvolvimento de produtos
- Produção
- Produtos
- projetos
- prototipagem
- fornecer
- fornecido
- fornece
- fornecendo
- consultas
- rapidamente
- alcance
- Cru
- Leia
- recentemente
- recentemente
- reconhecido
- recomendar
- reduzir
- Reduzido
- redução
- reduções
- região
- regiões
- liberar
- permaneceu
- réplica
- Denunciar
- Relatórios
- Relatórios
- repositório
- representa
- requerer
- requeridos
- requerimento
- Requisitos
- Recursos
- responsável
- Resultados
- currículo
- Comentários
- certo
- Risco
- papéis
- regras
- Execute
- vendas
- Vendas e Marketing
- mesmo
- Poupança
- escalável
- Escala
- Escalas
- dimensionamento
- Scripts
- desatado
- sem problemas
- firmemente
- Vejo
- Autoatendimento
- senior
- separado
- separando
- Serverless
- serve
- serviço
- Serviços
- de servir
- Sessão
- conjunto
- instalação
- Partilhar
- compartilhando
- ela
- mostrar
- mostrou
- Shows
- simples
- simplificar
- solteiro
- So
- Software
- desenvolvimento de software
- solução
- Soluções
- resolvido
- de origem
- Fontes
- especialista
- específico
- velocidade
- picos
- SQL
- Pilhas
- Etapa
- Estágio
- encenação
- partes interessadas
- começado
- inicialização
- permanecendo
- estável
- Passo
- armazenamento
- loja
- lojas
- fortalecido
- fortalecimento
- estruturada
- sujeito
- tal
- ajuda
- Suportado
- Apoiar
- suspenso
- Quadro
- toma
- tangível
- Profissionais
- equipes
- tecnologia
- Dados Técnicos:
- técnicas
- telecomunicações
- teste
- testes
- do que
- que
- A
- O Futuro
- deles
- Eles
- Este
- deles
- De terceiros
- isto
- aqueles
- mil
- três
- Através da
- tempo
- vezes
- para
- juntos
- levou
- ferramentas
- Total
- para
- Transformar
- Transformação
- transformações
- transformado
- transformando
- transparente
- desencadear
- para
- imprevisível
- que vai mais à frente
- Atualizada
- Uso
- usar
- usava
- Utilizador
- Experiência do Usuário
- usuários
- usos
- utilização
- utiliza
- validado
- valor
- variável
- variedade
- vário
- Cofre
- visualização
- volume
- volumes
- querido
- Armazém
- foi
- assistindo
- Caminho..
- maneiras
- we
- web
- serviços web
- BEM
- foram
- O Quê
- quando
- qual
- enquanto
- QUEM
- Largo
- Wikipedia
- precisarão
- de
- sem
- trabalhou
- de gestão de documentos
- trabalhar
- Horas de trabalho
- trabalho
- Workshops
- no mundo todo
- ano
- anos
- Você
- investimentos
- Youtube
- zefirnet