Assim como os fornecedores dependem do correio dos EUA ou da UPS para levar seus produtos aos clientes, os funcionários contam com pipelines de dados para fornecer as informações de que precisam para obter insights de negócios e tomar decisões. Essa rede de canais de dados, operando em segundo plano, distribui os dados processados pelos sistemas de computador, estrutura e função essenciais para qualquer orientado por dados negócio.
O valor de conectar sistemas de dados com pipelines continua a crescer, pois as empresas precisam consumir muitos dados de streaming mais rapidamente, servidos em vários formatos. Portanto, os gerentes que entendem os pipelines de dados em alto nível podem mover melhor os dados brutos para as informações vistas em painéis ou relatórios, de maneira mais econômica.
O que são pipelines de dados?
Pipelines de dados descrevem elementos de processamento de dados ligados em série, com a saída de dados de um canal atuando como entrada para o próximo. Esses conduítes começam na origem, onde os sistemas o ingerem, deslocando-o ou replicando-o e movendo-o para um novo destino.
Os programas de computador criam, modificam, transformam ou empacotam suas entradas em uma forma mais produto de dados refinado naquele novo local. Em seguida, outro sistema de computador pode receber as saídas de dados processados, em seu pipeline de dados, como entradas.
Os dados continuam ao longo de cada conexão e por meio de diferentes processos de limpeza e pipelines até atingirem um estado consumível. Em seguida, os funcionários usam no trabalho ou os dados são armazenados em um repositório, como um data warehouse.
Além de transportar dados, alguns conduítes limpam, convertem e transformam os dados à medida que passam por eles, semelhante à forma como o trato digestivo de uma pessoa decompõe os alimentos. Outros canais de dados coletam e analisam dados sobre a rede de pipeline em toda a organização, fornecendo monitoramento de ponta a ponta de sua integridade, também conhecido como observabilidade de dados.
Por que as empresas usam pipelines de dados?
As empresas consideram bons pipelines de dados escaláveis, flexíveis, fáceis de manter e rápidos. Pipelines de dados automatizados, criados e gerenciados por algoritmos, podem aparecer ou retrair quando necessário. Além disso, os pipelines de dados podem redirecionar dados para outros conduítes, evitando um congestionamento de dados e transportando dados rapidamente.
Os pipelines de dados contribuem para diferentes Gestão de dados necessidades em toda a empresa. Exemplos incluem:
- Integração de dados: Conectores que empacotam e transportam dados de um sistema para outro e incluem processamento em lote e baseado em eventos de fluxos de dados
- Qualidade de Dados/Governo de Dados: Condutas que definem e impõem regras de qualidade de dados de acordo com políticas corporativas e regulamentos do setor para a saída de dados
- Catalogação de dados/gerenciamento de metadados: Pipelines que conectam e verificam metadados para todos os tipos de bancos de dados e fornecem contexto de dados corporativos
- Dados privados: Canais que detectar dados confidenciais e proteger contra violações
Três desafios enfrentados pelas organizações
As organizações que utilizam pipelines de dados enfrentam pelo menos três desafios: complexidade, aumento de custos e segurança.
Complexidade
Os engenheiros devem anexar ou alterar pipelines de dados à medida que os requisitos de dados de negócios mudam, aumentando a complexidade de usar e manter os canais. Além disso, os funcionários precisam mover dados entre ambientes de nuvem híbrida interligados, incluindo locais disponíveis publicamente, como o Microsoft Azure.
Lidando com muitos diferentes computação em nuvem Os locais aumentam as frustrações com os pipelines de dados devido aos desafios de escalar a rede de pipelines de dados. Quando os engenheiros não conseguem arquitetar com competência, os canais de dados em uma organização, o movimento dos dados diminui ou os funcionários não conseguem obter os dados de que precisam e devem fazer mais limpeza de dados.
Gur Steif, presidente de automação de negócios digitais da BMC Software, fala sobre como corporações lutam para incorporar um intrincado sistema de pipeline em suas aplicações críticas. Consequentemente, as empresas precisarão investir em plataformas de orquestração de fluxo de trabalho de dados que mantenham o fluxo de dados e requeiram sofisticados Operações de dados conhecimento.
Custos aumentados
À medida que novas tecnologias de dados surgem, as empresas enfrentam aumento de custos para modernizar cada um de seus pipelines de dados para se adaptar. Além disso, as empresas devem gastar mais na manutenção de dutos e no avanço do conhecimento técnico.
Outra fonte de custos tem origem na mudanças feitas por engenheiros a montante, mais perto da fonte. Às vezes, esses desenvolvedores não podem ver diretamente as ramificações de seu código, interrompendo pelo menos um processo de dados à medida que os dados viajam pelos pipelines.
Segurança de dados
Os engenheiros precisam garantir a segurança dos dados para conformidade à medida que os dados fluem por diferentes canais de dados para o público. Por exemplo, os contadores da empresa podem precisar de informações confidenciais de cartão de crédito enviadas pelos canais que não devem ir para a equipe de atendimento ao cliente.
Portanto, os riscos de segurança aumentam se os engenheiros não tiverem uma maneira de visualizar os dados conforme eles fluem pelo pipeline. A Pesquisa Ponemon observa que 63% dos analistas de segurança apontam a falta de visibilidade da rede e da infraestrutura como um estressor.
Práticas recomendadas para usar pipelines de dados
O uso de pipelines de dados requer um equilíbrio delicado para tornar os dados necessários acessíveis aos usuários o mais rápido possível com o menor custo de criação e manutenção. Certamente, as empresas precisam escolher o melhor Arquitetura de Dados com pipelines de dados seguros, ágeis e operacionalmente robustos.
Além disso, as empresas precisam considerar o seguinte:
- Tecnologias de IA e aprendizado de máquina (ML): As organizações confiarão no ML para identificar padrões de fluxo de dados, otimizando melhor o fluxo de dados para todas as partes da organização. Além disso, bons serviços de ML tornarão o fluxo de dados mais eficiente, facilitando a autointegração, a recuperação e o ajuste dos pipelines de dados. Até 2025, os modelos de IA substituirão até 60% dos existentes, incluindo aqueles com pipelines de dados baseados em dados tradicionais.
- Observabilidade de dados: Observabilidade de dados fornece aos engenheiros uma supervisão holística de toda a rede de pipeline de dados, incluindo sua orquestração. Com a ajuda da observabilidade de dados, os engenheiros sabem como os pipelines de dados estão funcionando e o que alterar, corrigir ou remover.
- Gerenciamento de metadados: Obter boa observabilidade de dados requer fazer o melhor uso de metadados, também conhecidos como dados que descrevem dados. Consequentemente, as empresas aplicarão um Gerenciamento de metadados estrutura para combinar os metadados ativos existentes com os emergentes para obter a automação, o insight e o envolvimento desejados nos pipelines de dados.
Ferramentas que ajudam a gerenciar pipelines de dados
As empresas dependem de ferramentas de pipeline de dados para ajudar a criar, implantar e manter conexões de dados. Esses recursos movem dados de vários fontes para destinos de forma mais eficiente, suportando processos end-to-end.
Embora algumas empresas planejem desenvolver e manter ferramentas internas especializadas, elas podem esgotar os recursos das organizações para gerenciá-las, especialmente quando os dados circulam em ambientes multinuvem. Como resultado, algumas empresas recorrerão a fornecedores terceirizados para economizar esses custos.
As ferramentas de pipeline de dados de terceiros vêm em dois tipos. Alguns genéricos coletam, processam e entregam dados em vários serviços de nuvem. Exemplos incluem:
- Cola AWS: Uma plataforma sem servidor de baixo código, extrair, transformar, carregar (ETL) que possui um repositório central de metadados e usa ML para desduplicar e limpar dados
- Fábrica de dados do Azure: Um serviço para orquestrar a movimentação de dados e transformar dados entre Recursos do Azure, usando a observabilidade de dados, metadados e aprendizado de máquina
- Nuvem: Serviços de dados que lidam com dados em várias nuvens corporativas, simplificam a replicação de dados e usam a menos que – uma ferramenta de integração de dados rápida, fácil e segura
- Fusão de dados do Google Cloud: Um produto de ponta e base do Google Data Integration que inclui observabilidade de dados e metadados de integração.
- IBM Information Server para IBM Cloud Pak for Data: Um servidor com recursos de integração, qualidade e governança de dados, usando recursos de ML
- Servidor de informações IBM Infosphere: Um serviço gerenciado em qualquer nuvem ou autogerenciado para uma infraestrutura de cliente que usa ML
- Informática: Uma plataforma de dados inteligente que inclui conectividade nativa, ingestão, qualidade, governança, catalogação por meio de metadados em toda a empresa, privacidade e gerenciamento de dados mestre em várias nuvens
- Talento: Todo um ecossistema de dados que é independente da nuvem e incorpora ML em toda a sua estrutura de dados
Outras ferramentas são especializadas na preparação e empacotamento de dados para entrega:
- Cincotran: Um pipeline de dados de baixa configuração, sem configuração e sem manutenção que extrai dados de fontes operacionais e os entrega a um moderno armazém na nuvem
- Matilhão: Uma plataforma ETL dinâmica que faz ajustes em tempo real se os processos de dados demoram muito ou falham
- Alooma: Uma ferramenta de pipeline de dados do Google para facilitar o controle e a visibilidade dos processos de dados automatizados
- Ponto: Uma ferramenta ETL e data warehouse, emparelhada com Talend, que move e gerencia dados de várias fontes
No nível corporativo, as empresas usarão pelo menos um recurso genérico de pipeline de dados que abrange serviços em várias nuvens e outro especializado para lidar com as complexidades da preparação de dados.
Conclusão
Qualquer arquitetura de dados moderna requer uma rede de pipeline de dados para mover os dados de seu estado bruto para um estado utilizável. Os pipelines de dados fornecem flexibilidade e velocidade para melhor transportar dados para atender às necessidades de negócios e de gerenciamento de dados.
Embora pipelines de dados mal executados levem a maior complexidade, custos e riscos de segurança, a implementação de uma boa arquitetura de dados com boas ferramentas de dados maximiza o potencial dos pipelines de dados em toda a organização.
As Chris Gladwin, cofundador e CEO da Ocient, observa, os pipelines de dados se tornarão mais essenciais para ingerir bem uma ampla variedade de dados. O futuro traz melhorias no pipeline de dados com integração de dados mais sofisticada e fácil de gerenciar.
Imagem usada sob licença da Shutterstock.com
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
- Fonte: https://www.dataversity.net/data-pipelines-an-overview/
- a
- Sobre
- acessível
- em
- ativo
- adaptar
- Adição
- Adicionalmente
- Adiciona
- ajustes
- contra
- ágil
- AI
- algoritmos
- Todos os Produtos
- Amazon
- Analistas
- analisar
- e
- e infra-estrutura
- Outro
- aparecer
- aplicações
- Aplicar
- arquitetura
- anexar
- público
- Automatizado
- Automação
- disponível
- evitando
- AWS
- Azul
- fundo
- Equilíbrio
- Porque
- tornam-se
- MELHOR
- Melhor
- BMC
- Quebra
- quebra
- Traz
- construir
- construído
- negócio
- negócios
- chamada
- não podes
- capacidades
- cartão
- central
- Chefe executivo
- certamente
- desafios
- alterar
- Canal
- canais
- Escolha
- mais próximo
- Na nuvem
- serviços na nuvem
- Co-fundador
- código
- coletar
- combinar
- como
- Empresas
- Empresa
- complexidade
- compliance
- computador
- CONTATE-NOS
- Conexão de
- da conexão
- Coneções
- Conectividade
- Consequentemente
- Considerar
- consumir
- continua
- contribuir
- ao controle
- converter
- Responsabilidade
- Custo
- custos
- crio
- criado
- criação
- crédito
- cartão de crédito
- crítico
- cliente
- Atendimento ao Cliente
- Clientes
- dados,
- integração de dados
- gestão de dados
- Plataforma de dados
- Preparação de dados
- informática
- qualidade de dados
- segurança dos dados
- data warehouse
- bases de dados
- DATAVERSIDADE
- decisões
- entregar
- entrega
- Entrega
- implantar
- destino
- desenvolvedores
- em desenvolvimento
- diferente
- digital
- diretamente
- down
- dinâmico
- cada
- mais fácil
- ecossistema
- eficiente
- eficientemente
- emergente
- colaboradores
- end-to-end
- COMPROMETIMENTO
- Engenheiros
- garantir
- Empreendimento
- empresas
- Todo
- ambientes
- especialmente
- essencial
- Éter (ETH)
- exemplo
- exemplos
- existente
- extrato
- Rosto
- enfrentou
- facilitando
- fábrica
- FALHA
- RÁPIDO
- mais rápido
- Encontre
- Fixar
- Flexibilidade
- flexível
- fluxo
- Fluindo
- Fluxos
- seguinte
- comida
- Foundation
- Quadro
- da
- Frustrações
- função
- funcionamento
- Além disso
- fusão
- futuro
- Ganho
- Gartner
- ter
- obtendo
- OFERTE
- Go
- Bom estado, com sinais de uso
- bens
- governo
- Governo
- Cresça:
- manipular
- Saúde
- ajudar
- Alta
- holística
- Como funciona o dobrador de carta de canal
- HTML
- HTTPS
- HÍBRIDO
- Nuvem híbrida
- IBM
- IBM Cloud
- identificar
- implementação
- melhorias
- in
- incluir
- inclui
- Incluindo
- aumentou
- aumentando
- indústria
- INFORMAÇÕES
- Infraestrutura
- entrada
- introspecção
- insights
- integração
- Inteligente
- interligação
- interno
- complexidades
- Investir
- IT
- Trabalho
- Guarda
- Saber
- Conhecimento
- conhecido
- Falta
- conduzir
- aprendizagem
- Nível
- aproveitando
- Licença
- carregar
- locais
- longo
- Baixo
- máquina
- aprendizado de máquina
- a manter
- Sustentável
- manutenção
- fazer
- FAZ
- Fazendo
- gerencia
- gerenciados
- de grupos
- Gerentes
- gestão
- muitos
- dominar
- max-width
- maximiza
- Conheça
- metadados
- Microsoft
- e Microsoft Azure
- ML
- modelos
- EQUIPAMENTOS
- modernizar
- modificar
- monitoração
- mais
- mais eficiente
- a maioria
- mover
- movimento
- movimentos
- em movimento
- múltiplo
- nativo
- necessário
- você merece...
- necessário
- Cria
- rede
- Novo
- Próximo
- Notas
- ONE
- operando
- operacional
- orquestração
- organização
- organizações
- Outros
- Supervisão
- Visão geral
- pacote
- acondicionamento
- emparelhado
- peças
- padrões
- oleoduto
- plano
- plataforma
- Plataformas
- platão
- Inteligência de Dados Platão
- PlatãoData
- políticas
- possível
- potencial
- práticas
- preparação
- presidente
- política de privacidade
- processo
- processos
- em processamento
- Produto
- Programas
- proteger
- fornecer
- fornece
- fornecendo
- publicamente
- qualidade
- rapidamente
- Cru
- dados não tratados
- Chega
- em tempo real
- regulamentos
- substituir
- réplica
- Relatórios
- repositório
- requerer
- Requisitos
- exige
- pesquisa
- recurso
- Recursos
- resultar
- riscos
- uma conta de despesas robusta
- regras
- Salvar
- escalável
- dimensionamento
- digitalização
- seguro
- segurança
- riscos de segurança
- sensível
- Serverless
- serviço
- Serviços
- vários
- MUDANÇA
- rede de apoio social
- Shutterstock
- semelhante
- retarda
- So
- Software
- alguns
- sofisticado
- fonte
- Fontes
- vãos
- especializar-se
- especializado
- velocidade
- gastar
- Spot
- Staff
- começo
- Estado
- armazenadas
- de streaming
- simplificar
- estrutura
- Apoiar
- .
- sistemas
- Tire
- negociações
- Dados Técnicos:
- Tecnologias
- A
- O Futuro
- as informações
- A fonte
- deles
- De terceiros
- três
- Através da
- todo
- para
- também
- ferramenta
- ferramentas
- para
- tradicional
- Transformar
- transformando
- transporte
- transportando
- viaja
- VIRAR
- tipos
- nos
- para
- compreender
- UPS
- usar
- usuários
- valor
- variedade
- vário
- fornecedores
- Ver
- visibilidade
- Armazém
- O Quê
- QUEM
- Largo
- precisarão
- trabalhadores
- de gestão de documentos
- zefirnet