Superando um mundo inundado de dados sujos

Superando um mundo inundado de dados sujos

Nó Fonte: 2574986

Como um vírus invisível, os “dados sujos” assolam o mundo empresarial de hoje. Ou seja, dados imprecisos, incompletos e inconsistentes estão proliferando no mundo atual centrado no “big data”.

Trabalhar com dados sujos custa milhões de dólares anualmente às empresas. Diminui a eficiência e a eficácia dos departamentos que abrangem a empresa e restringe os esforços para crescer e escalar. Prejudica a competitividade, aumenta os riscos de segurança e apresenta problemas de conformidade.

Os responsáveis ​​de Gestão de dados lutaram com esse desafio durante anos. Muitas das ferramentas disponíveis atualmente podem resolver problemas de gerenciamento de dados para equipes isoladas dentro de departamentos, mas não para a empresa como um todo ou para ecossistemas de dados mais amplos. Pior ainda, estas ferramentas acabam frequentemente por criar ainda mais dados que devem ser geridos – e esses dados também podem ficar sujos, causando mais dores de cabeça e perda de receitas.

Compreendendo dados sujos

Dados sujos refere-se a qualquer dado que seja enganoso, duplicado, incorreto ou impreciso, ainda não integrado, que viole as regras de negócios, que não tenha formatação uniforme ou que contenha erros de pontuação ou ortografia.

Para compreender como os dados sujos se tornaram onipresentes nas últimas décadas, imagine o seguinte cenário: 

Os credores de um grande banco ficam perplexos quando descobrem que quase todos os clientes do banco são astronautas. Considerando que a NASA tem apenas um algumas dezenas de astronautas, isso não faz sentido. 

Após uma exploração mais aprofundada, o departamento de empréstimos descobre que os funcionários do banco que abriam novas contas estavam inserindo “astronauta” no campo de ocupação do cliente. Os credores aprendem que a descrição do trabalho é irrelevante para os seus homólogos responsáveis ​​pelas novas contas. Os responsáveis ​​do banco tinham seleccionado “astronauta”, a primeira opção disponível, simplesmente para avançar mais rapidamente na criação de novas contas.

Os credores, no entanto, devem ter registradas as ocupações corretas de seus clientes para obter seus bônus anuais. Para remediar a situação, o departamento de crédito desenvolve a sua própria base de dados separada. Eles entram em contato com cada cliente, aprendem a ocupação correta e a inserem em seu banco de dados.

Agora, o banco possui dois bancos de dados com essencialmente as mesmas informações, exceto um campo. Se um terceiro departamento quiser acessar as informações contidas nesses bancos de dados, não existe nenhum sistema para determinar qual banco de dados é preciso. Portanto, esse terceiro departamento também poderá criar seu próprio banco de dados.

Cenários semelhantes ocorreram em organizações em todo o país durante décadas.

Aterros sanitários de dados digitais em expansão

O problema começou na década de 1990 com a transformação digital estrondo. As empresas implantaram software empresarial para melhorar seus processos de negócios. Os produtos de software como serviço da Salesforce, por exemplo, possibilitaram melhores maneiras de gerenciar sistemas de vendas e marketing.

Mas 30 anos depois, essa infra-estrutura legada resultou num pesadelo de gestão de dados. Silos de dados díspares com resmas de informações duplicadas, incompletas e incorretas apimentam o cenário corporativo e do setor público. Esses silos compreendem linhas de negócios, regiões geográficas e funções que, respectivamente, possuem e supervisionam suas fontes de dados.

Além disso, a geração de dados aumentou exponencialmente ao longo das décadas. Cada processo de negócios agora necessita de seu próprio software, produzindo cada vez mais dados. Os aplicativos registram todas as ações em seus bancos de dados nativos e surgiram obstáculos à mineração dos ativos de dados recém-criados.

Nas décadas anteriores, o vocabulário que definia os dados era específico do processo de negócios que os criava. Os engenheiros tiveram que traduzir esses léxicos em dicionários discretos para os sistemas que consumiam os dados. Normalmente não existiam garantias de qualidade. Tal como no exemplo do astronauta acima, os dados que eram utilizáveis ​​por uma função empresarial eram inutilizáveis ​​por outras. E a acessibilidade aos dados dos processos de negócios originais era limitada, na melhor das hipóteses, para funções que, de outra forma, poderiam ter alcançado a otimização.

O enigma da cópia

Para resolver esse problema, os engenheiros começaram a fazer cópias dos bancos de dados originais porque, até recentemente, era a melhor opção disponível. Em seguida, eles transformaram essas cópias para satisfazer os requisitos da função de consumo, aplicando regras de qualidade de dados e lógica de correção exclusivas para a função de consumo. Eles fizeram muitas cópias e as carregaram em vários data warehouses e sistemas analíticos.

O resultado? Um excesso de cópias de conjuntos de dados que são consideradas “sujas” para algumas partes da organização, causando confusão sobre qual cópia é a correta. As empresas hoje têm centenas de cópias de dados de origem em armazenamentos de dados operacionais, bancos de dados, data warehouses, data lakes, sandboxes de análise e planilhas em data centers e diversas nuvens. No entanto, os diretores de informação e os diretores de dados não têm controle sobre o número de cópias geradas nem conhecimento de qual versão representa uma fonte genuína de verdade.

Uma série de produtos de software de governança de dados estão disponíveis para trazer alguma ordem a essa bagunça. Isso inclui catálogos de dados, sistemas de medição de qualidade de dados e resolução de problemas, sistemas de gerenciamento de dados de referência, sistemas de gerenciamento de dados mestres, descoberta de linhagem de dados e sistemas de gerenciamento.

Mas esses remédios são caros e demorados. Um projeto típico de gerenciamento de dados mestres para integrar dados de clientes de diversas fontes de dados de diferentes linhas de produtos pode levar anos e custar milhões de dólares. Ao mesmo tempo, o volume de dados sujos está a aumentar a uma velocidade que ultrapassa os esforços organizacionais para instalar controlos e governação.

Essas abordagens estão repletas de falhas. Eles contam com processos manuais, lógica de desenvolvimento ou regras de negócios para executar as tarefas de inventário, medição e correção dos dados. 

Recuperando o controle

Três tecnologias emergentes são mais adequadas para enfrentar a situação atual: governação de dados orientada pela IA e pela aprendizagem automática, plataformas de interoperabilidade semântica, como gráficos de conhecimento, e sistemas de distribuição de dados, como livros-razão distribuídos: 

1. Soluções de governança de dados orientadas por IA e aprendizado de máquina reduzir a dependência de pessoas e código. A IA e o aprendizado de máquina substituem o trabalho manual por ações que incluem marcação automática, organização e supervisão de grandes quantidades de dados. A transformação e migração do gerenciamento de dados diminuem os custos de TI. As organizações também podem construir arquiteturas mais robustas e sustentáveis ​​que incentivem a qualidade dos dados em escala.

2. Gráficos de conhecimento permitir a interoperabilidade nativa de ativos de dados distintos para que as informações possam ser combinadas e compreendidas em um formato comum. Ao aproveitar ontologias semânticas, as organizações podem preparar dados para o futuro com contexto e um formato comum para reutilização por múltiplas partes interessadas.

3. Livros distribuídos, privacidade diferencial e virtualização elimine a necessidade de copiar dados fisicamente. Os livros-razão distribuídos compreendem bancos de dados federados e governados que podem ser usados ​​em unidades de negócios e organizações. A privacidade diferencial torna possível mascarar os dados para cumprir os requisitos de conformidade e, ao mesmo tempo, compartilhá-los com as partes interessadas. A virtualização permite a distribuição de dados em um ambiente virtual em vez de físico.

Depois que os CIOs e CDOs entenderem que a raiz do problema é a infraestrutura legada que cria silos de dados, eles poderão melhorar as arquiteturas subjacentes e as estratégias de infraestrutura de dados.

Dados sujos limitam a capacidade de uma organização tomar decisões informadas e operar com precisão e agilidade. As organizações devem assumir o controle dos seus dados e incentivar a interoperabilidade, qualidade e acessibilidade dos dados. Isso proporcionará vantagens competitivas e eliminará vulnerabilidades de segurança e conformidade.

Carimbo de hora:

Mais de DATAVERSIDADE