Apresentando o conceito do Data Analytics Fabric - DATAVERSITY

Apresentando o conceito de Data Analytics Fabric – DATAVERSITY

Nó Fonte: 2884345

Organizações em todo o mundo – tanto com fins lucrativos como sem fins lucrativos – estão buscando aproveitar a análise de dados para melhorar o desempenho dos negócios. Descobertas de um Pesquisa da McKinsey indicam que as organizações orientadas por dados têm 23 vezes mais probabilidade de adquirir clientes, seis vezes mais probabilidade de reter clientes e 19 vezes mais lucrativas [1]. Pesquisa do MIT descobriram que as empresas digitalmente maduras são 26% mais lucrativas do que seus pares [2]. Mas muitas empresas, apesar de serem ricas em dados, lutam para implementar a análise de dados devido às prioridades conflituantes entre as necessidades empresariais, as capacidades disponíveis e os recursos. Pesquisa do Gartner descobriram que mais de 85% dos projetos de dados e análises falham [3] e um relatório conjunto da IBM e Carnegie Melon mostra que 90% dos dados em uma organização nunca são usados ​​com sucesso para qualquer propósito estratégico [4].

Com esse pano de fundo, apresentamos o conceito de “estrutura de análise de dados (DAF)”, como um ecossistema ou estrutura que permite que a análise de dados funcione de forma eficaz com base em (a) necessidades ou objetivos de negócios, (b) capacidades disponíveis, como pessoas/habilidades , processos, cultura, tecnologias, insights, competências de tomada de decisão e muito mais, e (c) recursos (ou seja, componentes que uma empresa precisa para operar o negócio).

Nosso principal objetivo ao introduzir a estrutura de análise de dados é responder a esta questão fundamental: “O que é necessário para construir efetivamente um sistema que possibilite decisões a partir de Ciência dados algoritmos para medir e melhorar o desempenho dos negócios?” A estrutura de análise de dados e suas cinco principais manifestações são mostradas e discutidas abaixo.

Fonte da imagem: Instituto DBP

1. Foco na medição

Basicamente, a análise trata do uso de dados para obter insights, medir e melhorar o desempenho dos negócios [5]. Existem três tipos principais de análise para medir e melhorar o desempenho dos negócios:

  • Análise descritiva faz a pergunta: “O que aconteceu?” A análise descritiva é usada para analisar dados históricos para identificar padrões, tendências e relacionamentos usando técnicas de análise de dados exploratórias, associativas e inferenciais. As técnicas exploratórias de análise de dados analisam e resumem conjuntos de dados. A análise descritiva associativa explica a relação entre as variáveis. A análise descritiva inferencial de dados é usada para inferir ou concluir tendências sobre uma população maior com base no conjunto de dados amostrais. 
  • Análise preditiva procura responder à pergunta: “O que vai acontecer?” Basicamente, a análise preditiva é o processo de utilização de dados para prever tendências e eventos futuros. A análise preditiva pode ser conduzida manualmente (comumente conhecida como análise preditiva orientada por analistas) ou usando algoritmos de aprendizado de máquina (também conhecida como análise preditiva baseada em dados). De qualquer forma, os dados históricos são usados ​​para fazer previsões futuras.
  • Análise prescritiva ajuda a responder à pergunta: “Como podemos fazer isso acontecer?” Basicamente, a análise prescritiva recomenda o melhor curso de ação para avançar usando técnicas de otimização e simulação. Normalmente, a análise preditiva e a análise prescritiva andam juntas porque a análise preditiva ajuda a encontrar resultados potenciais, enquanto a análise prescritiva analisa esses resultados e encontra mais opções.

2. Foco na variável

Os dados também podem ser analisados ​​com base no número de variáveis ​​disponíveis. Nesse sentido, com base no número de variáveis, as técnicas de análise de dados podem ser univariadas, bivariadas ou multivariadas.

  • Análise Univariada: A análise univariada envolve a análise do padrão presente em uma única variável usando medidas de centralidade (média, mediana, moda e assim por diante) e variação (desvio padrão, erro padrão, variância e assim por diante).
  • Análise bivariada: Existem duas variáveis ​​​​em que a análise está relacionada à causa e à relação entre as duas variáveis. Essas duas variáveis ​​podem ser dependentes ou independentes uma da outra. A técnica de correlação é a técnica de análise bivariada mais utilizada.
  • Análise multivariada: Esta técnica é usada para analisar mais de duas variáveis. Em um ambiente multivariado, normalmente operamos na área de análise preditiva e a maioria dos algoritmos de aprendizado de máquina (ML) bem conhecidos, como regressão linear, regressão logística, árvores de regressão, máquinas de vetores de suporte e redes neurais, são normalmente aplicados a um ambiente multivariado. contexto.

3. Foco na supervisão

O terceiro tipo de estrutura de análise de dados trata do treinamento dos dados de entrada ou dos dados de variáveis ​​independentes que foram rotulados para uma saída específica (ou seja, a variável dependente). Basicamente, a variável independente é aquela que o experimentador controla. A variável dependente é a variável que muda em resposta à variável independente. O DAF centrado na supervisão pode ser de dois tipos.

  • Causalidade: Dados rotulados, gerados automática ou manualmente, são essenciais para a aprendizagem supervisionada. Os dados rotulados permitem definir claramente uma variável dependente, e então é uma questão do algoritmo de análise preditiva construir uma ferramenta de IA/ML que construiria um relacionamento entre o rótulo (variável dependente) e o conjunto de variáveis ​​independentes. Pelo facto de termos uma demarcação distinta entre a noção de variável dependente e de conjunto de variáveis ​​independentes, permitimo-nos introduzir o termo “causalidade” para melhor explicar a relação.
  • Não causalidade: Quando indicamos “focado na supervisão” como nossa dimensão, também nos referimos à “ausência de supervisão”, e isso traz à discussão os modelos não causais. Os modelos não causais merecem destaque porque não necessitam de dados rotulados. A técnica básica aqui é o clustering, e os métodos mais populares são k-Means e Hierarchical Clustering.  

4. Focado no tipo de dados

Esta dimensão ou manifestação da estrutura de análise de dados concentra-se nos três tipos diferentes de variáveis ​​de dados relacionadas às variáveis ​​independentes e dependentes que são usadas nas técnicas de análise de dados para obter insights. 

  • Dados nominais é usado para rotular ou categorizar dados. Não envolve um valor numérico e, portanto, não são possíveis cálculos estatísticos com dados nominais. Exemplos de dados nominais são sexo, descrição do produto, endereço do cliente e assim por diante. 
  • Dados ordinais ou classificados é a ordem dos valores, mas as diferenças entre cada um não são realmente conhecidas. Exemplos comuns aqui são a classificação de empresas com base na capitalização de mercado, condições de pagamento do fornecedor, índices de satisfação do cliente, prioridade de entrega e assim por diante. 
  • dados numéricos dispensa introdução e tem valor numérico. Essas variáveis ​​são os tipos de dados mais fundamentais que podem ser usados ​​para modelar todos os tipos de algoritmos.  

5. Focado em resultados

Esse tipo de estrutura de análise de dados analisa as maneiras pelas quais o valor do negócio pode ser entregue a partir dos insights derivados da análise. Existem duas maneiras pelas quais o valor do negócio pode ser impulsionado pela análise: por meio de produtos ou projetos. Embora os produtos possam precisar abordar ramificações adicionais em torno da experiência do usuário e da engenharia de software, o exercício de modelagem feito para derivar o modelo será semelhante tanto no projeto quanto no produto.

  • A produto de análise de dados é um ativo de dados reutilizável para atender às necessidades de longo prazo do negócio. Ele coleta dados de fontes de dados relevantes, garante a qualidade dos dados, os processa e os torna acessíveis a qualquer pessoa que precise deles. Os produtos normalmente são projetados para personas e têm vários estágios de ciclo de vida ou iterações nas quais o valor do produto é realizado.
  • projeto de analise de dados é projetado para atender a uma necessidade comercial específica ou exclusiva e tem uma base de usuários ou propósito definido ou restrito. Basicamente, um projeto é um empreendimento temporário que visa entregar a solução para um escopo definido, dentro do orçamento e no prazo.

A economia mundial irá transformar-se dramaticamente nos próximos anos, à medida que as organizações utilizarem cada vez mais dados e análises para obter insights e tomar decisões para medir e melhorar o desempenho dos negócios. McKinsey descobriram que as empresas que são orientadas por insights relatam aumentos de EBITDA (lucro antes de juros, impostos, depreciação e amortização) de até 25% [5]. No entanto, muitas organizações não conseguem aproveitar dados e análises para melhorar os resultados dos negócios. Mas não existe uma forma ou abordagem padrão para fornecer análise de dados. A implantação ou implementação de soluções de análise de dados depende dos objetivos, capacidades e recursos do negócio. O DAF e suas cinco manifestações discutidas aqui podem permitir que a análise seja implantada de forma eficaz com base nas necessidades do negócio, nas capacidades e nos recursos disponíveis.

Referências

  1. mckinsey.com/capabilities/growth-marketing-and-sales/our-insights/five-facts-how-customer-analytics-boosts-corporate-performance
  2. ide.mit.edu/insights/digitally-mature-firms-are-26-more-profitable-than-their-peers/
  3. gartner.com/en/newsroom/press-releases/2018-02-13-gartner-says-quase-metade-dos-cios-estão-planejando-para-implantar-inteligência-artificial
  4. forbes.com/sites/forbestechcouncil/2023/04/04/three-key-misconceptions-of-data-quality/?sh=58570fc66f98
  5. Southekal, Prashanth, “Práticas recomendadas de análise”, Technics, 2020
  6. mckinsey.com/capabilities/growth-marketing-and-sales/our-insights/insights-to-impact-creating-and-sustaining-data-driven-commercial-growth

Carimbo de hora:

Mais de DATAVERSIDADE