Do CSV ao relatório analítico completo com ChatGPT em 5 etapas simples - KDnuggets

Do CSV ao relatório analítico completo com ChatGPT em 5 etapas simples – KDnuggets

Nó Fonte: 2982942

Do CSV ao relatório analítico completo com ChatGPT em 5 etapas simples
Imagem por rawpixel.com on Freepik
 

Não importa em que negócio você atue, saber como analisar dados é mais importante do que nunca na era orientada a dados. A análise de dados permitiria que as empresas permanecessem competitivas e proporcionaria a capacidade de tomar melhores decisões.

A importância da análise de dados leva cada indivíduo a saber como realizar a análise de dados. No entanto, às vezes leva muito tempo para realizar a análise dos dados. É por isso que podemos contar com o ChatGPT para criar um relatório completo a partir do nosso arquivo de dados.

Este artigo explorará cinco etapas simples para criar relatórios analíticos completos a partir de seu arquivo CSV. Essas cinco etapas incluem:

Etapa 1: importando o arquivo CSV

Etapa 2: resumo e pré-processamento de dados

Etapa 3: análise de dados

Etapa 4: visualização de dados

Etapa 5: geração de relatórios

Como pré-requisito, este artigo pressupõe que o leitor tenha se inscrito no ChatGPT Plus. Com isso em mente, vamos começar.

O primeiro passo é preparar o arquivo CSV que deseja analisar e criar um relatório. Este arquivo pode vir de qualquer fonte confiável, mas este artigo usaria o conjunto de dados Telecom Churn de Kaggle.

Certifique-se de que os dados estejam estruturados, organizados e tenham um cabeçalho claro. Se você tem um determinado alvo que deseja analisar, não se esqueça de incluir esses dados no arquivo. Em nosso exemplo, tentaríamos realizar uma análise para a coluna de rotatividade.

Com os dados prontos, anexe-os ao ChatGPT e deixe o modelo fazer o seu trabalho.

A próxima etapa é obter o resumo dos dados do nosso arquivo CSV e pré-processá-los. Insira o seguinte prompt enquanto você carrega os dados.

Provide the data summary to this file and perform appropriate data processing for the dataset.

O prompt acima fornece os seguintes resultados:

Aqui está o resumo do seu conjunto de dados:

Numero de linhas: 3333

Numero de colunas: 11

Nomes das colunas:

Batedeira

Semanas da conta

Renovação de contrato

Plano de dados

Uso de dados

CustServCalls

Minutos do dia

Chamadas diurnas

Mensalidade

Taxa excedente

RoamMins

Tipos de dados:

Inteiro: Churn, AccountWeeks, ContractRenewal, DataPlan, CustServCalls, DayCalls

Flutuante: DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins

Valores ausentes: Não há valores ausentes em nenhuma das colunas.

O ChatGPT claramente leu bem os dados e foi capaz de fornecer o conjunto de dados fornecido. O próximo resultado é o pré-processamento dos dados do ChatGPT.

Como não há valores faltantes no conjunto de dados, o foco principal da limpeza e pré-processamento de dados será:

  • Verificando quaisquer valores discrepantes ou anomalias nos dados.
  • Normalizar ou padronizar os dados se necessário, especialmente para colunas com valores numéricos contínuos.
  • Converter dados categóricos em um formato adequado para análise, se necessário.

Vamos prosseguir com estas etapas. 
 

Do CSV ao relatório analítico completo com ChatGPT em 5 etapas simples
 

Os boxplots fornecem uma visão geral de possíveis discrepâncias em cada coluna numérica do seu conjunto de dados. Aqui estão algumas observações:

  • AccountWeeks, CustServCalls, DayCalls: essas colunas mostram uma distribuição bastante normal com alguns valores discrepantes.
  • DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins: essas colunas também mostram alguns valores discrepantes, mas parecem estar dentro de um intervalo razoável, considerando a natureza dos dados.
  • Churn, ContractRenewal, DataPlan: sendo dados categóricos/binários, essas colunas não mostram valores discrepantes tradicionais.

Dadas essas informações, as próximas etapas na limpeza e pré-processamento de dados poderiam incluir:

  • Tratamento de valores discrepantes: podemos decidir se removemos, limitamos ou de outra forma tratamos valores discrepantes com base em suas necessidades analíticas específicas e conhecimento do domínio.
  • Transformação de dados: Se necessário, podemos normalizar ou padronizar colunas como DayMins, MonthlyCharge, etc., especialmente se você planeja usar algoritmos sensíveis à escala dos dados.
  • Codificação de dados categóricos: converta dados categóricos em um formato adequado para análise, se tal transformação for necessária.

Você pode deixar o ChatGPT realizar etapas adicionais para limpeza e pré-processamento de dados ou deixar como está. Para este exemplo, continuaríamos para as próximas etapas.

A seguir, realizaríamos a análise de dados com ChatGPT. A análise de dados depende do que você deseja alcançar. No nosso caso, queremos realizar a análise dos dados do POV Churn.

Usamos o seguinte prompt para executar a análise de dados com ChatGPT para o caso acima.

Please perform the data analysis based on the data above with respect to the churn data.

 

A análise dos dados pode ser vista no resultado a seguir.

Para realizar a análise de dados em relação aos dados de rotatividade, nos concentraremos em compreender como os diferentes fatores se relacionam com a rotatividade de clientes. A rotatividade, sendo uma variável binária (0 para nenhuma rotatividade, 1 para rotatividade), é normalmente analisada por meio de métodos de classificação e examinando as relações com outras variáveis. Aqui está o plano:

  1. Análise de correlação: para começar, veremos como cada recurso numérico se correlaciona com a rotatividade. Isso nos dá uma compreensão inicial de quais fatores podem estar mais intimamente relacionados ao churn.
  1. Testes estatísticos: para variáveis ​​categóricas como ContractRenewal e DataPlan, podemos usar testes estatísticos para ver se há diferenças significativas nas taxas de rotatividade entre diferentes categorias.
  1. Análise Visual: Criaremos algumas visualizações para explorar ainda mais essas relações. Isso inclui comparar as taxas de rotatividade em diferentes grupos e traçar variáveis-chave em relação à rotatividade.
  1. Estatísticas resumidas: forneceremos estatísticas resumidas para diferentes grupos com base no status de rotatividade para ver se há diferenças perceptíveis nas médias ou distribuições.

Vamos começar com a análise de correlação e depois passar para as próximas etapas.

Análise de Correlação com Churn

A correlação de diferentes variáveis ​​com o churn é a seguinte (da correlação negativa mais forte à correlação positiva mais forte):

Correlação negativa:

  • ContractRenewal: Correlação negativa mais forte. Indica que os clientes que não renovam seus contratos têm maior probabilidade de se desligarem.
  • DataPlan: Os clientes sem um plano de dados têm uma probabilidade ligeiramente maior de abandono.
  • DataUsage: O maior uso de dados diminui ligeiramente a probabilidade de rotatividade.

Correlação positiva:

  • AccountWeeks, DayCalls: Correlação positiva muito fraca, sugerindo impacto mínimo na rotatividade.
  • RoamMins: Um ligeiro aumento na probabilidade de rotatividade com o aumento dos minutos de roaming.
  • MonthlyCharge: Taxas de rotatividade ligeiramente mais altas com aumento nas cobranças mensais.
  • OverageFee: taxas extras mais altas estão moderadamente correlacionadas com o aumento da rotatividade.
  • DayMins: O maior número de minutos diários está moderadamente correlacionado com o aumento da rotatividade.
  • CustServCalls: Correlação positiva forte. Mais chamadas de atendimento ao cliente estão associadas a taxas de rotatividade mais altas.

Com base nessas correlações, parece que fatores como renovação de contrato, ligações de atendimento ao cliente, minutos diários e taxas excedentes estão mais intimamente relacionados ao churn. Podemos explorar ainda mais esses fatores por meio de análises visuais e testes estatísticos, especialmente para variáveis ​​categóricas como ContractRenewal e DataPlan.

Análise Visual

 

Do CSV ao relatório analítico completo com ChatGPT em 5 etapas simples
 

As visualizações oferecem informações valiosas sobre a relação entre diferentes variáveis ​​e rotatividade:

Churn por ContractRenewal e DataPlan:

  • Renovação de Contrato: Uma diferença significativa nas taxas de rotatividade é evidente. Os clientes que não renovaram os seus contratos apresentam uma maior taxa de rotatividade.
  • DataPlan: Há uma diferença notável nas taxas de rotatividade com base no fato de os clientes terem ou não um plano de dados, com aqueles sem plano de dados apresentando maior rotatividade.

Variáveis ​​numéricas (CustServCalls, DayMins, MonthlyCharge, OverageFee) por Churn:

  • CustServCalls: clientes com maior número de ligações de atendimento ao cliente tendem a se desligar mais.
  • DayMins: minutos diários mais altos estão associados a uma maior probabilidade de rotatividade.
  • MonthlyCharge: cobranças mensais mais altas se correlacionam com um aumento na taxa de rotatividade.
  • OverageFee: taxas extras mais altas também estão associadas ao aumento da rotatividade.

Conclusões da análise

  • O status de renovação do contrato e a presença de um plano de dados são fatores significativos na rotatividade de clientes.
  • O alto uso (em termos de minutos diários) e as cobranças altas (cobranças mensais e taxas excedentes) estão associadas a taxas de rotatividade mais altas.
  • Um número maior de chamadas de atendimento ao cliente é um forte indicador de rotatividade potencial.

Próximos Passos

Com base nesses insights, estratégias direcionadas podem ser desenvolvidas para reduzir a rotatividade, como melhorar o atendimento ao cliente, revisar estratégias de preços ou oferecer incentivos para renovação de contratos e assinaturas de planos de dados.

Com um único prompt, podemos ver até que ponto o ChatGPT poderia nos fornecer uma análise completa dos dados e obter insights a partir dos dados. Você pode ajustar os objetivos da análise e começar a partir daí.

A visualização de dados é uma atividade de apoio para melhorar a análise de dados e o relatório geral. Com a visualização, podemos ter um relatório mais abrangente para entender nossos dados.

Usando o prompt a seguir, podemos realizar a visualização dos dados com ChatGPT.

Please perform data visualization from the data analysis to explain the data better.

Para melhorar a compreensão dos resultados da análise de dados, criarei uma série de visualizações que retratam claramente as principais descobertas relacionadas à rotatividade de clientes. Essas visualizações incluirão:

  1. Gráficos de barras para variáveis ​​categóricas:
  • Comparação de taxas de churn para clientes com e sem renovação de contrato.
  • Comparando taxas de rotatividade para clientes com e sem plano de dados.
  • Gráficos de caixa para variáveis ​​numéricas chave:
  1. Chamadas de atendimento ao cliente versus rotatividade.
  • Minutos Diários vs Churn.
  • Encargos mensais vs rotatividade.
  • Taxas excedentes vs rotatividade.
  1. Mapa de calor de correlação:

Para visualizar a correlação de todas as variáveis ​​com o churn.

 

Do CSV ao relatório analítico completo com ChatGPT em 5 etapas simples
 

A visualização mostraria todos os gráficos importantes que encapsulam todo o conjunto de dados. Podemos solicitar descrições mais detalhadas para cada enredo, que você pode experimentar de forma independente.

A última etapa é gerar o relatório com base nas etapas anteriores. Infelizmente, o ChatGPT pode não capturar todas as descrições e insights da análise de dados, mas ainda podemos ter a versão simples do relatório.

Use o prompt a seguir para gerar um relatório PDF com base na análise anterior.

Please provide me with the pdf report from the first step to the last step.

Você obterá o resultado do link do PDF com sua análise anterior abordada. Tente repetir as etapas se achar que o resultado é inadequado ou se houver coisas que você deseja alterar.

A análise de dados é uma atividade que todos deveriam conhecer, pois é uma das habilidades mais exigidas na era atual. No entanto, aprender como realizar a análise de dados pode levar muito tempo. Com o ChatGPT, podemos minimizar todo esse tempo de atividade. 

Neste artigo, discutimos como gerar um relatório analítico completo a partir de arquivos CSV em 5 etapas. ChatGPT fornece aos usuários atividades de análise de dados ponta a ponta, desde a importação do arquivo até a produção do relatório.
 
 

Cornélio Yudha Wijaya é gerente assistente de ciência de dados e redator de dados. Enquanto trabalhava em período integral na Allianz Indonésia, ele adora compartilhar dicas sobre Python e dados nas mídias sociais e na mídia escrita.

Carimbo de hora:

Mais de KDnuggetsGenericName