Estatísticas importantes que os cientistas de dados precisam saber

Nó Fonte: 1876637

Estatísticas importantes que os cientistas de dados precisam saber

Vários conceitos estatísticos fundamentais devem ser bem apreciados por todo cientista de dados — do entusiasta ao profissional. Aqui, fornecemos snippets de código em Python para aumentar a compreensão e trazer a você as principais ferramentas que trazem informações antecipadas sobre seus dados.


By Lekshmi S. Sunil, IIT Indore '23 | Bolsista do GHC '21.

A análise estatística nos permite obter insights valiosos dos dados em mãos. Uma boa compreensão dos importantes conceitos e técnicas estatísticas é absolutamente essencial para analisar os dados usando várias ferramentas.

Antes de entrarmos nos detalhes, vamos dar uma olhada nos tópicos abordados neste artigo:

  • Estatística Descritiva vs. Inferencial
  • Tipos de dados
  • Probabilidade e Teorema de Bayes
  • Medidas de tendência central
  • Torção
  • Curtose
  • Medidas de dispersão
  • Covariância
  • Correlação
  • Distribuições de probabilidade
  • Testando hipóteses
  • Regressão

Estatística Descritiva vs. Inferencial

A estatística como um todo lida com a coleta, organização, análise, interpretação e apresentação de dados. Dentro das estatísticas, existem dois ramos principais:

  1. Estatísticas descritivas: Isso envolve descrever as características dos dados, organizar e apresentar os dados visualmente por meio de tabelas/gráficos ou por meio de cálculos numéricos usando medidas de tendência central, variabilidade e distribuição. Um ponto digno de nota é que as conclusões são tiradas com base em dados já conhecidos.
  2. Estatística inferencial: Isso envolve fazer inferências e generalizações sobre populações maiores usando amostras retiradas delas. Portanto, cálculos mais complexos são necessários. Os resultados finais são produzidos usando técnicas como teste de hipótese, correlação e análise de regressão. Os resultados futuros previstos e as conclusões tiradas vão além do nível dos dados disponíveis.

Tipos de dados

Para realizar uma Análise Exploratória de Dados (EDA) adequada, aplicando as técnicas estatísticas mais adequadas, precisamos entender com que tipo de dados estamos trabalhando.

  1. Dados categóricos

Os dados categóricos representam variáveis ​​qualitativas como o gênero de um indivíduo, grupo sanguíneo, língua materna, etc. Os dados categóricos também podem estar na forma de valores numéricos sem qualquer significado matemático. Por exemplo, se o gênero for a variável, uma mulher pode ser representada por 1 e um homem por 0.

  • Dados nominais: Os valores rotulam as variáveis ​​e não há hierarquia definida entre as categorias, ou seja, não há ordem ou direção – por exemplo, religião, gênero etc. Escalas nominais com apenas duas categorias são denominadas “dicotômicas”.
  • dados ordinais: Existe uma ordem ou hierarquia entre as categorias - por exemplo, classificações de qualidade, nível de educação, notas de letras de alunos, etc.
  1. Dados numéricos

Dados numéricos representam variáveis ​​quantitativas expressas apenas em termos de números. Por exemplo, a altura, o peso, etc. de um indivíduo.

  • Dados discretos: os valores são contáveis ​​e são números inteiros (geralmente números inteiros). Por exemplo, o número de carros em um estacionamento, número de países etc.
  • Dados contínuos: As observações podem ser medidas, mas não podem ser contadas. Os dados assumem qualquer valor dentro de um intervalo, por exemplo, peso, altura etc. entre eles e o zero verdadeiro existe).

Probabilidade e Teorema de Bayes

Probabilidade é a medida da probabilidade de um evento ocorrer.

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) − P(A∩B)
  • Eventos Independentes: Dois eventos são independentes se a ocorrência de um não afeta a probabilidade de ocorrência do outro. P(A∩B) = P(A)P(B) onde P(A) != 0 e P(B) != 0.
  • Eventos Mutuamente Exclusivos: Dois eventos são mutuamente exclusivos ou disjuntos se ambos não podem ocorrer ao mesmo tempo. P(A∩B) = 0 e P(A∪B) = P(A)+P(B).
  • Probabilidade Condicional: Probabilidade de um evento A, dado que outro evento B já ocorreu. Isso é representado por P(A|B). P(A|B) = P(A∩B)/P(B), quando P(B)>0.
  • Teorema de Bayes

Medidas de tendência central

Importe o módulo de estatísticas.

  • Média: Valor médio do conjunto de dados.

numpy.mean( ) também pode ser usado.

  • Mediana: valor médio do conjunto de dados.

numpy.median( ) também pode ser usado.

  • Moda: valor mais frequente no conjunto de dados.

Quando usar média, mediana e moda?

Relação entre média, mediana e moda: Modo = 3 Mediana - 2 Média

Torção

Uma medida de simetria, ou mais precisamente, falta de simetria (assimetria).

  • Distribuição normal/simétrica: moda = mediana = média
  • Distribuição assimétrica positiva (à direita): moda < mediana < média
  • Distribuição assimétrica negativa (esquerda): média < mediana < modo

Curtose

Uma medida de se os dados são de cauda pesada ou cauda leve em relação a uma distribuição normal, ou seja, mede a “cauda” ou “pico” de uma distribuição.

  • Leptocúrtica – curtose positiva
  • Mesocúrtica – distribuição normal
  • Platicúrtica – curtose negativa

Skewness e kurtosis usando Python.

Medidas de dispersão

Descreve a propagação/dispersão de dados em torno de um valor central.

Faixa de Medição: A diferença entre o maior e o menor valor no conjunto de dados.

Desvio de Quartil: os quartis de um conjunto de dados dividem os dados em quatro partes iguais — o primeiro quartil (Q1) é o número do meio entre o menor número e a mediana dos dados. O segundo quartil (Q2) é a mediana do conjunto de dados. O terceiro quartil (Q3) é o número intermediário entre a mediana e o maior número. O desvio de quartil é Q = ½ × (Q3 - Q1)

Intervalo interquartil: IQR = Q3 - Q1

Variação: A diferença média quadrada entre cada ponto de dados e a média. Mede o quão espalhado o conjunto de dados está em relação à média.

Desvio padrão: Raiz quadrada da variância.

Variância e desvio padrão usando Python.

Covariância

É a relação entre um par de variáveis ​​aleatórias onde uma mudança em uma variável causa mudança em outra variável.

Covariância negativa, zero e positiva.

Matriz de covariância e sua representação de mapa de calor usando Python.

Correlação

Mostra se e com que intensidade um par de variáveis ​​está relacionado entre si.


Matriz de correlação usando os mesmos dados usados ​​para covariância.

Covariância vs. Correlação.

Distribuições de probabilidade

Existem dois tipos amplos de distribuições de probabilidade — distribuições de probabilidade discretas e contínuas.

Distribuição de probabilidade discreta:

  • Distribuição Bernoulli

Uma variável aleatória leva uma única tentativa com apenas dois resultados possíveis: 1 (sucesso) com probabilidade p e 0 (falha) com probabilidade 1-p.

  • Distribuição binomial

Cada ensaio é independente. Existem apenas dois resultados possíveis em uma tentativa - um sucesso ou um fracasso. Um número total de n tentativas idênticas é realizado. A probabilidade de sucesso e falha é a mesma para todas as tentativas. (As tentativas são idênticas.)

  • Distribuição de veneno

Mede a probabilidade de um determinado número de eventos acontecerem em um período de tempo especificado.

Distribuição de probabilidade contínua:

  • Distribuição uniforme

Também chamada de distribuição retangular. Todos os resultados são igualmente prováveis.


  • Distribuição Normal / Gaussiana

A média, a mediana e a moda da distribuição coincidem. A curva da distribuição é em forma de sino e simétrica em relação à linha x = μ. A área total sob a curva é 1. Exatamente metade dos valores estão à esquerda do centro e a outra metade à direita.

Uma distribuição normal é muito diferente da distribuição binomial. No entanto, se o número de tentativas se aproximar do infinito, as formas serão bastante semelhantes.

  • Distribuição Exponencial

Distribuição de probabilidade do tempo entre eventos em um processo de ponto de Poisson, ou seja, um processo no qual os eventos ocorrem contínua e independentemente a uma taxa média constante.

Testando hipóteses

Primeiro, vamos dar uma olhada na diferença entre a hipótese nula e a hipótese alternativa.

hipótese nula: Declaração sobre o parâmetro populacional que se acredita ser verdadeiro ou é usado para apresentar um argumento, a menos que possa ser demonstrado que está incorreto por testes de hipóteses.

Hipótese alternativa: Afirmação sobre a população que é contraditória à hipótese nula e o que concluímos se rejeitarmos a hipótese nula.

Erro tipo I: Rejeição de uma hipótese nula verdadeira

Erro tipo II: Não rejeição de uma hipótese nula falsa

Nível de significância (α): Probabilidade de rejeitar a hipótese nula quando ela é verdadeira.

valor p: Probabilidade da estatística de teste ser pelo menos tão extrema quanto a observada, dado que a hipótese nula é verdadeira.

  • Quando p-valor > α, falhamos em rejeitar a hipótese nula.
  • Enquanto p-valor ≤ α, rejeitamos a hipótese nula, e podemos concluir que temos um resultado significativo.

No teste de hipótese estatística, um resultado tem significância estatística quando é muito improvável que tenha ocorrido dada a hipótese nula.

Valor crítico: Um ponto na escala da estatística de teste além do qual rejeitamos a hipótese nula. Depende de uma estatística de teste, que é específica para o tipo de teste, e do nível de significância, α, que define a sensibilidade do teste.

Regressão linear

A regressão linear geralmente é o primeiro algoritmo de ML que encontramos. É simples e entendê-lo estabelece a base para outros algoritmos avançados de ML.

Regressão Linear Simples

Abordagem linear para modelar a relação entre uma variável dependente e uma variável independente.

Temos que encontrar os parâmetros para que o modelo se ajuste melhor aos dados. A linha de regressão (ou seja, a linha de melhor ajuste) é a linha para a qual o erro entre os valores previstos e os valores observados é mínimo.

Linha de regressão.

Agora, vamos tentar implementar isso.

Regressão linear múltipla

Abordagem linear para modelar a relação entre uma variável dependente e duas ou mais variáveis ​​independentes.

Óptimo estado. Original. Republicado com permissão.

Relacionado:

Fonte: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

Carimbo de hora:

Mais de KDnuggetsGenericName