Estadísticas importantes que los científicos de datos deben saber

Nodo de origen: 1876637

Estadísticas importantes que los científicos de datos deben saber

Todos los científicos de datos, desde los entusiastas hasta los profesionales, deben apreciar bien varios conceptos estadísticos fundamentales. Aquí, proporcionamos fragmentos de código en Python para aumentar la comprensión y brindarle herramientas clave que brindan una visión temprana de sus datos.


By Lekshmi S. Sunil, IIT Indore '23 | Becario GHC '21.

El análisis estadístico nos permite obtener información valiosa a partir de los datos disponibles. Una buena comprensión de los conceptos y técnicas estadísticos importantes es absolutamente esencial para analizar los datos utilizando diversas herramientas.

Antes de entrar en detalles, echemos un vistazo a los temas tratados en este artículo:

  • Estadística descriptiva vs. inferencial
  • Tipos de datos
  • Probabilidad y Teorema de Bayes
  • Medidas de tendencia central
  • Oblicuidad
  • Kurtosis
  • Medidas de dispersión
  • Covarianza
  • La correlación
  • Distribuciones de probabilidad
  • Evaluación de la hipótesis
  • Regresión

Estadística descriptiva vs. inferencial

La estadística en su conjunto se ocupa de la recopilación, organización, análisis, interpretación y presentación de datos. Dentro de las estadísticas, hay dos ramas principales:

  1. Estadísticas descriptivas: Esto implica describir las características de los datos, organizarlos y presentarlos visualmente a través de cuadros/gráficos o mediante cálculos numéricos utilizando medidas de tendencia central, variabilidad y distribución. Un punto digno de mención es que las conclusiones se extraen en base a datos ya conocidos.
  2. Estadística inferencial: Esto implica sacar inferencias y hacer generalizaciones sobre poblaciones más grandes usando muestras tomadas de ellas. Por lo tanto, se requieren cálculos más complejos. Los resultados finales se producen utilizando técnicas como pruebas de hipótesis, correlación y análisis de regresión. Los resultados futuros previstos y las conclusiones extraídas van más allá del nivel de datos disponibles.

Tipos de datos

Para realizar un Análisis Exploratorio de Datos (EDA) adecuado aplicando las técnicas estadísticas más adecuadas, necesitamos entender sobre qué tipo de datos estamos trabajando.

  1. Datos categóricos

Los datos categóricos representan variables cualitativas como el sexo, el grupo sanguíneo, la lengua materna, etc. de un individuo. Los datos categóricos también pueden tener la forma de valores numéricos sin ningún significado matemático. Por ejemplo, si el género es la variable, una mujer puede representarse con 1 y un hombre con 0.

  • Datos nominales: Los valores etiquetan las variables y no hay una jerarquía definida entre las categorías, es decir, no hay orden ni dirección, por ejemplo, religión, género, etc. Las escalas nominales con solo dos categorías se denominan "dicotómicas".
  • datos ordinales: existe orden o jerarquía entre las categorías, por ejemplo, calificaciones de calidad, nivel de educación, calificaciones con letras de los estudiantes, etc.
  1. Datos numéricos

Los datos numéricos representan variables cuantitativas expresadas solo en términos de números. Por ejemplo, la altura, el peso, etc. de una persona.

  • Datos discretos: Los valores son contables y son números enteros (la mayoría de las veces, números enteros). Por ejemplo, la cantidad de autos en un estacionamiento, el número de países, etc.
  • Datos continuos: Las observaciones se pueden medir pero no se pueden contar. Los datos asumen cualquier valor dentro de un rango, por ejemplo, peso, altura, etc. Los datos continuos se pueden dividir en datos de intervalo (valores ordenados que tienen las mismas diferencias entre ellos pero no tienen un cero verdadero) y datos de proporción (valores ordenados que tienen las mismas diferencias). entre ellos y el cero verdadero existe).

Probabilidad y Teorema de Bayes

La probabilidad es la medida de la probabilidad de que ocurra un evento.

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) − P(A∩B)
  • Eventos independientes: dos eventos son independientes si la ocurrencia de uno no afecta la probabilidad de ocurrencia del otro. P(A∩B) = P(A)P(B) donde P(A) != 0 y P(B) != 0.
  • Eventos mutuamente excluyentes: dos eventos son mutuamente excluyentes o disjuntos si no pueden ocurrir al mismo tiempo. P(A∩B) = 0 y P(A∪B) = P(A)+P(B).
  • La probabilidad condicional: Probabilidad de un evento A, dado que ya ha ocurrido otro evento B. Esto está representado por P(A|B). P(A|B) = P(A∩B)/P(B), cuando P(B)>0.
  • Teorema de Bayes

Medidas de tendencia central

Importar el módulo de estadísticas.

  • Media: Valor medio del conjunto de datos.

También se puede usar numpy.mean().

  • Mediana: valor medio del conjunto de datos.

También se puede usar numpy.median().

  • Moda: Valor más frecuente en el conjunto de datos.

¿Cuándo usar la media, la mediana y la moda?

Relación entre media, mediana y moda: Moda = 3 Mediana — 2 Media

Oblicuidad

Una medida de simetría, o más precisamente, falta de simetría (asimetría).

  • Distribución normal/simétrica: moda = mediana = media
  • Distribución sesgada positivamente (derecha): moda < mediana < media
  • Distribución sesgada negativamente (izquierda): media < mediana < moda

Kurtosis

Una medida de si los datos son de cola pesada o de cola ligera en relación con una distribución normal, es decir, mide la "cola" o "pico" de una distribución.

  • Leptokurtic - curtosis positiva
  • Mesocúrtico – distribución normal
  • Platykurtic - curtosis negativa

Sesgo y curtosis usando Python.

Medidas de dispersión

Describe la dispersión/dispersión de datos alrededor de un valor central.

Rango: La diferencia entre el valor más grande y el más pequeño en el conjunto de datos.

Desviación cuartil: Los cuartiles de un conjunto de datos dividen los datos en cuatro partes iguales: el primer cuartil (Q1) es el número medio entre el número más pequeño y la mediana de los datos. El segundo cuartil (Q2) es la mediana del conjunto de datos. El tercer cuartil (Q3) es el número medio entre la mediana y el número más grande. La desviación del cuartil es Q = ½ × (Q3 — Q1)

Rango intercuartílico: IQR = Q3 — Q1

Diferencia: La diferencia cuadrática promedio entre cada punto de datos y la media. Mide la dispersión del conjunto de datos en relación con la media.

Desviación estándar: Raíz cuadrada de la varianza.

Varianza y desviación estándar usando Python.

Covarianza

Es la relación entre un par de variables aleatorias donde un cambio en una variable provoca un cambio en otra variable.

Covarianza negativa, cero y positiva.

Matriz de covarianza y su representación en mapa de calor usando Python.

La correlación

Muestra si un par de variables están relacionadas entre sí y con qué fuerza.


Matriz de correlación utilizando los mismos datos utilizados para la covarianza.

Covarianza vs Correlación.

Distribuciones de probabilidad

Hay dos tipos generales de distribuciones de probabilidad: distribuciones de probabilidad discretas y continuas.

Distribución de probabilidad discreta:

  • Distribución de Bernoulli

Una variable aleatoria toma una sola prueba con solo dos resultados posibles: 1 (éxito) con probabilidad p y 0 (fracaso) con probabilidad 1-p.

  • Distribución binomial

Cada ensayo es independiente. Solo hay dos resultados posibles en un ensayo: un éxito o un fracaso. Se lleva a cabo un número total de n ensayos idénticos. La probabilidad de éxito y fracaso es la misma para todos los intentos. (Los ensayos son idénticos.)

  • Distribución de veneno

Mide la probabilidad de que ocurra un número dado de eventos en un período de tiempo específico.

Distribución de probabilidad continua:

  • Distribución uniforme

También llamada distribución rectangular. Todos los resultados son igualmente probables.


  • Distribución normal / gaussiana

La media, la mediana y la moda de la distribución coinciden. La curva de la distribución tiene forma de campana y es simétrica respecto a la línea x = m. El área total bajo la curva es 1. Exactamente la mitad de los valores están a la izquierda del centro y la otra mitad a la derecha.

Una distribución normal es muy diferente de la distribución binomial. Sin embargo, si el número de intentos se acerca al infinito, las formas serán bastante similares.

  • Distribución exponencial

Distribución de probabilidad del tiempo entre eventos en un proceso de punto de Poisson, es decir, un proceso en el que los eventos ocurren de manera continua e independiente a una tasa promedio constante.

Evaluación de la hipótesis

Primero, echemos un vistazo a la diferencia entre la hipótesis nula y la hipótesis alternativa.

Hipótesis nula: Declaración sobre el parámetro de población que se cree que es cierto o se utiliza para presentar un argumento a menos que se pueda demostrar que es incorrecto mediante la prueba de hipótesis.

Hipótesis alternativa: Afirmación sobre la población que es contradictoria con la hipótesis nula y qué concluimos si rechazamos la hipótesis nula.

Error tipo I: Rechazo de una hipótesis nula verdadera

Error tipo II: No rechazo de una hipótesis nula falsa

Nivel de significación (α): Probabilidad de rechazar la hipótesis nula cuando es verdadera.

valor p: Probabilidad de que el estadístico de prueba sea al menos tan extremo como el observado dado que la hipótesis nula es verdadera.

  • Cuando el valor p > α, no podemos rechazar la hipótesis nula.
  • Mientras p-value ≤ α, rechazamos la hipótesis nula y podemos concluir que tenemos un resultado significativo.

En la prueba de hipótesis estadística, un resultado tiene significación estadística cuando es muy poco probable que haya ocurrido dada la hipótesis nula.

Valor crítico: Un punto en la escala del estadístico de prueba más allá del cual rechazamos la hipótesis nula. Depende de una estadística de prueba, que es específica para el tipo de prueba, y del nivel de significancia, α, que define la sensibilidad de la prueba.

Regresión lineal

La regresión lineal suele ser el primer algoritmo de ML con el que nos encontramos. Es simple y comprenderlo sienta las bases para otros algoritmos de aprendizaje automático avanzados.

Regresión lineal simple

Enfoque lineal para modelar la relación entre una variable dependiente y una variable independiente.

Tenemos que encontrar los parámetros para que el modelo se ajuste mejor a los datos. La línea de regresión (es decir, la línea de mejor ajuste) es la línea para la cual el error entre los valores predichos y los valores observados es mínimo.

Línea de regresión.

Ahora, intentemos implementar esto.

Regresión lineal múltiple

Enfoque lineal para modelar la relación entre una variable dependiente y dos o más variables independientes.

Original. Publicado de nuevo con permiso.

Relacionado:

Fuente: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

Sello de tiempo:

Mas de nuggets