Statistiques importantes que les scientifiques de données doivent connaître

Nœud source: 1876637

Statistiques importantes que les scientifiques de données doivent connaître

Plusieurs concepts statistiques fondamentaux doivent être bien appréciés par tout scientifique des données, du passionné au professionnel. Ici, nous fournissons des extraits de code en Python pour améliorer la compréhension et vous apporter des outils clés qui vous donnent un aperçu précoce de vos données.


By Lekshmi S.Sunil, IIT Indore '23 | Boursier GHC '21.

L'analyse statistique nous permet de tirer des informations précieuses des données disponibles. Une bonne compréhension des concepts et techniques statistiques importants est absolument essentielle pour analyser les données à l'aide de divers outils.

Avant d'entrer dans les détails, examinons les sujets abordés dans cet article :

  • Statistiques descriptives et statistiques inférentielles
  • Types de données
  • Probabilité et théorème de Bayes
  • Mesures de tendance centrale
  • Skewness
  • Kurtosis
  • Mesures de dispersion
  • Covariance
  • Corrélation
  • Distributions de probabilité
  • Tests d'hypothèses
  • Régression

Statistiques descriptives et statistiques inférentielles

La statistique dans son ensemble traite de la collecte, de l'organisation, de l'analyse, de l'interprétation et de la présentation des données. Au sein des statistiques, il existe deux branches principales :

  1. Statistiques descriptives: Cela implique de décrire les caractéristiques des données, d'organiser et de présenter les données soit visuellement à l'aide de tableaux/graphiques, soit à l'aide de calculs numériques utilisant des mesures de tendance centrale, de variabilité et de distribution. Un point remarquable est que les conclusions sont tirées sur la base de données déjà connues.
  2. Statistiques déductives: Cela implique de tirer des inférences et de faire des généralisations sur des populations plus importantes à l'aide d'échantillons prélevés sur celles-ci. Par conséquent, des calculs plus complexes sont nécessaires. Les résultats finaux sont produits à l'aide de techniques telles que les tests d'hypothèses, la corrélation et l'analyse de régression. Les résultats futurs prévus et les conclusions tirées vont au-delà du niveau des données disponibles.

Types de données

Pour effectuer une analyse exploratoire des données (EDA) appropriée en appliquant les techniques statistiques les plus appropriées, nous devons comprendre sur quel type de données nous travaillons.

  1. Données catégorielles

Les données catégorielles représentent des variables qualitatives telles que le sexe, le groupe sanguin, la langue maternelle, etc. d'un individu. Les données catégorielles se présentent également sous la forme de valeurs numériques sans aucune signification mathématique. Par exemple, si le sexe est la variable, une femme peut être représentée par 1 et un homme par 0.

  • Données nominales: Les valeurs étiquettent les variables et il n'y a pas de hiérarchie définie entre les catégories, c'est-à-dire qu'il n'y a pas d'ordre ou de direction, par exemple, la religion, le sexe, etc. Les échelles nominales avec seulement deux catégories sont dites « dichotomiques ».
  • Données ordinales : un ordre ou une hiérarchie existe entre les catégories, par exemple, les notes de qualité, le niveau d'éducation, les notes des étudiants, etc.
  1. Donnees numeriques

Les données numériques représentent des variables quantitatives exprimées uniquement en termes de nombres. Par exemple, la taille, le poids, etc. d'un individu.

  • Données discrètes: les valeurs sont dénombrables et sont des nombres entiers (le plus souvent des nombres entiers). Par exemple, le nombre de voitures dans un parking, le nombre de pays, etc.
  • Données continues: Les observations peuvent être mesurées mais ne peuvent pas être comptées. Les données supposent n'importe quelle valeur dans une plage, par exemple le poids, la taille, etc. Les données continues peuvent être divisées en données d'intervalle (valeurs ordonnées ayant les mêmes différences entre elles mais n'ayant pas de vrai zéro) et données de rapport (valeurs ordonnées ayant les mêmes différences entre eux et le vrai zéro existe).

Probabilité et théorème de Bayes

La probabilité est la mesure de la probabilité qu'un événement se produise.

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) − P(A∩B)
  • Événements indépendants : Deux événements sont indépendants si l'occurrence de l'un n'affecte pas la probabilité d'occurrence de l'autre. P(A∩B) = P(A)P(B) où P(A) != 0 et P(B) != 0.
  • Événements mutuellement exclusifs : deux événements sont mutuellement exclusifs ou disjoints s'ils ne peuvent pas se produire tous les deux en même temps. P(A∩B) = 0 et P(A∪B) = P(A)+P(B).
  • Probabilite conditionnelle: Probabilité d'un événement A, étant donné qu'un autre événement B s'est déjà produit. Ceci est représenté par P(A|B). P(A|B) = P(A∩B)/P(B), lorsque P(B)>0.
  • Théorème de Bayes

Mesures de tendance centrale

Importez le module de statistiques.

  • Médian: valeur moyenne de l'ensemble de données.

numpy.mean() peut également être utilisé.

  • Moyenne: valeur moyenne de l'ensemble de données.

numpy.median( ) peut également être utilisé.

  • Mode: valeur la plus fréquente dans l'ensemble de données.

Quand utiliser la moyenne, la médiane et le mode ?

Relation entre la moyenne, la médiane et le mode : Mode = 3 Médiane — 2 Moyenne

Skewness

Une mesure de symétrie, ou plus précisément, un manque de symétrie (asymétrie).

  • Distribution normale/symétrique : mode = médiane = moyenne
  • Distribution asymétrique positive (à droite) : mode < médiane < moyenne
  • Distribution asymétrique négativement (gauche) : moyenne < médiane < mode

Kurtosis

Une mesure pour savoir si les données sont à queue lourde ou à queue légère par rapport à une distribution normale, c'est-à-dire qu'elle mesure la « queue » ou le « pic » d'une distribution.

  • Leptokurtique – aplatissement positif
  • Mésokurtique – distribution normale
  • Platykurtic – aplatissement négatif

Skewness et kurtosis en utilisant Python.

Mesures de dispersion

Décrit la propagation/diffusion des données autour d'une valeur centrale.

Plage : La différence entre la valeur la plus grande et la plus petite de l'ensemble de données.

Écart de quartile: les quartiles d'un ensemble de données divisent les données en quatre parties égales : le premier quartile (Q1) est le nombre intermédiaire entre le plus petit nombre et la médiane des données. Le deuxième quartile (Q2) est la médiane de l'ensemble de données. Le troisième quartile (Q3) est le nombre médian entre la médiane et le plus grand nombre. L'écart quartile est Q = ½ × (Q3 — Q1)

Plage interquartile : IQR = Q3 - Q1

Variation: La différence quadratique moyenne entre chaque point de données et la moyenne. Mesure l'étendue de l'ensemble de données par rapport à la moyenne.

Écart-type: Racine carrée de la variance.

Variance et écart type à l'aide de Python.

Covariance

C'est la relation entre une paire de variables aléatoires où un changement dans une variable entraîne un changement dans une autre variable.

Covariance négative, nulle et positive.

Matrice de covariance et sa représentation par carte thermique à l'aide de Python.

Corrélation

Il montre si et dans quelle mesure une paire de variables est liée les unes aux autres.


Matrice de corrélation utilisant les mêmes données que celles utilisées pour la covariance.

Covariance vs Corrélation.

Distributions de probabilité

Il existe deux grands types de distributions de probabilité : les distributions de probabilité discrètes et continues.

Distribution de probabilité discrète :

  • Distribution Bernoulli

Une variable aléatoire prend un seul essai avec seulement deux résultats possibles : 1 (succès) avec probabilité p et 0 (échec) avec probabilité 1-p.

  • Distribution binomiale

Chaque essai est indépendant. Il n'y a que deux issues possibles dans un essai : soit un succès, soit un échec. Un nombre total de n essais identiques sont réalisés. La probabilité de réussite et d'échec est la même pour tous les essais. (Les essais sont identiques.)

  • Distribution de Poisson

Mesure la probabilité qu'un nombre donné d'événements se produisent dans une période de temps spécifiée.

Distribution de probabilité continue :

  • Distribution uniforme

Aussi appelée distribution rectangulaire. Tous les résultats sont également probables.


  • Distribution normale / gaussienne

La moyenne, la médiane et le mode de distribution coïncident. La courbe de distribution est en cloche et symétrique par rapport à la ligne x =. L'aire totale sous la courbe est de 1. Exactement la moitié des valeurs sont à gauche du centre et l'autre moitié à droite.

Une distribution normale est très différente de la distribution binomiale. Cependant, si le nombre d'essais approche l'infini, les formes seront assez similaires.

  • Distribution exponentielle

Distribution de probabilité du temps entre les événements dans un processus ponctuel de Poisson, c'est-à-dire un processus dans lequel les événements se produisent de manière continue et indépendante à un taux moyen constant.

Tests d'hypothèses

Tout d'abord, examinons la différence entre l'hypothèse nulle et l'hypothèse alternative.

Hypothèse nulle: Énoncé concernant le paramètre de population qui est considéré comme vrai ou qui est utilisé pour avancer un argument, à moins qu'il puisse être démontré qu'il est incorrect par des tests d'hypothèse.

Hypothèse alternative: Affirmation sur la population qui est en contradiction avec l'hypothèse nulle et ce que nous concluons si nous rejetons l'hypothèse nulle.

Erreur de type I : Rejet d'une hypothèse nulle vraie

Erreur de type II : Non-rejet d'une fausse hypothèse nulle

Niveau de signification (α): Probabilité de rejeter l'hypothèse nulle lorsqu'elle est vraie.

valeur p : Probabilité que la statistique de test soit au moins aussi extrême que celle observée étant donné que l'hypothèse nulle est vraie.

  • Lorsque p-value > , nous ne rejetons pas l'hypothèse nulle.
  • Alors que la valeur p α, nous rejetons l'hypothèse nulle et nous pouvons conclure que nous avons un résultat significatif.

Dans les tests d'hypothèses statistiques, un résultat a une signification statistique lorsqu'il est très peu probable qu'il se soit produit compte tenu de l'hypothèse nulle.

Valeur critique: Un point sur l'échelle de la statistique de test au-delà duquel on rejette l'hypothèse nulle. Cela dépend d'une statistique de test, qui est spécifique au type de test, et du niveau de signification, , qui définit la sensibilité du test.

Régression Linéaire

La régression linéaire est généralement le premier algorithme de ML que nous rencontrons. C'est simple, et sa compréhension jette les bases d'autres algorithmes de ML avancés.

Régression linéaire simple

Approche linéaire pour modéliser la relation entre une variable dépendante et une variable indépendante.

Nous devons trouver les paramètres pour que le modèle corresponde le mieux aux données. La droite de régression (c'est-à-dire la ligne la mieux ajustée) est la ligne pour laquelle l'erreur entre les valeurs prédites et les valeurs observées est minimale.

Ligne de régression.

Maintenant, essayons de mettre en œuvre cela.

La régression linéaire multiple

Approche linéaire pour modéliser la relation entre une variable dépendante et deux ou plusieurs variables indépendantes.

ORIGINALE. Republié avec permission.

Connexe:

Source : https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

Horodatage:

Plus de KDnuggetsGenericName