Apprenez le nettoyage et le prétraitement des données pour la science des données avec cet eBook gratuit - KDnuggets

Apprenez le nettoyage et le prétraitement des données pour la science des données avec cet eBook gratuit - KDnuggets

Nœud source: 2824992

Apprenez le nettoyage et le prétraitement des données pour la science des données avec cet eBook gratuit

Apprenez le nettoyage et le prétraitement des données pour la science des données avec cet eBook gratuit
 

Data Science Horizons a récemment publié un nouvel ebook perspicace intitulé Nettoyage et prétraitement des données pour les débutants en science des données qui fournit une introduction complète à ces premières étapes critiques du pipeline de la science des données. Dans ce guide, les lecteurs apprendront pourquoi il est si important de nettoyer et de prétraiter correctement les données pour créer des modèles prédictifs efficaces et tirer des conclusions fiables des analyses. L'ebook couvre le flux de travail général de collecte, de nettoyage, d'intégration, de transformation et de réduction des données en vue de leur analyse. Il explore également la nature itérative du nettoyage et du prétraitement des données qui fait de ce processus autant un art qu'une science.

Pourquoi un tel livre est-il nécessaire ?

Essentiellement, les données sont désordonnées. Les données du monde réel, celles que les entreprises et les organisations collectent chaque jour, sont remplies d'inexactitudes, d'incohérences et d'entrées manquantes. Comme le dit le dicton, "Garbage in, garbage out". Si nous alimentons nos modèles prédictifs avec des données sales et inexactes, les performances et la précision de nos modèles seront compromises

L'un des principaux points forts de l'ebook est la démonstration pratique des principales bibliothèques Python utilisées pour la manipulation de données, la visualisation, l'apprentissage automatique et la gestion des valeurs manquantes. Les lecteurs se familiariseront avec des outils essentiels comme Pandas, NumPy, Matplotlib, Seaborn, Scikit-learn et Missingno. Le guide se termine par une étude de cas qui permet aux lecteurs d'appliquer tous les concepts et compétences abordés dans les chapitres précédents.

Nettoyage et prétraitement des données fournit un guide complet pour résoudre les problèmes courants de qualité des données. Il explore les techniques de gestion des valeurs manquantes, de détection des valeurs aberrantes, de normalisation et de mise à l'échelle des données, de sélection des caractéristiques, d'encodage des variables et d'équilibrage des ensembles de données déséquilibrés. Les lecteurs apprendront les meilleures pratiques pour évaluer l'intégrité des données, fusionner des ensembles de données et gérer les distributions asymétriques et les relations non linéaires. Avec ses exemples de code Python, les lecteurs acquerront une expérience pratique de l'identification des anomalies de données, de l'imputation des données manquantes, de l'extraction des fonctionnalités et du prétraitement des ensembles de données désordonnés dans un formulaire prêt pour l'analyse. L'étude de cas relie tous les principaux concepts dans un flux de travail de nettoyage et de prétraitement des données de bout en bout.

Au cœur de la boîte à outils d'un scientifique des données se trouve la capacité d'identifier les problèmes courants de qualité des données.

Nettoyage et prétraitement des données pour les débutants en science des données est un excellent point de départ pour tous ceux qui souhaitent se lancer dans la science des données, mais qui ont encore besoin de maîtriser les données du monde réel dans toute leur splendeur désordonnée et imparfaite. Ce guide vous guide vraiment à travers les détails de la mise en forme des données brutes afin que vous puissiez réellement vous en sortir. Au moment où vous atteignez la fin, vous aurez tout le savoir-faire dont vous avez besoin pour nettoyer et prétraiter les données comme si c'était une seconde nature. Plus besoin de vous enliser dans des données erronées et remplies d'erreurs ! Avec les compétences dont cet ebook vous arme, vous serez en mesure de soumettre même les ensembles de données les plus indisciplinés et d'extraire des informations significatives comme un pro.

Que vous soyez nouveau dans le domaine ou que vous cherchiez à améliorer vos compétences, Nettoyage et prétraitement des données pour les débutants en science des données est un ajout inestimable à votre bibliothèque de science des données.

 
 
Matthieu Mayo (@mattmayo13) est un scientifique des données et le rédacteur en chef de KDnuggets, la ressource en ligne phare de la science des données et de l'apprentissage automatique. Ses intérêts portent sur le traitement du langage naturel, la conception et l'optimisation d'algorithmes, l'apprentissage non supervisé, les réseaux de neurones et les approches automatisées de l'apprentissage automatique. Matthew détient une maîtrise en informatique et un diplôme d'études supérieures en exploration de données. Il peut être contacté à editor1 à kdnuggets[dot]com.
 

Horodatage:

Plus de KDnuggetsGenericName