Leer gegevens opschonen en voorbewerken voor datawetenschap met dit gratis e-boek - KDnuggets

Heruitgegeven door Plato

volgers: 0

Leer gegevens opschonen en voorbewerken voor datawetenschap met dit gratis e-boek

Data Science Horizons heeft onlangs een inzichtelijk nieuw e-boek uitgebracht met de titel Gegevensopschoning en voorverwerking voor beginners in datawetenschap dat een uitgebreide introductie biedt tot deze cruciale vroege stadia van de data science-pijplijn. In de gids leren lezers waarom het correct opschonen en voorbewerken van gegevens zo belangrijk is voor het bouwen van effectieve voorspellende modellen en het trekken van betrouwbare conclusies uit analyses. Het e-boek behandelt de algemene workflow van het verzamelen, opschonen, integreren, transformeren en reduceren van gegevens ter voorbereiding op analyse. Het onderzoekt ook de iteratieve aard van het opschonen en voorbewerken van gegevens, waardoor dit proces zowel een kunst als een wetenschap is.

Waarom is zo’n boek nodig?

In wezen zijn gegevens rommelig. Gegevens uit de echte wereld, het soort gegevens dat bedrijven en organisaties elke dag verzamelen, zitten vol met onnauwkeurigheden, inconsistenties en ontbrekende gegevens. Zoals het gezegde luidt: “Garbage in, garbage out.” Als we onze voorspellende modellen voeden met vuile, onnauwkeurige gegevens, zullen de prestaties en nauwkeurigheid van onze modellen in gevaar komen

Een belangrijk hoogtepunt van het e-boek is de praktische demonstratie van belangrijke Python-bibliotheken die worden gebruikt voor gegevensmanipulatie, visualisatie, machine learning en het omgaan met ontbrekende waarden. Lezers zullen vertrouwd raken met essentiële tools zoals Pandas, NumPy, Matplotlib, Seaborn, Scikit-learn en Missingno. De gids wordt afgesloten met een case study waarmee lezers alle concepten en vaardigheden die in de voorgaande hoofdstukken zijn behandeld, kunnen toepassen.

Gegevens opschonen en voorbewerken biedt een uitgebreide gids voor het aanpakken van veelvoorkomende problemen met de gegevenskwaliteit. Het onderzoekt technieken voor het omgaan met ontbrekende waarden, het detecteren van uitschieters, het normaliseren en schalen van gegevens, het selecteren van kenmerken, het coderen van variabelen en het balanceren van onevenwichtige datasets. Lezers zullen best practices leren voor het beoordelen van data-integriteit, het samenvoegen van datasets en het omgaan met scheve distributies en niet-lineaire relaties. Met de Python-codevoorbeelden zullen lezers praktische ervaring opdoen met het identificeren van gegevensafwijkingen, het toeschrijven van ontbrekende gegevens, het extraheren van functies en het voorbewerken van rommelige gegevenssets in een formulier dat gereed is voor analyse. De casestudy brengt alle belangrijke concepten samen in een end-to-end workflow voor het opschonen en voorbewerken van gegevens.

De kern van de toolkit van een datawetenschapper is het vermogen om veelvoorkomende problemen met de datakwaliteit te identificeren.

Gegevensopschoning en voorverwerking voor beginners in datawetenschap is een geweldige plek om te beginnen voor iedereen die graag met datawetenschap aan de slag wil, maar nog steeds onder de knie moet krijgen hoe om te gaan met data uit de echte wereld in al zijn rommelige, onvolmaakte glorie. Deze gids neemt u echt mee door de kern van het proces om onbewerkte gegevens in topvorm te krijgen, zodat u er daadwerkelijk iets mee kunt bereiken. Tegen de tijd dat u het einde bereikt, beschikt u over alle kennis die u nodig hebt om gegevens op te schonen en voor te verwerken alsof het een tweede natuur is. Nooit meer verzanden door wankele, met fouten gevulde gegevens! Met de vaardigheden waarmee dit e-boek u bewapent, kunt u zelfs de meest weerbarstige datasets tot indiening krijgen en er als een professional zinvolle inzichten uit halen.

Of je nu nieuw bent in het vakgebied of je vaardigheden wilt verbeteren, Gegevensopschoning en voorverwerking voor beginners in datawetenschap is een waardevolle aanvulling op uw data science-bibliotheek.

Matthijs Mayo (@mattmayo13) is een datawetenschapper en de hoofdredacteur van KDnuggets, het baanbrekende online hulpmiddel voor gegevenswetenschap en machine learning. Zijn interesses liggen in natuurlijke taalverwerking, ontwerp en optimalisatie van algoritmen, leren zonder toezicht, neurale netwerken en geautomatiseerde benaderingen van machine learning. Matthew heeft een master in computerwetenschappen en een graduaat in datamining. Hij is te bereiken via editor1 op kdnuggets[dot]com.