Изучите очистку и предварительную обработку данных для науки о данных с помощью этой бесплатной электронной книги - KDnuggets

Изучите очистку и предварительную обработку данных для науки о данных с помощью этой бесплатной электронной книги — KDnuggets

Исходный узел: 2824992

Изучите очистку и предварительную обработку данных для науки о данных с помощью этой бесплатной электронной книги

Изучите очистку и предварительную обработку данных для науки о данных с помощью этой бесплатной электронной книги
 

Data Science Horizons недавно выпустила новую содержательную электронную книгу под названием Очистка и предварительная обработка данных для начинающих в науке о данных который обеспечивает всестороннее введение в эти критические ранние этапы пайплайна науки о данных. Из руководства читатели узнают, почему правильная очистка и предварительная обработка данных так важны для построения эффективных прогностических моделей и получения надежных выводов на основе анализа. Электронная книга описывает общий рабочий процесс сбора, очистки, интеграции, преобразования и сокращения данных при подготовке к анализу. Он также исследует итеративный характер очистки и предварительной обработки данных, что делает этот процесс не только наукой, но и искусством.

Зачем нужна такая книга?

По сути, данные беспорядочны. Реальные данные, которые компании и организации собирают каждый день, полны неточностей, несоответствий и отсутствующих записей. Как говорится, «мусор на входе, мусор на выходе». Если мы снабдим наши прогностические модели грязными и неточными данными, производительность и точность наших моделей будут поставлены под угрозу.

Главной изюминкой электронной книги является практическая демонстрация основных библиотек Python, используемых для обработки данных, визуализации, машинного обучения и обработки пропущенных значений. Читатели познакомятся с такими важными инструментами, как Pandas, NumPy, Matplotlib, Seaborn, Scikit-learn и Missingno. Руководство завершается анализом конкретного случая, который позволяет читателям применить все концепции и навыки, рассмотренные в предыдущих главах.

Очистка данных и предварительная обработка предоставляет исчерпывающее руководство по решению распространенных проблем с качеством данных. В нем рассматриваются методы обработки пропущенных значений, обнаружения выбросов, нормализации и масштабирования данных, выбора функций, кодирования переменных и балансировки несбалансированных наборов данных. Читатели узнают о передовых методах оценки целостности данных, слияния наборов данных и обработки асимметричных распределений и нелинейных взаимосвязей. С его примерами кода Python читатели получат практический опыт выявления аномалий данных, заполнения отсутствующих данных, извлечения функций и предварительной обработки беспорядочных наборов данных в форму, готовую для анализа. В этом тематическом исследовании все основные концепции объединены в сквозной рабочий процесс очистки и предварительной обработки данных.

В основе набора инструментов специалиста по данным лежит способность выявлять распространенные проблемы с качеством данных.

Очистка и предварительная обработка данных для начинающих в науке о данных — отличное место для начала для всех, кто хочет заняться наукой о данных, но все еще нуждается в навыках работы с реальными данными во всей их беспорядочной, несовершенной красоте. Это руководство действительно проведет вас через мельчайшие детали приведения необработанных данных в первоклассную форму, чтобы вы действительно могли что-то с ними сделать. К тому времени, когда вы дойдете до конца, у вас будут все ноу-хау, необходимые для очистки и предварительной обработки данных, как будто это вторая натура. Больше не нужно зацикливаться на шатких, заполненных ошибками данных! Обладая навыками, которыми вооружает вас эта электронная книга, вы сможете справляться даже с самыми неуправляемыми наборами данных и извлекать ценную информацию, как профессионал.

Если вы новичок в этой области или хотите повысить уровень своих навыков, Очистка и предварительная обработка данных для начинающих в науке о данных является бесценным дополнением к вашей библиотеке данных.

 
 
Мэтью Майо (@mattmayo13) — специалист по данным и главный редактор KDnuggets, основополагающего онлайн-ресурса по науке о данных и машинному обучению. Его интересы связаны с обработкой естественного языка, проектированием и оптимизацией алгоритмов, неконтролируемым обучением, нейронными сетями и автоматизированными подходами к машинному обучению. Мэтью имеет степень магистра компьютерных наук и диплом о высшем образовании в области интеллектуального анализа данных. С ним можно связаться по адресу editor1 на kdnuggets[dot]com.
 

Отметка времени:

Больше от КДнаггетс