通过这本免费电子书学习数据科学的数据清理和预处理 - KDnuggets

通过这本免费电子书学习数据科学的数据清理和预处理 – KDnuggets

源节点: 2824992

通过这本免费电子书学习数据科学的数据清理和预处理

通过这本免费电子书学习数据科学的数据清理和预处理
 

数据科学视野最近发布了一本富有洞察力的新电子书,名为 数据科学初学者的数据清理和预处理 它全面介绍了数据科学管道的这些关键的早期阶段。 在指南中,读者将了解为什么正确清理和预处理数据对于构建有效的预测模型并从分析中得出可靠的结论如此重要。 该电子书涵盖了收集、清理、集成、转换和减少数据以准备分析的一般工作流程。 它还探讨了数据清理和预处理的迭代本质,这使得这个过程既是一门艺术,也是一门科学。

为什么需要这样一本书?

从本质上讲,数据是混乱的。 公司和组织每天收集的真实数据充满了不准确、不一致和缺失的条目。 俗话说“垃圾进来,垃圾出去”。 如果我们向预测模型提供脏的、不准确的数据,我们模型的性能和准确性将会受到影响

该电子书的一大亮点是用于数据操作、可视化、机器学习和处理缺失值的关键 Python 库的实践演示。 读者将熟悉 Pandas、NumPy、Matplotlib、Seaborn、Scikit-learn 和 Missingno 等基本工具。 本指南最后提供了一个案例研究,使读者能够应用前面章节中涵盖的所有概念和技能。

数据清洗和预处理 提供了解决常见数据质量问题的综合指南。 它探索了处理缺失值、检测异常值、标准化和缩放数据、选择特征、编码变量以及平衡不平衡数据集的技术。 读者将学习评估数据完整性、合并数据集以及处理偏态分布和非线性关系的最佳实践。 通过 Python 代码示例,读者将获得识别数据异常、估算缺失数据、提取特征以及将杂乱数据集预处理为可供分析的形式的实践经验。 该案例研究将所有主要概念联系在一起,形成端到端的数据清理和预处理工作流程。

数据科学家工具包的核心是识别常见数据质量问题的能力。

数据科学初学者的数据清理和预处理 对于那些渴望进入数据科学,但仍需要掌握处理现实世界中混乱、不完美的数据的窍门的人来说,这是一个很好的起点。 本指南将真正带您了解将原始数据转化为最佳形状的细节,以便您能够真正利用它取得成果。 当您到达终点时,您将拥有清理和预处理数据所需的所有专业知识,就像它的第二天性一样。 不再被不稳定、充满错误的数据所困扰! 借助这本电子书为您提供的技能,您将能够像专业人士一样将最难以驾驭的数据集提交并提取有意义的见解。

无论您是该领域的新手还是想提高自己的技能, 数据科学初学者的数据清理和预处理 是对您的数据科学库的宝贵补充。

 
 
马修·梅奥(Matthew Mayo) (@马特梅奥13) 是数据科学家和 KDnuggets 的主编,KDnuggets 是开创性的在线数据科学和机器学习资源。 他的兴趣在于自然语言处理、算法设计和优化、无监督学习、神经网络和机器学习的自动化方法。 Matthew 拥有计算机科学硕士学位和数据挖掘研究生文凭。 可以通过 kdnuggets[dot]com 的 editor1 联系到他。
 

时间戳记:

更多来自 掘金队