poloniex-agreses-settle-with-the-sec-for-more-than-10m.png

为什么以及如何学习“生产数据科学”?

源节点: 1858780

黄金博客为什么以及如何学习“生产数据科学”?

什么是生产数据科学以及它的一些组成部分是什么?




图片来源Pixabay (免费图片)

数据科学工作流程的效率

 
可以以不同程度的效率和生产力来实践数据科学和机器学习。 无论应用领域或专业如何,数据科学家——初学者或经验丰富的专业人士——都应该努力 提高他/她的效率 在典型数据科学任务的各个方面,

  • 统计分析,
  • 可视化,
  • 模型选择、特征工程、
  • 代码质量测试、模块化、
  • 并行处理,
  • 简单的网络应用程序部署



图片来源Pixabay (免费图片)

 

这意味着执行所有这些任务,

  • 以更高的速度
  • 调试速度更快
  • 以同步方式
  • 通过充分利用任何和所有可用的硬件资源

在这个过程中你应该学到什么?

 
让我们想象一下有人在教“生产数据科学”课程或写一本关于它的书——使用 Python 作为语言框架。 对此类课程或书籍的典型期望应该是什么?



图片来源Pixabay (免费图片)

 

该课程/书籍应面向那些希望 超越标准的方式 执行数据科学和机器学习任务,并利用 Python 数据科学生态系统的全部范围来提高生产力。

应该教会读者如何找出标准流程中的低效率和瓶颈,以及如何跳出框框思考。

重复数据科学任务的自动化 是读者从阅读本书中培养的一种关键心态。 在许多情况下,他们还将学习如何扩展现有的编码实践,以在 Python 生态系统中已经存在但没有在任何标准数据科学中教授的高级软件工具的帮助下,高效地处理更大的数据集。

这不应该是像 Numpy 或 Pandas 这样的标准库的常规 Python 食谱。

相反,它应该专注于有用的技术,例如如何 测量内存占用和执行速度 ML 模型, 质量测试 数据科学管道, 模块化 用于应用程序开发等的数据科学管道。它还应该涵盖非常方便的 Python 库 自动化 和 加速中 任何数据科学家的日常任务。

此外,它应该涉及帮助数据科学家的工具和包 处理大型和复杂的数据集 以比遵循标准 Python 数据科学技术智慧可能实现的方式更加优化的方式。

一些需要掌握的特定技能

 



图片来源Pixabay (免费图片)

 

具体来说,让我们总结一些具体的技能来掌握学习和实践 生产数据科学. 我也尝试将一些代表性文章的链接放入每个技能作为参考。

  1. 如何 为数据科学编写快速高效的代码/ML 以及如何衡量它们的速度和效率(看到这篇文章)
  2. 如何构建模块化和富有表现力的数据科学管道以提高生产力(看到这篇文章)
  3. 如何为数据科学和机器学习模型编写测试模块(看到这篇文章)
  4. 如何有效地处理大型复杂的数据集(使用传统的 DS 工具很难做到)
  5. 如何充分利用 GPU 和多核处理器执行各种数据科学和分析任务,而不仅仅是专门的深度学习建模(看到这篇文章)
  6. 如何为数据科学/机器学习想法或模型调整的演示创建快速的 GUI 应用程序(看到这篇文章),或如何在应用程序级别轻松(且快速)部署 ML 模型和数据分析代码(看到这篇文章)

一本关于这个主题的理想书将……

 



图片来源Pixabay (免费图片)

 

  1. 教你如何注意 效率低下和瓶颈 在标准数据科学代码中以及如何跳出框框思考来解决这些问题。
  2. 教授如何编写模块化、高效的数据分析和机器学习代码,以提高各种情况下的生产力——探索性数据分析、可视化、深度学习等。
  3. 涵盖广泛的副主题,如软件测试、模块开发、 GUI编程机器学习模型部署 作为网络应用程序,对于初出茅庐的数据科学家来说,这是非常宝贵的技能组合,并且在任何一本标准的数据科学书籍中都很难找到。
  4. 涵盖并行计算(例如, 达斯克,雷),可扩展性(例如, Vaex, 莫丁) 和 GPU 驱动的数据科学堆栈 (急流) 与动手示例。
  5. 向读者展示并引导读者了解更大且不断扩展的 Python 数据科学工具生态系统,这些工具与更广泛的方面相关 软件工程 和生产级部署。

一个具体的例子:GPU 驱动的分布式数据科学

 
虽然在学术界和商业界广泛讨论了 GPU 和分布式计算在核心 AI/ML 任务中的使用,但他们发现其在常规数据科学和数据工程任务中的实用性较少。 然而,使用 GPU 进行常规的日常统计分析或其他数据科学任务可以大大有助于成为众所周知的 “生产数据科学家“。

例如 RAPIDS 软件库和 API 套件 给你——一个普通的数据科学家(不一定是深度学习从业者)——执行的选项和灵活性 完全在 GPU 上的端到端数据科学和分析管道。



图片来源:作者创建的拼贴

 

即使使用适度的 GPU,这些库也显示出比常规 Python 库在速度上的显着提高。 自然地,我们应该尽可能地拥抱这些 生产数据科学 工作流程。


 

同样,有极好的开源机会可以超越 Python 语言的单核性质的限制,并在不偏离典型的数据科学家角色的情况下拥抱并行计算范式。



图片来源:作者创建的拼贴

总结

 
我们讨论了一个工具的实用程序和核心组件 生产数据科学 工作流程。 我们想象了关于这个主题的理想课程或书籍将为读者提供什么。 我们触及了一些具体的例子并说明了好处。 在掌握技能的背景下,还提供了一些相关资源。

你可以查看作者的 GitHub上 资料库 机器学习和数据科学中的代码,思想和资源。 如果您像我一样对AI /机器学习/数据科学充满热情,请随时 在领英上加我 or 在推特上关注我.

 
原版。 经许可重新发布。

相关新闻:

来源:https://www.kdnuggets.com/2021/07/learn-productive-data-science.html

时间戳记:

更多来自 掘金队