Чому і як слід вивчати “Продуктивну науку про дані”?

= Попереднє повідомлення

Наступне повідомлення =>

Ключові слова: книги, Кар'єра Поради, курси, наука даних, Python

Що таке Productive Data Science і які її компоненти?

By Тіртхаджіоті Саркар, Adapdix Corp.

коментарі

Джерело зображення: Pixabay (Безкоштовне зображення)

Ефективність робочого процесу з вивчення даних

Науку про дані та машинне навчання можна практикувати з різним ступенем ефективності та продуктивності. Незалежно від сфери застосування чи спеціалізації, науковець із даних — початківець чи досвідчений професіонал — має прагнути підвищити його/її ефективність у всіх аспектах типових завдань науки про дані,

Статистичний аналіз,
візуалізація,
вибір моделі, розробка функцій,
тестування якості коду, модульність,
паралельна обробка,
просте розгортання веб-програми

Джерело зображення: Pixabay (Безкоштовне зображення)

Це означає виконання всіх цих завдань,

на вищій швидкості
із швидшим налагодженням
синхронізовано
повністю використовуючи всі доступні апаратні ресурси

Чого ви повинні навчитися в цьому процесі?

Уявімо, що хтось навчає "Продуктивна наука про дані» або написати книгу про це — використовуючи Python як мовну структуру. Які типові очікування від такого курсу чи книги?

Джерело зображення: Pixabay (Безкоштовне зображення)

Курс/книга має бути призначений для тих, хто бажає вийти за межі стандартного шляху виконання завдань науки про дані та машинного навчання та використання всього спектру екосистеми науки про дані Python для набагато вищого рівня продуктивності.

Читачів слід навчити, як виявляти неефективність і вузькі місця в стандартному процесі та як мислити нестандартно.

Автоматизація повторюваних завдань науки про дані це ключове мислення, яке читачі розвинуть, прочитавши цю книгу. У багатьох випадках вони також дізнаються, як розширити існуючу практику кодування для обробки більших наборів даних з високою ефективністю за допомогою вдосконалених програмних інструментів, які вже існують в екосистемі Python, але не викладаються в жодній стандартній науці про дані.

Це не має бути звичайна кулінарна книга Python, яка навчає стандартним бібліотекам, таким як Numpy або Pandas.

Натомість він має зосередитися на корисних техніках, наприклад, як виміряти обсяг пам'яті та швидкість виконання моделей ML, перевірка якості науковий конвеєр даних, модульувати науковий конвеєр даних для розробки програм тощо. Він також має охоплювати бібліотеки Python, які дуже зручні для автоматизація та прискорення повсякденні завдання будь-якого спеціаліста з даних.

Крім того, слід торкнутися інструментів і пакетів, які допомагають спеціалісту з обробки даних роботи з великими та складними наборами даних у набагато більш оптимальний спосіб, ніж те, що було б можливим, дотримуючись стандартної мудрості технології науки про дані Python.

Деякі спеціальні навички, які потрібно опанувати

Джерело зображення: Pixabay (Безкоштовне зображення)

Щоб висловити речі конкретними словами, давайте підсумуємо деякі конкретні навички, які потрібно опанувати для навчання та практики Продуктивна наука про дані. Я також спробував додати посилання на деякі репрезентативні статті, щоб йти з кожним навиком як посилання.

Як записатися писати швидкий і ефективний код для науки про дані/ML і як виміряти їх швидкість і ефективність (дивіться цю статтю)
Як побудувати модульні та виразні канали науки про дані для підвищення продуктивності (дивіться цю статтю)
Як написати модулі тестування для даних і моделей ML (дивіться цю статтю)
Як ефективно обробляти великі та складні набори даних (що було б важко з традиційними інструментами DS)
Як повністю використовувати графічний процесор і багатоядерні процесори для всіх видів наукових і аналітичних завдань, а не лише для спеціалізованого моделювання глибокого навчання (дивіться цю статтю)
Як створити швидкі програми графічного інтерфейсу користувача для демонстрації ідеї науки про дані/ML або налаштування моделі (дивіться цю статтю), або як легко (і швидко) розгортати моделі ML і код аналізу даних на рівні програми (дивіться цю статтю)

Ідеальна книга на цю тему буде...

Джерело зображення: Pixabay (Безкоштовне зображення)

Навчіть, як стежити неефективність і вузькі місця у стандартному коді науки про дані та як мислити нестандартно, щоб вирішити ці проблеми.
Навчіть писати модульний ефективний код для аналізу даних і машинного навчання для підвищення продуктивності в різноманітних ситуаціях — пошуковий аналіз даних, візуалізація, глибоке навчання тощо.
Охоплюють широкий спектр додаткових тем, таких як тестування програмного забезпечення, розробка модулів, Програмування графічного інтерфейсу, Розгортання моделі ML як веб-додаток, які є безцінними наборами навичок для початківців науковців із обробки даних, і які важко знайти в одній стандартній книзі з науки про дані.
Охоплюйте паралельні обчислення (наприклад, Даск, Рей), масштабованість (наприклад, Vaex, Modin) і графічний стек даних (ШВИДКИ) з практичними прикладами.
Розкривайте та направляйте читачів до більшої та постійно розширюваної екосистеми Python інструментів науки про дані, які пов’язані з більш широкими аспектами розробка програмного забезпечення і розгортання на виробничому рівні.

Конкретний приклад: наука про розподілені дані на базі GPU

Хоча використання графічних процесорів і розподілених обчислень широко обговорюється в академічних і ділових колах для основних завдань AI/ML, вони знайшли менше охоплення в їх корисності для звичайних завдань науки про дані та інженерії даних. Однак використання графічних процесорів для регулярного щоденного статистичного аналізу або інших наукових завдань може значною мірою допомогти стати загальновідомим «Productive Data Scientist».

Наприклад, RAPIDS набір програмних бібліотек та API надати вам — звичайному спеціалісту з обробки даних (і не обов’язково спеціалісту з глибокого навчання) — можливість і гнучкість виконання наскрізні конвеєри даних і аналітики повністю на графічних процесорах.

Джерело зображення: Автор створив колаж

При використанні навіть зі скромним графічним процесором ці бібліотеки демонструють значне підвищення швидкості в порівнянні зі своїми звичайними аналогами Python. Природно, ми повинні прийняти їх, коли тільки можемо Продуктивна наука про дані робочий процес.

Так само є чудові можливості з відкритим вихідним кодом, щоб вийти за межі одноядерної природи мови Python і прийняти парадигму паралельних обчислень, не відходячи від квінтесенції особи дослідника даних.

Джерело зображення: Автор створив колаж

Підсумки

Ми обговорили утиліти та основні компоненти a Продуктивна наука про дані робочий процес. Ми уявили, що запропонував би читачам ідеальний курс чи книга на цю тему. Ми торкнулися деяких конкретних прикладів і проілюстрували переваги. Деякі відповідні ресурси також були надані в контексті навичок, якими потрібно оволодіти.

Можна перевірити авторські GitHub сховища за код, ідеї та ресурси в галузі машинного навчання та науки про дані. Якщо ви, як і я, захоплені штучним інтелектом/машинним навчанням/наукою про дані, не соромтеся додайте мене до LinkedIn or йди за мною на Twitter.

Оригінал. Повідомлено з дозволу.

За темою: