Посібник із методологій управління проектами в галузі науки про дані - KDnuggets

Посібник із методологій керування проектами в галузі науки про дані – KDnuggets

Вихідний вузол: 2756610

Посібник із методологій управління проектами в галузі науки про дані
Зображення автора
 

Науковий проект даних має багато елементів. У процес залучено багато людей, і на цьому шляху стикаються багато проблем. Багато компаній бачать потребу в науці про дані, і сьогодні це впроваджено в наше життя. Однак декому важко визначити, як використовувати аналітику даних і який шлях використовувати, щоб туди потрапити. 

Найбільше припущення, яке роблять компанії, використовуючи науку про дані, полягає в тому, що через використання мови програмування вони імітують ту саму методологію, що й розробка програмного забезпечення. Однак вбудовані дані та програмне забезпечення моделей відрізняються. 

Для успіху науки про дані потрібен унікальний життєвий цикл і методології. 

Життєвий цикл науки про дані можна розбити на 7 етапів. 

Ділове розуміння

Якщо ви виробляєте щось для компанії, вашим питанням номер 1 має бути «Чому?». Навіщо нам це робити? Чому це важливо для бізнесу? чому чому чому

Команда аналізу даних відповідає за побудову моделі та створення аналітичних даних на основі потреб бізнесу. Під час цього етапу життєвого циклу обробки даних команда спеціалістів з обробки даних і керівники компанії повинні визначати головні цілі проекту, наприклад вивчати змінні, які потрібно передбачити. 

На якому науковому проекті це засновано? Це завдання регресії чи класифікації, кластеризації чи виявлення аномалії? Як тільки ви зрозумієте загальну мету вашого об’єкта, ви можете продовжувати запитувати, чому, що, де, коли і як! Ставити правильні запитання — це ціле мистецтво, і це дасть команді з аналізу даних глибокий контекст проекту. 

Видобуток даних

Коли ви отримаєте всі знання про бізнес, необхідні для проекту, вашим наступним кроком буде ініціювання проекту шляхом збору даних. Фаза інтелектуального аналізу даних включає збір даних із різноманітних джерел, які відповідають меті вашого проекту. 

Запитання, які ви будете ставити на цьому етапі: Які дані мені потрібні для цього проекту? Звідки я можу отримати ці дані? Чи допоможуть ці дані досягти моєї мети? Де я буду зберігати ці дані? 

Очищення даних

Деякі спеціалісти з обробки даних об’єднують фази інтелектуального аналізу та очищення даних. Однак для кращого робочого процесу добре розрізняти фази. 

Очищення даних є найбільш трудомістким етапом у робочому процесі обробки даних. Що більше даних, то довше це потрібно. Зазвичай на це може знадобитися до 50-80% часу спеціаліста з даних. Це займає так багато часу тому, що дані ніколи не бувають чистими. Ви можете мати справу з даними, які містять невідповідності, відсутні дані, неправильні мітки, орфографічні помилки тощо. 

Перш ніж виконувати будь-яку аналітичну роботу, вам потрібно буде виправити ці помилки, щоб переконатися, що дані, з якими ви плануєте працювати, правильні та дадуть точні результати. 

Дослідження даних

Після багато часу та енергії, витраченої на очищення даних, тепер у вас є чисті дані, з якими можна працювати. Час дослідження даних! Ця фаза — це мозковий штурм загальної мети вашого проекту. Ви хочете глибоко зануритися в те, що ви можете знайти з даних, прихованих шаблонів, створюючи візуалізації, щоб знайти подальшу інформацію тощо. 

Маючи цю інформацію, ви зможете створити гіпотезу, яка відповідає вашим бізнес-цілям, і використовувати її як орієнтир, щоб переконатися, що ви виконуєте завдання. 

Функціональна інженерія

Розробка функцій — це розробка та створення нових функцій даних із необроблених даних. Ви берете необроблені дані та створюєте інформаційні функції, які відповідають вашим бізнес-цілям. Етап проектування функцій складається з вибору функцій і побудови функцій.

Вибір функцій – це коли ви скорочуєте кількість функцій, які додають більше шуму в дані, ніж фактично цінну інформацію. Наявність занадто великої кількості функцій може призвести до прокляття розмірності, збільшення складності даних, на яких модель може легко й ефективно навчатися. 

Особливість конструкції в назві. Це створення нових функцій. Використовуючи функції, які ви зараз маєте, ви можете створювати нові функції, наприклад, якщо ваша мета зосереджена на старших членах, ви можете створити порогове значення для віку, який ви хочете.

Цей етап дуже важливий, оскільки він впливатиме на точність вашої прогнозної моделі. 

Прогнозне моделювання

Тут починається найцікавіше, і ви побачите, чи досягли своєї бізнес-цілі. Прогнозне моделювання складається з навчання даних, їх тестування та використання комплексних статистичних методів, щоб переконатися, що результати моделі є значущими для створеної гіпотези. 

На основі всіх запитань, які ви поставили на етапі «Розуміння бізнесу», ви зможете визначити, яка модель підходить для вашого завдання. Ваш вибір моделі може бути процесом проб і помилок, але це важливо, щоб гарантувати, що ви створите успішну модель, яка дає точні результати. 

Створивши свою модель, ви захочете навчити її на своєму наборі даних і оцінити її продуктивність. Ви можете використовувати різні показники оцінювання, наприклад k-кратну перехресну перевірку, щоб виміряти точність, і продовжувати це робити, доки ви не будете задоволені своїм значенням точності. 

Перевірка вашої моделі за допомогою даних тестування та перевірки гарантує точність і хорошу роботу вашої моделі. Наповнення ваших даних невидимими даними — це хороший спосіб побачити, як модель працює з даними, на яких вона раніше не навчалася. Це дозволяє вашій моделі працювати!

Візуалізація даних

Коли ви задоволені продуктивністю своєї моделі, ви готові повернутися й пояснити все керівникам компанії. Створення візуалізацій даних — це хороший спосіб пояснити свої висновки людям, які не є техніками, а також це хороший спосіб розповісти історію про дані.

Візуалізація даних – це поєднання комунікації, статистики та мистецтва. Є так багато способів, якими ви можете представити свої дані в естетично привабливий спосіб. Ви можете використовувати такі засоби, як Документація Matplotlib, Підручник Seaborn та Бібліотека Plotly. Якщо ви використовуєте Python, прочитайте це: Створюйте дивовижні візуалізації за допомогою Python Graph Gallery

І так само ви в кінці життєвого циклу, але пам’ятайте, що це цикл. Отже, ви повинні повернутися до початку: бізнес-розуміння. Вам потрібно буде оцінити успіх вашої моделі щодо початкового розуміння бізнесу та мети, а також створеної гіпотези.

Тепер, коли ми пройшли життєвий цикл науки про дані, ви, мабуть, думаєте, що це здається дуже простим. Це просто один крок за іншим. Але всі ми знаємо, що все не так просто. Щоб зробити його максимально простим і ефективним, потрібно запровадити методології управління. 

Проекти Data Science більше не належать лише до сфери відповідальності науковців – це командна робота. Тому стандартизація управління проектами є обов’язковою, і є методи, які ви можете використовувати для цього. Давайте розглянемо їх.

Методологія водоспаду

Як і водоспад, методологія водоспаду — це послідовний процес розробки, який проходить через усі етапи проекту. Кожну фазу потрібно завершити, щоб почати наступну. Між фазами немає перекриття, що робить його ефективним методом, оскільки немає зіткнень. Якщо вам доводиться повертатися до попередніх фаз, це означає, що команда погано спланувала. 

Він складається з п'яти фаз:

  1. Вимога
  2. дизайн
  3. Реалізація
  4. Перевірка (тестування)
  5. Технічне обслуговування (розгортання)

Отже, коли слід використовувати методологію водоспаду? Оскільки тече, як вода, все повинно бути ясно. Це означає, що мета визначена, команда знає технологію зсередини, а всі елементи проекту готові, щоб забезпечити плавний і ефективний процес. 

Але повернемося до реальності. Проекти науки про дані легко течуть, як вода? Ні. Вони вимагають багато експериментів, змін вимог тощо. Однак це не означає, що ви не можете використовувати елементи методології водоспаду. Методологія водоспаду вимагає багато планування. Якщо ви все сплануєте, так, ви все одно можете зіткнутися з 1 або 2 проблемами на шляху, але викликів буде менше і не настільки жорстко для процесу. 

Спритна методологія

Команда Agile методологія виникла на початку 2001 року, коли 17 людей зібралися разом, щоб обговорити майбутнє розробки програмного забезпечення. Він заснований на 4 основних цінностях і 12 принципах.

Гнучка методологія більше відповідає сучасним технологіям, оскільки працює в індустрії технологій, що швидко розвивається та постійно змінюється. Якщо ви технічний професіонал, ви знаєте, що вимоги до наукових даних або проектів програмного забезпечення постійно змінюються. Тому важливо мати правильний метод, який дозволить вам швидко адаптуватися до цих змін.

Гнучка методологія є ідеальним методом управління проектами в галузі науки про дані, оскільки дозволяє команді постійно переглядати вимоги проекту в міру його зростання. Керівники та менеджери з обробки даних можуть ухвалювати рішення про зміни, які необхідно внести під час процесу розробки, а не в кінці, коли все завершено. 

Це виявилося дуже ефективним, оскільки модель розвивається, щоб відображати результати, орієнтовані на користувача, заощаджуючи час, гроші та енергію. 

Прикладом гнучкого методу є Бійка. Метод scrum використовує структуру, яка допомагає створити структуру в команді, використовуючи набір цінностей, принципів і практик. Наприклад, використовуючи Scrum, науковий проект даних може розбити свій більший проект на низку менших проектів. Кожен із цих міні-проектів називатиметься спринтом і складатиметься з планування спринту для визначення цілей, вимог, обов’язків тощо. 

Гібридна методологія

Чому б не використовувати два різні методи разом? Це називається гібридним методом, коли дві або більше методологій використовуються для створення методу, який є повністю унікальним для бізнесу. Компанії можуть використовувати гібридні методи для будь-яких типів проектів, однак причиною цього є доставка продукту. 

Наприклад, якщо клієнту потрібен продукт, але він не задоволений термінами виробництва на основі використання спринтів у методі Agile. Тож здається, що компанії потрібно трохи більше планувати, чи не так? Який метод має багато планування? Так, саме так, Водоспад. Компанія може використовувати водоспад у своєму методі, щоб задовольнити вимоги клієнта. 

Деякі компанії можуть мати змішані емоції щодо поєднання гнучкого методу з негнучким методом, таким як Waterfall. Ці два методи можуть співіснувати, однак компанія зобов’язана забезпечити простий підхід, який має сенс, виміряти успіх гібридного методу та забезпечити продуктивність. 

Дослідження та розвиток

Хтось може вважати це методологією, однак я вважаю, що це важлива основа для процесу наукового проекту даних. Так само, як і методологія водоспаду, немає шкоди в плануванні та підготовці з якомога більшою кількістю інформації.

Але я говорю не про це. Так, чудово досліджувати все, перш ніж почати проект. Але хороший спосіб забезпечити ефективне управління проектом — розглядати свій проект як проект дослідження та розробки. Це ефективний інструмент для співпраці команди з обробки даних.

Ви хочете пройти пішки, перш ніж запускати та керувати своїм науковим проектом даних, як науковою роботою. Деякі проекти з обробки даних мають суворі терміни, що ускладнює цей процес, однак поспішна робота над кінцевим продуктом завжди пов’язана з додатковими труднощами. Ви хочете побудувати ефективну й успішну модель, яка відповідає початковому етапу життєвого циклу науки про дані: бізнес-розуміння. 

Дослідження та розробки в проекті Data Science тримають двері відкритими для інновацій, підвищують креативність і не обмежують команду вирішувати щось, що могло б бути набагато більшим!

Хоча існують різні методології на вибір, зрештою це зводиться до операцій бізнесу. Деякі методи, популярні в одній компанії, можуть бути не найкращим підходом для іншої компанії. 

Люди можуть мати різні способи роботи, тому найкращим підходом є створення методу, який працює для всіх. 

Хочете дізнатися про автоматизацію робочого процесу обробки даних, прочитайте це: Автоматизація в робочих процесах Data Science.
 
 
Ніша Арья є дослідником даних, позаштатним технічним автором і менеджером спільноти в KDnuggets. Вона особливо зацікавлена ​​в наданні кар’єрних порад щодо Data Science або навчальних посібників і теоретичних знань щодо Data Science. Вона також хоче вивчити різні способи, якими штучний інтелект приносить/може підвищити тривалість людського життя. Завзято навчається, прагне розширити свої технічні знання та навички письма, водночас допомагаючи керувати іншими.
 

Часова мітка:

Більше від KDnuggets