Руководство по методологиям управления проектами в области науки о данных - KDnuggets

Руководство по методологиям управления проектами в области науки о данных — KDnuggets

Исходный узел: 2756610

Руководство по методологиям управления проектами в области науки о данных
Изображение по автору
 

Проект по науке о данных включает в себя множество элементов. В этом процессе задействовано много людей, и на этом пути приходится сталкиваться со многими проблемами. Многие компании видят необходимость в науке о данных, и сегодня она внедрена в нашу жизнь. Тем не менее, некоторые борются с тем, как использовать свою аналитику данных и какой путь использовать для достижения этой цели. 

Самое большое предположение, которое делают компании при использовании науки о данных, заключается в том, что из-за того, что они используют язык программирования, он имитирует ту же методологию, что и разработка программного обеспечения. Однако встроенная в модели наука о данных и программное обеспечение отличаются. 

Для успеха науки о данных требуется ее уникальный жизненный цикл и методологии. 

Жизненный цикл науки о данных можно разбить на 7 этапов. 

Понимание бизнеса

Если вы производите что-либо для компании, ваш вопрос номер 1 должен быть «Почему?». Зачем нам это нужно? Почему это важно для бизнеса? Почему? Почему? Почему?

Команда специалистов по обработке и анализу данных отвечает за построение модели и аналитику данных в соответствии с потребностями бизнеса. На этом этапе жизненного цикла науки о данных команда по науке о данных и руководители компании должны определить основные цели проекта, например, изучить переменные, которые необходимо прогнозировать. 

На каком проекте по науке о данных это основано? Это задача регрессии или классификации, кластеризация или обнаружение аномалий? Как только вы поймете общую цель вашего объекта, вы можете продолжать спрашивать, почему, что, где, когда и как! Задавать правильные вопросы — это искусство, и они предоставят команде по науке о данных всесторонний контекст проекта. 

Добыча данных

Как только у вас будет все понимание бизнеса, которое вам нужно для проекта, вашим следующим шагом будет запуск проекта путем сбора данных. Этап интеллектуального анализа данных включает в себя сбор данных из различных источников, которые соответствуют цели вашего проекта. 

Вопросы, которые вы будете задавать на этом этапе: Какие данные мне потребуются для этого проекта? Откуда я могу получить эти данные? Помогут ли эти данные выполнить мою задачу? Где я буду хранить эти данные? 

Очистка данных

Некоторые специалисты по данным предпочитают совмещать этапы интеллектуального анализа данных и очистки данных. Тем не менее, для лучшего рабочего процесса полезно различать фазы. 

Очистка данных — наиболее трудоемкий этап в рабочем процессе обработки данных. Чем больше ваши данные, тем больше времени это займет. Обычно это может занимать до 50-80% времени специалиста по данным. Причина, по которой это занимает так много времени, заключается в том, что данные никогда не бывают чистыми. Вы можете иметь дело с данными, которые имеют несоответствия, отсутствующие данные, неправильные метки, орфографические ошибки и многое другое. 

Перед выполнением любой аналитической работы вам необходимо исправить эти ошибки, чтобы убедиться, что данные, с которыми вы планируете работать, верны и будут давать точные результаты. 

Data Exploration

После того, как вы потратили много времени и энергии на очистку данных, у вас теперь есть кристально чистые данные, с которыми вы можете работать. Время исследования данных! Этот этап представляет собой мозговой штурм вашей общей цели проекта. Вы хотите глубоко погрузиться в то, что вы можете найти из данных, скрытых шаблонов, создания визуализаций, чтобы найти дополнительные идеи и многое другое. 

С помощью этой информации вы сможете создать гипотезу, которая соответствует вашей бизнес-цели, и использовать ее в качестве ориентира, чтобы убедиться, что вы выполняете задачу. 

Техническая инженерия

Инжиниринг признаков — это разработка и создание новых признаков данных из необработанных данных. Вы берете необработанные данные и создаете информативные функции, которые соответствуют вашей бизнес-цели. Фаза разработки признаков состоит из выбора признаков и построения признаков.

Выбор функций — это когда вы сокращаете количество имеющихся у вас функций, которые добавляют больше шума к данным, чем фактической ценной информации. Наличие слишком большого количества функций может привести к проклятию размерности, увеличению сложности данных, чтобы модель могла легко и эффективно учиться. 

Особенности построения в названии. Это построение новых функций. Используя функции, которые у вас есть в настоящее время, вы можете создавать новые функции, например, если ваша цель сосредоточена на старших участниках, вы можете создать порог для желаемого возраста.

Этот этап очень важен, так как он повлияет на точность вашей прогностической модели. 

Прогнозное моделирование

Здесь начинается самое интересное, и вы увидите, достигли ли вы своей бизнес-цели. Прогнозное моделирование состоит из обучения данных, их проверки и использования комплексных статистических методов, чтобы гарантировать, что результаты модели значимы для созданной гипотезы. 

Основываясь на всех вопросах, которые вы задали на этапе «Понимание бизнеса», вы сможете определить, какая модель подходит для вашей задачи. Ваш выбор модели может быть процессом проб и ошибок, но это важно для обеспечения того, чтобы вы создали успешную модель, которая дает точные выходные данные. 

После того, как вы построили свою модель, вы захотите обучить ее на своем наборе данных и оценить ее производительность. Вы можете использовать различные метрики оценки, такие как k-кратная перекрестная проверка, для измерения точности и продолжать делать это до тех пор, пока вы не будете довольны своим значением точности. 

Тестирование вашей модели с использованием данных тестирования и проверки гарантирует точность и хорошую работу вашей модели. Добавление в ваши данные невидимых данных — это хороший способ увидеть, как модель работает с данными, на которых она ранее не обучалась. Это заставляет вашу модель работать!

Визуализация данных

Как только вы будете довольны работой своей модели, вы будете готовы вернуться и объяснить все это руководителям компании. Создание визуализаций данных — это хороший способ объяснить свои выводы людям, не являющимся техническими специалистами, а также хороший способ рассказать историю о данных.

Визуализация данных — это сочетание коммуникации, статистики и искусства. Существует так много способов, которыми вы можете представить свои данные в эстетически приятном виде. Вы можете использовать такие инструменты, как Документация Matplotlib, Учебник Seabornи Сюжетная библиотека. Если вы используете Python, прочтите это: Создавайте удивительные визуализации с галереей Python Graph

И точно так же вы находитесь в конце жизненного цикла, но помните, что это цикл. Итак, вы должны вернуться к началу: понимание бизнеса. Вам нужно будет оценить успех вашей модели в отношении первоначального понимания бизнеса и цели, а также созданной гипотезы.

Теперь, когда мы прошли жизненный цикл науки о данных, вы, должно быть, думаете, что это кажется очень простым. Это просто один шаг за другим. Но все мы знаем, что все не так просто. Чтобы сделать его максимально простым и эффективным, необходимо внедрить методологии управления. 

Проекты по науке о данных больше не находятся в сфере ответственности специалистов по данным — это командная работа. Поэтому стандартизация управления проектами обязательна, и есть методы, которые можно использовать для обеспечения этого. Давайте рассмотрим их.

Методология водопада

Подобно водопаду, методология водопада представляет собой последовательный процесс разработки, проходящий через все этапы проекта. Каждая фаза должна быть завершена, чтобы начать следующую фазу. Между фазами нет перекрытия, что делает этот метод эффективным, поскольку нет конфликтов. Если вам приходится пересматривать предыдущие этапы, это означает, что команда плохо спланировала. 

Он состоит из пяти фаз:

  1. Требования
  2. Проект
  3. Реализация
  4. Проверка (тестирование)
  5. Обслуживание (развертывание)

Итак, когда следует использовать метод водопада? Поскольку она течет, как вода, все должно быть ясно. Это означает, что цель определена, команда знает стек технологий наизнанку, а все элементы проекта готовы для обеспечения плавного и эффективного процесса. 

Но вернемся к реальности. Легко ли текут проекты по науке о данных? Нет. Они требуют много экспериментов, изменений требований и многого другого. Однако это не означает, что вы не можете использовать элементы методологии водопада. Методология водопада требует тщательного планирования. Если вы все спланируете, да, вы все равно можете столкнуться с 1 или 2 проблемами на пути, но проблем будет меньше, и они не будут такими суровыми в процессе. 

Гибкая методология

Ассоциация Agile методология родилась в начале 2001 года, когда 17 человек собрались вместе, чтобы обсудить будущее разработки программного обеспечения. Он был основан на 4 основных ценностях и 12 принципах.

Гибкая методология больше соответствует современным технологиям, поскольку она работает в быстро меняющейся технологической отрасли. Если вы технический специалист, вы знаете, что требования к науке о данных или программному проекту постоянно меняются. Поэтому важно иметь правильный метод, который позволит вам быстро адаптироваться к этим изменениям.

Гибкая методология — это идеальный метод управления проектами в области науки о данных, поскольку он позволяет команде постоянно пересматривать требования проекта по мере его роста. Руководители и менеджеры по обработке данных могут принимать решения об изменениях, которые необходимо внести в процессе разработки, а не в конце, когда все будет завершено. 

Это показало свою высокую эффективность, поскольку модель развивается, чтобы отражать результаты, ориентированные на пользователя, экономя время, деньги и энергию. 

Примером гибкого метода является Scrum. В методе схватки используется структура, которая помогает создать структуру в команде, используя набор ценностей, принципов и практик. Например, используя Scrum, проект по науке о данных может разбить свой более крупный проект на серию более мелких проектов. Каждый из этих мини-проектов будет называться спринтом и будет состоять из планирования спринта для определения целей, требований, обязанностей и многого другого. 

Гибридная методология

Почему бы не использовать два разных метода вместе? Это называется гибридным методом, когда две или более методологии используются для создания метода, полностью уникального для бизнеса. Компании могут использовать гибридные методы для всех типов проектов, однако причина этого сводится к доставке продукта. 

Например, если клиенту требуется продукт, но его не устраивают сроки производства, основанные на использовании спринтов в методе Agile. Похоже, что компании нужно немного больше планировать, верно? В каком методе много планирования? Да, верно, Водопад. Компания может внедрить водопад в свой метод, чтобы удовлетворить требования клиента. 

Некоторые компании могут испытывать смешанные чувства по поводу сочетания гибкого метода с негибким методом, таким как Waterfall. Эти два метода могут сосуществовать, однако компания обязана обеспечить простой подход, который имеет смысл, измерить успех гибридного метода и обеспечить производительность. 

Исследования и разработки

Некоторые могут рассматривать это как методологию, однако я считаю, что это важная основа для процесса проекта по науке о данных. Как и в методологии водопада, нет ничего плохого в том, чтобы спланировать и подготовить себя, используя как можно больше информации.

Но это не то, о чем я говорю здесь. Да, здорово исследовать все, прежде чем начинать проект. Но хороший способ обеспечить эффективное управление проектом — рассматривать ваш проект как научно-исследовательский проект. Это эффективный инструмент для совместной работы команды специалистов по данным.

Вы хотите пройтись, прежде чем запускать и управлять своим проектом по науке о данных, как будто это исследовательская работа. Некоторые проекты по науке о данных имеют жесткие сроки, которые усложняют этот процесс, однако спешка с конечным продуктом всегда сопряжена с дополнительными проблемами. Вы хотите построить эффективную и успешную модель, соответствующую начальной фазе жизненного цикла науки о данных: понимание бизнеса. 

Исследования и разработки в проекте по науке о данных держат двери открытыми для инноваций, повышают креативность и не ограничивают команду, чтобы согласиться с чем-то, что могло бы быть намного лучше!

Хотя есть разные методологии на выбор, в конечном итоге все сводится к бизнес-операциям. Некоторые методы, популярные в одной компании, могут оказаться не лучшим подходом для другой компании. 

У разных людей могут быть разные способы работы, поэтому лучший подход — создать метод, который работает для всех. 

Хотите узнать об автоматизации рабочего процесса обработки данных, прочтите это: Автоматизация рабочих процессов Data Science.
 
 
Ниша Арья является специалистом по данным, внештатным техническим писателем и менеджером сообщества в KDnuggets. Она особенно заинтересована в предоставлении карьерных советов или учебных пособий по науке о данных, а также теоретических знаний по науке о данных. Она также хочет изучить различные способы, которыми искусственный интеллект может способствовать долголетию человеческой жизни. Страстная ученица, стремящаяся расширить свои технические знания и навыки письма, одновременно помогая другим.
 

Отметка времени:

Больше от КДнаггетс