Przewodnik po metodologiach zarządzania projektami Data Science — KDnuggets

Przewodnik po metodologiach zarządzania projektami Data Science – KDnuggets

Węzeł źródłowy: 2756610

Przewodnik po metodologiach zarządzania projektami związanymi z nauką o danych
Zdjęcie autora
 

Projekt analizy danych składa się z wielu elementów. W proces ten zaangażowanych jest wiele osób, a po drodze pojawia się wiele wyzwań. Wiele firm widzi potrzebę data science i została ona dziś wdrożona w naszym życiu. Niektórzy jednak nie wiedzą, jak wykorzystać analizę danych i jaką ścieżkę wybrać, aby to osiągnąć. 

Największym założeniem, jakie przyjmują firmy korzystając z analityki danych, jest sugerowanie, że ze względu na użycie języka programowania imituje on tę samą metodologię, co inżynieria oprogramowania. Jednak wbudowana w modele analiza danych i oprogramowanie są różne. 

Aby odnieść sukces, nauka o danych wymaga unikalnego cyklu życia i metodologii. 

Cykl życia analizy danych można podzielić na 7 kroków. 

Zrozumienie biznesu

Jeśli produkujesz coś dla firmy, Twoim pytaniem numer 1 powinno być „Dlaczego?”. Dlaczego musimy to zrobić? Dlaczego jest to ważne dla biznesu? Dlaczego? Dlaczego? Dlaczego?

Zespół analityki danych jest odpowiedzialny za budowanie modelu i tworzenie analiz danych w oparciu o wymagania biznesowe. Na tej fazie cyklu życia analizy danych zespół analityki danych i kadra kierownicza firmy powinni określić główne cele projektu, na przykład analizując zmienne, które należy przewidzieć. 

Na jakim rodzaju projektu z zakresu analityki danych jest to oparte? Czy jest to zadanie regresji, klasyfikacji, grupowania czy wykrywania anomalii? Gdy zrozumiesz ogólny cel swojego obiektu, możesz dalej zadawać pytania: dlaczego, co, gdzie, kiedy i jak! Zadawanie właściwych pytań to sztuka, która zapewni zespołowi zajmującemu się analizą danych dogłębny kontekst projektu. 

Data Mining

Kiedy już uzyskasz całą wiedzę biznesową niezbędną do realizacji projektu, następnym krokiem będzie zainicjowanie projektu poprzez zebranie danych. Faza eksploracji danych obejmuje gromadzenie danych z różnych źródeł, które są zgodne z celem projektu. 

Pytania, które będziesz zadawać na tym etapie, to: Jakich danych potrzebuję do tego projektu? Skąd mogę uzyskać te dane? Czy te dane pomogą zrealizować mój cel? Gdzie będę przechowywać te dane? 

Czyszczenie danych

Niektórzy badacze danych decydują się na połączenie faz eksploracji danych i czyszczenia danych. Warto jednak rozróżnić fazy, aby usprawnić pracę. 

Czyszczenie danych to najbardziej czasochłonna faza w przepływie pracy związanym z analizą danych. Im większe dane, tym dłużej to trwa. Ukończenie tego może zazwyczaj zająć do 50–80% czasu analityka danych. Trwa to tak długo, ponieważ dane nigdy nie są czyste. Możesz mieć do czynienia z danymi, które zawierają niespójności, brakujące dane, nieprawidłowe etykiety, błędy ortograficzne i nie tylko. 

Przed wykonaniem jakichkolwiek prac analitycznych należy poprawić te błędy, aby mieć pewność, że dane, z którymi planujesz pracować, są prawidłowe i dadzą dokładne wyniki. 

Eksploracja danych

Po dużej ilości czasu i energii poświęconej na czyszczenie danych, masz teraz czyste dane, z którymi możesz pracować. Czas eksploracji danych! Ta faza to burza mózgów dotycząca ogólnego celu projektu. Chcesz zagłębić się w to, co możesz znaleźć w danych, w ukryte wzorce, tworzyć wizualizacje, aby znaleźć dalsze spostrzeżenia i nie tylko. 

Dzięki tym informacjom będziesz mógł stworzyć hipotezę zgodną z Twoim celem biznesowym i wykorzystać ją jako punkt odniesienia, aby upewnić się, że wykonałeś zadanie. 

Inżynieria funkcji

Inżynieria cech to opracowywanie i konstruowanie nowych funkcji danych na podstawie surowych danych. Bierzesz surowe dane i tworzysz funkcje informacyjne, które są zgodne z Twoimi celami biznesowymi. Faza inżynierii cech składa się z wyboru cech i ich konstrukcji.

Wybór funkcji polega na zmniejszeniu liczby posiadanych funkcji, które powodują więcej szumu w danych niż w rzeczywistości wartościowe informacje. Posiadanie zbyt wielu funkcji może prowadzić do przekleństwa wymiarowości, zwiększonej złożoności danych, z których model może łatwo i skutecznie się uczyć. 

Konstrukcja funkcji jest w nazwie. Jest to tworzenie nowych funkcji. Korzystając z obecnie posiadanych funkcji, możesz utworzyć nowe funkcje, na przykład, jeśli Twój cel koncentruje się na starszych członkach, możesz ustawić próg dla żądanego wieku.

Ta faza jest bardzo ważna, ponieważ będzie miała wpływ na dokładność modelu predykcyjnego. 

Modelowanie predykcyjne

Tutaj zaczyna się zabawa i zobaczysz, czy osiągnąłeś swój cel biznesowy. Modelowanie predykcyjne polega na szkoleniu danych, testowaniu ich i stosowaniu kompleksowych metod statystycznych w celu zapewnienia, że ​​wyniki modelu są istotne dla postawionej hipotezy. 

Na podstawie wszystkich pytań zadanych na etapie „Zrozumienia Biznesu” będziesz w stanie określić, który model jest odpowiedni dla Twojego zadania. Wybór modelu może być procesem prób i błędów, ale jest to ważne, aby mieć pewność, że stworzysz udany model, który daje dokładne wyniki. 

Po zbudowaniu modelu warto go wytrenować na zestawie danych i ocenić jego wydajność. Do pomiaru dokładności możesz użyć różnych wskaźników oceny, takich jak k-krotna walidacja krzyżowa, i kontynuować tę czynność, aż będziesz zadowolony ze swojej wartości dokładności. 

Testowanie modelu przy użyciu danych testowych i walidacyjnych zapewnia dokładność i dobre działanie modelu. Zasilanie danych niewidocznymi danymi to dobry sposób na sprawdzenie, jak model radzi sobie z danymi, na których nie był wcześniej szkolony. To sprawia, że ​​Twój model działa!

Wizualizacja danych

Gdy będziesz zadowolony z wydajności swojego modelu, możesz wrócić i wyjaśnić wszystko kierownictwu firmy. Tworzenie wizualizacji danych to dobry sposób na wyjaśnienie swoich ustaleń osobom, które nie mają wiedzy technicznej, ale jest także dobrym sposobem na opowiedzenie historii o danych.

Wizualizacja danych to połączenie komunikacji, statystyki i sztuki. Istnieje wiele sposobów prezentowania wyników badań w estetyczny sposób. Możesz skorzystać z narzędzi takich jak Dokumentacja Matplotlib, Poradnik Seaborna, Biblioteka Działkowa. Jeśli używasz Pythona, przeczytaj to: Twórz niesamowite wizualizacje za pomocą Python Graph Gallery

I tak po prostu jesteś na końcu cyklu życia, ale pamiętaj, że to cykl. Trzeba więc wrócić do początku: zrozumienie biznesu. Będziesz musiał ocenić powodzenie swojego modelu w odniesieniu do pierwotnego zrozumienia i celów biznesowych, a także stworzonej hipotezy.

Teraz, gdy przeszliśmy przez cykl życia nauki o danych, z pewnością myślisz, że wydaje się to bardzo proste. To po prostu krok za krokiem. Ale wszyscy wiemy, że sprawy nie są takie proste. Aby uczynić to tak prostym i skutecznym, jak to tylko możliwe, należy wdrożyć metodyki zarządzania. 

Projekty związane z analityką danych nie leżą już wyłącznie w gestii analityków danych – jest to wysiłek zespołowy. Dlatego standaryzacja zarządzania projektami jest konieczna i istnieją metody, które można zastosować, aby to zapewnić. Przyjrzyjmy się im.

Metodologia wodospadu

Metodologia wodospadu, podobnie jak wodospad, to sekwencyjny proces rozwoju, który przebiega przez wszystkie etapy projektu. Każdy etap musi zostać ukończony, aby można było rozpocząć kolejny. Fazy ​​nie nakładają się na siebie, co czyni tę metodę skuteczną, ponieważ nie dochodzi do kolizji. Jeśli będziesz musiał ponownie przejść do poprzednich faz, oznacza to, że zespół źle zaplanował. 

Składa się z pięciu faz:

  1. wymagania
  2. Wnętrze
  3. Realizacja
  4. Weryfikacja (testowanie)
  5. Konserwacja (wdrożenie)

Kiedy więc warto zastosować metodologię wodospadu? Ponieważ płynie jak woda, wszystko musi być jasne. Oznacza to, że cel jest zdefiniowany, zespół zna od podszewki stos technologii, a wszystkie elementy projektu są na swoim miejscu, aby zapewnić płynny i skuteczny proces. 

Ale wróćmy do rzeczywistości. Czy projekty związane z analizą danych płyną jak woda? Nie. Wymagają wielu eksperymentów, zmian wymagań i nie tylko. Nie oznacza to jednak, że nie można zastosować elementów metodologii kaskady. Metodologia wodospadu wymaga dużo planowania. Jeśli wszystko zaplanujesz, tak, nadal możesz natknąć się na 1 lub 2 problemy po drodze, ale wyzwania będą mniejsze i nie tak trudne dla procesu. 

Metodyka Agile

Połączenia Metodologia zwinna powstał na początku 2001 roku, kiedy 17 osób zebrało się, aby omówić przyszłość tworzenia oprogramowania. Została założona w oparciu o 4 podstawowe wartości i 12 zasad.

Metodologia zwinna jest bardziej zgodna z dzisiejszą technologią, ponieważ sprawdza się w szybko zmieniającym się przemyśle technologicznym. Jeśli jesteś profesjonalistą w dziedzinie technologii, wiesz, że wymagania dotyczące analizy danych lub projektu oprogramowania cały czas się zmieniają. Dlatego ważne jest posiadanie odpowiedniej metody, która pozwoli szybko dostosować się do tych zmian.

Metodologia zwinna jest doskonałą metodą zarządzania projektami z zakresu analityki danych, ponieważ pozwala zespołowi na ciągły przegląd wymagań projektu w miarę jego rozwoju. Menedżerowie i menedżerowie ds. analityki danych mogą podejmować decyzje dotyczące zmian, które należy wprowadzić w trakcie procesu programowania, a nie na końcu, gdy wszystko jest już gotowe. 

Okazało się to bardzo skuteczne w miarę ewolucji modelu w celu odzwierciedlania wyników zorientowanych na użytkownika, co pozwala zaoszczędzić czas, pieniądze i energię. 

Przykładem metody zwinnej jest Scrum. Metoda scrum wykorzystuje framework, który pomaga stworzyć strukturę w zespole przy użyciu zestawu wartości, zasad i praktyk. Na przykład, korzystając ze Scruma, projekt związany z analizą danych może podzielić większy projekt na serię mniejszych projektów. Każdy z tych miniprojektów będzie nazywany sprintem i będzie obejmował planowanie sprintu w celu zdefiniowania celów, wymagań, obowiązków i nie tylko. 

Metodologia hybrydowa

Dlaczego nie zastosować razem dwóch różnych metod? Nazywa się to metodą hybrydową, w której stosuje się dwie lub więcej metodologii w celu stworzenia metody całkowicie unikalnej dla danej firmy. Firmy mogą stosować metody hybrydowe we wszystkich typach projektów, jednak uzasadnieniem tego jest dostawa produktu. 

Np. jeśli klient potrzebuje produktu, ale nie jest zadowolony z ram czasowych produkcji w oparciu o wykorzystanie sprintów w metodzie Agile. Wygląda więc na to, że firma musi trochę więcej planować, prawda? Jaka metoda ma dużo planowania? Tak, zgadza się, Wodospad. Firma może zastosować wodospad w swojej metodzie, aby zaspokoić wymagania klienta. 

Niektóre firmy mogą mieć mieszane uczucia co do łączenia metody zwinnej z metodą niezwinną, taką jak Waterfall. Te dwie metody mogą współistnieć, jednak obowiązkiem firmy jest zapewnienie prostego podejścia, które ma sens, mierzy skuteczność metody hybrydowej i zapewnia produktywność. 

Badania i rozwój

Niektórzy mogą uważać to za metodologię, jednak uważam, że jest to ważna podstawa procesu projektu związanego z analizą danych. Podobnie jak w przypadku metody wodospadu, nie ma nic złego w planowaniu i przygotowywaniu się, mając jak najwięcej informacji.

Ale nie o tym tutaj mówię. Tak, wspaniale jest sprawdzić wszystko przed rozpoczęciem projektu. Jednak dobrym sposobem na zapewnienie skutecznego zarządzania projektem jest postrzeganie projektu jako projektu badawczo-rozwojowego. Jest to skuteczne narzędzie do współpracy zespołów zajmujących się analityką danych.

Przed uruchomieniem i obsługą projektu związanego z analizą danych chcesz zacząć działać tak, jakby był to artykuł badawczy. Niektóre projekty związane z analizą danych mają rygorystyczne terminy, które utrudniają ten proces, jednak przyspieszenie tworzenia produktu końcowego zawsze wiąże się z dalszymi wyzwaniami. Chcesz zbudować skuteczny i pomyślny model, który spełni początkową fazę cyklu życia analizy danych: zrozumienie biznesu. 

Badania i rozwój w projekcie związanym z nauką o danych otwierają drzwi do innowacji, zwiększają kreatywność i nie ograniczają zespołu do zadowalania się czymś, co mogłoby być znacznie większe!

Chociaż do wyboru są różne metodologie, ostatecznie sprowadza się to do działalności przedsiębiorstwa. Niektóre metody popularne w jednej firmie mogą nie być najlepszym podejściem w innej firmie. 

Poszczególne osoby mogą mieć różne sposoby pracy, dlatego najlepszym podejściem jest stworzenie metody, która będzie skuteczna dla każdego. 

Chcesz dowiedzieć się, jak zautomatyzować przepływ pracy w zakresie analizy danych, przeczytaj to: Automatyzacja w przepływach pracy Data Science.
 
 
Nisza Arja jest analitykiem danych, niezależnym pisarzem technicznym i menedżerem ds. społeczności w KDnuggets. Jest szczególnie zainteresowana udzielaniem porad dotyczących kariery w Data Science lub samouczkami i wiedzą opartą na teorii wokół Data Science. Chciałaby również zbadać różne sposoby, w jakie sztuczna inteligencja jest / może korzystnie wpłynąć na długowieczność ludzkiego życia. Chętnie się uczy, stara się poszerzyć swoją wiedzę techniczną i umiejętności pisania, jednocześnie pomagając innym.
 

Znak czasu:

Więcej z Knuggety