Útmutató az adattudományi projektmenedzsment módszertanokhoz – KDnuggets

Útmutató az adattudományi projektmenedzsment módszertanokhoz – KDnuggets

Forrás csomópont: 2756610

Útmutató az adattudományi projektmenedzsment módszertanokhoz
A kép szerzője
 

Egy adattudományi projektnek sok eleme van. Sok ember vesz részt a folyamatban, és számos kihívással kell szembenézni az út során. Nagyon sok cég látja szükségét az adattudománynak, és ma már be is vezették az életünkbe. Néhányan azonban küszködnek azzal, hogyan használják ki az adatelemzést, és melyik utat használják az eléréshez. 

A legnagyobb feltételezés, amit a vállalatok az adattudományok használatakor feltesznek, az az, hogy a programozási nyelvhasználatuk miatt ugyanazt a módszertant utánozza, mint a szoftverfejlesztés. A modellek beépített adattudománya és szoftvere azonban eltérő. 

Az adattudománynak egyedi életciklusára és módszertanára van szükség ahhoz, hogy sikeres legyen. 

Az adattudományi életciklus 7 lépésre bontható. 

Üzleti Megértés

Ha bármit is gyárt egy cégnek, az első számú kérdés a „Miért?” legyen. Miért kell ezt tennünk? Miért fontos ez a vállalkozás számára? Miért? Miért? Miért?

Az adattudományi csapat feladata egy modell felépítése és az adatelemzések elkészítése az üzleti igények alapján. Az adattudományi életciklus ezen szakaszában az adattudományi csapatnak és a vállalat vezetőinek meg kell határozniuk a projekt központi céljait, például meg kell vizsgálniuk azokat a változókat, amelyeket előre kell jelezni. 

Milyen adattudományi projektre épül ez? Ez egy regressziós vagy osztályozási feladat, klaszterezés vagy anomália-detektálás? Miután megértette tárgya általános célját, tovább kérdezheti, hogy miért, mit, hol, mikor és hogyan! A megfelelő kérdések feltevése művészet, és az adattudományi csapat számára mélyreható kontextust biztosít a projekthez. 

Data Mining

Ha minden üzleti ismerete megvan, amire a projekthez szüksége van, a következő lépés a projekt adatgyűjtéssel történő elindítása lesz. Az adatbányászati ​​szakasz magában foglalja a különböző forrásokból származó adatok gyűjtését, amelyek összhangban vannak a projekt céljával. 

A kérdések, amelyeket ebben a szakaszban fel fog tenni: Milyen adatokra van szükségem ehhez a projekthez? Honnan szerezhetem ezeket az adatokat? Segítenek-e ezek az adatok elérni a célomat? Hol tárolom ezeket az adatokat? 

Adatok tisztítása

Egyes adattudósok úgy döntenek, hogy az adatbányászati ​​és adattisztítási fázisokat egyesítik. A jobb munkafolyamat érdekében azonban érdemes megkülönböztetni a fázisokat. 

Az adattisztítás az adattudományi munkafolyamat legidőigényesebb szakasza. Minél nagyobb az adatok, annál tovább tart. Általában az adattudósok idejének 50-80%-át is igénybe veheti. Azért tart ilyen sokáig, mert az adatok soha nem tiszták. Előfordulhat, hogy olyan adatokkal kell számolnia, amelyekben következetlenségek, hiányzó adatok, helytelen címkék, helyesírási hibák stb. 

Bármilyen elemző munka elvégzése előtt ki kell javítania ezeket a hibákat, hogy megbizonyosodjon arról, hogy a dolgozni kívánt adatok helyesek, és pontos eredményeket produkálnak. 

Adatfeltárás

Az adatok tisztítására fordított sok idő és energia után most már csikorgó tiszta adatok állnak rendelkezésére, amelyekkel dolgozhat. Adatfeltárási idő! Ez a fázis az átfogó projektcél ötletbörze. Mélyen bele akar merülni abba, hogy mit találhat az adatokból, a rejtett mintákból, vizualizációkat szeretne létrehozni, hogy további betekintést nyerjen és még sok más. 

Ezzel az információval olyan hipotézist állíthat fel, amely összhangban van üzleti céljával, és referenciapontként használhatja azt annak biztosítására, hogy a feladatot teljesítse. 

Feature Engineering

A szolgáltatásfejlesztés új adatszolgáltatások fejlesztése és létrehozása nyers adatokból. Felveszi a nyers adatokat, és olyan informatív funkciókat hoz létre, amelyek összhangban vannak üzleti céljával. A jellemző tervezési szakasz a jellemzők kiválasztásából és a jellemzők felépítéséből áll.

A funkciók kiválasztása akkor történik, amikor csökkenti azon funkciók számát, amelyek több zajt adnak az adatokhoz, mint a tényleges értékes információk. A túl sok funkció a dimenzionalitás átkához vezethet, az adatok megnövekedett összetettségéhez, amelyből a modell könnyen és hatékonyan tanulhat. 

A funkció felépítése benne van a névben. Ez új funkciók felépítése. A jelenleg rendelkezésre álló funkciók használatával új funkciókat hozhat létre, például ha a célja az idősebb tagokra összpontosul, létrehozhat egy küszöböt a kívánt életkorhoz.

Ez a fázis nagyon fontos, mivel befolyásolja a prediktív modell pontosságát. 

Prediktív modellezés

Itt kezdődik a móka, és látni fogja, hogy elérte-e üzleti célját. A prediktív modellezés az adatok betanításából, teszteléséből és átfogó statisztikai módszerek alkalmazásából áll annak biztosítására, hogy a modellből származó eredmények szignifikánsak a felállított hipotézis szempontjából. 

Az „Üzleti megértés” szakaszban feltett összes kérdés alapján képes lesz meghatározni, hogy melyik modell felel meg az adott feladatnak. Lehet, hogy a modellválasztás próba- és hibafolyamat, de ez fontos annak érdekében, hogy sikeres, pontos kimeneteket produkáló modellt hozzon létre. 

Miután elkészítette a modellt, meg kell tanítania az adatkészletére, és értékelnie kell a teljesítményét. Használhat különböző értékelési mérőszámokat, például a k-szeres keresztellenőrzést a pontosság mérésére, és ezt addig folytathatja, amíg elégedett nem lesz a pontossági értékével. 

A modell tesztelése tesztelési és érvényesítési adatokkal biztosítja a pontosságot és azt, hogy a modell jól teljesít. Az adatok nem látott adatokkal való betáplálása jó módja annak, hogy megnézze, hogyan teljesít a modell olyan adatokkal, amelyekre korábban nem képezték ki. Munkára teszi a modelljét!

Adatmegjelenítés

Ha elégedett modellje teljesítményével, készen áll arra, hogy visszatérjen, és mindent elmagyarázzon a vállalat vezetőinek. Az adatvizualizációk létrehozása jó módja annak, hogy elmagyarázza az eredményeket a nem műszaki szakembereknek, és jó módja annak, hogy meséljen az adatokról.

Az adatvizualizáció a kommunikáció, a statisztika és a művészet kombinációja. Nagyon sokféleképpen lehet esztétikusan bemutatni az adatleleteket. Használhat olyan eszközöket, mint pl Matplotlib dokumentáció, Seaborn bemutatóés Plotly Library. Ha Pythont használ, olvassa el ezt: Készítsen lenyűgöző vizualizációkat a Python Graph Gallery segítségével

És éppen így az életciklus végén jársz, de ne feledd, hogy ez egy ciklus. Tehát vissza kell térnie a kezdetekhez: az üzleti megértéshez. Értékelnie kell modellje sikerét az eredeti üzleti felfogás és célkitűzés, valamint a felállított hipotézis tekintetében.

Most, hogy átestünk az adattudomány életciklusán, biztosan azt gondolja, hogy ez nagyon egyszerűnek tűnik. Csak egyik lépés a másik után. De mindannyian tudjuk, hogy a dolgok nem ilyen egyszerűek. Annak érdekében, hogy ez a lehető legegyszerűbb és leghatékonyabb legyen, irányítási módszereket kell bevezetni. 

Az adattudományi projektek már nem kizárólag az adatkutatók felelősségi körébe tartoznak – ez csapatmunka. Ezért a projektmenedzsment szabványosítása elengedhetetlen, és vannak módszerek, amelyek segítségével ezt biztosíthatja. Nézzünk utánuk.

Vízesés módszertana

Csakúgy, mint egy vízesés, a vízesés módszertana egy szekvenciális fejlesztési folyamat, amely a projekt minden szakaszán áthalad. Minden fázist be kell fejezni a következő szakasz megkezdéséhez. Nincs átfedés a fázisok között, így ez egy hatékony módszer, mivel nincsenek ütközések. Ha újra kell tekintenie az előző fázisokat, az azt jelenti, hogy a csapat rosszul tervezett. 

Öt fázisból áll:

  1. követelmények
  2. Design
  3. Implementáció
  4. Ellenőrzés (tesztelés)
  5. Karbantartás (telepítés)

Mikor érdemes tehát használni a vízesés módszertant? Mivel úgy folyik, mint a víz, mindennek tisztának kell lennie. Ez azt jelenti, hogy a cél meg van határozva, a csapat belülről ismeri a technológiai halmazt, és a projektelemek mind a helyükön vannak a zökkenőmentes és hatékony folyamat biztosítása érdekében. 

De térjünk vissza a valósághoz. Az adattudományi projektek könnyen folynak, mint a víz? Nem. Sok kísérletezést, követelménymódosítást és egyebeket igényelnek. Ez azonban nem jelenti azt, hogy nem használhatja a vízesés módszertan elemeit. A vízesés módszertana sok tervezést igényel. Ha mindent megtervez, igen, még mindig találkozhat 1-2 problémával útközben, de a kihívások kevesebbek lesznek, és nem olyan kemények a folyamat során. 

Agilis módszertan

A Agilis módszertan 2001 elején született, amikor 17 ember gyűlt össze, hogy megvitassák a szoftverfejlesztés jövőjét. 4 alapértékre és 12 alapelvre épült.

Az agilis módszertan jobban illeszkedik a mai technológiához, hiszen egy felgyorsult, folyamatosan változó technológiai iparágban működik. Ha Ön műszaki szakember, tudja, hogy az adattudományi vagy szoftverprojektek követelményei folyamatosan változnak. Ezért fontos a megfelelő módszer alkalmazása, amely lehetővé teszi, hogy gyorsan alkalmazkodjon ezekhez a változásokhoz.

Az agilis módszertan tökéletes adattudományi projektmenedzsment módszer, mivel lehetővé teszi a csapat számára, hogy folyamatosan felülvizsgálja a projekt igényeit a növekedés során. A vezetők és az adattudományi menedzserek a fejlesztési folyamat során hozhatnak döntéseket a szükséges változtatásokról, nem pedig a végén, miután az egész befejeződött. 

Ez rendkívül hatékonynak bizonyult, mivel a modell fejlődik, hogy tükrözze a felhasználó-központú teljesítményt, így időt, pénzt és energiát takarít meg. 

Példa az agilis módszerre Scrum. A scrum módszer olyan keretrendszert használ, amely értékek, alapelvek és gyakorlatok halmazával segít struktúrát létrehozni egy csapatban. Például a Scrum használatával egy adattudományi projekt feloszthatja nagyobb projektjét kisebb projektek sorozatára. Ezen mini-projektek mindegyikét sprintnek nevezik, és a sprint tervezéséből áll majd a célok, követelmények, felelősségek és egyebek meghatározása érdekében. 

Hibrid módszertan

Miért nem használunk két különböző módszert együtt? Ezt hibrid módszernek nevezik, ahol két vagy több módszert alkalmaznak egy olyan módszer létrehozására, amely teljesen egyedi a vállalkozás számára. A vállalatok minden típusú projekthez használhatnak hibrid módszereket, azonban ennek oka a termékszállításon múlik. 

Például, ha az ügyfélnek szüksége van egy termékre, de nem elégedett a gyártás időkeretével, amely az Agilis módszerben történő sprintek használatán alapul. Tehát úgy tűnik, hogy a cégnek egy kicsit többet kell terveznie, igaz? Melyik módszerben van sok tervezés? Igen, ez így van, Waterfall. A vállalat vízesést alkalmazhat módszerébe, hogy kifejezetten az ügyfél igényeit kielégítse. 

Egyes vállalatoknak vegyes érzelmei lehetnek egy agilis módszer és egy nem agilis módszer, például a Waterfall kombinálásával. Ez a két módszer együtt is létezhet, azonban a vállalat felelőssége, hogy egy egyszerű, értelmes megközelítést biztosítson, mérje a hibrid módszer sikerességét és termelékenységet biztosítson. 

Kutatás és fejlesztés

Egyesek ezt módszertannak tekinthetik, de úgy gondolom, hogy ez fontos alapja az adattudományi projektfolyamatnak. A vízesés módszertanához hasonlóan nem árt megtervezni és minél több információval felkészülni.

De itt nem erről beszélek. Igen, nagyszerű mindent megvizsgálni, mielőtt elkezdené a projektet. De a hatékony projektmenedzsment biztosításának jó módja, ha a projektjét kutatási és fejlesztési projektnek tekinti. Ez egy hatékony eszköz az adattudományi csapatok együttműködéséhez.

Sétálni szeretne, mielőtt futtatná és működtetné adattudományi projektjét, mintha egy kutatási dokumentum lenne. Egyes adattudományi projektek szigorú határidőkkel rendelkeznek, amelyek megnehezítik ezt a folyamatot, azonban a végtermék siettetése mindig további kihívásokkal jár. Hatékony és sikeres modellt szeretne felépíteni, amely megfelel az adattudományi életciklus kezdeti szakaszának: az üzleti megértésnek. 

Az adattudományi projektben végzett kutatás és fejlesztés nyitva tartja az ajtókat az innováció előtt, növeli a kreativitást, és nem korlátozza a csapatot abban, hogy valamivel megelégedjen, ami sokkal nagyobb lehet!

Bár különböző módszerek közül lehet választani, végső soron a vállalkozás működésétől függ. Egyes módszerek, amelyek népszerűek az egyik vállalatnál, nem feltétlenül a legjobb megközelítés egy másik vállalat számára. 

Az egyének eltérő módon dolgozhatnak, ezért a legjobb megközelítés egy olyan módszer létrehozása, amely mindenki számára megfelelő. 

Ha szeretne többet megtudni az adattudományi munkafolyamat automatizálásáról, olvassa el ezt: Automatizálás az adattudományi munkafolyamatokban.
 
 
Nisha Arya adattudós, szabadúszó műszaki író és közösségi menedzser a KDnuggets-nél. Különösen érdekli az adattudományi karriertanácsadás vagy oktatóanyagok, valamint elméleti alapú ismeretek nyújtása a Data Science területén. Azt is szeretné feltárni, hogy a mesterséges intelligencia milyen különböző módokon járulhat hozzá az emberi élet hosszú élettartamához. Szívesen tanuló, aki igyekszik bővíteni műszaki ismereteit és íráskészségét, miközben segít másoknak.
 

Időbélyeg:

Még több KDnuggets