A Guide to Data Science Project Management Methodologies - KDnuggets

Οδηγός για τις Μεθοδολογίες Διαχείρισης Έργων Επιστήμης Δεδομένων – KDnuggets

Κόμβος πηγής: 2756610

Οδηγός για τις Μεθοδολογίες Διαχείρισης Έργων Επιστήμης Δεδομένων
Εικόνα από συγγραφέα
 

Ένα έργο επιστήμης δεδομένων έχει πολλά στοιχεία σε αυτό. Υπάρχουν πολλοί άνθρωποι που εμπλέκονται στη διαδικασία και πολλές προκλήσεις αντιμετωπίζονται στην πορεία. Πολλές εταιρείες βλέπουν την ανάγκη για επιστήμη δεδομένων και έχει εφαρμοστεί στη ζωή μας σήμερα. Ωστόσο, ορισμένοι παλεύουν με το πώς να κάνουν χρήση των αναλύσεων δεδομένων τους και ποια διαδρομή να χρησιμοποιήσουν για να φτάσουν εκεί. 

Η μεγαλύτερη υπόθεση που κάνουν οι εταιρείες όταν χρησιμοποιούν την επιστήμη δεδομένων, είναι να υπονοήσουν ότι λόγω της χρήσης της γλώσσας προγραμματισμού, μιμείται την ίδια μεθοδολογία με τη μηχανική λογισμικού. Ωστόσο, η ενσωματωμένη επιστήμη δεδομένων και το λογισμικό των μοντέλων είναι διαφορετικά. 

Η επιστήμη των δεδομένων απαιτεί τον μοναδικό κύκλο ζωής και τις μεθοδολογίες της για να είναι επιτυχής. 

Ο κύκλος ζωής της επιστήμης δεδομένων μπορεί να χωριστεί σε 7 βήματα. 

Κατανόηση των επιχειρήσεων

Εάν παράγετε οτιδήποτε για μια εταιρεία, η νούμερο 1 ερώτηση σας θα πρέπει να είναι «Γιατί;». Γιατί χρειάζεται να το κάνουμε αυτό; Γιατί είναι σημαντικό για την επιχείρηση; Γιατί; Γιατί; Γιατί;

Η ομάδα της επιστήμης δεδομένων είναι υπεύθυνη για τη δημιουργία ενός μοντέλου και την παραγωγή αναλυτικών στοιχείων βάσει των απαιτήσεων της επιχείρησης. Κατά τη διάρκεια αυτής της φάσης του κύκλου ζωής της επιστήμης δεδομένων, η ομάδα επιστήμης δεδομένων και τα στελέχη της εταιρείας θα πρέπει να προσδιορίζουν τους κεντρικούς στόχους του έργου, για παράδειγμα να εξετάζουν τις μεταβλητές που πρέπει να προβλεφθούν. 

Σε τι είδους έργο επιστήμης δεδομένων βασίζεται αυτό; Είναι μια εργασία παλινδρόμησης ή ταξινόμησης, ομαδοποίησης ή ανίχνευσης ανωμαλιών; Μόλις κατανοήσετε τον γενικό στόχο του αντικειμένου σας, μπορείτε να συνεχίσετε να ρωτάτε γιατί, τι, πού, πότε και πώς! Το να θέτεις τις σωστές ερωτήσεις είναι τέχνη και θα παρέχει στην ομάδα της επιστήμης δεδομένων ένα σε βάθος πλαίσιο για το έργο. 

Data Mining

Μόλις έχετε όλη την επιχειρηματική κατανόηση που χρειάζεστε για το έργο, το επόμενο βήμα σας θα είναι η έναρξη του έργου με τη συλλογή δεδομένων. Η φάση εξόρυξης δεδομένων περιλαμβάνει τη συλλογή δεδομένων από διάφορες πηγές που είναι σύμφωνες με τον στόχο του έργου σας. 

Οι ερωτήσεις που θα κάνετε κατά τη διάρκεια αυτής της φάσης είναι: Ποια δεδομένα χρειάζομαι για αυτό το έργο; Από πού μπορώ να βρω αυτά τα δεδομένα; Αυτά τα δεδομένα θα βοηθήσουν στην εκπλήρωση του στόχου μου; Πού θα αποθηκεύσω αυτά τα δεδομένα; 

Καθαρισμός δεδομένων

Ορισμένοι επιστήμονες δεδομένων επιλέγουν να συνδυάσουν τις φάσεις εξόρυξης δεδομένων και καθαρισμού δεδομένων μαζί. Ωστόσο, καλό είναι να διακρίνουμε τις φάσεις για καλύτερη ροή εργασιών. 

Ο καθαρισμός δεδομένων είναι η πιο χρονοβόρα φάση στη ροή εργασιών της επιστήμης δεδομένων. Όσο μεγαλύτερα είναι τα δεδομένα σας, τόσο περισσότερος χρόνος χρειάζεται. Συνήθως μπορεί να χρειαστεί έως και 50-80% του χρόνου ενός επιστήμονα δεδομένων για να ολοκληρωθεί. Ο λόγος που διαρκεί τόσο πολύ είναι επειδή τα δεδομένα δεν είναι ποτέ καθαρά. Μπορεί να αντιμετωπίζετε δεδομένα που έχουν ασυνέπειες, δεδομένα που λείπουν, λανθασμένες ετικέτες, ορθογραφικά λάθη και πολλά άλλα. 

Πριν εκτελέσετε οποιαδήποτε αναλυτική εργασία, θα χρειαστεί να διορθώσετε αυτά τα σφάλματα για να βεβαιωθείτε ότι τα δεδομένα με τα οποία σκοπεύετε να εργαστείτε είναι σωστά και θα παράγουν ακριβή αποτελέσματα. 

Εξερεύνηση δεδομένων

Μετά από πολύ χρόνο και ενέργεια που ξοδέψατε για τον καθαρισμό των δεδομένων, έχετε πλέον καθαρά δεδομένα με τα οποία μπορείτε να εργαστείτε. Χρόνος εξερεύνησης δεδομένων! Αυτή η φάση είναι ο καταιγισμός ιδεών του συνολικού στόχου του έργου σας. Θέλετε να βουτήξετε βαθιά σε αυτό που μπορείτε να βρείτε από τα δεδομένα, τα κρυφά μοτίβα, τη δημιουργία οπτικοποιήσεων για να βρείτε περισσότερες πληροφορίες και πολλά άλλα. 

Με αυτές τις πληροφορίες, θα είστε σε θέση να δημιουργήσετε μια υπόθεση που να είναι σύμφωνη με τον επιχειρηματικό σας στόχο και να τη χρησιμοποιήσετε ως σημείο αναφοράς για να διασφαλίσετε ότι είστε εν ενεργεία. 

Μηχανική χαρακτηριστικών

Η μηχανική χαρακτηριστικών είναι η ανάπτυξη και η κατασκευή νέων χαρακτηριστικών δεδομένων από ακατέργαστα δεδομένα. Λαμβάνετε τα ακατέργαστα δεδομένα και δημιουργείτε ενημερωτικές λειτουργίες που συνάδουν με τον επιχειρηματικό σας στόχο. Η φάση της μηχανικής χαρακτηριστικών αποτελείται από την επιλογή χαρακτηριστικών και την κατασκευή χαρακτηριστικών.

Η επιλογή χαρακτηριστικών είναι όταν μειώνετε τον αριθμό των λειτουργιών που έχετε, οι οποίες προσθέτουν περισσότερο θόρυβο στα δεδομένα από τις πραγματικές πολύτιμες πληροφορίες. Η ύπαρξη πάρα πολλών χαρακτηριστικών μπορεί να οδηγήσει σε μια κατάρα των διαστάσεων, μια αυξημένη πολυπλοκότητα στα δεδομένα από τα οποία το μοντέλο μπορεί να μάθει εύκολα και αποτελεσματικά. 

Η κατασκευή χαρακτηριστικών είναι στο όνομα. Είναι η κατασκευή νέων χαρακτηριστικών. Χρησιμοποιώντας τις δυνατότητες που έχετε αυτήν τη στιγμή, μπορείτε να δημιουργήσετε νέες δυνατότητες, για παράδειγμα, εάν ο στόχος σας επικεντρώνεται σε ανώτερα μέλη, μπορείτε να δημιουργήσετε ένα όριο για την ηλικία που θέλετε.

Αυτή η φάση είναι πολύ σημαντική καθώς θα επηρεάσει την ακρίβεια του προγνωστικού σας μοντέλου. 

Προγνωστική μοντελοποίηση

Εδώ ξεκινά η διασκέδαση και θα δείτε αν έχετε πετύχει τον επιχειρηματικό σας στόχο. Η προγνωστική μοντελοποίηση αποτελείται από την εκπαίδευση των δεδομένων, τη δοκιμή τους και τη χρήση περιεκτικών στατιστικών μεθόδων για να διασφαλιστεί ότι τα αποτελέσματα από το μοντέλο είναι σημαντικά για την υπόθεση που δημιουργήθηκε. 

Με βάση όλες τις ερωτήσεις που κάνατε στη φάση «Επιχειρηματική κατανόηση», θα μπορείτε να προσδιορίσετε ποιο μοντέλο είναι κατάλληλο για την εργασία σας. Η επιλογή του μοντέλου σας μπορεί να είναι μια διαδικασία δοκιμής και σφάλματος, αλλά αυτό είναι σημαντικό για να διασφαλίσετε ότι δημιουργείτε ένα επιτυχημένο μοντέλο που παράγει ακριβή αποτελέσματα. 

Αφού δημιουργήσετε το μοντέλο σας, θα θέλετε να το εκπαιδεύσετε στο σύνολο δεδομένων σας και να αξιολογήσετε την απόδοσή του. Μπορείτε να χρησιμοποιήσετε διαφορετικές μετρήσεις αξιολόγησης, όπως διασταυρούμενη επικύρωση k-fold για να μετρήσετε την ακρίβεια και να συνεχίσετε να το κάνετε αυτό μέχρι να είστε ικανοποιημένοι με την τιμή ακρίβειάς σας. 

Η δοκιμή του μοντέλου σας χρησιμοποιώντας δεδομένα δοκιμών και επικύρωσης διασφαλίζει την ακρίβεια και την καλή απόδοση του μοντέλου σας. Η τροφοδοσία των δεδομένων σας με αόρατα δεδομένα είναι ένας καλός τρόπος για να δείτε πώς αποδίδει το μοντέλο με δεδομένα στα οποία δεν έχει εκπαιδευτεί στο παρελθόν. Βάζει το μοντέλο σας να δουλέψει!

Οπτικοποίηση δεδομένων

Μόλις είστε ευχαριστημένοι με την απόδοση του μοντέλου σας, είστε έτοιμοι να επιστρέψετε και να τα εξηγήσετε όλα στα στελέχη της εταιρείας. Η δημιουργία οπτικοποιήσεων δεδομένων είναι ένας καλός τρόπος για να εξηγήσετε τα ευρήματά σας σε άτομα που δεν είναι τεχνικά, και είναι επίσης ένας καλός τρόπος για να πείτε μια ιστορία σχετικά με τα δεδομένα.

Η οπτικοποίηση δεδομένων είναι ένας συνδυασμός επικοινωνίας, στατιστικής και τέχνης. Υπάρχουν τόσοι πολλοί τρόποι με τους οποίους μπορείτε να παρουσιάσετε τα ευρήματα των δεδομένων σας με έναν αισθητικά ευχάριστο τρόπο. Μπορείτε να χρησιμοποιήσετε εργαλεία όπως π.χ Τεκμηρίωση Matplotlib, Seaborn Tutorial, να Βιβλιοθήκη Plotly. Εάν χρησιμοποιείτε Python, διαβάστε αυτό: Κάντε εκπληκτικές οπτικοποιήσεις με την Python Graph Gallery

Και κάπως έτσι είστε στο τέλος του κύκλου ζωής, αλλά να θυμάστε ότι είναι ένας κύκλος. Πρέπει λοιπόν να επιστρέψετε στην αρχή: Επιχειρηματική κατανόηση. Θα χρειαστεί να αξιολογήσετε την επιτυχία του μοντέλου σας σχετικά με την αρχική επιχειρηματική κατανόηση και στόχο, μαζί με την υπόθεση που δημιουργήθηκε.

Τώρα έχουμε περάσει από τον κύκλο ζωής της επιστήμης δεδομένων, πρέπει να νομίζετε ότι αυτό φαίνεται πολύ απλό. Είναι μόνο το ένα βήμα μετά το άλλο. Αλλά όλοι ξέρουμε ότι τα πράγματα δεν είναι τόσο απλά. Για να είναι όσο το δυνατόν πιο απλή και αποτελεσματική, πρέπει να τεθούν σε εφαρμογή μεθοδολογίες διαχείρισης. 

Τα έργα επιστήμης δεδομένων δεν υπόκεινται πλέον αποκλειστικά στην ευθύνη των επιστημόνων δεδομένων – είναι μια ομαδική προσπάθεια. Επομένως, η τυποποίηση της διαχείρισης έργου είναι επιτακτική και υπάρχουν μέθοδοι που μπορείτε να χρησιμοποιήσετε για να το διασφαλίσετε. Ας τα δούμε.

Μεθοδολογία Καταρράκτη

Ακριβώς όπως ένας καταρράκτης, η μεθοδολογία του καταρράκτη είναι μια διαδοχική διαδικασία ανάπτυξης που ρέει σε όλα τα στάδια ενός έργου. Κάθε φάση θα πρέπει να ολοκληρωθεί για να ξεκινήσει η επόμενη φάση. Δεν υπάρχει αλληλεπικάλυψη μεταξύ των φάσεων, καθιστώντας την αποτελεσματική μέθοδο καθώς δεν υπάρχουν συγκρούσεις. Αν πρέπει να ξαναδείτε τις προηγούμενες φάσεις, σημαίνει ότι η ομάδα δεν έχει προγραμματίσει καλά. 

Αποτελείται από πέντε φάσεις:

  1. απαιτήσεις
  2. Υπηρεσίες
  3. Εκτέλεση
  4. Επαλήθευση (Δοκιμή)
  5. Συντήρηση (Ανάπτυξη)

Πότε λοιπόν πρέπει να χρησιμοποιήσετε τη μεθοδολογία καταρράκτη; Καθώς ρέει σαν νερό, όλα πρέπει να είναι καθαρά. Αυτό σημαίνει ότι ο στόχος έχει καθοριστεί, η ομάδα γνωρίζει τη στοίβα τεχνολογίας από μέσα προς τα έξω και τα στοιχεία του έργου είναι όλα στη θέση τους για να εξασφαλίσουν μια ομαλή και αποτελεσματική διαδικασία. 

Ας επανέλθουμε όμως στην πραγματικότητα. Τα έργα της επιστήμης δεδομένων ρέουν εύκολα σαν νερό; Όχι. Απαιτούν πολύ πειραματισμό, αλλαγές απαιτήσεων και πολλά άλλα. Ωστόσο, αυτό δεν σημαίνει ότι δεν μπορείτε να χρησιμοποιήσετε στοιχεία της μεθοδολογίας του καταρράκτη. Η μεθοδολογία του καταρράκτη απαιτεί πολύ σχεδιασμό. Εάν σχεδιάζετε τα πάντα, ναι, μπορεί να συναντήσετε 1 ή 2 προβλήματα στο δρόμο, αλλά οι προκλήσεις θα είναι λιγότερες και όχι τόσο σκληρές στη διαδικασία. 

Ευέλικτη μεθοδολογία

Η Εύκαμπτη μεθοδολογία γεννήθηκε στις αρχές του 2001 όταν 17 άτομα συγκεντρώθηκαν για να συζητήσουν το μέλλον της ανάπτυξης λογισμικού. Ιδρύθηκε σε 4 βασικές αξίες και 12 αρχές.

Η ευέλικτη μεθοδολογία είναι περισσότερο σύμφωνη με τη σημερινή τεχνολογία, καθώς λειτουργεί σε μια βιομηχανία τεχνολογίας με γρήγορο ρυθμό, διαρκώς μεταβαλλόμενη. Εάν είστε επαγγελματίας της τεχνολογίας, γνωρίζετε ότι οι απαιτήσεις σε ένα έργο επιστήμης δεδομένων ή λογισμικού αλλάζουν συνεχώς. Επομένως, είναι σημαντικό να έχετε τη σωστή μέθοδο που σας επιτρέπει να προσαρμοστείτε γρήγορα σε αυτές τις αλλαγές.

Η ευέλικτη μεθοδολογία είναι μια τέλεια μέθοδος διαχείρισης έργων επιστήμης δεδομένων, καθώς επιτρέπει στην ομάδα να επανεξετάζει συνεχώς τις απαιτήσεις του έργου καθώς αυτό μεγαλώνει. Τα στελέχη και οι διαχειριστές της επιστήμης δεδομένων μπορούν να λάβουν αποφάσεις σχετικά με αλλαγές που πρέπει να γίνουν κατά τη διάρκεια της διαδικασίας ανάπτυξης και όχι στο τέλος αφού ολοκληρωθεί. 

Αυτό έχει αποδειχθεί ιδιαίτερα αποτελεσματικό καθώς το μοντέλο εξελίσσεται ώστε να αντικατοπτρίζει τα εστιασμένα στον χρήστη αποτελέσματα, εξοικονομώντας χρόνο, χρήμα και ενέργεια. 

Ένα παράδειγμα ευέλικτης μεθόδου είναι Ράγκμπι. Η μέθοδος scrum χρησιμοποιεί ένα πλαίσιο που βοηθά στη δημιουργία δομής σε μια ομάδα χρησιμοποιώντας ένα σύνολο αξιών, αρχών και πρακτικών. Για παράδειγμα, χρησιμοποιώντας το Scrum, ένα έργο επιστήμης δεδομένων μπορεί να χωρίσει το μεγαλύτερο έργο του σε μια σειρά από μικρότερα έργα. Κάθε ένα από αυτά τα μίνι έργα θα ονομάζεται σπριντ και θα αποτελείται από σχεδιασμό σπριντ για τον καθορισμό στόχων, απαιτήσεων, ευθυνών και πολλά άλλα. 

Υβριδική μεθοδολογία

Γιατί να μην χρησιμοποιήσετε δύο διαφορετικές μεθόδους μαζί; Αυτό ονομάζεται υβριδική μέθοδος, όπου δύο ή περισσότερες μεθοδολογίες χρησιμοποιούνται για τη δημιουργία μιας μεθόδου που είναι εντελώς μοναδική για την επιχείρηση. Οι εταιρείες μπορούν να χρησιμοποιούν υβριδικές μεθόδους για όλους τους τύπους έργων, ωστόσο, το σκεπτικό πίσω από αυτό οφείλεται στην παράδοση προϊόντων. 

Για παράδειγμα, εάν ένας πελάτης απαιτεί ένα προϊόν αλλά δεν είναι ικανοποιημένος με το χρονοδιάγραμμα παραγωγής που βασίζεται στη χρήση σπριντ σε μια μέθοδο Agile. Φαίνεται λοιπόν ότι η εταιρεία πρέπει να κάνει λίγο περισσότερο προγραμματισμό σωστά; Ποια μέθοδος έχει πολύ προγραμματισμό; Ναι, έτσι είναι, Καταρράκτης. Η εταιρεία μπορεί να υιοθετήσει τον καταρράκτη στη μέθοδό της για να καλύψει ειδικά τις απαιτήσεις του πελάτη. 

Ορισμένες εταιρείες μπορεί να έχουν ανάμεικτα συναισθήματα σχετικά με το συνδυασμό μιας ευέλικτης μεθόδου με μια μη ευκίνητη μέθοδο όπως το Waterfall. Αυτές οι δύο μέθοδοι μπορούν να συνυπάρχουν, ωστόσο, είναι ευθύνη της εταιρείας να εξασφαλίσει μια απλή προσέγγιση που να έχει νόημα, να μετρήσει την επιτυχία της υβριδικής μεθόδου και να παρέχει παραγωγικότητα. 

Έρευνα και Ανάπτυξη

Κάποιοι μπορεί να το θεωρήσουν ως μεθοδολογία, ωστόσο, πιστεύω ότι αυτό είναι ένα σημαντικό θεμέλιο για τη διαδικασία του έργου της επιστήμης δεδομένων. Ακριβώς όπως η μεθοδολογία του καταρράκτη, δεν είναι κακό να σχεδιάσετε και να προετοιμαστείτε με όσο το δυνατόν περισσότερες πληροφορίες.

Αλλά δεν είναι αυτό για το οποίο μιλάω εδώ. Ναι, είναι υπέροχο να ερευνάς τα πάντα πριν ξεκινήσεις ένα έργο. Αλλά ένας καλός τρόπος για να διασφαλίσετε την αποτελεσματική διαχείριση του έργου είναι να δείτε το έργο σας ως έργο έρευνας και ανάπτυξης. Είναι ένα αποτελεσματικό εργαλείο για τη συνεργασία ομάδων επιστήμης δεδομένων.

Θέλετε να περπατήσετε πριν να τρέξετε και να λειτουργήσετε το έργο επιστήμης δεδομένων σαν να είναι μια ερευνητική εργασία. Ορισμένα έργα επιστήμης δεδομένων έχουν σκληρές προθεσμίες που δυσχεραίνουν αυτήν τη διαδικασία, ωστόσο, το να βιαστείτε το τελικό προϊόν σας συνοδεύεται πάντα με περαιτέρω προκλήσεις. Θέλετε να δημιουργήσετε ένα αποτελεσματικό και επιτυχημένο μοντέλο που να ανταποκρίνεται στην αρχική σας φάση του κύκλου ζωής της επιστήμης δεδομένων: Business Understanding. 

Η έρευνα και η ανάπτυξη σε ένα έργο επιστήμης δεδομένων κρατά τις πόρτες ανοιχτές στην καινοτομία, αυξάνει τη δημιουργικότητα και δεν περιορίζει την ομάδα να συμβιβαστεί με κάτι που θα μπορούσε να είναι πολύ μεγαλύτερο!

Αν και υπάρχουν διαφορετικές μεθοδολογίες για να διαλέξετε, τελικά εξαρτάται από τις λειτουργίες της επιχείρησης. Ορισμένες μέθοδοι που είναι δημοφιλείς σε μια εταιρεία, μπορεί να μην είναι η καλύτερη προσέγγιση για μια άλλη εταιρεία. 

Τα άτομα μπορεί να έχουν διαφορετικούς τρόπους εργασίας, επομένως η καλύτερη προσέγγιση είναι να δημιουργήσετε μια μέθοδο που να λειτουργεί για όλους. 

Θέλετε να μάθετε για την αυτοματοποίηση της ροής εργασιών επιστήμης δεδομένων, διαβάστε αυτό: Αυτοματοποίηση στις ροές εργασίας της Επιστήμης Δεδομένων.
 
 
Nisha Arya είναι Επιστήμονας Δεδομένων, Ανεξάρτητος Τεχνικός Συγγραφέας και Διευθυντής Κοινότητας στο KDnuggets. Ενδιαφέρεται ιδιαίτερα να παρέχει συμβουλές σταδιοδρομίας ή σεμινάρια της Επιστήμης Δεδομένων και γνώσεις βασισμένες στη θεωρία γύρω από την Επιστήμη των Δεδομένων. Επιθυμεί επίσης να διερευνήσει τους διαφορετικούς τρόπους με τους οποίους η Τεχνητή Νοημοσύνη μπορεί/μπορεί να ωφελήσει τη μακροζωία της ανθρώπινης ζωής. Μια δεινή μαθήτρια, που επιδιώκει να διευρύνει τις τεχνολογικές της γνώσεις και τις δεξιότητες γραφής, βοηθώντας παράλληλα να καθοδηγήσει άλλους.
 

Σφραγίδα ώρας:

Περισσότερα από KDnuggets