poloniex-agrees-to-settle-with-the-sec-for-more-than-10m.png

Γιατί και πώς πρέπει να μάθετε την «Παραγωγική Επιστήμη Δεδομένων»;

Κόμβος πηγής: 1858780

Χρυσό ιστολόγιοΓιατί και πώς πρέπει να μάθετε την «Παραγωγική Επιστήμη Δεδομένων»;

Τι είναι η Επιστήμη Παραγωγικών Δεδομένων και ποια είναι μερικά από τα συστατικά της;




Πηγή εικόναςPixabay (Δωρεάν εικόνα)

Αποτελεσματικότητα στη ροή εργασιών της επιστήμης δεδομένων

 
Η επιστήμη των δεδομένων και η μηχανική μάθηση μπορούν να εξασκηθούν με διαφορετικούς βαθμούς αποτελεσματικότητας και παραγωγικότητας. Ανεξάρτητα από τον τομέα εφαρμογής ή την εξειδίκευση, ένας επιστήμονας δεδομένων — αρχάριος ή έμπειρος επαγγελματίας — θα πρέπει να προσπαθήσει να ενισχύσει την αποτελεσματικότητά του/της σε όλες τις πτυχές των τυπικών εργασιών της επιστήμης δεδομένων,

  • Στατιστική ανάλυση,
  • οραματισμός,
  • επιλογή μοντέλου, μηχανική χαρακτηριστικών,
  • δοκιμή ποιότητας κώδικα, σπονδυλοποίηση,
  • παράλληλη επεξεργασία,
  • εύκολη ανάπτυξη web-app



Πηγή εικόναςPixabay (Δωρεάν εικόνα)

 

Αυτό σημαίνει την εκτέλεση όλων αυτών των εργασιών,

  • σε μεγαλύτερη ταχύτητα
  • με ταχύτερο εντοπισμό σφαλμάτων
  • με συγχρονισμένο τρόπο
  • αξιοποιώντας πλήρως όλους τους διαθέσιμους πόρους υλικού

Τι πρέπει να περιμένετε να μάθετε σε αυτή τη διαδικασία;

 
Ας φανταστούμε ότι κάποιος διδάσκει ένα "Παραγωγική Επιστήμη Δεδομένωνμάθημα ή σύνταξη βιβλίου για αυτό — χρησιμοποιώντας την Python ως γλωσσικό πλαίσιο. Ποιες πρέπει να είναι οι τυπικές προσδοκίες από ένα τέτοιο μάθημα ή βιβλίο;



Πηγή εικόναςPixabay (Δωρεάν εικόνα)

 

Το μάθημα/βιβλίο θα πρέπει να απευθύνεται σε όσους το επιθυμούν άλμα πέρα ​​από τον τυπικό τρόπο για την εκτέλεση εργασιών επιστήμης δεδομένων και μηχανικής μάθησης και αξιοποίηση του πλήρους φάσματος του οικοσυστήματος επιστήμης δεδομένων Python για πολύ υψηλότερο επίπεδο παραγωγικότητας.

Οι αναγνώστες θα πρέπει να διδαχθούν πώς να προσέχουν για ανεπάρκεια και σημεία συμφόρησης στην τυπική διαδικασία και πώς να σκέφτονται πέρα ​​από το κουτί.

Αυτοματοποίηση επαναλαμβανόμενων εργασιών επιστήμης δεδομένων είναι μια βασική νοοτροπία που θα αναπτύξουν οι αναγνώστες διαβάζοντας αυτό το βιβλίο. Σε πολλές περιπτώσεις, θα μάθουν επίσης πώς να επεκτείνουν την υπάρχουσα πρακτική κωδικοποίησης για να χειρίζονται μεγαλύτερα σύνολα δεδομένων με υψηλή απόδοση με τη βοήθεια προηγμένων εργαλείων λογισμικού που υπάρχουν ήδη στο οικοσύστημα της Python αλλά δεν διδάσκονται σε καμία τυπική επιστήμη δεδομένων.

Αυτό δεν θα πρέπει να είναι ένα τυπικό βιβλίο μαγειρικής Python που διδάσκει τυπικές βιβλιοθήκες όπως το Numpy ή το Pandas.

Αντίθετα, θα πρέπει να επικεντρώνεται σε χρήσιμες τεχνικές όπως το πώς να μετρήστε το αποτύπωμα μνήμης και την ταχύτητα εκτέλεσης των μοντέλων ML, δοκιμή ποιότητας ένας αγωγός επιστήμης δεδομένων, αρθρωτή Ένας αγωγός επιστήμης δεδομένων για ανάπτυξη εφαρμογών κ.λπ. Θα πρέπει επίσης να καλύπτει βιβλιοθήκες Python που είναι πολύ χρήσιμες αυτοματοποίηση και  επιταχύνοντας τα καθημερινά καθήκοντα οποιουδήποτε επιστήμονα δεδομένων.

Επιπλέον, θα πρέπει να αφορά εργαλεία και πακέτα που βοηθούν έναν επιστήμονα δεδομένων αντιμετώπιση μεγάλων και πολύπλοκων συνόλων δεδομένων με πολύ πιο βέλτιστο τρόπο από ό,τι θα ήταν δυνατό ακολουθώντας την τυπική σοφία της τεχνολογίας της επιστήμης δεδομένων της Python.

Ορισμένες ειδικές δεξιότητες που πρέπει να κατακτήσετε

 



Πηγή εικόναςPixabay (Δωρεάν εικόνα)

 

Για να βάλουμε τα πράγματα με συγκεκριμένους όρους, ας συνοψίσουμε ορισμένες ειδικές δεξιότητες που πρέπει να κατακτήσετε για μάθηση και εξάσκηση Παραγωγική Επιστήμη Δεδομένων. Προσπάθησα επίσης να ρίξω τους συνδέσμους σε ορισμένα αντιπροσωπευτικά άρθρα για να ακολουθήσω κάθε δεξιότητα ως αναφορά.

  1. πώς να γράψτε γρήγορο και αποτελεσματικό κώδικα για την επιστήμη των δεδομένων/ML και πώς να μετρήσετε την ταχύτητα και την απόδοσή τους (δείτε αυτό το άρθρο)
  2. Πώς να δημιουργήσετε αρθρωτούς και εκφραστικούς αγωγούς επιστήμης δεδομένων για τη βελτίωση της παραγωγικότητας (δείτε αυτό το άρθρο)
  3. Πώς να γράψετε ενότητες δοκιμών για μοντέλα επιστήμης δεδομένων και ML (δείτε αυτό το άρθρο)
  4. Πώς να χειρίζεστε αποτελεσματικά μεγάλα και σύνθετα σύνολα δεδομένων (κάτι που θα ήταν δύσκολο με τα παραδοσιακά εργαλεία DS)
  5. Πώς να χρησιμοποιήσετε πλήρως GPU και επεξεργαστές πολλαπλών πυρήνων για όλα τα είδη εργασιών επιστήμης δεδομένων και ανάλυσης, και όχι μόνο για εξειδικευμένη μοντελοποίηση βαθιάς μάθησης (δείτε αυτό το άρθρο)
  6. Πώς να δημιουργήσετε γρήγορες εφαρμογές GUI για την επίδειξη μιας ιδέας επιστήμης δεδομένων/ML ή συντονισμού μοντέλου (δείτε αυτό το άρθρο), ή πώς να αναπτύξετε εύκολα (και γρήγορα) μοντέλα ML και κώδικα ανάλυσης δεδομένων σε επίπεδο εφαρμογής (δείτε αυτό το άρθρο)

Ένα ιδανικό βιβλίο για αυτό το θέμα θα…

 



Πηγή εικόναςPixabay (Δωρεάν εικόνα)

 

  1. Διδάξτε πώς να προσέχετε αναποτελεσματικότητα και συμφόρηση στον τυπικό κώδικα επιστήμης δεδομένων και πώς να σκεφτείτε πέρα ​​από το κουτί για να λύσετε αυτά τα προβλήματα.
  2. Διδάξτε πώς να γράφετε σπονδυλωτή, αποτελεσματική ανάλυση δεδομένων και κώδικα μηχανικής μάθησης για τη βελτίωση της παραγωγικότητας σε διάφορες καταστάσεις — διερευνητική ανάλυση δεδομένων, οπτικοποίηση, βαθιά μάθηση κ.λπ.
  3. Καλύπτει ένα ευρύ φάσμα παράπλευρων θεμάτων, όπως δοκιμές λογισμικού, ανάπτυξη μονάδων, Προγραμματισμός GUIΑνάπτυξη μοντέλου ML ως web-app, που είναι ανεκτίμητες δεξιότητες για τους εκκολαπτόμενους επιστήμονες δεδομένων και οι οποίες είναι δύσκολο να βρεθούν συλλογικά σε οποιοδήποτε τυπικό βιβλίο επιστήμης δεδομένων.
  4. Κάλυψη παράλληλων υπολογιστών (π.χ. Ντασκ, Ρέι), επεκτασιμότητα (π.χ. Vaex, Modin), και στοίβα επιστήμης δεδομένων που τροφοδοτείται από GPU (ΚΑΤΑΡΡΑΚΤΗΣ) με πρακτικά παραδείγματα.
  5. Εκθέστε και καθοδηγήστε τους αναγνώστες σε ένα μεγαλύτερο και συνεχώς διευρυνόμενο οικοσύστημα Python εργαλείων επιστήμης δεδομένων που συνδέονται με τις ευρύτερες πτυχές του τεχνολογία λογισμικού και ανάπτυξη σε επίπεδο παραγωγής.

Ένα συγκεκριμένο παράδειγμα: Επιστήμη δεδομένων που τροφοδοτείται από GPU και κατανέμεται

 
Ενώ η χρήση των GPU και των κατανεμημένων υπολογιστών συζητείται ευρέως στους ακαδημαϊκούς και επιχειρηματικούς κύκλους για βασικές εργασίες AI/ML, έχουν βρει λιγότερη κάλυψη στη χρησιμότητά τους για τακτικές εργασίες επιστήμης δεδομένων και μηχανικής δεδομένων. Ωστόσο, η χρήση των GPU για τακτικές καθημερινές στατιστικές αναλύσεις ή άλλες εργασίες επιστήμης δεδομένων μπορεί να βοηθήσει πολύ προς το να γίνει η παροιμιώδης «Παραγωγικός Επιστήμονας Δεδομένων".

Για παράδειγμα, η Σουίτα RAPIDS βιβλιοθηκών λογισμικού και API σας δίνει — έναν τακτικό επιστήμονα δεδομένων (και όχι απαραίτητα έναν επαγγελματία βαθιάς μάθησης) — την επιλογή και την ευελιξία να εκτελέσετε αγωγοί επιστήμης δεδομένων και ανάλυσης από άκρο σε άκρο αποκλειστικά σε GPU.



Πηγή εικόνας: Ο συγγραφέας δημιούργησε κολάζ

 

Όταν χρησιμοποιούνται ακόμη και με μια μέτρια GPU, αυτές οι βιβλιοθήκες παρουσιάζουν αξιοσημείωτη βελτίωση στην ταχύτητα σε σχέση με τις κανονικές αντίστοιχες Python. Φυσικά, θα πρέπει να τα αγκαλιάσουμε όποτε μπορούμε Παραγωγική Επιστήμη Δεδομένων ροή εργασίας.


 

Ομοίως, υπάρχουν εξαιρετικές ευκαιρίες ανοιχτού κώδικα για να υπερβείτε τα όρια της μονοπυρήνας φύσης της γλώσσας Python και να αγκαλιάσετε το παράδειγμα παράλληλων υπολογιστών χωρίς να απομακρυνθείτε από την πεμπτουσία του επιστήμονα δεδομένων.



Πηγή εικόνας: Ο συγγραφέας δημιούργησε κολάζ

Χαρακτηριστικά

 
Συζητήσαμε τις βοηθητικές εφαρμογές και τα βασικά στοιχεία του α Παραγωγική Επιστήμη Δεδομένων ροή εργασιών. Φανταζόμασταν τι θα πρόσφερε στους αναγνώστες ένα ιδανικό μάθημα ή βιβλίο για αυτό το θέμα. Αναφέραμε ορισμένα συγκεκριμένα παραδείγματα και επεξηγήσαμε τα οφέλη. Ορισμένοι σχετικοί πόροι παρασχέθηκαν επίσης στο πλαίσιο των δεξιοτήτων για εξοικείωση.

Μπορείτε να ελέγξετε τον συγγραφέα GitHub αποθετήρια για κώδικα, ιδέες και πόρους στη μηχανική μάθηση και την επιστήμη δεδομένων. Αν είστε, όπως εγώ, παθιασμένοι με την τεχνολογία AI / machine learning / data science, μη διστάσετε προσθέστε με στο LinkedIn or Ακολούθησέ με στο τουίτερ.

 
Πρωτότυπο. Αναδημοσιεύτηκε με άδεια.

Συγγενεύων:

Πηγή: https://www.kdnuggets.com/2021/07/learn-productive-data-science.html

Σφραγίδα ώρας:

Περισσότερα από KDnuggets