5 λόγοι για τους οποίους χρειάζεστε συνθετικά δεδομένα

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

5 λόγοι για τους οποίους χρειάζεστε συνθετικά δεδομένα
Συνθετικά δεδομένα που δημιουργούνται από Ο Κιούμπριτς

Για να εκπαιδεύσετε ένα μοντέλο μηχανικής μάθησης, χρειάζεστε δεδομένα. Οι εργασίες επιστήμης δεδομένων δεν είναι συνήθως ένας διαγωνισμός Kaggle όπου έχετε ένα ωραίο μεγάλο επιμελημένο σύνολο δεδομένων που έρχεται προεπισημασμένο. Μερικές φορές πρέπει να συλλέξετε, να οργανώσετε και να καθαρίσετε τα δικά σας δεδομένα. Αυτή η διαδικασία συλλογής και επισήμανσης δεδομένων στον πραγματικό κόσμο μπορεί να είναι χρονοβόρα, δυσκίνητη, δαπανηρή, ανακριβής και μερικές φορές επικίνδυνη. Επιπλέον, στο τέλος αυτής της διαδικασίας, μπορείτε να καταλήξετε με τα δεδομένα που συναντήσατε στον πραγματικό κόσμο να μην είναι απαραίτητα τα δεδομένα που θα θέλατε όσον αφορά την ποιότητα, την ποικιλομορφία (π.χ. ανισορροπία τάξης) και την ποσότητα. Ακολουθούν κοινά προβλήματα που μπορείτε να αντιμετωπίσετε όταν εργάζεστε με πραγματικά δεδομένα:

Η συλλογή και η επισήμανση πραγματικών δεδομένων δεν είναι επεκτάσιμες
Η χειροκίνητη επισήμανση πραγματικών δεδομένων μπορεί μερικές φορές να είναι αδύνατη
Τα πραγματικά δεδομένα έχουν ζητήματα απορρήτου και ασφάλειας
Τα πραγματικά δεδομένα δεν είναι προγραμματιζόμενα
Ένα μοντέλο που εκπαιδεύεται αποκλειστικά σε πραγματικά δεδομένα δεν έχει αρκετή απόδοση (π.χ. αργή ταχύτητα ανάπτυξης)

Ευτυχώς, προβλήματα όπως αυτά μπορούν να λυθούν με συνθετικά δεδομένα. Ίσως αναρωτιέστε, τι είναι συνθετικά δεδομένα? Τα συνθετικά δεδομένα μπορούν να οριστούν ως δεδομένα που δημιουργούνται τεχνητά, τα οποία συνήθως δημιουργούνται χρησιμοποιώντας αλγόριθμους που προσομοιώνουν πραγματικές διαδικασίες, από τη συμπεριφορά άλλων χρηστών του δρόμου μέχρι τη συμπεριφορά του φωτός καθώς αλληλεπιδρά με τις επιφάνειες. Αυτή η ανάρτηση ξεπερνά τους περιορισμούς των δεδομένων του πραγματικού κόσμου και τον τρόπο με τον οποίο τα συνθετικά δεδομένα μπορούν να βοηθήσουν στην αντιμετώπιση αυτών των προβλημάτων και στη βελτίωση της απόδοσης του μοντέλου.

Για μικρά σύνολα δεδομένων, είναι συνήθως δυνατή η συλλογή και η μη αυτόματη επισήμανση δεδομένων. Ωστόσο, πολλές σύνθετες εργασίες μηχανικής μάθησης απαιτούν τεράστια σύνολα δεδομένων για εκπαίδευση. Για παράδειγμα, τα μοντέλα που έχουν εκπαιδευτεί για εφαρμογές αυτόνομων οχημάτων χρειάζονται μεγάλες ποσότητες δεδομένων που συλλέγονται από αισθητήρες που είναι συνδεδεμένοι σε αυτοκίνητα ή drones. Αυτή η διαδικασία συλλογής δεδομένων είναι αργή και μπορεί να διαρκέσει μήνες ή και χρόνια. Μόλις συλλεχθούν τα ακατέργαστα δεδομένα, πρέπει στη συνέχεια να σχολιαστούν με μη αυτόματο τρόπο από ανθρώπινα όντα, κάτι που είναι επίσης ακριβό και χρονοβόρο. Επιπλέον, δεν υπάρχει καμία εγγύηση ότι τα δεδομένα με ετικέτα που επιστρέφουν θα είναι ωφέλιμα ως δεδομένα εκπαίδευσης, καθώς ενδέχεται να μην περιέχουν παραδείγματα που να ενημερώνουν τα τρέχοντα κενά γνώσης του μοντέλου.

[ενσωματωμένο περιεχόμενο][ενσωματωμένο περιεχόμενο]

Η επισήμανση αυτών των δεδομένων συχνά περιλαμβάνει ανθρώπους που σχεδιάζουν με το χέρι ετικέτες πάνω από δεδομένα αισθητήρα. Αυτό είναι πολύ δαπανηρό καθώς οι ομάδες ML με υψηλό κόστος ξοδεύουν συχνά ένα τεράστιο μέρος του χρόνου τους για να βεβαιωθούν ότι οι ετικέτες είναι σωστές και να στέλνουν λάθη πίσω στους ετικετοποιητές. Ένα σημαντικό πλεονέκτημα των συνθετικών δεδομένων είναι ότι μπορείτε να δημιουργήσετε όσα δεδομένα με τέλεια επισήμανση θέλετε. Το μόνο που χρειάζεστε είναι ένας τρόπος για να δημιουργήσετε ποιοτικά συνθετικά δεδομένα.

Λογισμικό ανοιχτού κώδικα για τη δημιουργία συνθετικών δεδομένων: Ο Κιούμπριτς (βίντεο πολλών αντικειμένων με μάσκες τμηματοποίησης, χάρτες βάθους και οπτική ροή) και Sdv (δεδομένα πινάκων, σχεσιακών και χρονοσειρών).

Μερικές (από πολλές) εταιρείες που πωλούν προϊόντα ή κατασκευάζουν πλατφόρμες που μπορούν να δημιουργήσουν συνθετικά δεδομένα περιλαμβάνουν Gretel.αι (συνθετικά σύνολα δεδομένων που διασφαλίζουν το απόρρητο των πραγματικών δεδομένων), NVIDIA (παντοσύμπαν), και Παράλληλος τομέας (αυτόνομα οχήματα). Για περισσότερα, δείτε τη λίστα 2022 των εταιρειών συνθετικών δεδομένων.

5 λόγοι για τους οποίους χρειάζεστε συνθετικά δεδομένα
Εικόνα από Παράλληλος τομέας

Υπάρχουν ορισμένα δεδομένα που οι άνθρωποι δεν μπορούν να ερμηνεύσουν και να επισημάνουν πλήρως. Ακολουθούν ορισμένες περιπτώσεις χρήσης όπου τα συνθετικά δεδομένα είναι η μόνη επιλογή:

Ακριβής εκτίμηση του βάθους και οπτική ροή από μεμονωμένες εικόνες
Εφαρμογές αυτόνομης οδήγησης που χρησιμοποιούν δεδομένα ραντάρ που δεν είναι ορατά στο ανθρώπινο μάτι
Δημιουργία βαθιών απομιμήσεων που μπορούν να χρησιμοποιηθούν για τη δοκιμή συστημάτων αναγνώρισης προσώπου

5 λόγοι για τους οποίους χρειάζεστε συνθετικά δεδομένα
Εικόνα από Μάικλ Γκαλάρνικ

Τα συνθετικά δεδομένα είναι πολύ χρήσιμα για εφαρμογές σε τομείς όπου δεν μπορείτε εύκολα να λάβετε πραγματικά δεδομένα. Αυτό περιλαμβάνει ορισμένους τύπους δεδομένων τροχαίου ατυχήματος και τους περισσότερους τύπους δεδομένων υγείας που έχουν περιορισμούς απορρήτου (π.χ. ηλεκτρονικά αρχεία υγείας). Τα τελευταία χρόνια, οι ερευνητές στον τομέα της υγείας ενδιαφέρθηκαν να προβλέψουν την κολπική μαρμαρυγή (ακανόνιστος καρδιακός ρυθμός) χρησιμοποιώντας σήματα ΗΚΓ και PPG. Η ανάπτυξη ενός ανιχνευτή αρρυθμίας δεν είναι μόνο πρόκληση, καθώς ο σχολιασμός αυτών των σημάτων είναι κουραστικός και δαπανηρός, αλλά και λόγω των περιορισμών της ιδιωτικής ζωής. Αυτός είναι ένας λόγος που υπάρχει έρευνα για την προσομοίωση αυτών των σημάτων.

Είναι σημαντικό να τονίσουμε ότι η συλλογή πραγματικών δεδομένων δεν απαιτεί μόνο χρόνο και ενέργεια, αλλά μπορεί στην πραγματικότητα να είναι επικίνδυνη. Ένα από τα βασικά προβλήματα με τις ρομποτικές εφαρμογές όπως τα αυτοοδηγούμενα αυτοκίνητα είναι ότι αποτελούν φυσικές εφαρμογές μηχανικής μάθησης. Δεν μπορείτε να αναπτύξετε ένα μη ασφαλές μοντέλο στον πραγματικό κόσμο και να έχετε μια συντριβή λόγω έλλειψης σχετικών δεδομένων. Η αύξηση ενός συνόλου δεδομένων με συνθετικά δεδομένα μπορεί να βοηθήσει τα μοντέλα να αποφύγουν αυτά τα προβλήματα.

Ακολουθούν ορισμένες εταιρείες που χρησιμοποιούν συνθετικά δεδομένα για τη βελτίωση της ασφάλειας των εφαρμογών: Toyota, Waymo, να Κρουαζιέρα.

5 λόγοι για τους οποίους χρειάζεστε συνθετικά δεδομένα
Εικόνα από Παράλληλος τομέας

Συνθετική εικόνα ενός αποφραγμένου παιδιού σε ένα ποδήλατο που αναδύεται πίσω από ένα σχολικό λεωφορείο και κάνει ποδήλατο απέναντι από το δρόμο σε ένα προαστιακό περιβάλλον τύπου Καλιφόρνιας.

Οι εφαρμογές αυτόνομων οχημάτων συχνά αντιμετωπίζουν σχετικά «ασυνήθιστα» (σε σχέση με κανονικές συνθήκες οδήγησης) συμβάντα όπως πεζοί τη νύχτα ή ποδηλάτες που οδηγούν στη μέση του δρόμου. Τα μοντέλα χρειάζονται συχνά εκατοντάδες χιλιάδες ή και εκατομμύρια παραδείγματα για να μάθουν ένα σενάριο. Ένα σημαντικό πρόβλημα είναι ότι τα δεδομένα του πραγματικού κόσμου που συλλέγονται ενδέχεται να μην είναι αυτό που αναζητάτε όσον αφορά την ποιότητα, την ποικιλομορφία (π.χ. ανισορροπία τάξης, καιρικές συνθήκες, τοποθεσία) και ποσότητα. Ένα άλλο πρόβλημα είναι ότι για τα αυτόνομα αυτοκίνητα και τα ρομπότ, δεν γνωρίζετε πάντα ποια δεδομένα χρειάζεστε σε αντίθεση με τις παραδοσιακές εργασίες μηχανικής εκμάθησης με σταθερά σύνολα δεδομένων και σταθερά σημεία αναφοράς. Ενώ ορισμένες τεχνικές αύξησης δεδομένων που αλλάζουν συστηματικά ή τυχαία τις εικόνες είναι χρήσιμες, αυτές οι τεχνικές μπορούν εισάγουν τα δικά τους προβλήματα.

Εδώ μπαίνουν τα συνθετικά δεδομένα. Τα API δημιουργίας συνθετικών δεδομένων σάς επιτρέπουν να επεξεργαστείτε σύνολα δεδομένων. Αυτά τα API μπορούν να σας εξοικονομήσουν πολλά χρήματα, καθώς είναι πολύ ακριβό η κατασκευή ρομπότ και η συλλογή δεδομένων στον πραγματικό κόσμο. Είναι πολύ καλύτερο και πιο γρήγορο να προσπαθήσετε να δημιουργήσετε δεδομένα και να καταλάβετε τις αρχές της μηχανικής χρησιμοποιώντας τη δημιουργία συνθετικών δεδομένων.

Τα ακόλουθα είναι παραδείγματα που υπογραμμίζουν τον τρόπο με τον οποίο τα προγραμματιζόμενα συνθετικά δεδομένα βοηθούν τα μοντέλα να μάθουν: πρόληψη δόλιων συναλλαγών (American Express), καλύτερη ανίχνευση ποδηλάτη (Parallel Domain), να χειρουργική ανάλυση και ανασκόπηση (Hutom.io).

5 λόγοι για τους οποίους χρειάζεστε συνθετικά δεδομένα
Φάσεις του Κύκλου Ανάπτυξης Μοντέλου | Εικόνα από Jules S. Damji

Στη βιομηχανία, υπάρχουν πολλοί παράγοντες που επηρεάζουν τη βιωσιμότητα/απόδοση ενός έργου μηχανικής μάθησης τόσο στην ανάπτυξη όσο και στην παραγωγή (π.χ. απόκτηση δεδομένων, σχολιασμός, εκπαίδευση μοντέλων, κλιμάκωση, ανάπτυξη, παρακολούθηση, επανεκπαίδευση μοντέλου και ταχύτητα ανάπτυξης). Πρόσφατα, 18 μηχανικοί μηχανικής μάθησης συμμετείχαν σε μια μελέτη συνέντευξης που είχε ως στόχο την κατανόηση κοινών πρακτικών και προκλήσεων MLOps σε οργανισμούς και εφαρμογές (π.χ. αυτόνομα οχήματα, υλικό υπολογιστών, λιανική πώληση, διαφημίσεις, συστήματα συστάσεων κ.λπ.). Ένα από τα συμπεράσματα της μελέτης ήταν η σημασία της ταχύτητας ανάπτυξης που μπορεί να οριστεί χονδρικά ως η ικανότητα ταχείας πρωτότυπης και επανάληψης ιδεών.

Ένας παράγοντας που επηρεάζει την ταχύτητα ανάπτυξης είναι η ανάγκη να υπάρχουν δεδομένα για να γίνει η αρχική εκπαίδευση και αξιολόγηση του μοντέλου καθώς και συχνή επανεκπαίδευση μοντέλων λόγω της μείωσης της απόδοσης του μοντέλου με την πάροδο του χρόνου λόγω της μετατόπισης δεδομένων, της μετατόπισης της ιδέας ή ακόμη και της λοξής παροχής εκπαίδευσης τρένου.

5 λόγοι για τους οποίους χρειάζεστε συνθετικά δεδομένα
Εικόνα από Προφανώς AI

Η μελέτη ανέφερε επίσης ότι αυτή η ανάγκη οδήγησε ορισμένους οργανισμούς να δημιουργήσουν μια ομάδα για τη συχνή επισήμανση ζωντανών δεδομένων. Αυτό είναι δαπανηρό, χρονοβόρο και περιορίζει την ικανότητα ενός οργανισμού να επανεκπαιδεύει τα μοντέλα συχνά.

5 λόγοι για τους οποίους χρειάζεστε συνθετικά δεδομένα
Εικόνα από Gretel.αι

Σημείωση, αυτό το διάγραμμα δεν καλύπτει τον τρόπο με τον οποίο μπορούν επίσης να χρησιμοποιηθούν συνθετικά δεδομένα για πράγματα όπως Δοκιμές MLOps σε συστάσεις.

Τα συνθετικά δεδομένα έχουν τη δυνατότητα να χρησιμοποιηθούν με δεδομένα πραγματικού κόσμου στον κύκλο ζωής της μηχανικής εκμάθησης (εικόνα παραπάνω) για να βοηθήσουν τους οργανισμούς να διατηρήσουν τα μοντέλα τους πιο αποτελεσματικά.

Η παραγωγή συνθετικών δεδομένων γίνεται όλο και πιο συνηθισμένη στις ροές εργασιών μηχανικής εκμάθησης. Στην πραγματικότητα, Gartner προβλέπει ότι έως το 2030, τα συνθετικά δεδομένα θα χρησιμοποιούνται πολύ περισσότερο από τα δεδομένα του πραγματικού κόσμου για την εκπαίδευση μοντέλων μηχανικής μάθησης. Εάν έχετε οποιεσδήποτε ερωτήσεις ή σκέψεις σχετικά με αυτήν την ανάρτηση, μη διστάσετε να επικοινωνήσετε στα σχόλια παρακάτω ή μέσω Twitter.

Μάικλ Γκαλάρνικ είναι Επαγγελματίας Επιστήμης Δεδομένων και εργάζεται στο Developer Relations στο Anyscale.