Κορυφαίες 16 πηγές τεχνικών δεδομένων για προηγμένα έργα επιστήμης δεδομένων - KDnuggets

Κορυφαίες 16 πηγές τεχνικών δεδομένων για προηγμένα έργα επιστήμης δεδομένων – KDnuggets

Κόμβος πηγής: 3081921

Κορυφαίες 16 πηγές τεχνικών δεδομένων για προηγμένα έργα επιστήμης δεδομένων
Εικόνα από συγγραφέα
 

Έχετε διαβάσει σε αυτές τις σελίδες (και είμαι ένοχος που έγραψα μερικά από αυτά τα άρθρα) ότι τα έργα επιστήμης δεδομένων είναι ζωτικής σημασίας για την ανάπτυξη ολόκληρου του πακέτου δεξιοτήτων τεχνικής επιστήμης δεδομένων. Αυτό είναι αλήθεια, είναι. Αλλά αυτό που είναι επίσης ζωτικής σημασίας είναι να έχετε σύνολα δεδομένων υψηλής ποιότητας για τα έργα επιστήμης δεδομένων σας. Η συλλογή ποιοτικών δεδομένων είναι απλώς ένα από τα στάδια ενός έργου επιστήμης δεδομένων, αλλά αυτός που μπορεί να το φτιάξει ή να το σπάσει.

Το ερώτημα είναι, πού να βρούμε αυτά τα δεδομένα frigging; Ευτυχώς, πολλοί ιστότοποι προσφέρουν πληθώρα δεδομένων για διάφορους σκοπούς.

 

Κορυφαίες 16 πηγές τεχνικών δεδομένων για προηγμένα έργα επιστήμης δεδομένων
Εικόνα από συγγραφέα

Το έχετε ακούσει Kaggle, ίσως η πιο γνωστή πλατφόρμα στην κοινότητα της επιστήμης δεδομένων. Φιλοξενεί μια τεράστια γκάμα συνόλων δεδομένων σε διάφορες μορφές (CSV, JSON, SQLite, BigQuery) και από πολλούς κλάδους και θέματα, όπως υγεία, αυτοκινητοβιομηχανία, τέχνες και ψυχαγωγία, βιολογία, κοινωνικές επιστήμες, επενδύσεις, κοινωνικά δίκτυα, αθλητισμός κ.λπ. επί. Μπορείτε επίσης να αναζητήσετε σύνολα δεδομένων ανάλογα με την τεχνική εστίασή τους, π.χ. επιστήμη υπολογιστών, ταξινόμηση, όραση υπολογιστή, NLP ή οπτικοποίηση δεδομένων.

Επί του παρόντος, υπάρχουν 274,855 διαθέσιμα σύνολα δεδομένων, επομένως δεν θα σας λείπουν δεδομένα.

Η φιλική προς τον χρήστη διεπαφή και τα ενεργά φόρουμ κοινότητας του Kaggle το καθιστούν εξαιρετικό πόρο τόσο για αρχάριους όσο και για επαγγελματίες.

Εάν είστε λάτρης της μηχανικής μάθησης, το Αποθετήριο μηχανικής εκμάθησης UCI θα πρέπει να είναι ο ιστότοπός σας. Όπως λέει και το όνομα, αυτό το αποθετήριο δημιουργήθηκε από το Πανεπιστήμιο της Καλιφόρνια, Irvine (UCI). Συνέλεξαν μια εκτενή συλλογή συνόλων δεδομένων προσαρμοσμένων για μηχανική μάθηση. Καθώς τα σύνολα δεδομένων καλύπτουν διάφορα θέματα, είναι ιδιαίτερα χρήσιμα Αυτά τα σύνολα δεδομένων καλύπτουν ένα ευρύ φάσμα θεμάτων και είναι ιδιαίτερα χρήσιμα για όσους θέλουν να εξασκηθούν και να βελτιώσουν τις δεξιότητές τους στη μηχανική μάθηση.

Υπάρχουν επί του παρόντος 653 σύνολα δεδομένων. μπορείτε να περιηγηθείτε σε αυτά κατά τύπο δεδομένων, περιοχή θέματος, εργασία, αριθμό χαρακτηριστικών και παρουσιών και τύπο δυνατότητας.

StrataScratch παρέχει 49 σύνολα δεδομένων και έργα που προέρχονται από πραγματικές εταιρείες. Αυτό είναι ιδιαίτερα επωφελές για όσους προετοιμάζονται για συνεντεύξεις επιστήμης δεδομένων, καθώς βοηθά τους χρήστες να αναπτύξουν τις τεχνικές τους δεξιότητες και την ικανότητά τους να αντλούν επιχειρηματικές γνώσεις από δεδομένα. Αυτό επιτρέπει μια πρακτική και σχετική με τον κλάδο προσέγγιση σε έργα επιστήμης δεδομένων.

Τα έργα καλύπτουν διάφορα θέματα, όπως εξερεύνηση δεδομένων, μηχανική δεδομένων, επιχειρηματική ανάλυση, παλινδρόμηση, ταξινόμηση, NLP και ομαδοποίηση.

Αναζήτηση συνόλου δεδομένων Google είναι ένα εργαλείο του οποίου ο σκοπός είναι να βρει σύνολα δεδομένων στον ιστό. Ξέρετε ήδη πώς να το χρησιμοποιήσετε, ακόμα κι αν δεν το έχετε ακούσει ποτέ μέχρι τώρα. Γιατί; Λοιπόν, φαίνεται και λειτουργεί σαν μια κανονική αναζήτηση Google, μόνο που επικεντρώνεται αποκλειστικά στην εύρεση συνόλων δεδομένων. Είναι εξαιρετικά χρήσιμο εάν αναζητάτε δεδομένα από διάφορες πηγές, ακαδημαϊκές εργασίες και κρατικές βάσεις δεδομένων.

Αμαζονίου Δημόσια σύνολα δεδομένων AWS Το πρόγραμμα είναι ένας άλλος ιστότοπος όπου μπορείτε να βρείτε πολλά ανοιχτά δεδομένα. Με 494 σύνολα δεδομένων που είναι διαθέσιμα επί του παρόντος, είναι ένας πολύτιμος πόρος για τους επιστήμονες δεδομένων. Τα σύνολα δεδομένων που βρίσκετε εκεί μπορούν να ενσωματωθούν με υπηρεσίες cloud AWS. Αυτό μπορεί να είναι χρήσιμο εάν τα έργα σας απαιτούν περισσότερους υπολογιστικούς πόρους. 

Το εύρος των διαθέσιμων δεδομένων περιλαμβάνει, μεταξύ άλλων, τη γονιδιωματική, τη μετεωρολογία και την αστρονομία.

Data.gov είναι ένα αποθετήριο δεδομένων που χρηματοδοτείται από την κυβέρνηση των ΗΠΑ και περιέχει δεδομένα από διάφορους οργανισμούς των ΗΠΑ. Περιλαμβάνει 283,935 σύνολα δεδομένων από 132 οργανισμούς των ΗΠΑ. Υπάρχει ένα ευρύ φάσμα δεδομένων, όπως γεωργία, δημόσια υγεία, οικονομικά, εκπαίδευση, δημογραφικά, οικονομικά και περιβαλλοντικά δεδομένα.

Τα σύνολα δεδομένων διατίθενται σε σχεδόν 50 διαφορετικές μορφές, με τις πιο δημοφιλείς να περιλαμβάνουν HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON και TEXT.

Πέντε λεπτά από το ABC News είναι το αποθετήριο δεδομένων και κωδικών των άρθρων και των γραφικών τους. Είναι μια τέλεια πηγή για δημοσιογράφους δεδομένων και οποιονδήποτε ενδιαφέρεται για τη στατιστική αφήγηση. Αν σας ενδιαφέρει να κάνετε έργα που περιλαμβάνουν τρέχοντα γεγονότα, πολιτική, αθλητισμό και άλλα, αυτή είναι η πηγή σας. 

Προσφέρει περισσότερα από 160 σύνολα δεδομένων από το 2014 μέχρι σήμερα.

Η Ανοικτά δεδομένα της Παγκόσμιας Τράπεζας προσφέρει εκτεταμένα σύνολα δεδομένων που περιστρέφονται γύρω από δεδομένα παγκόσμιας ανάπτυξης. Αυτά τα δεδομένα περιλαμβάνουν δείκτες για την οικονομία, το περιβάλλον και τα κοινωνικά ζητήματα από χώρες σε όλο τον κόσμο. Εάν ενδιαφέρεστε για την παγκόσμια ανάπτυξη και τα κοινωνικοοικονομικά θέματα, μπορεί να βρείτε πολλά ενδιαφέροντα δεδομένα εδώ.

GitHub δεν είναι μόνο μια πλατφόρμα για κοινή χρήση κώδικα. Μπορεί επίσης να χρησιμοποιηθεί για την εύρεση συνόλων δεδομένων για έργα δεδομένων. Πολλοί οργανισμοί και μεμονωμένοι χρήστες φιλοξενούν τα σύνολα δεδομένων τους σε αποθετήρια GitHub. Αυτά τα δεδομένα καλύπτουν ένα ευρύ φάσμα θεμάτων, που συχνά υποστηρίζονται από εκτενή τεκμηρίωση και κώδικα για ανάλυση.

OpenML είναι μια διαδικτυακή πλατφόρμα μηχανικής μάθησης. Αυτό σημαίνει επίσης ότι θα έχετε πρόσβαση σε πολλά δεδομένα. Πιο συγκεκριμένα, σχεδόν 5,400 σύνολα δεδομένων. Έχει σχεδιαστεί για κοινή χρήση, οργάνωση και συζήτηση δεδομένων και αποτελεσμάτων πειραμάτων μηχανικής εκμάθησης. Το OpenML μπορεί να ενσωματωθεί με δημοφιλή περιβάλλοντα μηχανικής μάθησης, κάτι που αποτελεί μπόνους για την εκμάθηση της επιστήμης δεδομένων. 

Η Subreddit συνόλων δεδομένων είναι μια πηγή δεδομένων με γνώμονα την κοινότητα. Οι άνθρωποι μοιράζονται τα πάντα στο reddit. Λοιπόν, μοιράζονται και ζητούν σύνολα δεδομένων για έργα δεδομένων. Μερικές φορές είναι δύσκολο να βρείτε δεδομένα εκεί. Όχι όμως λόγω έλλειψης στοιχείων. Αντιθέτως! Ο τόπος είναι γεμάτος δεδομένα, γεγονός που μπορεί να κάνει την αναζήτηση δεδομένων αρκετά χαοτική μερικές φορές. Τα δεδομένα κυμαίνονται από πολύ συγκεκριμένα και ασυνήθιστα έως πιο παραδοσιακά σύνολα δεδομένων. Καθώς αυτό είναι βασικά ένα φόρουμ, μπορείτε επίσης να συμμετάσχετε σε συζητήσεις και να ζητήσετε βοήθεια με σύνολα δεδομένων. 

Η στατιστική υπηρεσία της Ευρωπαϊκής Ένωσης καλείται Eurostat, και είναι μια ολοκληρωμένη πηγή δεδομένων. Εάν ενδιαφέρεστε για στατιστικά στοιχεία υψηλής ποιότητας για τις χώρες μέλη της ΕΕ, αυτή θα πρέπει να είναι η κύρια πηγή δεδομένων σας. Τα δεδομένα για τις χώρες της ΕΕ περιλαμβάνουν θέματα όπως η οικονομία, ο πληθυσμός, η υγεία και το εμπόριο.

HDX είναι μια ανοιχτή πλατφόρμα όπου μπορείτε να βρείτε ανθρωπιστικά δεδομένα. Διευθύνεται από το Γραφείο των Ηνωμένων Εθνών για τον Συντονισμό Ανθρωπιστικών Υποθέσεων. Αυτή η πλατφόρμα παρέχει δεδομένα που περιστρέφονται γύρω από ανθρωπιστικές κρίσεις και καταστάσεις έκτακτης ανάγκης σε κάθε χώρα του κόσμου. Θα μπορούσατε να το βρείτε χρήσιμο εάν ασχολείστε με έργα που εστιάζουν σε παγκόσμια ζητήματα, αντιμετώπιση καταστροφών και ανθρώπινη ευημερία.

Υπάρχουν 20,344 ενεργά και 2,570 αρχειοθετημένα σύνολα δεδομένων με διάφορες δυνατότητες και μορφές.

Στις CDC, μπορείτε να βρείτε δεδομένα που σχετίζονται με την υγεία. Τα σύνολα δεδομένων επικεντρώνονται σε διάφορες καταστάσεις υγείας, παράγοντες κινδύνου και τη δημόσια υγεία. Έτσι, εάν αυτά είναι τα θέματα που σας ενδιαφέρουν, θα βρείτε πολλά χρήσιμα δεδομένα εδώ.

Η BLS Ο ιστότοπος έχει πολλά δεδομένα για τις οικονομικές συνθήκες των ΗΠΑ, την αγορά εργασίας, τις αλλαγές τιμών, την ποιότητα ζωής κ.λπ. Θα βρείτε πολλά ποιοτικά σύνολα δεδομένων εάν ασχολείστε με αυτά τα θέματα. 

Η τελευταία πηγή δεδομένων που θα αναφέρω είναι NASA. Υπάρχουν πολλά δεδομένα για την αεροδιαστημική, την εφαρμοσμένη επιστήμη, τις εφαρμογές, την επιστήμη της γης, τη διαχείριση/λειτουργίες, τα ακατέργαστα δεδομένα, το λογισμικό και την επιστήμη του διαστήματος.

Έχει περισσότερα από 10,000 σύνολα δεδομένων, επομένως μην χαθείτε στο σύμπαν των δεδομένων του!

Αυτοί οι 16 ιστότοποι, είμαι σίγουρος, θα σας δώσουν αρκετά δεδομένα για να εργαστείτε μέχρι το τέλος του χρόνου, που ήταν ακριβώς ο στόχος μου! Ωστόσο, ο όγκος των δεδομένων δεν είναι το παν.

Επέλεξα αυτούς τους ιστότοπους, καθώς θα σας παρέχουν μια πολύ διαφορετική γκάμα συνόλων δεδομένων κατάλληλα για μια ποικιλία έργων επιστήμης δεδομένων. Οι ιδιαιτερότητες των δεδομένων διαφέρουν από κλάδο σε κλάδο. Έτσι, η εργασία με διάφορα σύνολα δεδομένων σάς επιτρέπει επίσης να αποκτήσετε γνώσεις τομέα.

Είτε ασχολείστε με τη μηχανική μάθηση, την ανάλυση δεδομένων, τη δημοσιογραφία δεδομένων, τη στατιστική ανάλυση ή την οπτικοποίηση δεδομένων, μπορείτε πάντα να βασίζεστε σε αυτούς τους πόρους.

Τώρα, μπορείτε να κάνετε το δικό σας έργο επιστήμης δεδομένων! Αν χρειάζεστε περισσότερες ιδέες, εδώ είναι μερικές έργα επιστήμης δεδομένων μπορείτε να το κάνετε ως αρχάριος.
 
 

Νέιτ Ροσίδη είναι επιστήμονας δεδομένων και στη στρατηγική προϊόντων. Είναι επίσης επίκουρος καθηγητής που διδάσκει αναλυτικά και είναι ο ιδρυτής του StrataScratch, μια πλατφόρμα που βοηθά τους επιστήμονες δεδομένων να προετοιμαστούν για τις συνεντεύξεις τους με πραγματικές ερωτήσεις συνεντεύξεων από κορυφαίες εταιρείες. Συνδεθείτε μαζί του Twitter: StrataScratch or LinkedIn.

Σφραγίδα ώρας:

Περισσότερα από KDnuggets