16 מקורות הנתונים הטכניים המובילים לפרויקטים מתקדמים במדעי הנתונים - KDnuggets

16 מקורות הנתונים הטכניים המובילים לפרויקטים מתקדמים במדעי הנתונים - KDnuggets

צומת המקור: 3081921

16 מקורות הנתונים הטכניים המובילים עבור פרויקטים מתקדמים במדעי הנתונים
תמונה מאת המחבר
 

קראת בדפים האלה (ואני אשם בכתיבת חלק מהמאמרים האלה) שפרויקטים של מדעי נתונים הם חיוניים לפיתוח כל החבילה של מיומנויות מדעי נתונים טכניים. זה נכון, הם כן. אבל מה שחיוני הוא להחזיק מערכי נתונים באיכות גבוהה עבור פרויקטי מדעי הנתונים שלך. איסוף נתונים איכותיים זה פשוט אחד השלבים של פרויקט מדעי נתונים, אלא זה שיכול ליצור או לשבור אותו.

השאלה היא היכן ניתן למצוא את הנתונים המפחידים האלה? למרבה המזל, אתרי אינטרנט רבים מציעים שפע של נתונים למטרות שונות.

 

16 מקורות הנתונים הטכניים המובילים עבור פרויקטים מתקדמים במדעי הנתונים
תמונה מאת המחבר

שמעת על קגל, כנראה הפלטפורמה הידועה ביותר בקהילת מדעי הנתונים. הוא מארח מגוון עצום של מערכי נתונים בפורמטים שונים (CSV, JSON, SQLite, BigQuery) ומתוך תעשיות ונושאים מרובים, כגון בריאות, רכב, אמנויות ובידור, ביולוגיה, מדעי החברה, השקעות, רשתות חברתיות, ספורט וכדומה. עַל. אתה יכול גם לחפש מערכי נתונים בהתאם למיקוד הטכני שלהם, למשל, מדעי המחשב, סיווג, ראייה ממוחשבת, NLP או הדמיית נתונים.

נכון לעכשיו, ישנם 274,855 מערכי נתונים זמינים, כך שלא יחסר לכם נתונים.

הממשק הידידותי למשתמש של Kaggle והפורומים הפעילים של הקהילה הופכים אותו למשאב מצוין למתחילים ולמקצוענים כאחד.

אם אתה חובב למידת מכונה, ה מאגר למידה של מכונות UCI צריך להיות אתר הביקור שלך. כפי שהשם אומר, מאגר זה נוצר על ידי אוניברסיטת קליפורניה, אירווין (UCI). הם אספו אוסף נרחב של מערכי נתונים המותאמים ללמידת מכונה. מכיוון שמערכי הנתונים מכסים נושאים שונים, הם שימושיים במיוחד מערכי הנתונים הללו מכסים מגוון רחב של נושאים והם שימושיים במיוחד עבור אלה שרוצים לתרגל ולשפר את כישורי למידת המכונה שלהם.

יש כרגע 653 מערכי נתונים; אתה יכול לעיין בהם לפי סוג נתונים, אזור נושא, משימה, מספר תכונות ומופעים וסוג תכונה.

StrataScratch מספק 49 מערכי נתונים ופרויקטים שמקורם בחברות בפועל. זה מועיל במיוחד עבור אלה שמתכוננים לראיונות במדעי הנתונים, מכיוון שהוא עוזר למשתמשים לפתח את הכישורים הטכניים שלהם ואת היכולת להפיק תובנות עסקיות מנתונים. זה מאפשר גישה מעשית ורלוונטית לתעשייה לפרויקטים של מדעי נתונים.

הפרויקטים מכסים נושאים שונים, כגון חקר נתונים, הנדסת נתונים, ניתוח עסקי, רגרסיה, סיווג, NLP ואשכולות.

חיפוש מערכי נתונים של גוגל הוא כלי שמטרתו למצוא מערכי נתונים ברחבי האינטרנט. אתה כבר יודע איך להשתמש בו, גם אם מעולם לא שמעתם עליו עד עכשיו. למה? ובכן, זה נראה ועובד כמו חיפוש רגיל בגוגל, רק שהוא מתמקד בלעדית באיתור מערכי נתונים. זה שימושי ביותר אם אתה מחפש נתונים ממקורות שונים, מאמרים אקדמיים וממאגרי מידע ממשלתיים.

אמזון מערכי נתונים ציבוריים של AWS תוכנית היא אתר נוסף שבו אתה יכול למצוא הרבה נתונים פתוחים. עם 494 מערכי נתונים זמינים כעת, זהו משאב יקר עבור מדעני נתונים. מערכי הנתונים שתמצא שם יכולים להיות משולבים עם שירותי הענן של AWS. זה עשוי להיות מועיל אם הפרויקטים שלך דורשים יותר משאבי מחשוב. 

מגוון הנתונים הזמינים כולל בין היתר גנומיקה, מטאורולוגיה ואסטרונומיה.

Data.gov הוא מאגר נתונים בחסות ממשלת ארה"ב ומכיל נתונים מארגונים ארה"ב שונים. הוא כולל 283,935 מערכי נתונים מ-132 ארגונים בארה"ב. יש מגוון רחב של נתונים, כגון חקלאות, בריאות הציבור, פיננסים, חינוך, דמוגרפיה, כלכלה ונתונים סביבתיים.

מערכי הנתונים מגיעים בכמעט 50 פורמטים שונים, כאשר הפורמטים הפופולריים ביותר כוללים HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON ו-TEXT.

חמש ושלושים מאת חדשות ABC הוא מאגר הנתונים והקוד של המאמרים והגרפיקה שלהם. זהו משאב מושלם עבור עיתונאי נתונים וכל מי שמתעניין בסיפור סטטיסטי. אם אתה מעוניין לעשות פרויקטים הכוללים אירועים אקטואליים, פוליטיקה, ספורט ועוד, זה המקור שלך. 

הוא מציע יותר מ-160 מערכי נתונים מ-2014 ועד היום.

השמיים נתונים פתוחים של הבנק העולמי מציע מערכי נתונים נרחבים הסובבים סביב נתוני פיתוח גלובליים. נתונים אלה כוללים אינדיקטורים על כלכלה, סביבה וסוגיות חברתיות ממדינות ברחבי העולם. אם אתה מתעניין בפיתוח גלובלי ובנושאים סוציו-אקונומיים, אולי תמצא כאן הרבה נתונים מעניינים.

GitHub היא לא רק פלטפורמה לשיתוף קוד. זה יכול לשמש גם למציאת מערכי נתונים עבור פרויקטי נתונים. הרבה ארגונים ומשתמשים בודדים מארחים את מערכי הנתונים שלהם במאגרי GitHub. נתונים אלה מכסים מגוון רחב של נושאים, הנתמכים לרוב בתיעוד נרחב וקוד לניתוח.

OpenML היא פלטפורמה מקוונת ללמידת מכונה. זה גם אומר לתת לך גישה להרבה נתונים. ליתר דיוק, כמעט 5,400 מערכי נתונים. זה נועד לשיתוף, ארגון ודיון בנתונים ובתוצאות של ניסויי למידת מכונה. ניתן לשלב את OpenML עם סביבות למידת מכונה פופולריות, וזה בונוס ללימוד מדעי הנתונים שלך. 

השמיים ערכות נתונים subreddit הוא מקור נתונים מונחה קהילה. אנשים חולקים הכל ב-redit. ובכן, הם גם משתפים ומבקשים מערכי נתונים עבור פרויקטי נתונים. לפעמים קשה למצוא שם נתונים. אבל לא בגלל המחסור בנתונים. לעומת זאת! המקום שופע נתונים, מה שעלול להפוך את החיפוש אחר נתונים לכאוטי למדי לפעמים. הנתונים נעים בין מאוד ספציפיים ויוצאי דופן למערכים מסורתיים יותר. מכיוון שזה בעצם פורום, אתה יכול גם להשתתף בדיונים ולבקש עזרה עם מערכי נתונים. 

המשרד הסטטיסטי של האיחוד האירופי נקרא Eurostat, וזה מקור מידע מקיף. אם אתה מעוניין בנתונים סטטיסטיים באיכות גבוהה על מדינות החברות באיחוד האירופי, זה צריך להיות מקור הנתונים העיקרי שלך. נתונים על מדינות האיחוד האירופי כוללים נושאים כמו כלכלה, אוכלוסיה, בריאות ומסחר.

HDX היא פלטפורמה פתוחה שבה אתה יכול למצוא נתונים הומניטריים. הוא מנוהל על ידי משרד האו"ם לתיאום עניינים הומניטריים. פלטפורמה זו מספקת נתונים הסובבים סביב משברים הומניטריים ומצבי חירום בכל מדינה בעולם. אתה יכול למצוא את זה שימושי אם אתה עוסק בפרויקטים המתמקדים בנושאים גלובליים, תגובה לאסונות ורווחת האדם.

ישנם 20,344 מערכי נתונים פעילים ו-2,570 נתונים בארכיון עם תכונות ופורמטים שונים.

על ה-CDC, תוכל למצוא נתונים הקשורים לבריאות. מערכי הנתונים מתמקדים במצבי בריאות שונים, גורמי סיכון ובריאות הציבור. לכן, אם אלו הנושאים שבהם אתה מעוניין, תמצא כאן הרבה נתונים שימושיים.

השמיים BLS באתר יש הרבה נתונים על התנאים הכלכליים בארה"ב, שוק העבודה, שינויים במחירים, איכות חיים וכו'. תמצא המון מערכי נתונים איכותיים אם אתה עוסק בנושאים אלה. 

מקור הנתונים האחרון שאציין הוא נאס"א. יש הרבה נתונים על תעופה וחלל, מדע יישומי, אפליקציות, מדעי כדור הארץ, ניהול/תפעול, נתונים גולמיים, תוכנה ומדעי החלל.

יש לו יותר מ-10,000 מערכי נתונים, אז אל תלך לאיבוד ביקום הנתונים שלו!

16 האתרים האלה, אני בטוח, יתנו לכם מספיק נתונים לעבוד איתם עד קץ הזמן, וזו בדיוק הייתה המטרה שלי! עם זאת, כמות הנתונים היא לא הכל.

בחרתי באתרים אלה מכיוון שהם יספקו לך מגוון מאוד מגוון של מערכי נתונים המתאימים למגוון פרויקטים של מדעי נתונים. מפרטי הנתונים שונים מתעשייה לתעשייה. לכן, עבודה עם מערכי נתונים שונים מאפשרת לך גם להשיג ידע בתחום.

בין אם אתה מתעמק בלמידת מכונה, ניתוח נתונים, עיתונאות נתונים, ניתוח סטטיסטי או הדמיית נתונים, אתה תמיד יכול לסמוך על המשאבים האלה.

עכשיו, אתה יכול לעשות פרויקט מדעי נתונים משלך! אם אתה צריך עוד רעיונות, הנה כמה פרויקטים של מדעי נתונים אתה יכול לעשות בתור מתחיל.
 
 

נייט רוזידי הוא מדען נתונים ואסטרטגיית מוצר. הוא גם פרופסור עזר המלמד אנליטיקה, והוא המייסד של StrataScratch, פלטפורמה המסייעת למדעני נתונים להתכונן לראיונות שלהם עם שאלות ראיונות אמיתיות מחברות מובילות. התחבר אליו הלאה טוויטר: StrataScratch or לינקדין.

בול זמן:

עוד מ KDnuggets